최근 AI와 데이터 분야에서 합성 데이터 이야기가 정말 많이 들린다. 개인 정보 보호나 데이터 불균형 문제를 해결할 수 있는 '만능 치트키'처럼 여겨지기도 한다.
실제 기업 데이터를 구하는 것은 생각보다 많은 비용을 요한다. 개인이 데이터를 산다는 것은 상상할 수 없는 금액이다.
하지만 ChatGPT한테 "쇼핑몰 고객 데이터 10만 개 만들어줘"라고 하면 정말 만들어준다. 개인정보 걱정도 없고, 원하는 조건도 마음대로 넣을 수 있다. 문제는 이게 정말 믿을 만하냐는 거다.
나 또한 합성 데이터를 굉장히 매력적으로 느끼고, 내 마음대로 생성해서 사이드 프로젝트나 해볼까 싶다가도 과연 얼마나 실제 산업에 적용 가능한 결과일지 감이 안와 머뭇대곤 한다.
그리고 왜 이렇게 유리과일과 이상한 키보드들을 만드는 데이터들이 우후죽순 생겨나는 것인건지도 글 말미에 다뤄보려한다.
1. 합성데이터란?
합성데이터(Synthetic Data): 실제 데이터를 기반으로 통계적 특성, 패턴, 관계 등을 모방하여 인공적으로 생성된 데이터를 말한다. 개인 식별 정보(PII)나 민감 정보가 포함된 실제 데이터를 대체하기 위한 목적으로 주로 사용된다.
개인 정보 보호 | 실제 데이터 포인트를 포함하지 않아 프라이버시 문제에서 자유롭다. |
확장성 | 원하는 만큼 대규모로, 특정 조건에 맞춰 무한정 생성 가능함. |
통제 가능성 | 실제 데이터의 편향(Bias)을 의도적으로 교정하여 생성 가능 |
희소성 해결 | 실제 얻기 어려운 엣지 케이스(Edge Case)나 부족한 클래스의 데이터를 추가 생성 가능. |
글로벌 합성 데이터 시장은 2025년 6억 9천만 달러에서 2029년 22억 8천만 달러로 연평균 35% 성장할 것으로 전망된다. 가트너는 2028년까지 AI 학습에 필요한 데이터의 80%를 합성 데이터가 차지할 것으로 예측했다. AI 연구기관 에포크AI에 따르면 2026년부터 AI 학습용 고품질 데이터가 소진되기 시작할 전망이다. 현재 인터넷상 고품질 데이터는 전체의 10%에도 못 미치며, 저작권 문제로 활용 가능한 데이터는 더욱 제한적이다.
이쯤에서 합성 데이터 vs Gen-AI 데이터의 차이가 궁금하다.
- Gen-AI 데이터: GAN, VAE, Diffusion Model 등 생성형 AI 모델이 만든 모든 창작물을 포괄하는 넓은 개념 (이미지, 텍스트, 코드 등)
- 합성 데이터: 실제 데이터의 통계적 특성을 모방하거나, 도메인 지식을 활용하여 인공적으로 생성된 데이터
2. 합성 데이터 생성 방법
Gen-AI의 발전으로 합성 데이터 생성 동향이 크게 달라졌다. 과거의 단순 통계 방식에서 벗어나, 이제는 고품질의 복잡한 데이터를 생성할 수 있게 되었다.
규칙/모델 기반 | 미리 정한 로직이나 수학 모델 기반 (가장 기본적인 Mock data) |
통계 기반 | 실제 데이터의 분포, 상관관계를 추출하여 샘플링 |
딥러닝 모델 기반 | 생성 모델 기반 (GAN, VAE, Diffusion Model 등) 최신 생성 AI 모델 활용 |
특히 딥러닝 기반의 경우 아래 방법 등 다양한 방법을 사용하여 생성될 수 있다.
1) GAN (Generative Adversarial Networks)
- 생성자와 판별자가 서로 경쟁하면서 점점 더 실제 같은 데이터를 만들어내는 방식
- 이미지, 텍스트, 시계열 데이터 등 다양한 형태에 적용 가능
2) VAE (Variational Autoencoders)
- 데이터를 압축했다가 복원하는 과정에서 새로운 데이터를 생성
- 연속적인 데이터 공간에서의 보간이 가능해서 다양한 변형 생성에 유리
3) Diffusion Models
- 최근 가장 주목받는 방법으로, 노이즈에서 점진적으로 데이터를 복원하는 과정을 학습
- DALL-E, Midjourney 등에서 사용되는 기술
신뢰할 만한 합성 데이터를 만드려면 실제 데이터의 통계적 특성(또는 구조)에 대한 이해와 반영이 필수다. Gen-AI로 아예 새로운 데이터를 만들 수는 있지만, 이는 '실제 데이터셋의 특성을 모방하는' 합성 데이터의 목적과는 거리가 멀어진다.
3. 합성 데이터, 신뢰해도 되는가?
아무리 많은 데이터를 만들어도 쓸모가 없다면 소용이 없다. 합성 데이터의 가치는 '신뢰성'에서 나온다.
신뢰성은 크게 충실도/프라이버시와 유용성 측면에서 평가된다.
1. Statistical Fidelity (충실도) & Privacy (프라이버시):
- 충실도: 합성 데이터가 실제 데이터의 통계적 분포(평균, 상관관계)와 얼마나 유사한가?
- 프라이버시: 실제 데이터를 역추적하거나 복사한 것이 아닌가? (데이터 유출 위험성)
2. Utility (유용성):
- 가장 현실적인 검증 방법이다. 합성 데이터로 학습시킨 AI 모델의 성능이 실제 데이터로 학습시킨 모델의 성능과 얼마나 유사한가?를 따진다.
4. Gen-AI 가 영상 데이터에 공들이는 이유는 로봇 때문이다?
앞서 이야기하던 합성 데이터와는 조금 다른 결의 내용이다.
ASMR, 유리 과일 자르기 등 최근 소셜 미디어에 Gen-AI가 만들어내는 영상들이 넘쳐난다. 하지만 미디어 종사자가 아닌 나로써는 GenAI로 만든 '영상 데이터'의 범용성을 체감하기에는 조금 어려웠다.
그럼에도 불구하고 이 분야에 엄청난 투자가 이루어지는 이유는 바로 로보틱스에 있다. 로봇의 Imitation Learning을 위해서다.
로봇이 현실 세계에서 움직임을 배우려면 수많은 시행착오를 겪어야 하는데, 이는 시간과 비용 측면에서 천문학적인 비효율을 낳는다. 특히 위험하고 희귀한 상황(Edge case)에 대한 데이터는 현실에서 얻기가 불가능에 가깝다.
예를 들면:
- 컵을 집는 방법을 배우려면 수천 가지의 다른 컵, 다른 각도, 다른 상황에서의 영상이 필요
- 걷는 방법을 배우려면 다양한 지형, 장애물, 날씨 조건에서의 영상이 필요
- 물건을 조립하는 방법을 배우려면 수많은 조립 과정의 영상이 필요
여기에 대한 해답이 Sim2Real (Simulation-to-Real), 즉 시뮬레이션에서 학습한 경험을 현실에 적용하는 것이다.
- 로봇 모방 학습 (Imitation Learning)의 열쇠: 로봇이 현실의 움직임을 모방해 학습할 수 있도록, 현실과 유사한 물리 엔진을 갖춘 GenAI 합성 데이터 생성이 필수적이다.
- 합성 영상 데이터의 역할: 게임 엔진(Unity, Unreal) 같은 물리 시뮬레이터에서 만들어진 영상은 단순히 픽셀 정보만 제공하는 것이 아니다. Depth, Segmentation Mask, Force 등 학습에 필요한 모든 정보를 완벽하게 Annotation 하여 제공한다.
- 로봇은 이 합성된 가상 환경에서 무한정 실패하며 학습한 경험을 바탕으로, 현실 세계에 투입되어도 안전하고 정확하게 작업을 수행할 수 있게 된다. 이것이 영상 합성 데이터에 Effort를 쏟는 가장 큰 이유이다.
실제 AI 업계에선 이를 어떻게 활용하고 있을까?
엔비디아는 Isaac Sim이라는 로봇 시뮬레이션 플랫폼을 적극 개발 중이다. 이 플랫폼은 Omniverse 기반의 물리 엔진과 렌더링 엔진을 활용해, 로봇 학습용 시뮬레이션 환경을 구현하고, 합성 데이터를 생성할 수 있게 해 준다.
특히 Synthetic Manipulation Motion Generation 기술을 통해, 적은 수의 인간 시연으로부터 수많은 조작 동작 궤적을 합성하는 방법이 개발되고 있다. 이 방식으로 로봇이 많은 경우의 수를 학습할 수 있게 하는 게 목표다.
2025년 3월에는 엔비디아가 Open Physical AI Dataset이라는 표준화된 합성 데이터셋을 공개했다. 이 데이터셋은 로봇이나 자율주행 자동차 개발자들이 사용할 수 있게, Sim-ready(시뮬레이션에서 바로 활용 가능한) 자산들을 포함하고 있다.
또한 테슬라는 자율주행 차량(FSD) 시스템 개발 과정에서 합성 데이터 활용 가능성에 대한 특허를 보유하고 있다. 이는 현실에서 수집하기 어려운 상황들을 가상으로 생성해 학습하는 방식을 명시하고 있다.
https://patents.google.com/patent/US10678244B2/en
테슬라의 CEO인 일론머스크의 경우엔 '인간 지식의 축적된 총량을 AI 훈련에 사실상 소진했다'고도 말했다.
앞으로는 단순히 그럴듯한 영상을 만드는 것을 넘어서, 로봇이나 하드웨어에서 실제로 활용할 수 있는 actionable 영상 데이터를 만드는 것이 중요해질 것으로 보인다. 최근의 영상 생성 기술 발전은 단순한 엔터테인먼트나 콘텐츠 제작을 위한 것이 아니라, 미래 로봇 시대를 준비하는 핵심 인프라를 구축하는 과정이라고 볼 수 있다.
참고 문헌
- Amazon Web Services. "합성 데이터란?" AWS 공식 문서. https://aws.amazon.com/ko/what-is/synthetic-data/
- 개인정보보호위원회. "합성데이터 생성 참조모델 공개." (2024년 5월 30일)
- NVIDIA Developer. "Isaac Sim - Robotics Simulation and Synthetic Data Generation." https://developer.nvidia.com/isaac/sim
- NVIDIA Blog. "NVIDIA Unveils Open Physical AI Dataset to Advance Robotics and Autonomous Vehicle Development." (2025년 3월 18일)
- MIT News. "A faster, better way to train general-purpose robots." Massachusetts Institute of Technology. (2024년 10월 28일)
- IBM. "합성 데이터란 무엇인가요?" IBM 공식 문서. https://www.ibm.com/kr-ko/topics/synthetic-data
- 카카오클라우드. "Synthetic Data(합성 데이터)란? 데이터 부족 문제의 혁신적 해결책." (2024년 10월 4일)
- Fortune Business Insights. "합성 데이터 생성 시장 예측." https://www.fortunebusinessinsights.com/ko/synthetic-data-generation-market-108433
- ArXiv. "Synthetica: Large Scale Synthetic Data Generation for Robot Perception." (2024년 10월 28일)