
합성 데이터를 사용해 훈련된 이미지 분류 모델이 실제 데이터에서 훈련된 모델 보다 더 우수하다는 연구 결과가 나왔다.
MIT(Massachusetts Institute of Technology) 대학의 연구진이 실제 데이터 세트를 사용하는 대신 합성 데이터를 생성하는 모델을 사용해서 머신 러닝 모델을 훈련하는 방법을 개발했다.
자연 재해 후 위성 사진에서 피해를 식별하기 위해 이미지 분류를 수행하는 머신 러닝 모델을 훈련시키려면 엄청난 양의 데이터가 필요하다. 그러나 이러한 데이터를 항상 쉽게 얻을 수 있는 것은 아니다. 사용 가능한 데이터가 존재하더라도 데이터 세트를 생성하는 데 막대한 비용이 들 수 있으며 최상의 데이터 세트에도 모델 성능에 부정적인 영향을 미치는 편향이 포함되어 있는 경우가 많다.
데이터 세트가 제기하는 몇 가지 문제를 피하기 위해 MIT 연구진은 데이터 세트를 사용하는 대신 다른 모델을 훈련할 수 있는 합성 데이터를 생성하는 특별한 생성 모델(Generative Model)을 개발했다. 이 연구 결과는 생성 모델이 합성 데이터만을 사용해 훈련하는 대조 표현 학습(Contrastive Representation Learning)을 할 경우 실제 데이터에서 학습할 때보다 우수한 시각적 표현할 수 있음을 보여준다.
이 생성 모델은 데이터 세트보다 훨씬 적은 메모리가 필요하다. 합성 데이터를 사용하면 실제 데이터를 사용할때 제기되는 개인 정보나 사용 권한에 대한 우려를 피할 수 있다. 또한 생성 모델을 편집해 인종이나 성별과 같은 특정 속성을 제거할 수도 있기 때문에 기존 데이터 세트에 존재하는 편향 문제를 해결할 수도 있다.
생성 모델이 실제 데이터만을 사용해서 학습되면 실제와 거의 구별할 수 없을 정도로 사실적인 합성 데이터를 생성할 수 있다. 훈련 프로세스에는 특정 클래스(예: 자동차 또는 고양이)의 개체가 포함된 수백만 개의 이미지를 생성 모델에 보여준 다음 유사한 개체를 생성할 수 있도록 자동차 또는 고양이가 어떻게 생겼는지 학습하는 자기 지도 표현 학습(self-supervised representation learning)이 포함된다.
사전 훈련된 생성 모델을 사용해 훈련 데이터 세트에 있는 이미지를 기반으로 고유하고 사실적인 이미지의 스트림을 출력할 수 있다. 그러나 생성 모델은 학습된 기본 데이터를 변환하는 방법을 배우기 때문에 훨씬 더 유용하다. 모델이 자동차 이미지로 훈련되면 훈련 중에 보지 못한 상황에서 자동차가 어떻게 보일지 ‘상상’한 다음 고유한 포즈, 색상 또는 크기로 자동차를 보여주는 이미지를 출력할 수 있다.

연구진은 생성 모델에 대상에 대한 다양한 뷰(views)를 생성하도록 지시한 다음 여러 각도에서 해당 대상을 식별하는 방법을 학습하기 위해 사전 훈련된 생성 모델과 대조 학습 모델을 연결했다. 레이블이 지정되지 않은 많은 이미지들 중에서 어떤 쌍이 비슷하거나 다른지 학습하는 대조 학습이라는 기술에서는 같은 이미지에 대한 여러 형태의 뷰를 갖는 것이 중요하다. 생성 모델은 동일한 것에 대해 다른 관점을 제공할 수 있기 때문에 대조 방법이 더 나은 표현을 학습하는 데 도움이 될 수 있다.
연구원들은 그들의 방법을 실제 데이터를 사용해 훈련된 여러 다른 이미지 분류 모델과 비교하고 그들의 방법이 잘 수행되며 때로는 더 우수하다는 것을 발견했다. 생성 모델은 사전에 훈련된 모델을 사용하기 때문에 온라인 저장소에서 찾아 누구나 사용할 수 있다. 그러나 경우에 따라 이러한 모델은 개인 정보가 담긴 소스 데이터를 드러낼 위험이 있으며 훈련된 데이터 세트의 편향을 증폭시킬 수 있다. 연구진은 향후 작업에서 이러한 문제들을 해결할 계획이다.
또한 이 기술을 사용해 머신 러닝 모델을 개선할 수 있는 '코너 케이스'를 생성할 예정이다. 코너 케이스는 실제 데이터에서 학습할 수 없는 경우가 많다. 예를 들어 자율주행차용 컴퓨터 비전 모델을 훈련할 때 실제 데이터에는 주인과 개가 함께 타고 고속도로를 달리는 예가 포함되지 않으므로 모델은 이러한 상황에서 수행할 작업을 결코 배우지 못할 것이다. 이 경우 '주인과 개가 함께 타고 있다'는 코너 케이스 데이터를 생성하면 일부 고위험 상황에서 머신 러닝 모델의 성능을 향상시킬 수 있다.
이 연구는 MIT-IBM Watson AI Lab, 미 공군 연구소, 미 공군 AI Accelerator의 지원을 받았으며, 연구 결과는 학습 표현에 관한 국제 회의(International Conference on Learning Representations)에서 발표될 예정이다.
📝 본문의 수치적 근거
📍 MIT(Massachusetts Institute of Technology) 대학의 연구진이 실제 데이터 세트를 사용하는 대신 합성 데이터를 생성하는 모델을 사용해서 머신 러닝 모델을 훈련하는 방법을 개발했다.
📍 데이터 세트가 제기하는 몇 가지 문제를 피하기 위해 MIT 연구진은 데이터 세트를 사용하는 대신 다른 모델을 훈련할 수 있는 합성 데이터를 생성하는 특별한 생성 모델(Generative Model)을 개발했다.
📍 이 연구 결과는 생성 모델이 합성 데이터만을 사용해 훈련하는 대조 표현 학습(Contrastive Representation Learning)을 할 경우 실제 데이터에서 학습할 때보다 우수한 시각적 표현할 수 있음을 보여준다.
🗂 추가 조사할 내용
📍 혹시 추가적인 정보 있는지 찾아보기
: MIT 뉴스 원문 ( 사실상 기사가 번역에 가까워서 추가정인 정보는 딱히 없었다 )
When it comes to AI, can we ditch the datasets?
MIT researchers have developed a technique to train a machine-learning model for image classification, which does not require the use of a dataset. Instead, they use a “generative model” to produce synthetic data that is used to train an image classifi
news.mit.edu
📍 합성 데이터 생성 방식 :
But generative models are even more useful because they learn how to transform the underlying data on which they are trained, he says. If the model is trained on images of cars, it can “imagine” how a car would look in different situations — situations it did not see during training — and then output images that show the car in unique poses, colors, or sizes.
✉️ 현직자에게 물어보고 싶은 질문
To AI 현업자
- 기사의 모델이 아직 연구 단계이긴 하지만, 본 모델이 사용권한/편향/데이터비용 등을 해결하는데 있어 효과적이라고 보십니까?
- 또한 위 모델을 지금 계신 현업에 어느정도까지 적용 가능하 실것이라 예상하십니까? (현실 가능할까요?)
📰 기사 원문
AI 학습에 데이터 세트 없어도 되나?...MIT, 합성 데이터 생성 모델 개발 - AI타임스
합성 데이터를 사용해 훈련된 이미지 분류 모델이 실제 데이터에서 훈련된 모델 보다 더 우수하다는 연구 결과가 나왔다. MIT(Massachusetts Institute of Technology) 대학의 연구진이 실제 데이터 세트를
www.aitimes.com
'📂 데이터 아티클' 카테고리의 다른 글
데이터 분석, SQL만 잘 다뤄도 먹고 들어갑니다. (0) | 2022.03.24 |
---|---|
10배 이상 뛰어난 개발자가 되는 법 (0) | 2022.03.18 |
윤석열 대통령 당선, AI 산업 이렇게 바뀐다 (0) | 2022.03.15 |
[NLP] 자연어 처리(NLP, Natural Language Processing)란 무엇이고, NLP 응용분야는 무엇이 있나? (0) | 2022.03.14 |
NFT 쉽게 이해하기 (0) | 2022.03.14 |