효율적인 Auto labeling by Active Learning

2022. 9. 1. 15:53AI/테크 세미나

https://www.youtube.com/watch?v=T6zRfxg0dVM&ab_channel=%EC%82%BC%EC%84%B1SDS 

 

개요

medical iamge 분야에서 뇌종양 판별과 관련된 Semantic segmentation 을 위한 학습에는 labeled datasets의 확보에 많은 비용이 든다. 사람이 manual로 labeling하기에는 시간과 비용이 크기에 이를 효율화하고, learning time로 효율화하는 방법을 주제로 한다.

 

Image 관련 problems

Classification, Detection, Instance Segmentation, Semantic Segmentation

Active learning

중요한 data 순으로 학습한경우 random 에 비해 보다 빠르게 accuracy가 향상된다. 

random의 경우 전체 dataset의 약 40% 학습, ordered 경우 약 5%만 학습하여도 acc는 비슷하다

effect of learning in order of important data

Active Learning Process

 a - c :

unlabeled dataset을 unsupervised learning(clustering) 통하여 structure model을 생성한다

structure model을 학습하는 대신 pre-label model을 바로 사용가능하다

  

d - f :

unlabeled batch를 labeling 하며, pre-label model(structure model)로 labeling을 하고나면 pre-labeled batch가 된다

 

g - i :

 pre-labeled batch를 사람이 labeling을 manual로 확인하고 labeled batch 만든다

그리고 labeled batch를 active learning model로 전달한다

j : active learning model은 labeled batch를 사용해서 labeling 방법을 학습하고 이는 unsupervised learning으로 진행한다 

 

k - l :

active learning model이 labeling후에도 unlabel된 remaning unlabeled data 중에서 acquisition function을 통해서 important image들을 선정하여 다음번 batch를 선정한다

 * acqusition function : uncerntainty를 계산하여 images 선택한다

uncertainty 계산 방법론들 : uncertainty sampling (least confident, margin sampling, entropy sampling), query-by-committee, expected model chane, core-set, learning loss

고려대 DMSA 참고

file:///C:/Users/khyun/Desktop/Active_Learning_public.pdf

* 발표 영상에서는 베이지안을 활용하여 구현함...

 

m-o : 

active learning의 labeling의 acc가 충분한경우 운영을 시작한다

 

p - s :

active model이 모든 data를 labeling하고 human이 review한 fully labeled checked data를 AI model을 학습한다

 

Compare with SOTA

BABA model BALS(SOTA) 대비 높은 성능을 보여준다

용어

Active learning : auto labeling model로 data labeling cost를 줄이는 학습 전략 

structure learning, structure model, pre-label model : 

 data의 분포를 학습하여 active learning model이 labeling에 어려움을 갖는(중요한) data 구별하는 model을 학습

 

acqusition function : uncertainty를 계산하는 함수

pre-labeled batch : active learning이 labeling한 dataset

labeld batch : human이 labeling한 dataset

fully labeled data : active learning을 운영하는 단계에서 model이 labeling한 dataset

fully labeled checked data : 운영단계에서 human이 labeling을 마친 dataset

'AI > 테크 세미나' 카테고리의 다른 글

NVIDIA - Nsight System으로 GPU profilingm, 학습 최적화  (0) 2022.08.31