티스토리 뷰

머신러닝(Machine Learning)


1. 개념

  • 데이터(Data)를 이용한 모델링(Modeling) 기법이다.
  • 사람이 직접 데이터를 분석해 모델을 만드는 것이 아닌 학습(Learning)과정에 의해 모델을 찾아내는 과정이다.
  • 필요한 데이터는 학습 데이터(Train Data)가 필요하다.
  • 모델(Model)은  최종 결과물을 의미한다.
  • 즉, 데이터를 이용하여 학습과정에 의한 맞춤형 모델을 찾아내는 과정이다.

[그림 1] 모델 정의 및 학습 과정 순서도


파란색 : 미리 정의된 데이터를 통해 머신러닝을 학습해서 모델을 얻는다.

붉은색 : 실제 모델을 검증하고, 올바르게 학습이 잘되는지 임의의 입력데이터( or 기존 학습데이터 )를 통해 결과를 확인한다.( = 추론(Inference) )


  • 올바르게 학습이 진행되면 만족한 결과값을 얻을 것이다. 보통 여기서 학습률이 높으면 ( = 일반화(Generalization) ) 좋다고 하지만 학습률이 100%에 가까우면  문제가 된다.( = 과적합(Overfitting) )
  • 과적합 현상이 발생하게 되면 기존에 있는 학습데이터에 관해서는 완벽한 학습을 보여준다. 하지만, 새로운 데이터가 들어왔을 때 이것을 명확히 판단할 수 있을지 확인해야 한다. 

[그림 2] 과적합 예시


  • [그림 2]와 같이 학습데이터에 없는 세모 데이터를 모델에 삽입 했을 때 모델은 이를 원형 데이터로 인식한다.
  • 이를 해결해기 위해 정칙화(Regularization)와 검증(Validation)과정을 거치면 완벽하게는 아니지만 모델에 대해 어느정도 수렴된 데이터의 결과를 얻을 수 있다.
  • 정직화(Regularization)는 모델의 형태를 수학적인 함수형식으로 표현하려는 기법( = 수치해석 )이다. 
  • 검증(Validation)은 학습 데이터를 가지고 학습하는 과정에서 데이터를 검증( 원 학습데이터 =  학습할 데이터 + 검증 데이터 )하는 방법이다.
2. 종류
  • 머신러닝은 모델에 따라, 학습기법에 따라 다양한 종류로 나뉘게 된다. ( 지도학습, 비지도학습, 강화학습 )

- 지도 학습( Supervised Learning ) : 학습 데이터(Training Data)에 입력과 출력이 꼭 필요한 학습. 

( = 정답을 찾기 위한 학습 ){ = 데이터에 의한 분석기 }

- 비지도 학습( Unsupervised Learning ) : 학습 데이터(Training Data)에 입력에 대한 정답이 없는 학습

( = 데이터 특성을 분석하거나 데이터를 가공하는데 사용 ){ = 데이터를 판단한 분류기 }

- 강화학습( Reinforcement Learning ) : 학습 데이터(Training Data)에 입력과 출력이 존재하며 출력에 대한 평가를 진행하는 학습.( = 출력에 대한 평가를 매겨 깊은 학습을 진행, 단. 시간이 오래걸림 )


  • 지도학습(Supervised Learning)은 모델의 쓰임세에 따라 분류(Classification)와 희귀(Regression)로 나뉜다.

- 분류(Classification) : 입력데이터에 따른 결과를 통해 어느 범주에 속하는지 알아내는 과정( = 추정 )

( = 분류의 기준은 주어진 값에 대한 결과의 "범주"를 표현 )

- 희귀(Regression) : 입력데이터에 따른 결과를 통해 어느 범주에 속하는지 알아내는 과정( =예측 )

( = 희귀의 기준은 주어진 값에 대한 결과의 "값"을 표현 )


[그림 3] 분류(Classification)와 희귀(Regression) 표현 그래프


  • [그림 3]의 왼쪽그림은 분류를 표현하는 그래프이고 오른쪽은 희귀를 표현하는 그래프이다. 분류는 범주에 속해있는지 안되있는지를 보여주고, 희귀는 입력 값에 따른 결과 값을 보여준다.
  • 비지도학습(Unsupervised Learning)은 클러스터링(Clustering)과 독립성분분석(Independent Component Analysis)이 있다.

- 군집화(Clustering) : 데이터의 특징들을 분석해 관련있는 데이터들을 그룹으로 지정하는 과정( !=  지도학습분류 )

- 독립 성분 분석(Independent Component Analysis) : 각 성분에 대한 데이터를 통계학을 이용해 독립성읠 띈 성분으로 분리시키는 과정

반응형
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함