관리 메뉴

Today is Present.

[도서] 그림으로 이해하는 비전공자를 위한 딥러닝 본문

신속한 업무를 위한 팁

[도서] 그림으로 이해하는 비전공자를 위한 딥러닝

MorningPhys 2023. 6. 13. 17:14

머신러닝의 모델들로는 회귀(regression)모델, 신경망, 군집화(clustering), 서포트벡테머신(SVM) 등이 있다. 

딥러닝이 데이터의 특성들을 자동으로 추출해서 학습하는 종단 간(end to end) 구조라면,

머신러닝은 개발자나 연구자가 직접 데이터의 특성을 엔지니어링한 후 모델에 입력시키는 경우가 많다. 

 

딥러닝이란 머신러닝의 일종으로 인간의 뇌의 신경망(neural network)에서 착안한 '인공신경망(artificial neural networks)'을 의미한다. 즉, 신경망 구조로 학습하는 머신러닝을 딥러닝이라고 한다. 

 

수많은 뉴런을 층층이 쌓은 모델에 데이터를 전파시키고('순전파'),

그 예측과 정답의 차이를 역전파(backpropagation)시켜 피드백하고 수정하는 과정을 통해 학습한다. 

 

입력 - 은닉층 - 출력

흰 원들을 신경망의 노드(node)라고 하고, 노드들이 세로로 묶인 집합을 하나의 층(layer)이라고 한다는 것 정도만 알아두자.

딥러닝에서 '딥(deep)'이란 신경망의 층(layer)이 많아 모델의 학습 과정이 깊다는 의미다. 

입력층과 출력층 사이의 층들을 은닉층 이라고 한다. 

딥러닝 모델의 예로는 대표적으로 CNN이 있다. 

CNN은 합성곱 신경망(convolutional neural network)으로 합성곱 필터를 사용해 이미지 데이터를 학습하는 모델 구조다.

 

[딥러닝 모델의 종류]

자연어 처리 분야에 딥러닝의 지평을 연 RNN, 즉 순환 신경망(recurrent neural network), 

데이터 생성에 활용되는 GAN(generative adversarial network), 

최근 높은 성능으로 많은 분야에서 연구되고 있는 트랜스포머(transfermer) 등이 있다. 

 

머신러닝의 종류를 구분하는 기준 두 가지가 있다. 

첫 번째로는 '회귀'와 '분류', 두번째로는 '지도 학습'과 '비지도 학습'이 있다. 

 

1. 회귀(regression) vs. 분류(classification)

머신러닝을 통해 해결하려는 문제의 종류에 따라 나눌 수 있는데, 우리가 예측하려는 값의 종류에 따라

'회귀'와 '분류'로 구분할 수 있다. 

값의 종류는 '연속값(continuous value)'과 '이산 값(discrete value)'으로 나뉜다.

연속 값이란, 말 그대로 연속하는 값을 말한다. 0.31, 0.301, 0.3001 .... 

이산 값이란, 객관식 문제의 보기처럼 한정된 수로 끊어져 있다. 10대 / 20대 / 30대, 매우 그렇다 / 그렇다 / 보통이다

 

머신러닝을 이용해 해결하려는 문제의 종류는 대체로 두 가지로 구분된다. 

예측하려는 값이 연속 값(수치, 가격 등)이면 회귀 문제이며,

예측하려는 값이 이산 값(예, 아니오 등)이면 분류 문제다.

 

예시 1
A보험 회사는 앞으로 고객을 받을 때 어떻게 가격을 책정해야 더 높은 수익을 얻을지 고민 중이다. 
이를 해결하기 위해 머신러닝을 활용해보고자 한다. 
현재까지 가입한 고객들의 데이터를 학습해서, 새로운 고객의 (적정) 가격을 추론하는 모델을 만들어보자.

 

예시1의 경우 추론하려는 값이 '가격'이라는 연속된 값이므로, 머신러닝 모델이 해결하려는 문제는 회귀 문제이다.

예시 2
B 군은 운영중인 커뮤니티 웹 사이트에 올라오는 광고성 게시물을 머신러닝으로 필터링하고자 한다. 
학습된 모델이 추론하려고 하는 것은, 새로운 데이터가 들어왔을 때 그것이 광고성인지 아닌 지를 가려내는 것이다. 

예시2의 경우 추론하려는 값이 '네/아니오' 중에서 선택하는 이산 값이므로,

모신러닝 모델이 해결하려는 문제는 분류 문제라고 할 수 있다. 

 

지도학습과 비지도학습 – 레이블(label, = 정답)의 유무

데이터에 레이블이 있다면 지도 학습이고, ex) 레이블이 있는 훈련 데이터를 통한 학습

데이터에 레이블이 없다면 비지도 학습인 것이다. ex) 군집화(데이터들을 여러 개의 그룹으로 묶음)

출처: [도서] 그림으로 이해하는 비전공자를 위한 딥러닝(윤준호 저) 

 

 
728x90
반응형