본문 바로가기

분류 전체보기34

Unsupervised Learning : k-means Clustering, DBSCAN Clustering (이론) = cluster (그룹)으로 나누는 거 비슷한 부분을 가진 포인트로 나누는 것!! 같은 색을 가진 애들끼리는 비슷하다~ = 같은 cluster에 속한다! 근데 색이 다르면 다름 저 위에서 x축을 feature A, y축을 feature B 라고 하고 A, B의 열을 가진 데이터프레임을 만들면 이때 output은 each data point에 대한 output num이 된다 (output은 target data 말하는 것이다!) k-Means Clustering 가장 단순하고 가장 흔하게 이용되는 clustering 알고리즘 1. 특정 cluster의 cluster center를 정한다. 2. cluster center를 정하고 모든 data point에 대해서 모든 data.. 2023. 11. 22.
Model Evaluation and Improvement : Cross - Validation train_test_split으로 데이터를 나누면 1. 분류하기 어려운 데이터들이 test / train 데이터에만 존재할 수도 있고, 2. 기존의 모델은 test dataset만 가지고 성능을 평가하기 때문에 모델이 test dataset에 overfit 될 수 있다는 문제점이 발생한다 그래서 training data에서 validation data를 두어 성능을 평가한 뒤, test data는 마지막으로 딱 한번만 평가하도록 하는 방법을 도입 = Cross - Validation Cross - Validation 종류 1. k-fold Cross Validation k개 fold로 train dataset을 나누고, 각 fold가 validation dataset이 되어 평가를 진행 이 그림에서는 k.. 2023. 11. 19.
Ensembles of Decision Tree : RandomForest, Gradient Boosting 0. Ensemble 의사 결정 나무 (Decision Tree)는 과적합 문제가 발생할 수 있다는 문제가 있다. => 실제로 처음 decision tree 배우고 주피터로 코드 돌려봤는데, 이러한 그림이 나온 적이 있다... voting : 서로 다른 알고리즘을 가진 결과를 다수결 / 평균으로 결정 bagging : 같은 알고리즘을 사용해 데이터를 랜덤으로 추출 다양한 서브 데이터셋 생성 이 데이터셋들을 병렬적으로 학습 boosting : 같은 알고리즘을 사용 앞서 학습된 결과를 다음 학습기가 순차적으로 학습 오차(잔차) 를 줄여나감 1. Random Forest (bagging 기법) "여러 데이터셋을 잘 예측하는 모델" => 다양한 서브 데이터셋 을 랜덤으로 생성 : 이때 전체 특성 개수(n)의 제.. 2023. 11. 18.