카테고리 없음

SK Networks AI Camp플레이데이터 SK네트웍스 Family AI 캠프 11기 : 6th Week

snowFallW 2025. 3. 18. 21:57

Introduction

2025년 3월 10일 ~ 2025년 3월 14일 SKN Family AI 캠프를 수강한 내용을 바탕으로 작성하였습니다.



Y (한것)

 월요일에 예비군을 다녀오면서 월요일 수업을 듣지 못했는데 화요일에 와보니 Mini 프로젝트로 EDA를 진행하는 프로젝트가 생겼다고 한다. EDA란? 탐색적 데이터 분석을 뜻하는데 우리가 수집한 데이터를 정제하여(결측치, 이상치) 시각화를 통해 어떤 데이터를 대상으로 어떤 모델을 적용 시켜야 하는지 판단하기 위한 과정이다. 우리는 AirBnb 숙소 데이터를 바탕으로 소비자들에게 숙소 선택에 대한 인사이트를 주기 위한 프로젝트를 진행했다. 

W (배운것)

 이번에 배운 전처리는 다음 세가지로 나뉜다

 DataEncoding

  •   Label Encoding : 범주형 데이터를 숫자형 데이터로 변환하는 인코딩
  •   One-hot Encoding : 주어진 데이터를 희소 배열( 대부분의 값이 0 이고 특정 인덱스만 값을 가지는 배열)로 변환 하는 인코딩

 DataScaling 

  •  Data Scaling  :  데이터의 값 범위를 일정하게 조정하는 과정으로 주로 특성(feature) 값들의 단위를 맞추거나 크기를 조정 한다. 이때 학습 데이터와 테스트 데이터에 동일하게 적용하여야 한다.

정규화

  • 표준 정규화 :  평균이 0이고 표준편차가 1인 값으로 변환 하며 이상치에 덜 민감하고 선형 회귀 및 로지스틱 회귀 등의 알고리즘에 적합하다.
  • 최소 최대 정규화 : 0~1 사이의 값으로 변환하며 SVM 및 KNN과 같은 거리 기반 모델에 적합하지만 최소 최대 값에 의한 정규화이기 때문에 이상치에 민감하게 반응하여 데이터를 왜곡 할 수 있다. 

회귀 모델

  • 선형 회귀
    • 정규 방정식 : MSE를 최소화하는 w를 직접 계산하는 방법으로 미분을 통해 최적의 해를 구함
    • 경사 하강법 : 손실 함수의 기울기를 계산해 가중치를 조금씩 조정하며 최적의 w를 찾아가는 반복적인 방법이다.
  • 다항 회귀 : 선형 회귀 범주에 속하며 데이터가 직선으로 설명되지 않고 곡선 패턴을 보일때 사용함
  • Ridge 회귀 : 선형 회귀의 손실 함수에 L2정규화 항을 추가한 모델로 과대적합을 방지하기 하기 위해 사용한다.
  • Lasso 회귀 : 선형 회귀의 손실 함수에 가중치의 절댓값 합을 패널티로 추가하여 가중치를 작게 만들면서 과대 적합을 방지한다.
  • ElasticNet 회귀 : 선형 회귀에 L1과 L2 정규화를 혼합한 모델로 Lasso와 Ridge의 단점을 보완함
  • DecisionTreeRegression : 연속형 출력 값을 예측하는데 사용되며 결정 트리를 기반으로 한 회귀 모델이다.
  • SVR (Support Vector Machine) : 데이터 포인트를 초평면에 최대한 가깝게 맞추되 오차가 일정 범위 내에 있도록 하는 초평면을찾는 모델 

과소 적합 : 모델이 훈련 데이터를 충분히 학습하지 못해 데이터의 패턴을 제대로 반영하지 못하는 상태

과대 적합 :  모델이 훈련 데이터에 지나치게맞춰져서 일반화 능력이 떨어지는 상태로 훈련 데이터는 잘 맞지만 새로운 데이터에서 성능이 낮음.

 

분류 모델

  • DecisionTreeClassifier : 루트 노드에서 시작해 분기를 거쳐 리프 노드에 도달하는 구조로 데이터를 특서엥 따라 나누는 규칙을 학습 한다.
  • SVM (Support Vector Machine) : 데이터 포인트들을 분리하는 경계를 찾아 클래스를 구분하는 모델로 두 클래스 사이의 마진을 최대화 하는 초평면을 찾는다.

앙상블 (Ensenble) : 여러 모델의 예측을 조합해 최종 결과를 도출하는 방법으로 데이터에서 중복 허용 샘플링을 한 이후 각 샘플로 모델을 학습 시키고 결과를 회귀 또는 분류한다.

  • Bagging : 데이터를 무작위로 샘플링해 여러 모델을 학습시킨 뒤 결과를 회귀 또는 분류로 결합 ex) 랜덤 포레스트
  • Boosting : 약한 학습기를 순차적으로 학습 시켜, 이전 모델의 오류를 보정하도록 가중치를 조정 ex) Gradient Boosting
  • Stacking : 여러 다른 모델의 예측 결과를 메타 모델에 입력해 최종 예측을 만듦 ex) stacking

 

PCA : 데이터의 분산을 최대한 보존하면서 고차원 데이터를 저차원 데이터로 변환하는 방법 예를 들어 3D물체를 2D 그림으로 투영하게 있다.

LDA : 데이터의 특성을 새로운 축으로 변환해 클래스 간분산은 최대화 하고 클래스 내 분산은 최소화 하는 방향으로 차원을 줄인다.

 

T (앞으로 할것)

  • 매주 빠짐 없이 회고록 작성하기
  • 매주 기술 블로그도 하나씩 작성하고자 했는데 자격증 시험을 준비한다는 이유로 안쓰게 된것 같다. 이번주부터는 다시 작성해보도록 해야겠다.