03-3p150~특성 공학과 규제

Machine Learning/혼자 공부하는 머신러닝+딥러닝

03-3p150~특성 공학과 규제

햄스텅 2021. 9. 13. 17:34

여전히 훈련 세트보다 테스트 세트의 점수가 높은 점이 문제 -> 선형회귀는 특성이 많을 수록 엄청난 효과를 내
기 때문에 받은 데이터를 모두 사용해야합니다.

여러개의 특성을 사용한 선형회귀 = 다중회귀

1개의 특성을 사용하면 직선을 학습하고, 2개의 특성을 사용하면 평면을 학습합니다.

기존의 특성을 사용해 새로운 특성을 뽑아내는 작업 = 특성공학

import pandas as pd
df = pd.read_csv('http://bit.ly/perch_csv_data')
perch_full = df.to_numpy()
print(perch_full)

import numpy as np
perch_weight = np.array([5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 110.0,
       115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 130.0,
       150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 197.0,
       218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 514.0,
       556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 820.0,
       850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 1000.0,
       1000.0])

from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = train_test_split(perch_full, perch_weight, random_state=42)

특성을 만들거나 전처리하는 클래스 = 변환기

from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures()
poly.fit([[2,3]])
print(poly.transform([[2,3]]))

poly = PolynomialFeatures(include_bias=False)
poly.fit([[2,3]])
print(poly.transform([[2,3]]))

poly = PolynomialFeatures(include_bias=False)
poly.fit(train_input)
train_poly = poly.transform(train_input)
print(train_poly.shape)

poly.get_feature_names() #어떤 조합으로 만들어졌는지 알 수 있음

test_poly = poly.transform(test_input)
from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(train_poly, train_target)
print(lr.score(train_poly, train_target))

print(lr.score(test_poly, test_target))

poly = PolynomialFeatures(degree = 5, include_bias=False)
poly.fit(train_input)
train_poly = poly.transform(train_input)
test_poly = poly.transform(test_input)
print(train_poly.shape) #만들어진 특성의 개수가 55개

lr.fit(train_poly, train_target)
print(lr.score(train_poly, train_target))

print(lr.score(test_poly, test_target))

특성의 개수를 크게 늘리면 선형 모델은 아주 강력해집니다.
훈련세트에 대해 거의 완벽하게 학습할수 있지만 과대적합되므로 테스트 세트에서는 형편없는 점수를 받습니다.

규제 = 머신러닝 모델이 훈련 세트를 너무 과도하게 학습하지 못하도록 훼방하는 것

from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
ss.fit(train_poly)
train_scaled = ss.transform(train_poly)
test_scaled = ss. transform(test_poly)

선형 회귀 모델에 규제를 추가한 모델 = 릿지, 라쏘

from sklearn.linear_model import Ridge
ridge = Ridge()
ridge.fit(train_scaled, train_target)
print(ridge.score(train_scaled, train_target))

print(ridge.score(test_scaled, test_target))

import matplotlib.pyplot as plt
train_score = []
test_score = []

alpha_list = [0.001, 0.01, 0.1, 1, 10, 100]
for alpha in alpha_list:
  #릿지 모델을 만든다
  ridge = Ridge(alpha=alpha)
  #릿지모델 훈련
  ridge.fit(train_scaled, train_target)
  train_score.append(ridge.score(train_scaled, train_target))
  test_score.append(ridge.score(test_scaled, test_target))

plt.plot(np.log10(alpha_list), train_score)
plt.plot(np.log10(alpha_list), test_score)
plt.xlabel('alpha')
plt.ylabel('R^2')
plt.show()

위 그래프 왼쪽은 훈련세트에는 잘 맞고 테스트 세트에는 형편없는 과대적합의 전형적인 모습.오른쪽은 모두 낮아지는 과소적합

두 그래프 값이 가장 가까운 -1 즉 alpha값은 0.1로 정함

ridge = Ridge(alpha=0.1)
ridge.fit(train_scaled, train_target)
print(ridge.score(train_scaled, train_target))
print(ridge.score(test_scaled, test_target))

from sklearn.linear_model import Lasso
lasso = Lasso()
lasso.fit(train_scaled, train_target)
print(lasso.score(train_scaled, train_target))

print(lasso.score(test_scaled, test_target))

train_score = []
test_score = []
alpha_list = [0.0001,0.01,0.14,1,10,100]
for alpha in alpha_list:
  lasso = Lasso(alpha=alpha, max_iter=10000)
  lasso.fit(train_scaled, train_target)
  train_score.append(lasso.score(train_scaled, train_target))
  test_score.append(lasso.score(test_scaled, test_target))

plt.plot(np.log10(alpha_list), train_score)
plt.plot(np.log10(alpha_list), test_score)
plt.xlabel('alpha')
plt.ylabel('R^2')
plt.show()

lasso = Lasso(alpha=10)
lasso.fit(train_scaled, train_target)
print(lasso.score(train_scaled, train_target))
print(lasso.score(test_scaled, test_target))

print(np.sum(lasso.coef_ ==0))

'Machine Learning > 혼자 공부하는 머신러닝+딥러닝' 카테고리의 다른 글

6-2.p303~ k-평균 (0)	2021.10.29
6-1.p286~ 군집 알고리즘 (0)	2021.10.28
5-3.p263~ 트리의 앙상블 (0)	2021.10.28
5-2.p242~ 교차 검증과 그리드 서치 (0)	2021.10.28
01-1p.26~03-2p.149 (0)	2021.09.13

현재글03-3p150~특성 공학과 규제

햄

데이터 분석, 기획 공부중

파이썬, 판다스, pmb부트캠프, SQL코딩테스트, SQL, ADsP, PM부트캠프, 코딩독학, 머신러닝, 데이터분석, ADSP기출, 코드스테이츠, 데이터자격증, 머신러닝공부, ADsP후기, 머신러닝책추천, 데이터분석준전문가, 비전공자머신러닝, 혼자공부하는머신러닝딥러닝, 인공지능,

Today :
Yesterday :

햄

03-3p150~특성 공학과 규제

'Machine Learning > 혼자 공부하는 머신러닝+딥러닝' 카테고리의 다른 글

'Machine Learning/혼자 공부하는 머신러닝+딥러닝'의 다른글

티스토리툴바

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

03-3p150~특성 공학과 규제

'Machine Learning > 혼자 공부하는 머신러닝+딥러닝' 카테고리의 다른 글

'Machine Learning/혼자 공부하는 머신러닝+딥러닝'의 다른글

관련글

티스토리툴바