분류 전체보기 106

(판다스) 공공데이터 이용 시 한글깨짐 문제 발생할 경우

판다스를 이용해 데이터 분석을 막 시작할 때 겪은 어려움이 많지만, 가장 처음으로는 데이터를 제대로 불러오지도 못했어요 ㅠㅠ 공공데이터를 다운받아 분석을 할 때 한글이 아래와 같이 안보일때가 있을경우!! 제가 해결한 방법을 소개하자면, import pandas as pd import numpy as np df = pd.read_csv('서울시 확진자.csv') 이때, 데이터를 불러오는 코드를 df = pd.read_csv('서울시 확진자.csv',encoding='euc-kr') 이렇게 수정해주고 다시 데이터를 불러오면 깨짐 현상 없이 볼 수 있어요! 파일 경로 뒤에, encoding='euc-kr' 추가하시면 됩니다 ㅎㅎ

SQLD 자격증 (비전공자/독학) 합격후기+요약본, 책추천, 무료강의추천

9/5일 42회 SQLD시험에 응시했어요! 일단, 저는 비전공자였기 때문에 약 3주 전부터 매일 최소 3시간은 공부했습니다! 이렇게 공부하니 2주동안 개념+기출 3 회독을 끝낼 수 있어서, 사실 일주일전부터는 요약본만 읽었습니다..ㅎㅎ 열심히 기출반복한 끝에 합격했습니다!! SQLD시험은 조기발표가 안 날줄 알았는데 저는 조기 발표했어요!! 일주일 전부터 사이트 들어가 보세요 ㅎㅎ 공부한 과정을 설명하자면! 비전공자 눈높이에서 가장 중요한건 일단 개념을 정리해야 한다고 생각했어요! 근데 교재는 밑에 노랭이 기출문제가 유명해서 고민을 많이 했어요 ㅠㅠ 개념서를 살까 말까 하고,, https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=97612848 SQL 자격검정 실전..

자격증/SQLD 2021.10.08

03-3p150~특성 공학과 규제

여전히 훈련 세트보다 테스트 세트의 점수가 높은 점이 문제 -> 선형회귀는 특성이 많을 수록 엄청난 효과를 내 기 때문에 받은 데이터를 모두 사용해야합니다. 여러개의 특성을 사용한 선형회귀 = 다중회귀 1개의 특성을 사용하면 직선을 학습하고, 2개의 특성을 사용하면 평면을 학습합니다. 기존의 특성을 사용해 새로운 특성을 뽑아내는 작업 = 특성공학 import pandas as pd df = pd.read_csv('http://bit.ly/perch_csv_data') perch_full = df.to_numpy() print(perch_full) import numpy as np perch_weight = np.array([5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80...

01-1p.26~03-2p.149

혼자 공부하는 머신러닝+딥러닝 교재를 구매해서 실습해보며 공부했습니다! 먼저, 생선 분류 문제를 위해 데이터셋을 정의합니다. bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0] bream_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0, 50..

사이킷런으로 시작하는 머신러닝 02.붓꽃품종 예측하기

먼저 사이킷런을 불러옵니다. 아나콘다 설치 시 자동으로 설치됩니다. (없는경우 pip install sckikit-learn으로 설치) import sklearn 첫번째 머신러닝 만들어 보기 - 붓꽃 품종 예측하기 붓꽃 데이터 세트로 붓꽃의 품종을 분류하는 것. 붓꽃 데이터 세트는 꽃잎의 길이와 너비, 꽃받침의 길이와 너비 피처를 기반으로 꽃의 품종을 예측하기 위한 것. 분류는 대표적인 지도학습 방법의 하나입니다. 지도학습은 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식. 이때 주어진 데이터 세트를 학습 데이터 세트, 머신러닝 모델의 예측 성능을 평가하기 위해 별도로 주어진 데이터 세트를 테스트 데이터 세트로 지칭. from sklearn.datasets import load..

9/6 데이터 핸들링-판다스

p41~p86 import pandas as pd titanic_df = pd.read_csv('./data/train.csv') print('DataFrame 크기: ', titanic_df.shape) titanic_df.describe() titanic_Pclass = titanic_df['Pclass'] print(type(titanic_Pclass)) titanic데이터에 대해 먼저 위의 코드를 통해 알아보았습니다. #데이터프레임을 리스트로 변환시키는 방법 list3 = df_dict.values.tolist() print('df_dict.values.tolist()타입:',type(list3)) print(list3) #새로운 칼럼 데이터 셋 생성 titanic_df['Age_0']=0 tit..