교육과정/KOSMO(79)
-
Day84
키워드 : 형태소분석 / 네이버 영화 감상평 문장 분석 / 지식인 문장 분석 및 워드클라우드 / 나이브베이즈 분류 / 영문 분류 / 한글 분류 / 스팸메일 판단 **** 1. 형태로 분석 형태소 분석 (Morphological Analysis)¶ 자연 언어의 문장을 "형태소"라는 의미의 최소 단위로 분할하고, 품사를 판별하는 작업 기계번역, 텍스트 마이닝에서 활용되는 중요한 작업 영어의 형태소 분석은 쉽다 "I want to eat a apple" 조사역할의 to, a를 거르면 I, eat, apple 단어 추출 한국어의 형태소 분석은 어렵다 "나는 사과를 먹고 싶다" 단어에 조사가 붙어 있어서 모든 품사와 문법 사전을 기반으로 대조하면서 단어를 추출해야 한다 단순하게 '는' '을'을 제거한다고 되는 것..
2021.02.17 -
Day83
키워드 : 의사결정나무 / 랜덤포레스트 / 숫자분류 / **** 1. 의사결정나무 (Decision Tree) 의사결정나무 (Decision Tree)¶ (1) 장점 - 만들어진 모델을 쉽게 시각화하여 이해하기 쉽다 - 데이터의 스케일(scale)에 영향을 받지 않아서 특성(feature)의 정규화나 표준화 같은 전처리 과정이 필요없다 (2) 단점 - 사전 가지치기를 사용함에도 과대적합되는 경향이 있어서 일반화 성능이 좋지 않다 [예제 ] 붓꽃(Iris) 품종 꽃잎(petal)과 꽃받침(sepal)의 폭과 길이를 측정하여 품종을 예측한다 150개의 데이타에서 3가지 품종(setosa, versicolor, virginica)로 분류한다 In [1]: from sklearn import datasets f..
2021.02.16 -
Day82
키워드 : 회귀분석 / 회귀분석을 이용한 날씨 예측 / 로지스틱 회귀분석을 이용한 생존자 예측 / 최적의 알고리즘 찾기(아이리스 데이터셋) / 사이킷런 KNN 분류모델 / 사이킷런 SVM 분류모델 / 비만지수 데이터셋 **** 1. 회귀분석 - 전기사용량과 전기요금의 상관관계 / 온도와 오존의 상관관계 / 범죄율과 주택가격의 상관관계 회귀분석 (Regression)¶ 독립변수(X)와 종속변수(Y)의 관계식에서 독립변수가 한 단위 증가할 때 종속변수가 얼마나 영향을 받는지 분석 [예] 연속형변수와 연속형 변수를 비교할 때 나이(X)가 많을 수록 소득(Y)가 높은지 분석 광고지불비(X)에 따라 판매량이 영향을 받는지 분석 가계 수입과 사교육비 지출 사이에 관계가 있는지 분석 신종코로나 추이 분석 (https..
2021.02.11 -
Day81
키워드 : Scipy / 카이제곱 검정 / 독립표본 t-검정 / 대응표본 t-검정 / ANOVA 분석 / **** 1. 모형에 입력 변수 선정¶ 1- 카이제곱 검정 (Chi-square Test ) ` 이산형 변수 - 이산형 변수 ` 성별과 구매여부 사이에 유의한 관계가 있는가 2- 독립표본t검정 (t-Test) : 이분류 모형의 경우 ` 이산형 변수(2그룹) - 연속형 변수 ` 체중과 구매여부 사이에 유의한 관계가 있는가 ( 구매자와 비구매자의 평균 체중이 다른가? ) 3- 분산분석 (ANOVA ) : 다분류 모형의 경우 ` 이산형 변수(3그룹이상 ) - 연속형 변수 ` 체중과 고객등급 사이에 유의한 관계가 있는가? ( 고객등급에 따라 평균 체중에 크게 다른가? ) 카이제곱 검정¶ : 이산형과 이산형 ..
2021.02.05 -
Day80
키워드 : 데이터 연결하기 / 누락값 처리 / datetime 날짜 추출 / 에볼라 데이터 분석 / 파산은행 데이터 분석 / 미주별 인구 데이터 분석 / 컴퓨존 크롤링 분석 **** 1. 데이터 연결하기 데이타 연결하기¶ (1) concat 메소드 연결¶ (2) merge()¶ [참고] 데이타사이언스 스쿨 https://datascienceschool.net/view-notebook/7002e92653434bc88c8c026c3449d27b/ (1) 동일한 컬럼 데이타프레임 합치기 (concat)¶ ex) 로그파일 등 컬럼이 모두 일치해야 합칠 수 있다. In [4]: import pandas as pd df01 = pd.read_csv("data/transaction/201701.csv") df02 =..
2021.02.04 -
Day79
키워드 : 판다스 seaborn 라이브러리 / 다나와 무선청소기 데이터 크롤링 분석 **** 1. 판다스 seaborn 라이브러리 히스토그램과 막대그래프 비교¶ 1. 히스토그램 ( seaborn 라이브러리 이용 )¶ (1) matplotlib의 subplot() / subplots()으로 기본 틀을 만들고 (2) seabron의 distplot()에 데이타를 전달한다 a) 밀집도 그래프(실선그래프)를 제외 : kde속성 axes = sb.distplot(tips['total_bill'], kde=False) 밀집도 그래프는 주어진 데이타를 정규화시켜 넓이가 1이되도록 그린 그래프 (*) 데이타 정규화 : 데이타의 분포가 너무 한 쪽으로 치우지 않도록 하는 작업(?) b) 밀집도 그래프만 출력 : hist..
2021.02.03