Day84

2021. 2. 17. 19:13교육과정/KOSMO

키워드 : 형태소분석 / 네이버 영화 감상평 문장 분석 / 지식인 문장 분석 및 워드클라우드 / 나이브베이즈 분류 / 영문 분류 / 한글 분류 / 스팸메일 판단

 

****

 

 

1. 형태로 분석

 

 


2. 네이버 영화 감상평 문장 분석

 

 

 


3. 지식인 문장 분석 및 워드클라우드

 


4. 나이브베이즈 분류 이론

 


*** 조건부 확률 

 P(B|A)  :  "사건 A가 발생한 조건"에서 "다른 사건 B가 일어날 확률"

비가 내릴 확률 : P(비)
교통사고가 발생할 확률 : P(교통사고)
비가 내리는 날에 교통사고가 발생할 확률 : P(교통사고|비)
 

*** 베이즈 정리 (Bayes' theorem)
 - 조건부 확률과 관련된 이론

  P(B|A) = P(A|B)P(B)/P(A)

P(A) : A가 일어날 확률
P(B) : B가 일어날 확률
P(A|B) : B가 일어난 후에 A가 일어날 확률
P(B|A) : A가 일어난 후에 B가 일어날 확률

 [예] 마트의 매출
전체 손님 수  : 100
맥주를 산 손님 수 : 50
라면을 산 손님 수 : 20
맥주와 라면을 산 손님 수 : 10

` 맥주를 사고 라면을 구매할 확률 : 50/100 * 10/50 = 1/10
  전체손님 중에서 맥주를 살 확률 : 50/100
  맥주를 산 손님중 라면을 살 확률 : 10/50

` 라면을 사고 맥주를 구매할 확률 : 20/100 * 10/20 = 1/10
  전체손님 중에서 라면을 살 확률 : 20/100
  라면을 산 손님중 맥주를 살 확률 : 10/20

P(A|B)*P(B) = P(B|A)P(A)


*** 나이브 베이즈 분류
 
 베이즈 정리를 이용한 텍스트 분류에서 
 A는 입력 텍스트, B를 카테고리 판정 결과라고 한다면
 이메일 스팸 필터에서 A는 받은 메일이고, B는 스팸메일 판정 결과이다.
 
 나이브베이즈분류는 텍스트의 단어 출현 비율을 조사하여 어떤 카테고리로 분류할 때 사용한다.

 <단어의 출현 횟수>/<카테고리 전체 단어수> = <어떤 카테고리에 해당 단어 출현할 확률>


[참고] 파이썬을 이용한 머신러닝 딥러닝 실전개발 입문

[추가공부] 데이타 사이언스 스쿨 : 감성 분류

 


5. 나이브베이즈 분류 - 영문 분류

 

 

 


6. 나이브베이즈 분류 - 한글 분류

 

 


7. 스팸메일 판단

 

 

반응형

'교육과정 > KOSMO' 카테고리의 다른 글

Day83  (0) 2021.02.16
Day82  (0) 2021.02.11
Day81  (0) 2021.02.05
Day80  (0) 2021.02.04
Day79  (0) 2021.02.03