In [1]:
import pandas as pd

# 샘플 데이터프레임 생성
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'email': ['alice@example.com', 'bob@example.com', 'charlie@sample.net', 'david@website.org', 'eve@domain.com'],
    'description': ['Alice is a Data Scientist.', 'Bob is an Engineer.', 'Charlie is a Doctor.', 'David is a Lawyer.', 'Eve is an Artist.']
}
df = pd.DataFrame(data)
print(df)

      name               email                 description
0    Alice   alice@example.com  Alice is a Data Scientist.
1      Bob     bob@example.com         Bob is an Engineer.
2  Charlie  charlie@sample.net        Charlie is a Doctor.
3    David   david@website.org          David is a Lawyer.
4      Eve      eve@domain.com           Eve is an Artist.


In [2]:
## cat 데이터 붙이기
df['name+email']=df['name'].str.cat(df['email'],sep='/')

In [3]:
## 데이터 나누기
df[['userid','domain']]=df['email'].str.split('@',expand=True)

In [4]:
## get으로 문자의 특정 위치값을 가지고 올 수 있다.
df['name'].str.get(0)

0    A
1    B
2    C
3    D
4    E
Name: name, dtype: object

In [5]:
## 슬라이스
df['name'].str.slice(start=0, stop=2)

0    Al
1    Bo
2    Ch
3    Da
4    Ev
Name: name, dtype: object

In [6]:
## extract, 정규표현식 추출
df['email'].str.extract(r'@(\w+\.\w+)')

Unnamed: 0,0
0,example.com
1,example.com
2,sample.net
3,website.org
4,domain.com


In [7]:
df

Unnamed: 0,name,email,description,name+email,userid,domain
0,Alice,alice@example.com,Alice is a Data Scientist.,Alice/alice@example.com,alice,example.com
1,Bob,bob@example.com,Bob is an Engineer.,Bob/bob@example.com,bob,example.com
2,Charlie,charlie@sample.net,Charlie is a Doctor.,Charlie/charlie@sample.net,charlie,sample.net
3,David,david@website.org,David is a Lawyer.,David/david@website.org,david,website.org
4,Eve,eve@domain.com,Eve is an Artist.,Eve/eve@domain.com,eve,domain.com


In [8]:
# 정규표현식에 일치하는 모든 부분 추출 extractall
df['description'].str.extractall(r'(\w+)')

Unnamed: 0_level_0,Unnamed: 1_level_0,0
Unnamed: 0_level_1,match,Unnamed: 2_level_1
0,0,Alice
0,1,is
0,2,a
0,3,Data
0,4,Scientist
1,0,Bob
1,1,is
1,2,an
1,3,Engineer
2,0,Charlie


In [9]:
# replace
df['description'].str.replace('is','')

0    Alice  a Data Scientt.
1         Bob  an Engineer.
2        Charlie  a Doctor.
3          David  a Lawyer.
4             Eve  an Artt.
Name: description, dtype: object

In [10]:
# find
df['description'].str.find('Artist')

0    -1
1    -1
2    -1
3    -1
4    10
Name: description, dtype: int64

In [11]:
#문자열이 포함되어 있는지
#contains
df['description'].str.contains('Artist')

0    False
1    False
2    False
3    False
4     True
Name: description, dtype: bool

In [12]:
#loc 이랑 응용하면 
#& 문으로 다양하게 엮을 수 있다.
df.loc[df['description'].str.contains('Artist')]

Unnamed: 0,name,email,description,name+email,userid,domain
4,Eve,eve@domain.com,Eve is an Artist.,Eve/eve@domain.com,eve,domain.com


In [13]:
## get_dummies
## 인코딩하는 작업으로
df['domain'].str.get_dummies()

Unnamed: 0,domain.com,example.com,sample.net,website.org
0,0,1,0,0
1,0,1,0,0
2,0,0,1,0
3,0,0,0,1
4,1,0,0,0


In [14]:
df

Unnamed: 0,name,email,description,name+email,userid,domain
0,Alice,alice@example.com,Alice is a Data Scientist.,Alice/alice@example.com,alice,example.com
1,Bob,bob@example.com,Bob is an Engineer.,Bob/bob@example.com,bob,example.com
2,Charlie,charlie@sample.net,Charlie is a Doctor.,Charlie/charlie@sample.net,charlie,sample.net
3,David,david@website.org,David is a Lawyer.,David/david@website.org,david,website.org
4,Eve,eve@domain.com,Eve is an Artist.,Eve/eve@domain.com,eve,domain.com


In [None]:
df[['description','userid']].str.contains('Artist')

In [None]:
df['description'].str.contains('Artist')

In [None]:
df['description']

- 시리즈로 접근해서 처리한 후 -> 데이터프레임으로 같이 연결하면 된다.

In [None]:
df=pd.read_csv('movie_rv.csv')

In [None]:
df

In [None]:
# 구분자를 넣고 여러 컬럼을 나눠보기!
df['document'].str.split(' ',n=1, expand=True)

In [None]:
# 데이터를 3개 이상 나누고 싶다.
df['document'].str.partition(sep=' ')

In [None]:
# 정규표현식으로 특정 단어 추출
df['document'].str.findall('[재미]')

In [None]:
##리뷰에 대한 수치를 시각적으로 볼 수 있다.

df['document_len']=df['document'].str.len()

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.hist(df['document_len'])

In [None]:
df.groupby('label')['document_len'].describe()

In [None]:
df

### 정형데이터와는 다르게 비정형데이터( 리뷰데이터 ) 
- 어떤 점이 차이가 있을까?

In [None]:
import seaborn as sns 
sns.load_dataset('titanic').head()

In [None]:
df.head()

## 텍스트 전처리
- 영문, 한국어
- 영문부터 패키지가지고 학습할 예정
- 자연어처리 (NLP) 인간의 언어- > 컴퓨터가 이해할 수 있도록 처리를 해야 한다. 컴퓨터가 분석할 수 있도록 프로그래밍하는 방법!

In [16]:
import nltk

In [17]:
#nltk 라이브러리 
nltk.download('punkt')
nltk.download('webtext')
nltk.download('wordnet')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to /Users/jun/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package webtext to /Users/jun/nltk_data...
[nltk_data]   Package webtext is already up-to-date!
[nltk_data] Downloading package wordnet to /Users/jun/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to /Users/jun/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/jun/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [18]:
'Deep learning is the kind you take with you through the rest of your life.'

'Deep learning is the kind you take with you through the rest of your life.'

- 전처리 단계 
- 텍스트에 대한 전처리 단계 
- 주어진 텍스트의 노이즈나 분석에 불필요한 것들이 분명 존재, 제거하고 문장들을 나눠서 분석할 수 있다. 표준 단어나 이런 것들로 분리하고, 품사나 파악하는 것 
- 한국어, 영어는 다르니깐 전처리 어느정도 다를 것

- 정제 : (정규표현식 등으로 데이터에 노이즈를 제거하거나, 필요한 것들만 추출하는 작업)
- 토큰화 : (주어진 텍스트를 원하는 단위로 나누는 것 (Token) 단어 토큰화, 다른 방법으로도 토큰을 나눌 수 있다. 딥러닝에서 성능을 올리기 위해 토큰화 작업 진행)
- 정규화 : (동사의 변형들, 과거형이나 등등 결국 하나의 동사에 의미), 어간 추출, 표제어 추출 등으로 작업할 수 있다.
- 품사 태깅 : (명사, 대명사, 형용사 등등) 앞서 토큰을 나눴으면 -> 의미를 부여할 수 있다. 품사를 알려주면서 더 많은 의미있는 데이터를 확보

In [19]:
df = 'Deep learning is the subset of machine learning methods based on artificial neural networks with representation learning. The adjective "deep" refers to the use of multiple layers in the network. Methods used can be either supervised, semi-supervised or unsupervised.[2]'

In [20]:
df

'Deep learning is the subset of machine learning methods based on artificial neural networks with representation learning. The adjective "deep" refers to the use of multiple layers in the network. Methods used can be either supervised, semi-supervised or unsupervised.[2]'

In [21]:
#문장에 대한 토큰화
from nltk.tokenize import sent_tokenize

print(sent_tokenize(df))

['Deep learning is the subset of machine learning methods based on artificial neural networks with representation learning.', 'The adjective "deep" refers to the use of multiple layers in the network.', 'Methods used can be either supervised, semi-supervised or unsupervised.', '[2]']


In [22]:
#단어 토큰화
from nltk.tokenize import word_tokenize

print(word_tokenize(df))

['Deep', 'learning', 'is', 'the', 'subset', 'of', 'machine', 'learning', 'methods', 'based', 'on', 'artificial', 'neural', 'networks', 'with', 'representation', 'learning', '.', 'The', 'adjective', '``', 'deep', "''", 'refers', 'to', 'the', 'use', 'of', 'multiple', 'layers', 'in', 'the', 'network', '.', 'Methods', 'used', 'can', 'be', 'either', 'supervised', ',', 'semi-supervised', 'or', 'unsupervised', '.', '[', '2', ']']


In [23]:
# 특수문자등을 처리할 수 있다.
# 제거해 주는 패키
from nltk.tokenize import WordPunctTokenizer
# 특수문자 제거
print(WordPunctTokenizer().tokenize(df))


['Deep', 'learning', 'is', 'the', 'subset', 'of', 'machine', 'learning', 'methods', 'based', 'on', 'artificial', 'neural', 'networks', 'with', 'representation', 'learning', '.', 'The', 'adjective', '"', 'deep', '"', 'refers', 'to', 'the', 'use', 'of', 'multiple', 'layers', 'in', 'the', 'network', '.', 'Methods', 'used', 'can', 'be', 'either', 'supervised', ',', 'semi', '-', 'supervised', 'or', 'unsupervised', '.[', '2', ']']


In [24]:
# 정규표현식도 같이 토크나이즈
from nltk.tokenize import RegexpTokenizer

tk= RegexpTokenizer('[\w"]+')

In [25]:
#내가 원하는 정규표현식에 따라 데이터가 전처리가 진행이 되었다.
print(tk.tokenize(df))

['Deep', 'learning', 'is', 'the', 'subset', 'of', 'machine', 'learning', 'methods', 'based', 'on', 'artificial', 'neural', 'networks', 'with', 'representation', 'learning', 'The', 'adjective', '"deep"', 'refers', 'to', 'the', 'use', 'of', 'multiple', 'layers', 'in', 'the', 'network', 'Methods', 'used', 'can', 'be', 'either', 'supervised', 'semi', 'supervised', 'or', 'unsupervised', '2']


In [26]:
#불용어 처리 (노이즈)
#은,는,이,가 의미가 없다고 보는 단어들
#영어도 불용어처리 진행
from nltk.corpus import stopwords #불용어 가져오는 패키지

en_stops=set(stopwords.words('english'))

In [27]:
## 다양한 패키지를 응용해서 전처리를 할 수 있다. (정제 가능)
en_stops

{'a',
 'about',
 'above',
 'after',
 'again',
 'against',
 'ain',
 'all',
 'am',
 'an',
 'and',
 'any',
 'are',
 'aren',
 "aren't",
 'as',
 'at',
 'be',
 'because',
 'been',
 'before',
 'being',
 'below',
 'between',
 'both',
 'but',
 'by',
 'can',
 'couldn',
 "couldn't",
 'd',
 'did',
 'didn',
 "didn't",
 'do',
 'does',
 'doesn',
 "doesn't",
 'doing',
 'don',
 "don't",
 'down',
 'during',
 'each',
 'few',
 'for',
 'from',
 'further',
 'had',
 'hadn',
 "hadn't",
 'has',
 'hasn',
 "hasn't",
 'have',
 'haven',
 "haven't",
 'having',
 'he',
 'her',
 'here',
 'hers',
 'herself',
 'him',
 'himself',
 'his',
 'how',
 'i',
 'if',
 'in',
 'into',
 'is',
 'isn',
 "isn't",
 'it',
 "it's",
 'its',
 'itself',
 'just',
 'll',
 'm',
 'ma',
 'me',
 'mightn',
 "mightn't",
 'more',
 'most',
 'mustn',
 "mustn't",
 'my',
 'myself',
 'needn',
 "needn't",
 'no',
 'nor',
 'not',
 'now',
 'o',
 'of',
 'off',
 'on',
 'once',
 'only',
 'or',
 'other',
 'our',
 'ours',
 'ourselves',
 'out',
 'over',
 'own',
 'r

In [28]:
tokens=tk.tokenize(df.lower())

In [29]:
print([word for word in tokens if word not in en_stops]) # 불용어처리는 제외한 단어만 전처리가 가능하다.

['deep', 'learning', 'subset', 'machine', 'learning', 'methods', 'based', 'artificial', 'neural', 'networks', 'representation', 'learning', 'adjective', '"deep"', 'refers', 'use', 'multiple', 'layers', 'network', 'methods', 'used', 'either', 'supervised', 'semi', 'supervised', 'unsupervised', '2']


In [30]:
df

'Deep learning is the subset of machine learning methods based on artificial neural networks with representation learning. The adjective "deep" refers to the use of multiple layers in the network. Methods used can be either supervised, semi-supervised or unsupervised.[2]'

In [33]:
##표제어 추출
##단어 기본형 변환
##cooking cook, cooks, cookie, cookbooks, 등등
from nltk.stem import WordNetLemmatizer

lemm =WordNetLemmatizer()

In [34]:
print(lemm.lemmatize('cooking'))
print(lemm.lemmatize('cookking'))
print(lemm.lemmatize('cookss'))
print(lemm.lemmatize('cooker'))
print(lemm.lemmatize('cookers'))

cooking
cookking
cook
cooker
cooker


In [37]:
##품사 태깅
##토큰화 -> 정규화 과정 통해서 나온 결과를 형태소 정리한 내용
#형태소라는 건 의미를 가지고 있는 작은 말의 단위 더 나누게 되면 본래 뜻을 잃을 수 있다.
#형태소 -> 형, 태소, 형, 태, 소 의미가 사라진다.
#형태소까지 가지 않더라도, 텍스트마이닝에서 품사라는 것을 사용해서 좀 더 의미를 잃지 않고 학습시킬 수 있다.


## 명사, 대명사, 동사, 형용사...  
## 명사는 어떤 식으로 사용하는지, 동사는 어떤 식으로 사용하는지 명칭 

from nltk.tokenize import word_tokenize
tk=word_tokenize('Deep learning is the subset of machine learning methods based on artificial neural networks with representation learning. The adjective "deep" refers to the use of multiple layers in the network. Methods used can be either supervised, semi-supervised or unsupervised')
print(nltk.pos_tag(tk))
##(단어, 품사)

[('Deep', 'JJ'), ('learning', 'NN'), ('is', 'VBZ'), ('the', 'DT'), ('subset', 'NN'), ('of', 'IN'), ('machine', 'NN'), ('learning', 'VBG'), ('methods', 'NNS'), ('based', 'VBN'), ('on', 'IN'), ('artificial', 'JJ'), ('neural', 'JJ'), ('networks', 'NNS'), ('with', 'IN'), ('representation', 'NN'), ('learning', 'NN'), ('.', '.'), ('The', 'DT'), ('adjective', 'JJ'), ('``', '``'), ('deep', 'JJ'), ("''", "''"), ('refers', 'NNS'), ('to', 'TO'), ('the', 'DT'), ('use', 'NN'), ('of', 'IN'), ('multiple', 'JJ'), ('layers', 'NNS'), ('in', 'IN'), ('the', 'DT'), ('network', 'NN'), ('.', '.'), ('Methods', 'NNS'), ('used', 'VBD'), ('can', 'MD'), ('be', 'VB'), ('either', 'RB'), ('supervised', 'VBN'), (',', ','), ('semi-supervised', 'JJ'), ('or', 'CC'), ('unsupervised', 'JJ')]


In [38]:
wt_tag = ['JJ']
jj_tag = [ word for word, tag in nltk.pos_tag(tk) if tag in wt_tag ]

In [39]:
jj_tag

['Deep',
 'artificial',
 'neural',
 'adjective',
 'deep',
 'multiple',
 'semi-supervised',
 'unsupervised']

## 한글 형태소 분석, 품사 태깅 가능하다.


In [40]:
## KoNLPy(kkma, twitter, mecab, okt, hannaum)
## 품사 태깅등, 전처리 패키지가 다양하다.
## https://konlpy.org/ko/latest/

from konlpy.tag import Okt

In [41]:
#패키지를 불러오기!
k = Okt()

#Okt
#morphase(phrase) : 텍스트를 형태로 단위로 분리
#nouns(phrase) : 명사만 분리해서 보여준다.
#pos(phrase) : 태깅해서 보여준다.

data = '''🌟안녕하세요 BDA 운영진입니다!🌟
여름방학을 맞아 학회원 여러분의 데이터 역량을 늘릴 수 있는 찍어먹어BDA 부트캠프를 진행합니다!

찍어먹어 BDA는 데이터 시각화, 클라우드 등 데이터와 관련된 역량을 기를 수 있는 원데이 클래스들로 이루어져 있습니다!
자세한 원데이 클래스는 아래 카드뉴스에서 확인 가능합니다!
많은 참여 부탁드립니다~

7월 28일까지 아래의 구글폼에 응답해주세요!
찍어먹어 BDA 모집 구글폼 : https://forms.gle/K5aSFk463uRPZRqZ9'''

In [42]:
data

'🌟안녕하세요 BDA 운영진입니다!🌟\n여름방학을 맞아 학회원 여러분의 데이터 역량을 늘릴 수 있는 찍어먹어BDA 부트캠프를 진행합니다!\n\n찍어먹어 BDA는 데이터 시각화, 클라우드 등 데이터와 관련된 역량을 기를 수 있는 원데이 클래스들로 이루어져 있습니다!\n자세한 원데이 클래스는 아래 카드뉴스에서 확인 가능합니다!\n많은 참여 부탁드립니다~\n\n7월 28일까지 아래의 구글폼에 응답해주세요!\n찍어먹어 BDA 모집 구글폼 : https://forms.gle/K5aSFk463uRPZRqZ9'

In [43]:
print(k.nouns(data))

['운영', '진입', '니', '여름방학', '학회', '여러분', '데이터', '역량', '수', '부트캠프', '진행', '데이터', '시각', '클라우드', '등', '데이터', '관련', '역량', '수', '원데이', '클래스', '원데이', '클래스', '아래', '카드', '뉴스', '확인', '참여', '아래', '구글', '폼', '응답', '모집', '구글', '폼']


In [44]:
print(k.pos(data))

[('🌟', 'Foreign'), ('안녕하세요', 'Adjective'), ('BDA', 'Alpha'), ('운영', 'Noun'), ('진입', 'Noun'), ('니', 'Noun'), ('다', 'Josa'), ('!', 'Punctuation'), ('🌟', 'Foreign'), ('\n', 'Foreign'), ('여름방학', 'Noun'), ('을', 'Josa'), ('맞아', 'Verb'), ('학회', 'Noun'), ('원', 'Suffix'), ('여러분', 'Noun'), ('의', 'Josa'), ('데이터', 'Noun'), ('역량', 'Noun'), ('을', 'Josa'), ('늘릴', 'Verb'), ('수', 'Noun'), ('있는', 'Adjective'), ('찍어', 'Verb'), ('먹어', 'Verb'), ('BDA', 'Alpha'), ('부트캠프', 'Noun'), ('를', 'Josa'), ('진행', 'Noun'), ('합니다', 'Verb'), ('!', 'Punctuation'), ('\n\n', 'Foreign'), ('찍어', 'Verb'), ('먹어', 'Verb'), ('BDA', 'Alpha'), ('는', 'Verb'), ('데이터', 'Noun'), ('시각', 'Noun'), ('화', 'Suffix'), (',', 'Punctuation'), ('클라우드', 'Noun'), ('등', 'Noun'), ('데이터', 'Noun'), ('와', 'Josa'), ('관련', 'Noun'), ('된', 'Verb'), ('역량', 'Noun'), ('을', 'Josa'), ('기를', 'Verb'), ('수', 'Noun'), ('있는', 'Adjective'), ('원데이', 'Noun'), ('클래스', 'Noun'), ('들', 'Suffix'), ('로', 'Josa'), ('이루어져', 'Verb'), ('있습니다', 'Adjective'), ('!', 'Punctuation'), 

In [47]:
df= pd.read_csv('movie_rv.csv')

In [57]:
#na값 확인
df['document']=df['document'].fillna(0)
df['document']=df['document'].astype(str)


In [62]:
df_sp=df.iloc[:30000]

In [63]:
df_sp

Unnamed: 0.1,Unnamed: 0,id,document,label
0,0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,2,10265843,너무재밓었다그래서보는것을추천한다,0
3,3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1
...,...,...,...,...
29995,29995,5277532,ㅁ,1
29996,29996,6308533,멘탈붕괴...,0
29997,29997,6148618,마지막 2분 남겨놓은 노래 제목좀 가르쳐 주세요~,1
29998,29998,3908341,어쩌면 이렇게 아름다운 영화를 만들수 있을까...보는내내 참 행복했다:),1


## 문서에 대한 카운트 기반으로 생각할 수 있다.
- CountVectorizer 패키지를 사용하면 쉽게 벡터화해서 데이터를 전처리할 수 있다.
- {'원데이':3, '클래스':2}

In [64]:
from sklearn.feature_extraction.text import CountVectorizer

In [72]:
# 예시 리스트
corpus= [
    'This is the first corpus',
    'This corpus is the second corpus',
    'And this corpus is the third one',
    'Is this the first corpus?'
]

#CountVectorizer
cv=CountVectorizer()

# 문서를 벡터화
X =cv.fit_transform(corpus)

# 변환 결과를 출력
print('corpus 사용한 피처는 무엇인지 확인하는 것!',cv.get_feature_names_out())
print('----')
print('내가 원하는 메트릭스를 보고 싶다!',X.toarray())

corpus 사용한 피처는 무엇인지 확인하는 것! ['and' 'corpus' 'first' 'is' 'one' 'second' 'the' 'third' 'this']
----
내가 원하는 메트릭스를 보고 싶다! [[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 1 0 1 1 0 1 1 1]
 [0 1 1 1 0 0 1 0 1]]


- ['and' 'corpus' 'first' 'is' 'one' 'second' 'the' 'third' 'this']
- corpus 의 리스트[0]~[3] 리뷰에 카운팅을 계산해서 -> 행렬 변환이 된다.

In [69]:
X

<4x9 sparse matrix of type '<class 'numpy.int64'>'
	with 22 stored elements in Compressed Sparse Row format>

In [73]:
## 한국어로 진행
corpus_ko=[
    '오늘 날씨는 매우 좋습니다',
    '내일 날씨는 매우 좋을까요',
    '내일은 비가 올 것 같습니다',
    '모두 내일은 우산을 준비하세요',
    'BDA는 이제 곧 9기를 모집합니다',
    '우리는 열심히 공부합니다',
    '우리는 내일도 공부합니다'
    ]

In [74]:
#CountVectorizer
cv=CountVectorizer()

# 문서를 벡터화
X =cv.fit_transform(corpus_ko)

# 변환 결과를 출력
print('corpus 사용한 피처는 무엇인지 확인하는 것!',cv.get_feature_names_out())
print('----')
print('내가 원하는 메트릭스를 보고 싶다!',X.toarray())

corpus 사용한 피처는 무엇인지 확인하는 것! ['9기를' 'bda는' '같습니다' '공부합니다' '날씨는' '내일' '내일도' '내일은' '매우' '모두' '모집합니다' '비가'
 '열심히' '오늘' '우리는' '우산을' '이제' '좋습니다' '좋을까요' '준비하세요']
----
내가 원하는 메트릭스를 보고 싶다! [[0 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0]
 [0 0 0 0 1 1 0 0 1 0 0 0 0 0 0 0 0 0 1 0]
 [0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 1]
 [1 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0]
 [0 0 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0]
 [0 0 0 1 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0]]


In [75]:
## 한국어로 진행
corpus_ko=[
    '오늘 날씨는 매우 좋습니다',
    '내일 날씨는 매우 좋을까요',
    '내일은 비가 올 것 같습니다',
    '모두 내일은 우산을 준비하세요',
    'BDA는 이제 곧 9기를 모집합니다',
    '우리는 열심히 공부합니다',
    '우리는 내일도 내일또 공부합니다'
    ]

In [76]:
#CountVectorizer
cv=CountVectorizer()

# 문서를 벡터화
X =cv.fit_transform(corpus_ko)

# 변환 결과를 출력
print('corpus 사용한 피처는 무엇인지 확인하는 것!',cv.get_feature_names_out())
print('----')
print('내가 원하는 메트릭스를 보고 싶다!',X.toarray())

corpus 사용한 피처는 무엇인지 확인하는 것! ['9기를' 'bda는' '같습니다' '공부합니다' '날씨는' '내일' '내일도' '내일또' '내일은' '매우' '모두'
 '모집합니다' '비가' '열심히' '오늘' '우리는' '우산을' '이제' '좋습니다' '좋을까요' '준비하세요']
----
내가 원하는 메트릭스를 보고 싶다! [[0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0]
 [0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0]
 [0 0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 1]
 [1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0]
 [0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0]
 [0 0 0 1 0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 0 0]]


In [77]:
#불용어 추가하기!
stop_words = ['bda는']


In [78]:
#CountVectorizer
cv=CountVectorizer(stop_words = stop_words)

# 문서를 벡터화
X =cv.fit_transform(corpus_ko)

# 변환 결과를 출력
print('corpus 사용한 피처는 무엇인지 확인하는 것!',cv.get_feature_names_out())
print('----')
print('내가 원하는 메트릭스를 보고 싶다!',X.toarray())

corpus 사용한 피처는 무엇인지 확인하는 것! ['9기를' '같습니다' '공부합니다' '날씨는' '내일' '내일도' '내일또' '내일은' '매우' '모두' '모집합니다' '비가'
 '열심히' '오늘' '우리는' '우산을' '이제' '좋습니다' '좋을까요' '준비하세요']
----
내가 원하는 메트릭스를 보고 싶다! [[0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0]
 [0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0]
 [0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 1]
 [1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0]
 [0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0]
 [0 0 1 0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 0 0]]


In [79]:
X
## 7x20 
## 7개의 문서의 의미 즉 위에 텍스트의 의미
## 20 고유 단어 수로 벡터화된 특징 수 
## 행렬에서 0이 아닌 요소의 수를 7* 20 = 140 전체
## 25 0이 아닌 요소가 25개, 나머지는 모두 0이다.
## 희소한지의 비율 0의 비율 

<7x20 sparse matrix of type '<class 'numpy.int64'>'
	with 25 stored elements in Compressed Sparse Row format>

In [80]:
140-25

115

In [81]:
#0의 희소에 대한 비율 계산
115/140

0.8214285714285714

### Bow ( Bag of Words ) 말뭉치에 한계가 있어서 -> TF-IDF의 방식을 사용한다.

- 카운트 벡터는 빈도가 높을수록 중요한 단어 아닌가? 
- 모든 문서에 동일하게 특정 키워드가 계속 나오면 이게 과연 중요한 건가?
- 여러분, 여러분 여러분, 단순하게 카운팅으로 봐서 빈도가 높으면 다 중요한가?

- 단어가 더 많은 문서에서 나타날수록 오히려 그 단어는 별로 중요하지 않다. 
- TF-IDF ( Term Frequency - Inverse Document Frequency ) 단어빈도 - 역문서빈도