In [None]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [None]:
df = pd.read_csv('data/inaugural_speeches.csv')

In [None]:
df.head()

In [None]:
df.shape

In [None]:
# làm sạch và chuẩn hóa văn bản
df.loc[0, 'text'][:100]

In [None]:
df['clean_text'] = df['text'].str.replace('[^a-zA-Z]', ' ')

In [None]:
df['clean_text'] = df['clean_text'].str.lower()

In [None]:
df.loc[0, 'clean_text'][:100]

In [None]:
df['clean_text'] = df['clean_text'].str.replace('\s+', ' ')

In [None]:
df.loc[0, 'clean_text'][:100]

In [None]:
df['char_cnt'] = df['clean_text'].str.len()
df['word_cnt'] = df['clean_text'].str.split().str.len()
df['avg_word_length'] = df['char_cnt']/df['word_cnt']

In [None]:
df[['Name','clean_text','char_cnt','word_cnt','avg_word_length']].head()

In [None]:
# cho biết bài diễn văn nào có nhiều từ nhất?
df[df['word_cnt']==df['word_cnt'].max()]

In [None]:
# cho biết bài diễn văn nào có ít từ nhất?
df[df['word_cnt']==df['word_cnt'].min()]

In [None]:
df.dtypes

In [None]:
# từ cột Date --> rút trích được năm
df['year'] = df['Date'].str.extract('(\d{4})')
df[['Name','clean_text','char_cnt','word_cnt','avg_word_length','Date','year']].head()

In [None]:
df[df['year'].isnull()]

In [None]:
df.loc[df['year'].isnull(), 'year'] = '1997'

In [None]:
df[df['year'].isnull()]

## CountVectorizer

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
cv = CountVectorizer()

In [None]:
text1 = 'Tôi đi học'
text2 = 'Tôi học trong trường tôi'
text3 = 'Trường tôi rất đẹp'
doc = [text1, text2, text3]
df_ = pd.DataFrame({'text':doc})
df_

In [None]:
cv.fit(df_['text']) # Tokenization

In [None]:
cv.get_feature_names_out()

In [None]:
cv_transformed = cv.transform(df_['text']) # ma trận thưa thớt ở dạng lưu trữ

In [None]:
cv_transformed

In [None]:
cv_transformed.toarray()

In [None]:
df_transformed = pd.DataFrame(cv_transformed.toarray(), columns=cv.get_feature_names_out())
df_transformed # Bag of Words

In [None]:
df_ = pd.concat([df_, df_transformed], axis=1)
df_

### Áp dụng CountVectorizer cho cột clean_text

In [None]:
cv = CountVectorizer()

In [None]:
cv.fit(df['clean_text'])

In [None]:
cv.get_feature_names_out()[:10]

In [None]:
cv.get_feature_names_out()[-10:]

In [None]:
len(cv.get_feature_names_out())

In [None]:
cv_transformed = cv.transform(df['clean_text'])
df_transformed = pd.DataFrame(cv_transformed.toarray(), columns=cv.get_feature_names_out()).add_prefix('Count_')
df_transformed.head()                  

In [None]:
cv = CountVectorizer(min_df=0.2, max_df=0.8)

In [None]:
cv_transformed = cv.fit_transform(df['clean_text'])
# fit: "học"
# transform: "áp dụng"
# kết quả ==> bag of words

In [None]:
len(cv.get_feature_names_out())

In [None]:
cv.get_feature_names_out()[:20]

In [None]:
cv = CountVectorizer(min_df=0.2, max_df=0.8, stop_words='english')

In [None]:
cv_transformed = cv.fit_transform(df['clean_text'])
len(cv.get_feature_names_out())

## TfidfVectorizer

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
cv = TfidfVectorizer(max_features=100, stop_words='english')

In [None]:
cv_transformed = cv.fit_transform(df['clean_text'])
len(cv.get_feature_names_out())

In [None]:
cv.get_feature_names_out()[:20]

In [None]:
cv_transformed.toarray()[:5, :10]

In [None]:
df_transformed = pd.DataFrame(cv_transformed.toarray(),
                             columns=cv.get_feature_names_out()).add_prefix('Count_')
df_transformed.head()

In [None]:
df_transformed.iloc[:5, :5]

In [None]:
# xét văn bản index=0, cho biết 10 từ có trọng số lớn nhất
df_transformed.iloc[0,:].sort_values(ascending=False).head(10)

In [None]:
# cho biết 10 văn bản có từ "government" có trọng số cao nhất
ser = df_transformed['Count_government'].sort_values(ascending=False).head(10)
ser

In [None]:
df[df.index.isin(ser.index)]

In [None]:
# cho biết 10 từ có tổng trọng số cao nhất trong tất cả văn bản
df_transformed.sum().sort_values(ascending=False).head(10)