In [45]:
import pandas as pd
import numpy as np
import re
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

## Preparação do Dataset

A partir do .csv informado, vamos preparar o dataset para os algoritmos. Nesse caso, vamos remover valores nulos e filtrar as colunas de interesse.

In [46]:
df = pd.read_csv('datasets/youtube_video_dataset.csv')
df.head()

Unnamed: 0,Title,Videourl,Category,Description
0,Madagascar Street Food!!! Super RARE Malagasy ...,/watch?v=EwBA1fOQ96c,Food,🎥GIANT ALIEN SNAIL IN JAPAN! » https://youtu.b...
1,42 Foods You Need To Eat Before You Die,/watch?v=0SPwwpruGIA,Food,This is the ultimate must-try food bucket list...
2,Gordon Ramsay’s Top 5 Indian Dishes,/watch?v=upfu5nQB2ks,Food,We found 5 of the best and most interesting In...
3,How To Use Chopsticks - In About A Minute 🍜,/watch?v=xFRzzSF_6gk,Food,You're most likely sitting in a restaurant wit...
4,Trying Indian Food 1st Time!,/watch?v=K79bXtaRwcM,Food,HELP SUPPORT SINSTV!! Shop Our Sponsors!\nLast...


In [47]:
colunas = list()
for coluna in df.columns:
    colunas.append(coluna)
print("Colunas:", " ".join(colunas))
print("Número de Linhas:", df.shape[0])
# Removendo as colunas que não são interessantes (nesse caso, apenas importa "Title" e "Category")
df = df.iloc[:, [0, 2]]
colunas = list()
for coluna in df.columns:
    colunas.append(coluna)
print("Colunas:", " ".join(colunas))
print("Número de Linhas com Valores Nulos:", df.isna().sum().sum())
# Retirando linhas com valores nulos 
df = df.dropna()
print("Número de Linhas Após Remoção de Nulos:", df.shape[0])
print("Número de Linhas com Valores Nulos (Verificação):", df.isna().sum().sum())

Colunas: Title Videourl Category Description
Número de Linhas: 11211
Colunas: Title Category
Número de Linhas com Valores Nulos: 0
Número de Linhas Após Remoção de Nulos: 11211
Número de Linhas com Valores Nulos (Verificação): 0


### Novo dataset com as colunas novas e valores removidos:

In [48]:
df

Unnamed: 0,Title,Category
0,Madagascar Street Food!!! Super RARE Malagasy ...,Food
1,42 Foods You Need To Eat Before You Die,Food
2,Gordon Ramsay’s Top 5 Indian Dishes,Food
3,How To Use Chopsticks - In About A Minute 🍜,Food
4,Trying Indian Food 1st Time!,Food
...,...,...
11206,"art journal | shimmer sprays, stencils, collag...",Art&Music
11207,Ar-Tea Collage * Mixed Media Art,Art&Music
11208,DIY Mixed Media Art Collage Greeting Cards / M...,Art&Music
11209,Art Collage Process DecoJournal using Rice Pap...,Art&Music


Abaixo, foi verificado quantas categorias existem e qual a frequência de cada categoria. Como é possível observar, a mais comum é a de Viagem, enquanto a menos comum é a de História. Nesse caso, vamos mapear as classes aqui informadas para uma representação numérica.

In [49]:
df['Category'].value_counts()

travel blog           2200
Science&Technology    2074
Food                  1828
Art&Music             1765
manufacturing         1699
History               1645
Name: Category, dtype: int64

In [50]:
lista_categorias = df['Category'].value_counts().index.to_list()
dict_mapeamento = dict()
for i in range(len(lista_categorias)):
    dict_mapeamento[lista_categorias[i]] = i
df['Category'] = df['Category'].map(dict_mapeamento)
df.head()

Unnamed: 0,Title,Category
0,Madagascar Street Food!!! Super RARE Malagasy ...,2
1,42 Foods You Need To Eat Before You Die,2
2,Gordon Ramsay’s Top 5 Indian Dishes,2
3,How To Use Chopsticks - In About A Minute 🍜,2
4,Trying Indian Food 1st Time!,2


## Bag of Words

O bag of words é uma representação de um texto, na forma de conjunto de palavras. Essa representação é bastante utilizada porque ela transforma o texto em um conjunto de informações mensuráveis (feature extraction). Nesse caso, foi utilizado um dicionário cujas chaves representam as palavras do vocabulário (qualquer palavra presente em algum título do dataset que não é stopword e possui mais de 3 caracteres) e cujos valores são 1 se essa palavra está presente no título e 0 caso contrário. 

### Criação do Vocabulário

In [51]:
#import nltk
#nltk.download('punkt')

lista_stopwords = set(stopwords.words('english'))

vocabulario = list()

df['Title'] = df['Title'].apply(lambda x: x.lower()) # Tirando letras minúsculas
df['Title'] = df['Title'].apply(lambda x: re.sub("[^a-zA-Z]"," ", x)) # Filtrando símbolos 
for i, row in df.iterrows():
    lista_titulo = word_tokenize(row['Title'])
    lista_novo_titulo = []
    for palavra in lista_titulo:
        if len(palavra) > 3 and palavra not in lista_stopwords:
            vocabulario.append(palavra)
            lista_novo_titulo.append(palavra)
    df.at[i, 'Title'] = lista_novo_titulo

vocabulario = sorted(set(vocabulario))
print("Tamanho do Vocabulário:", len(vocabulario))
print(vocabulario)

# Tentar reduzir o número de palavras do vocabulário tirando as stopwords das linguagens mais comuns

'en'

In [None]:
array_vazia = ([0] * len(vocabulario))
array_bow = {}
for palavra in vocabulario:
    array_bow[palavra] = 0

lista_bows = list()
for i, row in df.iterrows():
    lista_titulo = row['Title']
    array_bow_copia = array_bow.copy()
    for palavra in lista_titulo:
        array_bow_copia[palavra] = 1
    lista_bows.append(array_bow_copia)
    
df['BOW'] = lista_bows
df_com_titulo = df # Guardando esse dataframe com as três colunas
df = df.iloc[:, [1, 2]] # Filtrando apenas a Categoria e o BOW
df_com_titulo