# Exemplo simples de vetorização sobre o dataset de sátiras do Sensacionalista 

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

Lendo o dataset, que consiste nos títulos (title), corpo da notícia (text) e um label (satire). Para este exemplo, serão vetorizados apenas os títulos das notícias.

In [2]:
df = pd.read_csv("csv_satiras_politicas.csv")
X_titulos = df['title']

Para vetorização, serão utilizados os pesos TFIDF:

\begin{equation*}
w_{i,j} = tf_{i,j} * \log (\frac{N}{df_{i}})
\end{equation*}

Onde:

- $w_{i,j}$ peso TFIDF para o termo i no documento j.
- $tf_{i,j}$ número de ocorrências do termo i no documento j.
- $df_{i}$ número de documentos que contém o termo i.
- $N$ número total de documentos.

Função que deverá receber os dados textuais (e.g. lista de strings, pandas Series...) e irá vetorizar os dados, retornando tanto os vetores, quando o modelo treinando com o vocabulário. 

In [3]:
def buildTFIDFVectorizer(X_train):
    tfidf_vectorizer = TfidfVectorizer()
    tfidf_train = tfidf_vectorizer.fit_transform(X_train) 
    return tfidf_train, tfidf_vectorizer

In [4]:
vectors, vectorizer = buildTFIDFVectorizer(X_titulos)

Obtendo o formato da matriz gerada, onde (linhas, colunas). As linhas representam cada um dos títulos presentes no dataset, e as colunas representam os tokens (palavras) presentes no vocabulário aprendido.

In [5]:
print(vectors.shape)

(4374, 9747)


Exibindo os tokens aprendidos pelo vectorizer

In [6]:
print(vectorizer.get_feature_names())

['000', '00000', '002', '03', '07', '081', '0h', '10', '100', '10h', '10x', '11', '110', '111', '112', '116', '12', '120', '121', '125', '127', '129kg', '12h', '12o', '12x', '13', '130kg', '134', '1358', '137', '139', '13o', '14', '143', '14h', '14o', '15', '150', '1500', '158', '159', '16', '16h', '17', '170', '175', '18', '1800', '19', '1940', '1950', '1955', '1964', '19682', '1977', '1982', '1983', '1989', '1992', '1998', '19h', '1o', '20', '200', '2001', '2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018', '2022', '2032', '2037', '2050', '21', '22', '22h', '23', '24', '241', '24fps', '24h', '25', '253', '25o', '26', '260', '27', '290', '2a', '2o', '30', '300', '31', '3112', '32', '326', '33', '34', '341', '35', '355', '357', '364', '365', '37', '38', '380', '38o', '39', '3979', '3a', '3d', '3h', '40', '400', '402', '403', '420', '43', '432', '45', '450', '453', '457', '46', '48', '4k', '50', '500', '50co', '51', '516', '52', '53', '54', '55', '56', '58', 