In [None]:
## Exemplo inicial - Utilizar o scikit-learn para prever o gênero de um filme a partir de seu enredo

#' Receituário:
#' 0-Coletar 
#' 1-pré-processar os dados;
#' 2-Definir um rótulo (target): gênero do filme;
#' 3-Dividir os dados em treinamento e teste;
#'   3.1-Os dados de testes permacem invisíveis (stand-by);
#' 4-Extrair features do texto para prever o rótulo;
#' 5-pode-se utilizar um vetorizador bag-of-words embutido no scikit-learn para isso.
#' 6-Depois que o modelo é treinado, podemos testá-lo usando o conjunto de dados de teste.

In [None]:
## Construindo vetores de contagem de palavras com scikit-learn

#' Temos um conjunto de dados cheio de enredos de filmes e de qual gênero o filme é - ação ou ficção científica. 
#' Queremos criar vetores utilizando bag-of-words para esses enredos de filmes para ver se podemos prever o gênero 
#' com base nas palavras usadas no resumo do enredo.



In [6]:
## Problema 1 - Classificador de Fake news

## CountVectorizer para classificação de texto

# Import the necessary modules
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
import os

df = pd.read_csv(r'../data/fake_or_real_news.csv')

# Print the head of df
# print(df.head())
# df.describe() 

display(df)
df.info() 


Unnamed: 0.1,Unnamed: 0,title,text,label
0,8476,You Can Smell Hillary’s Fear,"Daniel Greenfield, a Shillman Journalism Fello...",FAKE
1,10294,Watch The Exact Moment Paul Ryan Committed Pol...,Google Pinterest Digg Linkedin Reddit Stumbleu...,FAKE
2,3608,Kerry to go to Paris in gesture of sympathy,U.S. Secretary of State John F. Kerry said Mon...,REAL
3,10142,Bernie supporters on Twitter erupt in anger ag...,"— Kaydee King (@KaydeeKing) November 9, 2016 T...",FAKE
4,875,The Battle of New York: Why This Primary Matters,It's primary day in New York and front-runners...,REAL
...,...,...,...,...
6330,4490,State Department says it can't find emails fro...,The State Department told the Republican Natio...,REAL
6331,8062,The ‘P’ in PBS Should Stand for ‘Plutocratic’ ...,The ‘P’ in PBS Should Stand for ‘Plutocratic’ ...,FAKE
6332,8622,Anti-Trump Protesters Are Tools of the Oligarc...,Anti-Trump Protesters Are Tools of the Oligar...,FAKE
6333,4021,"In Ethiopia, Obama seeks progress on peace, se...","ADDIS ABABA, Ethiopia —President Obama convene...",REAL


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6335 entries, 0 to 6334
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  6335 non-null   int64 
 1   title       6335 non-null   object
 2   text        6335 non-null   object
 3   label       6335 non-null   object
dtypes: int64(1), object(3)
memory usage: 198.1+ KB


In [49]:
# Create a series to store the labels: y
y = df['label']
y

# # Create training and test sets
X_train, X_test, y_train, y_test = train_test_split(df['text'], y, test_size = 0.33, random_state = 53)

# # Initialize a CountVectorizer object: count_vectorizer
count_vectorizer = CountVectorizer(stop_words='english')

print('Com CountVectorizer, estamos convertendo texto bruto em uma representação vetorial numérica de palavras.', '\n' 
      'Por default, CountVectorizer aplicar lowercase, encoding utf-8, tokenize, ignora palavras irrelevantes, etc')
display(count_vectorizer)

# # CountVectorizer is used to transform a given text into a vector on the basis of the frequency (count) of each word 
# # that occurs in the entire text.

# # Transform the training data using only the 'text' column values: count_train # criar o vetorizador
count_train = count_vectorizer.fit_transform(X_train.values)

# 4244 x 56922 sparse matrix of type with 1119820 stored elements
count_train 

print('O vetor texto é transformado em uma matriz esparsa:') 
print(count_train.toarray()) 



Com CountVectorizer, estamos convertendo texto bruto em uma representação vetorial numérica de palavras. 
Por default, CountVectorizer aplicar lowercase, encoding utf-8, tokenize, ignora palavras irrelevantes, etc


CountVectorizer(stop_words='english')

O vetor texto é transformado em uma matriz esparsa:
[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


In [40]:
# # Transform the test data using only the 'text' column values: count_test 
count_test = count_vectorizer.transform(X_test.values)

# 2091 x 56922 sparse matrix with 533697 stored elements
count_test

print('O vetor texto é transformado em uma matriz esparsa:') 
print(count_test.toarray()) 

# Or if we wanted to get multiple vectors at once to build matrices
print('President Obama: ')
print(count_vectorizer.transform(['President', 'Obama']).toarray())

# Print the first 100 features of the count_vectorizer
print(count_vectorizer.get_feature_names()[:100])

Full vector: 
[[0 0 0 ... 0 0 0]
 [0 3 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]
President Obama: 
[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]
President: 
[[0 0 0 ... 0 0 0]]
['00', '000', '0000', '00000031', '000035', '00006', '0001', '0001pt', '000ft', '000km', '001', '0011', '002', '003', '004', '006', '006s', '007', '007s', '008', '008s', '009', '0099', '00am', '00p', '00pm', '01', '010', '013', '014', '015', '016', '018', '01am', '02', '020', '022', '023', '024', '025', '027', '028', '02welcome', '03', '031', '032', '0325', '033', '034', '035', '037', '039', '03eb', '04', '040', '0400', '042', '044', '048', '049', '04pm', '05', '0509245d29', '052', '056', '06', '062', '066', '068', '06pm', '07', '0700', '075', '076', '079', '07dryempjx', '08', '080', '081', '082', '084', '089', '0891', '09', '098263', '09am', '09pm', '0_jgdktlmn', '0a_merrill', '0d', '0fjjvowyhg8qtskiz', '0h4at2yetra17uxetni02ls2jeg0mty45jrcu7mrzsrpcbq464i', '0hq3vb2

In [52]:
## TfidfVectorizer for text classification

#' Semelhante ao CountVectorizer criado no exercício anterior, podemos utilizar vetores tf-idf para os documentos.

# Import TfidfVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

# Initialize a TfidfVectorizer object: tfidf_vectorizer
tfidf_vectorizer = TfidfVectorizer(stop_words="english", max_df=0.7)

# Transform the training data: tfidf_train 
tfidf_train = tfidf_vectorizer.fit_transform(X_train.values)

# Transform the test data: tfidf_test 
tfidf_test = tfidf_vectorizer.transform(X_test.values)

# Print the first 10 features
print('The first 10 features:')
print(tfidf_vectorizer.get_feature_names()[:10])

# Print the first 5 vectors of the tfidf training data
print('The first 5 vectors of the tfidf training data:')
print(tfidf_train.A[:5])


The first 10 features:
['00', '000', '0000', '00000031', '000035', '00006', '0001', '0001pt', '000ft', '000km']
The first 5 vectors of the tfidf training data:
[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]


In [54]:
## Inspecting the vectors

# Create the CountVectorizer DataFrame: count_df
count_df = pd.DataFrame(count_train.A, columns = count_vectorizer.get_feature_names())

# Create the TfidfVectorizer DataFrame: tfidf_df
tfidf_df = pd.DataFrame(tfidf_train.A, columns = tfidf_vectorizer.get_feature_names())

# Print the head of count_df
print(count_df.head())

# Print the head of tfidf_df
print(tfidf_df.head())

# Calculate the difference in columns: difference
difference = set(count_df.columns) - set(tfidf_df.columns)
print(difference)

# Check whether the DataFrames are equal
print(count_df.equals(tfidf_df))

   00  000  0000  00000031  000035  00006  0001  0001pt  000ft  000km  ...  \
0   0    0     0         0       0      0     0       0      0      0  ...   
1   0    0     0         0       0      0     0       0      0      0  ...   
2   0    0     0         0       0      0     0       0      0      0  ...   
3   0    0     0         0       0      0     0       0      0      0  ...   
4   0    0     0         0       0      0     0       0      0      0  ...   

   حلب  عربي  عن  لم  ما  محاولات  من  هذا  والمرضى  ยงade  
0    0     0   0   0   0        0   0    0        0      0  
1    0     0   0   0   0        0   0    0        0      0  
2    0     0   0   0   0        0   0    0        0      0  
3    0     0   0   0   0        0   0    0        0      0  
4    0     0   0   0   0        0   0    0        0      0  

[5 rows x 56922 columns]
    00  000  0000  00000031  000035  00006  0001  0001pt  000ft  000km  ...  \
0  0.0  0.0   0.0       0.0     0.0    0.0   0.0     0.0    

In [None]:
## Adendo sobre Naive Bayes

# Um modelo Naive Bayes é comumente usado para testar problemas de classificação de NLP devido à sua base em probabilidade. 
# O algoritmo Naive Bayes usa probabilidade, tentando responder à pergunta: 
# Se dado um determinado evento, qual a probabilidade de um determinado resultado? 

# Por exemplo, voltando ao nosso conjunto de dados de gêneros de filmes: 
# se o enredo tem uma nave espacial, qual é a probabilidade de o filme ser ficção científica? 
# E dada uma nave espacial e um alienígena, qual a probabilidade de AGORA ser um filme de ficção científica? 

# Cada palavra atua como um recurso do nosso CountVectorizer, ajudando a classificar nosso texto usando probabilidade. 

# Naive bayes tem sido usado para problemas de classificação de texto desde a década de 1960 e continua a ser usado hoje, 
# apesar do crescimento de muitos outros modelos, algoritmos e arquiteturas de redes neurais. 

# Dito isto, nem sempre é a melhor ferramenta para o trabalho.

In [None]:
## MultinomialNB também é usado para classificação de rótulos múltiplos. 

# Este modelo pode não funcionar tão bem com floats, como em entradas ponderadas da matrix tfidf. 
# Em vez disso, use SVM ou até mesmo modelos lineares; 

# embora eu recomende tentar o Naive Bayes primeiro para determinar se ele também pode funcionar bem.

In [None]:
## Training and testing a classification model with scikit-learn

