<a href="https://colab.research.google.com/github/MarcelaMonteiroMontenegroGallo/Python/blob/master/exercise_tfidf_esporte.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [0]:
# Install dependencies
!pip3 install -q numpy scipy
!pip3 install --upgrade -q gspread

In [0]:
# Auth GDrive
from google.colab import auth
auth.authenticate_user()

import gspread
from oauth2client.client import GoogleCredentials

gc = gspread.authorize(GoogleCredentials.get_application_default())

In [0]:
# Open our new sheet and read some data.
worksheet = gc.open('esportes').sheet1

# get_all_values gives a list of rows.
rows = worksheet.get_all_values()
print(rows)

[['esporte', 'esporte ID', 'texto'], ['futebol', '1', 'O futebol é mais do que uma paixão nacional: é uma paixão mundial! Ainda que nós, brasileiros, quiséssemos que o futebol fosse uma invenção nacional, o mérito de sua criação é da Inglaterra. Esse esporte ganhou suas formas modernas no final do século XIX.'], ['futebol', '1', 'O comentarista Walter Casagrande Jr, da TV Globo, se posicionou nesta terça-feira (8 de maio), no programa Globo Esporte SP, sobre a questão que gera tanto debate entre torcedores do Palmeiras e dos rivais: afinal, o Palmeiras tem ou não tem Mundial?'], ['basquete', '2', 'O basquete, como é conhecido no Brasil, é um esporte criado em 1891 pelo pastor canadense presbiteriano e também professor de educação física da Associação Cristã de Moços, James Naismith. O nome em inglês, basketball, significa bola no cesto. É um dos esportes mais populares do mundo.'], ['basquete', '2', 'O jogo é disputado por duas equipes de cinco jogadores que tem por objetivo passar a b

In [0]:
# Convert to a DataFrame and render.
import pandas as pd
cols = ['esporte', 'esporte ID', 'texto']
df = pd.DataFrame.from_records(rows, columns = cols)

# Remove header
df = df.iloc[1:]

df

Unnamed: 0,esporte,esporte ID,texto
1,futebol,1,O futebol é mais do que uma paixão nacional: é...
2,futebol,1,"O comentarista Walter Casagrande Jr, da TV Glo..."
3,basquete,2,"O basquete, como é conhecido no Brasil, é um e..."
4,basquete,2,O jogo é disputado por duas equipes de cinco j...
5,tenis,3,Tênis é um esporte praticado entre dois oponen...
6,tenis,3,O tênis possui uma pontuação que o subdivide e...


In [0]:
# Tokenization

# CountVectorizer builds a dictionary of features and transforms documents 
# to feature vectors:

from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(df['texto'].astype(str).values.tolist())
print(type(X_train_counts))
print(X_train_counts.shape)
print(X_train_counts)

<class 'scipy.sparse.csr.csr_matrix'>
(6, 145)
  (0, 144)	1
  (0, 131)	1
  (0, 51)	1
  (0, 84)	1
  (0, 75)	1
  (0, 52)	1
  (0, 129)	1
  (0, 58)	1
  (0, 45)	1
  (0, 47)	1
  (0, 61)	1
  (0, 28)	1
  (0, 26)	1
  (0, 128)	1
  (0, 29)	1
  (0, 79)	1
  (0, 63)	1
  (0, 53)	1
  (0, 116)	1
  (0, 10)	1
  (0, 87)	1
  (0, 2)	1
  (0, 77)	1
  (0, 80)	2
  (0, 94)	2
  :	:
  (4, 8)	1
  (4, 41)	1
  (4, 140)	2
  (4, 92)	1
  (4, 42)	1
  (4, 45)	1
  (4, 29)	2
  (4, 141)	3
  (5, 123)	1
  (5, 103)	1
  (5, 23)	2
  (5, 56)	1
  (5, 97)	1
  (5, 124)	1
  (5, 68)	1
  (5, 57)	2
  (5, 130)	1
  (5, 104)	1
  (5, 108)	1
  (5, 139)	1
  (5, 41)	1
  (5, 140)	4
  (5, 29)	2
  (5, 141)	1
  (5, 114)	1


In [0]:
# TFIDF

# We firstly use the fit(..) method to fit our estimator to the data and 
# secondly the transform(..) method to transform our count-matrix to a tf-idf
# representation. 
from sklearn.feature_extraction.text import TfidfTransformer
tf_transformer = TfidfTransformer(use_idf=False).fit(X_train_counts)
X_train_tf = tf_transformer.transform(X_train_counts)
print(X_train_tf.shape)

# These two steps can be combined to achieve the same end 
# result faster by skipping redundant processing. This is done through using 
# the fit_transform(..) method as shown below
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)
print(type(X_train_tfidf))
print(X_train_tfidf.shape)
print(X_train_tfidf)


(6, 145)
<class 'scipy.sparse.csr.csr_matrix'>
(6, 145)
  (0, 54)	0.3143933506945337
  (0, 73)	0.1289035225143728
  (0, 35)	0.1865167309910993
  (0, 114)	0.27977509648664894
  (0, 141)	0.27977509648664894
  (0, 94)	0.3143933506945337
  (0, 80)	0.3143933506945337
  (0, 77)	0.1289035225143728
  (0, 2)	0.15719667534726686
  (0, 87)	0.15719667534726686
  (0, 10)	0.15719667534726686
  (0, 116)	0.15719667534726686
  (0, 53)	0.15719667534726686
  (0, 63)	0.15719667534726686
  (0, 79)	0.15719667534726686
  (0, 29)	0.06977950079331219
  (0, 128)	0.15719667534726686
  (0, 26)	0.15719667534726686
  (0, 28)	0.09325836549554965
  (0, 61)	0.15719667534726686
  (0, 47)	0.15719667534726686
  (0, 45)	0.09325836549554965
  (0, 58)	0.15719667534726686
  (0, 129)	0.15719667534726686
  (0, 52)	0.15719667534726686
  :	:
  (4, 89)	0.17573326430387815
  (4, 142)	0.17573326430387815
  (4, 117)	0.17573326430387815
  (4, 96)	0.3514665286077563
  (4, 118)	0.17573326430387815
  (4, 101)	0.17573326430387815
  (4, 7

In [0]:
# Train ML
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB().fit(X_train_tfidf, df['esporte ID'].astype(int).values.tolist())


In [0]:
# Predict
docs_new = ['Futebol é legal', 'Basquete é muito melhor', 'tênis é bom demais']
X_new_counts = count_vect.transform(docs_new)
X_new_tfidf = tfidf_transformer.transform(X_new_counts)

predicted = clf.predict(X_new_tfidf)

for doc, category in zip(docs_new, predicted):
   print('%r => %s' % (doc, category))


'Futebol é legal' => 1
'Basquete é muito melhor' => 2
'tênis é bom demais' => 3


# New Section