# Exercícios

## Exercício 2: Dataset com posts

- **Dataset que contém posts: classificação (0 - negativo; 1 - positivo) **
- **Objetivo: criar um modelo para avaliar posts**

Adaptado de: http://scikit-learn.org/stable/index.html

In [None]:
# importar bibliotecas uteis para estudo
import os

import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report, accuracy_score

DATA_DIR = os.path.join(os.getcwd(), '.')

In [None]:
# funcao que abre o arquivo e monta a estrutura dos dados
def load_data():
    items = {'label': [], 'data': []}
    with open(os.path.join(DATA_DIR, 'data/posts.txt')) as f:
        for line in f:
            label, sent = line.split('\t')
            items['label'].append(label)
            items['data'].append(sent.strip())
    return items

In [None]:
# funcao para criar um pipeline para encadear diversas operacoes de transformacoes dos dados
def build_pipeline():
    parameters = {'n_estimators': [10, 30, 50, 70, 90, 110, 130, 150], 'max_features': ['auto', 'sqrt', 'log2', None]}
    text_clf = Pipeline([('vect', CountVectorizer()),
                         ('tfidf', TfidfTransformer()),
                         ('clf', GridSearchCV(RandomForestClassifier(), parameters, cv=2, scoring='accuracy', n_jobs=-1)),
                         ])
    return text_clf

In [None]:
items = load_data()
print(items)

In [None]:
# carrega os dados
items = load_data()

#divide o dataset em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(items['data'], items['label'], test_size=0.5)

# criar o pipeline com as transformacoes
text_clf = build_pipeline()

# aprende o modelo
text_clf = text_clf.fit(X_train, y_train)

# verificar o modelo com os dados de teste
y_pred = text_clf.predict(X_test)

# avalia o quao bom eh o modelo
print('Accuracy: {}'.format(accuracy_score(y_test, y_pred)))

In [None]:
print(y_train)
print(X_train)

In [None]:
# um teste simples sobre o modelo
y_pred = text_clf.predict(["Corinthians triste"])
print(y_pred)

## Consumindo dados do Twitter

É necessário que gere uma conta de desenvolvedor para acessar a API do Twitter. Acesse https://developer.twitter.com ou google para mais informações.

In [None]:
import twitter

# conexao com a API. Coloque seus dados e NUNCA compartilhe-os em um repositório público
ckey = "preencha com seus dados"
csecret = "preencha com seus dados"
akey = "preencha com seus dados"
asecret = "preencha com seus dados"

api = twitter.Api(consumer_key=ckey,
  consumer_secret=csecret,
  access_token_key=akey,
  access_token_secret=asecret)

print(api.VerifyCredentials())

In [None]:
# busca por um termo e criacao de um vetor
busca = "Corinthians" 
search = api.GetSearch(busca) 
tweets = []
for tweet in search:
    tweets.append(tweet.text)

In [None]:
print(tweets)

In [None]:
#Executando o modelo para classificar cada post
y_pred = text_clf.predict(tweets)
print(y_pred)