# Ciência de dados - Pipeline

<img src='crisp-dm-nutshell-v3.png'>

## NLP pipeline

**Definição:** Processamento de linguagem natural (PLN) é uma vertente da inteligência artificial que ajuda computadores a entender, interpretar e manipular a linguagem humana.

<img src='nlp_ml.png'>

In [1]:
import pandas as pd
import numpy as np
import nltk
from nltk import word_tokenize

from nltk.corpus import stopwords

In [2]:
texto = """No meio do caminho tinha uma pedra
tinha uma pedra no meio do caminho
tinha uma pedra
no meio do caminho tinha uma pedra.
Nunca me esquecerei desse acontecimento
na vida de minhas retinas tão fatigadas.
Nunca me esquecerei que no meio do caminho
tinha uma pedra
tinha uma pedra no meio do caminho
no meio do caminho tinha uma pedra."""

In [3]:
estrofe1= """no meio do caminho tinha uma pedra tinha uma pedra no meio do caminho tinha uma pedra no meio do caminho tinha uma pedra"""

estrofe2 = """nunca me esquecerei desse acontecimento na vida de minhas retinas tão fatigadas nunca me esquecerei que no meio do caminho tinha uma pedra tinha uma pedra no meio do caminho no meio do caminho tinha uma pedra"""


**Stop words**

In [4]:
stop_words = set(stopwords.words('portuguese'))
  
# tokenize
word_tokens = word_tokenize(texto)
  
filtered_sentence = [w for w in word_tokens if not w.lower() in stop_words]
  
filtered_sentence = []

# remove stop swords
for w in word_tokens:
    if w not in stop_words:
        filtered_sentence.append(w)
  
print(word_tokens)
print('--------------------------------------------------------------------------------------------------------------')
print(filtered_sentence)

['No', 'meio', 'do', 'caminho', 'tinha', 'uma', 'pedra', 'tinha', 'uma', 'pedra', 'no', 'meio', 'do', 'caminho', 'tinha', 'uma', 'pedra', 'no', 'meio', 'do', 'caminho', 'tinha', 'uma', 'pedra', '.', 'Nunca', 'me', 'esquecerei', 'desse', 'acontecimento', 'na', 'vida', 'de', 'minhas', 'retinas', 'tão', 'fatigadas', '.', 'Nunca', 'me', 'esquecerei', 'que', 'no', 'meio', 'do', 'caminho', 'tinha', 'uma', 'pedra', 'tinha', 'uma', 'pedra', 'no', 'meio', 'do', 'caminho', 'no', 'meio', 'do', 'caminho', 'tinha', 'uma', 'pedra', '.']
--------------------------------------------------------------------------------------------------------------
['No', 'meio', 'caminho', 'pedra', 'pedra', 'meio', 'caminho', 'pedra', 'meio', 'caminho', 'pedra', '.', 'Nunca', 'esquecerei', 'desse', 'acontecimento', 'vida', 'retinas', 'tão', 'fatigadas', '.', 'Nunca', 'esquecerei', 'meio', 'caminho', 'pedra', 'pedra', 'meio', 'caminho', 'meio', 'caminho', 'pedra', '.']


In [5]:
print(stopwords.words('portuguese'))

['de', 'a', 'o', 'que', 'e', 'é', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estiv

**Stemming** 

In [6]:
#importa o porter stemmer
from nltk.stem import PorterStemmer

In [7]:
sentences = nltk.sent_tokenize(texto)
wordstokenized = nltk.word_tokenize(texto)

In [8]:
# Para reduzirmos um termo para sua raiz realizamos o processo de stemming - Essas palavras podem ou não ter um sentido
# por exemplo: intelligently - intelligen

# instancia o porter stemmer
stemmer = PorterStemmer()

# primeira forma => output: uma string contendo tudo junto
for i in range(len(sentences)):
    words = nltk.word_tokenize(sentences[i])
    newwords = [stemmer.stem(word) for word in words]
    sentences[i] = ' '.join(newwords)

print (sentences)

['no meio do caminho tinha uma pedra tinha uma pedra no meio do caminho tinha uma pedra no meio do caminho tinha uma pedra .', 'nunca me esquecerei dess acontecimento na vida de minha retina tão fatigada .', 'nunca me esquecerei que no meio do caminho tinha uma pedra tinha uma pedra no meio do caminho no meio do caminho tinha uma pedra .']


**Normalização**

Alguns passos importantes: 
* Colocar todas as palavras em minusculos
* Remover pontuações ou símbolos 
* Retornar o texto para uma única string

In [9]:
import re

# deixa todas as letras minúsculas
texto_min = texto.lower()

# seleciona apenas letras (lembrando que o texto está em português e as letras possuem acento)
apenas_letras = re.findall(r'[a-zéóáêâãõç]+', texto_min)

# junta o texto, já que o .findall separa em tokens
novo_texto = " ".join(apenas_letras)

print(novo_texto)

no meio do caminho tinha uma pedra tinha uma pedra no meio do caminho tinha uma pedra no meio do caminho tinha uma pedra nunca me esquecerei desse acontecimento na vida de minhas retinas tão fatigadas nunca me esquecerei que no meio do caminho tinha uma pedra tinha uma pedra no meio do caminho no meio do caminho tinha uma pedra


## Bag of Words 

Agora a outra parte: 
    
* Separar nosso texto em tokens;
* Criar uma lista para guardarmos o vocabulário;
* Fazer um loop para percorrer o texto inteiro;
* Criar uma condicional para verificar se a palavra está na lista —fazemos isso porque nosso vocabulário conta apenas as ocorrências únicas, sem repetições de palavras;
Caso não esteja, ela é adicionada.

In [10]:

tokens = word_tokenize(novo_texto)


Vocab = []
for token in tokens:
    if token not in Vocab:
        Vocab.append(token)

print(Vocab,"\n",len(Vocab))

['no', 'meio', 'do', 'caminho', 'tinha', 'uma', 'pedra', 'nunca', 'me', 'esquecerei', 'desse', 'acontecimento', 'na', 'vida', 'de', 'minhas', 'retinas', 'tão', 'fatigadas', 'que'] 
 20


O proxímo passo é: 

* Criar uma lista que representa o vetor;
* Fazer um loop para percorrer todas as palavras do vocabulário;
* Se a palavra estiver no documento, adicionar 1 à lista; caso contrário, adicionar 0;
* Transformar a lista final em um array do numpy e retornar.


In [11]:
import numpy as np

def cria_vetor_documento(documento, vocab):
    vetor = []

    for palavra in vocab:
        if palavra in documento:
            vetor.append(1)
        else:
            vetor.append(0)
  
    return np.array(vetor)

In [12]:
cria_vetor_documento(novo_texto, Vocab)

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [13]:
novo_texto

'no meio do caminho tinha uma pedra tinha uma pedra no meio do caminho tinha uma pedra no meio do caminho tinha uma pedra nunca me esquecerei desse acontecimento na vida de minhas retinas tão fatigadas nunca me esquecerei que no meio do caminho tinha uma pedra tinha uma pedra no meio do caminho no meio do caminho tinha uma pedra'

# TF-IDF

* Term Frequency (a frequência do termo), que mede a frequência com que um termo ocorre num documento;
* Inverse Document Frequency (inverso da frequência nos documentos), que mede o quão importante um termo é no contexto de todos os documentos.

<img src='tfidf.png'>

In [31]:
estrofe2

'nunca me esquecerei desse acontecimento na vida de minhas retinas tão fatigadas nunca me esquecerei que no meio do caminho tinha uma pedra tinha uma pedra no meio do caminho no meio do caminho tinha uma pedra'

In [32]:
e1_tokens = estrofe1.split()

e2_tokens = estrofe2.split()

In [15]:
def dicionario_de_contagem(vocabulario, documento):
  
  '''Recebe uma lista com o vocabulario e uma lista de tokens de um documento.
  Retorna um dicionario com o numero de vezes que cada palavra do vocabulario
  ocorre no documento.'''
  
  dic = dict.fromkeys(vocabulario, 0)
  for palavra in documento:
    dic[palavra] += 1
  
  return dic

In [16]:
e1_dic_cont = dicionario_de_contagem(Vocab, e1_tokens)
e2_dic_cont = dicionario_de_contagem(Vocab, e2_tokens)

print(e1_dic_cont,'\n')
print(e2_dic_cont)

{'no': 3, 'meio': 3, 'do': 3, 'caminho': 3, 'tinha': 4, 'uma': 4, 'pedra': 4, 'nunca': 0, 'me': 0, 'esquecerei': 0, 'desse': 0, 'acontecimento': 0, 'na': 0, 'vida': 0, 'de': 0, 'minhas': 0, 'retinas': 0, 'tão': 0, 'fatigadas': 0, 'que': 0} 

{'no': 3, 'meio': 3, 'do': 3, 'caminho': 3, 'tinha': 3, 'uma': 3, 'pedra': 3, 'nunca': 2, 'me': 2, 'esquecerei': 2, 'desse': 1, 'acontecimento': 1, 'na': 1, 'vida': 1, 'de': 1, 'minhas': 1, 'retinas': 1, 'tão': 1, 'fatigadas': 1, 'que': 1}


In [17]:
def calculaTF(dic_de_cont, doc):     
    
    tf_dic = {}
    
    num_palavras_doc = len(doc)     
    for palavra, contagem in dic_de_cont.items():         
        tf_dic[palavra] = contagem/float(num_palavras_doc)     
    
    return(tf_dic)

In [18]:
e1_tf_bow = calculaTF(e1_dic_cont, e1_tokens)
e2_tf_bow = calculaTF(e2_dic_cont, e2_tokens)

In [None]:
e2_dic_cont

In [29]:
e2_tf_bow

{'no': 0.08108108108108109,
 'meio': 0.08108108108108109,
 'do': 0.08108108108108109,
 'caminho': 0.08108108108108109,
 'tinha': 0.08108108108108109,
 'uma': 0.08108108108108109,
 'pedra': 0.08108108108108109,
 'nunca': 0.05405405405405406,
 'me': 0.05405405405405406,
 'esquecerei': 0.05405405405405406,
 'desse': 0.02702702702702703,
 'acontecimento': 0.02702702702702703,
 'na': 0.02702702702702703,
 'vida': 0.02702702702702703,
 'de': 0.02702702702702703,
 'minhas': 0.02702702702702703,
 'retinas': 0.02702702702702703,
 'tão': 0.02702702702702703,
 'fatigadas': 0.02702702702702703,
 'que': 0.02702702702702703}

In [19]:
import math

def computaIDF(lista_de_docs):
    idf_dic = {}
    N = len(lista_de_docs)

    for palavra in lista_de_docs[0]:
        num_docs_aparece = 0
        for doc in lista_de_docs:
            if doc[palavra]>0:
                num_docs_aparece += 1
        
        idf_dic[palavra] = math.log10(N / (num_docs_aparece))

    return (idf_dic)

In [20]:
estrofes_idf = computaIDF([e1_dic_cont, e2_dic_cont])
print(estrofes_idf)

{'no': 0.0, 'meio': 0.0, 'do': 0.0, 'caminho': 0.0, 'tinha': 0.0, 'uma': 0.0, 'pedra': 0.0, 'nunca': 0.3010299956639812, 'me': 0.3010299956639812, 'esquecerei': 0.3010299956639812, 'desse': 0.3010299956639812, 'acontecimento': 0.3010299956639812, 'na': 0.3010299956639812, 'vida': 0.3010299956639812, 'de': 0.3010299956639812, 'minhas': 0.3010299956639812, 'retinas': 0.3010299956639812, 'tão': 0.3010299956639812, 'fatigadas': 0.3010299956639812, 'que': 0.3010299956639812}


In [21]:
def computaTFIDF(tf_bow, idfs):
    tfidf = {}

    for palavra in tf_bow:
        tf = tf_bow[palavra]
        idf = idfs[palavra]
        tfidf[palavra] = tf*idf
        
    return(tfidf)
  
e1_tfidf = computaTFIDF(e1_tf_bow, estrofes_idf)
e2_tfidf = computaTFIDF(e2_tf_bow, estrofes_idf)

In [22]:
tfidf_dataframe = pd.DataFrame([e1_tfidf, e2_tfidf])
tfidf_dataframe["Estrofes"] = ['estrofe 1', 'estrofe 2']
tfidf_dataframe.reset_index(inplace=True)
tfidf_dataframe.drop('index', 1, inplace = True)
tfidf_dataframe.set_index('Estrofes', inplace=True)
tfidf_dataframe.index.name = None

tfidf_dataframe

  tfidf_dataframe.drop('index', 1, inplace = True)


Unnamed: 0,no,meio,do,caminho,tinha,uma,pedra,nunca,me,esquecerei,desse,acontecimento,na,vida,de,minhas,retinas,tão,fatigadas,que
estrofe 1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
estrofe 2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.016272,0.016272,0.016272,0.008136,0.008136,0.008136,0.008136,0.008136,0.008136,0.008136,0.008136,0.008136,0.008136


In [27]:
tfidf_dataframe.shape

(2, 20)

**tfidf usando nltk**

In [23]:
estrofes = [estrofe1, estrofe2]
estrofes

['no meio do caminho tinha uma pedra tinha uma pedra no meio do caminho tinha uma pedra no meio do caminho tinha uma pedra',
 'nunca me esquecerei desse acontecimento na vida de minhas retinas tão fatigadas nunca me esquecerei que no meio do caminho tinha uma pedra tinha uma pedra no meio do caminho no meio do caminho tinha uma pedra']

In [24]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(estrofes)
vectorizer.get_feature_names()

['acontecimento',
 'caminho',
 'de',
 'desse',
 'do',
 'esquecerei',
 'fatigadas',
 'me',
 'meio',
 'minhas',
 'na',
 'no',
 'nunca',
 'pedra',
 'que',
 'retinas',
 'tinha',
 'tão',
 'uma',
 'vida']

In [26]:
df_estrofes = pd.DataFrame(X.toarray())
df_estrofes.columns = vectorizer.get_feature_names()
df_estrofes

Unnamed: 0,acontecimento,caminho,de,desse,do,esquecerei,fatigadas,me,meio,minhas,na,no,nunca,pedra,que,retinas,tinha,tão,uma,vida
0,0.0,0.327327,0.0,0.0,0.327327,0.0,0.0,0.0,0.327327,0.0,0.0,0.327327,0.0,0.436436,0.0,0.0,0.436436,0.0,0.436436,0.0
1,0.136217,0.290759,0.136217,0.136217,0.290759,0.272435,0.136217,0.272435,0.290759,0.136217,0.136217,0.290759,0.272435,0.290759,0.136217,0.136217,0.290759,0.136217,0.290759,0.136217


O calculo no sklearn é um pouco diferente: 
https://medium.com/analytics-vidhya/demonstrating-calculation-of-tf-idf-from-sklearn-4f9526e7e78b

## Exercicio

* Analise descritiva breve: tamanho da base; distribuição das classes;tamanho dos tweets; 
* Data Prep: remoção de stop words; remoção de links e hastags e pontuações; criação do tfidf
* Modelo: Aplicar a arvore de decisão para classificar em relevante e na

In [74]:
df = pd.read_csv('socialmedia_relevant_cols.csv', encoding='latin-1')
df.shape

(10876, 3)

In [75]:
df.head()

Unnamed: 0,text,choose_one,class_label
0,Just happened a terrible car crash,Relevant,1
1,Our Deeds are the Reason of this #earthquake M...,Relevant,1
2,"Heard about #earthquake is different cities, s...",Relevant,1
3,"there is a forest fire at spot pond, geese are...",Relevant,1
4,Forest fire near La Ronge Sask. Canada,Relevant,1


In [93]:
def standardize_text(df, text_field):
    df['text_field'] = df[text_field].apply(lambda elem: re.sub(r"http\S+", "", elem))
    df['text_field'] = df[text_field].apply(lambda elem: re.sub(r"(@[A-Za-z0–9_]+)|[^\w\s]|#|http\S+", "", elem))
    return df


In [94]:
standardize_text(df, 'text')

Unnamed: 0,text,choose_one,class_label,text_field
0,Just happened a terrible car crash,Relevant,1,Just happened a terrible car crash
1,Our Deeds are the Reason of this #earthquake M...,Relevant,1,Our Deeds are the Reason of this earthquake Ma...
2,"Heard about #earthquake is different cities, s...",Relevant,1,Heard about earthquake is different cities sta...
3,"there is a forest fire at spot pond, geese are...",Relevant,1,there is a forest fire at spot pond geese are ...
4,Forest fire near La Ronge Sask. Canada,Relevant,1,Forest fire near La Ronge Sask Canada
...,...,...,...,...
10871,M1.94 [01:04 UTC]?5km S of Volcano Hawaii. htt...,Relevant,1,M194 0104 UTC5km S of Volcano Hawaii
10872,Police investigating after an e-bike collided ...,Relevant,1,Police investigating after an ebike collided w...
10873,The Latest: More Homes Razed by Northern Calif...,Relevant,1,The Latest More Homes Razed by Northern Califo...
10874,MEG issues Hazardous Weather Outlook (HWO) htt...,Relevant,1,MEG issues Hazardous Weather Outlook HWO
