# <span style="color:blue"> MBA em Ciência de Dados</span>
# <span style="color:blue">Técnicas Avançadas para Captura e Tratamento de Dados</span>

## <span style="color:blue"> Matriz Documento $\times$ Palavras - Bag of Words</span>
    
## <span style="color:blue">Avaliação</span>

**Material Produzido por Luis Gustavo Nonato**<br>
**Cemeai - ICMC/USP São Carlos**
---

Os exercícios abaixo fazem uso da coleção de documentos presente no diretório `DocCol2` contido no arquivo <font style="font-family: monaco"> DocCol.zip</font>, o qual pode ser baixado do Moodle.

In [1]:
import glob
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
import pandas as pd
import numpy as np
from collections import Counter
from sklearn.preprocessing import StandardScaler

### Exercício 1)
Armazene os documentos disponíveis no diretório `DocCol2` em um dicionário onde a chave é o nome do arquivo e o valor é a string contida no arquivo. O documento contendo a string com o maior número de caracteres é:

a) gr7<br>
b) au2 <br>
c) ch5<br>
d) au8

In [2]:
files = glob.glob('.\data\DocCol2/*') #lendo todos os arquivos e carregando em files

#criando os dicionarios
docs ={}
dic={}

#lendo o files, splitando o nome de arquivo como Key e colocando o conteúdo do files como Value para o dicionario
for fname in files:
    key = fname.split('\\')[3]
    with open(fname,'r') as f:
        docs[key] = f.read()

#criando um segundo dicionario que contém a chave e o tamanho do arquivo
for k,v in docs.items():
    dic[k] = len(v)

x = [k for (k,v) in dic.items() if (max(dic.values()) == v)] #pegando o máximo do dicionário

print('Resposta:',x)

Resposta: ['au2']


### Exercício 2)
Crie um dicionário chamado `docsXwords` onde as chaves são os nomes dos arquivos e os valores são as listas de palavras do documento correspondente. As palavras em cada uma das listas devem ser constituídas apenas por letras do alfabeto, estarem lexicamente normalizadas e conterem mais que 1 caracter. Qual o documento cuja lista de palavras resultante possui o **maior** número de palavras repetidas:

a) gr22<br>
b) ch30<br>
c) au2<br>
d) au8

In [3]:
docsXwords={}
dic={}

for fname in files:
    key = fname.split('\\')[3]
    with open(fname,'r') as f:
        doc = f.read()
        #palavras do doc
        words = nltk.word_tokenize(doc)
        #removendo simbolos, ou seja, contendo apenas letras do alfabeto
        words = [w.lower() for w in words if w.isalpha()]
        #removendo stop words -> Neste exercicio não precisamos remover as stopwords, estava errando isso
        #words = [w for w in words if w not in stopwords.words('english')]
        #normalização léxica utilizando stemming -> vou pegar as palavras e convertê-las no seu radical
        words = [PorterStemmer().stem(w) for w in words]
        #incluindo dados num dicionario com apenas letras do alfabeto, lexicamente normalizadas e maior que 1 caractere
        docsXwords[key] = [w for w in words if len(w) > 1]

for k,v in docsXwords.items():
    dic[k] = len(v) - len(list(set(v)))

x = [k for (k,v) in dic.items() if (max(dic.values()) == v)]
print('Resposta',x)

Resposta ['ch30']


### Exercício 3)
Utilizando as listas de palavras do dicionário `docsXwords`, quais as três palavras que mais aparecem na coleção de documentos:

a) the, is, of<br>
b) that, is, of<br>
c) the, of, to <br>
d) to, is, of

In [4]:
qtd=[]

for v in docsXwords.values():
    qtd.extend(v)

qtd = Counter(qtd)

data = pd.DataFrame(qtd.items(),columns=['palavras','frequencia'])
print(data.sort_values(by=['frequencia'],ascending=False)[0:3])

   palavras  frequencia
2       the        5014
26       of        2627
62       to        2611


### Exercício 4)
Qual o documento cuja lista de palavras possui o **menor** número de "stop words"? Quantas "stop words" aparecem neste documento:

a) gr5 com 47 "stop words"<br>
b) gr17 com 47 "stop words"<br>
c) gr5 com 37 "stop words"<br>
d) gr17 com 37 "stop words"

**Dica**: Crie um dicionário onde a chave é o nome do documento e o valor o número de stop words no documento.

In [5]:
stop={}
stop_words = stopwords.words('english')

for key,val in docsXwords.items():
    words = [w for w in val if w in stop_words]
    stop[key] = len(words)

x = [str(k)+' com '+str(v)+' "stop words"' for (k,v) in stop.items() if (min(stop.values()) == v)]

print('Resposta:',x[0])

Resposta: gr5 com 47 "stop words"


### Exercício 5) 
Utilize o dicionário `docsXwords` para construir
uma matriz Documentos $\times$ Palavras para a coleção de documentos do diretório `DocCol2`. Utilizando a distância cosseno, qual é o documento mais parecido com o documento 'ch7':

a) ch8<br>
b) ch16<br>
c) ch5<br>
d) au8

In [6]:
ddocs={}
corpus=[]

for k,v in docsXwords.items():
    ddocs[k] = dict(Counter(v))

for v in ddocs.values():
    corpus.extend(list(v.keys()))

corpus = list(set(corpus))

rows = list(docs.keys())

BoW = pd.DataFrame(data=np.zeros((len(rows),len(corpus))),columns=corpus,index=rows,dtype=int)

for k in ddocs.keys():
    BoW.loc[k,list(ddocs[k].keys())] = list(ddocs[k].values())

ch7 = np.argwhere(BoW.index.values=='ch7')[0][0]

X = BoW.values
X = StandardScaler().fit_transform(X)

# calculando o cosseno utilizando a formula
# cos(x,y) = np.dot(x,y)/(np.linalg.norm(x)*np.linalg.norm(y))
cosch7 = np.apply_along_axis(lambda x: 
             np.dot(X[ch7],x)/(np.linalg.norm(ch7)*np.linalg.norm(x)),1,X)

# ordenando e pegando o maior valor (note que o elemento [-1] é o 
# próprio documento au8)
sim_ch7 = np.argsort(cosch7)[-2]
print('Documento mais parecido com ch7: ',BoW.index.values[sim_ch7])

Documento mais parecido com ch7:  ch16
