In [1]:
import numpy as np 
import pandas as pd

import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer

Basicamente o que a questão pede é para processar cada um dos documentos e depois calcular o numero de palavras repetidas. Perceba que o relevante da questão é justamente a primeira parte, essa contagem de repetidas é só para sabermos se tudo foi feito corretamente. 

Criei um exemplo bem simples para você poder ver passo a passo o que está acontecendo com os dados.

Aqui eu já vou começar com um dicionário onde a chave seria o nome do arquivo e o valor o conteudo do arquivo em texto corrido.

In [2]:
# Estou criando um dicionario com textos na mão
docs = {
    "get back": "Jojo left his home in Tucson, Arizona\nFor some California grass",
    "something": "Something in the way she moves\nAttracts me like no other lover\nSomething in the way she woos me",
    "help": "I need somebody\nHelp! not just anybody\nHelp! you know I need someone\nHelp!"
}

# Vamos imprimir o dicionario de documentos
print(docs)

{'get back': 'Jojo left his home in Tucson, Arizona\nFor some California grass', 'something': 'Something in the way she moves\nAttracts me like no other lover\nSomething in the way she woos me', 'help': 'I need somebody\nHelp! not just anybody\nHelp! you know I need someone\nHelp!'}


In [3]:
# Vamos imprimir mais um vez, so que mais bonito (vai facilitar para olharmos noss trabalho depois)
for doc_name, doc_text in docs.items():
    print('->', doc_name)
    print(doc_text)
    print('-----------------')

-> get back
Jojo left his home in Tucson, Arizona
For some California grass
-----------------
-> something
Something in the way she moves
Attracts me like no other lover
Something in the way she woos me
-----------------
-> help
I need somebody
Help! not just anybody
Help! you know I need someone
Help!
-----------------


Agora o que queremos é processar os documentos como o exercício pede:

> "As palavras em cada uma das listas devem ser constituídas apenas por letras do alfabeto, estarem lexicamente normalizadas e conterem mais que 1 caracter."

**Vou fazer primeiro fazendo um processamento por vez para vermos o que é feito em cada etapa. Depois eu junto tudo da maneira que fariamos na prática**

#### 1) Tokenizar

In [4]:
# Tudo deve ser feito para todos os documentos, ou seja, devemos iterar pelos elementos do dicionario

# Vamos salvar nesse dict as coisas
docs_words = {}

for doc_name, doc_text in docs.items():
    words = nltk.word_tokenize(doc_text)
    docs_words[doc_name] = words

In [5]:
for doc_name, words in docs_words.items():
    print('->', doc_name)
    print(words)
    print('-----------------')

-> get back
['Jojo', 'left', 'his', 'home', 'in', 'Tucson', ',', 'Arizona', 'For', 'some', 'California', 'grass']
-----------------
-> something
['Something', 'in', 'the', 'way', 'she', 'moves', 'Attracts', 'me', 'like', 'no', 'other', 'lover', 'Something', 'in', 'the', 'way', 'she', 'woos', 'me']
-----------------
-> help
['I', 'need', 'somebody', 'Help', '!', 'not', 'just', 'anybody', 'Help', '!', 'you', 'know', 'I', 'need', 'someone', 'Help', '!']
-----------------


#### 2) Transformar em minusculas e desconsiderar palavras com uma letra e com caracteres que não são letras

In [6]:
for doc_name, words in docs_words.items():
    words = [w.lower() for w in words if len(w) > 1 and w.isalpha()]
    docs_words[doc_name] = words

In [7]:
for doc_name, words in docs_words.items():
    print('->', doc_name)
    print(words)
    print('-----------------')

-> get back
['jojo', 'left', 'his', 'home', 'in', 'tucson', 'arizona', 'for', 'some', 'california', 'grass']
-----------------
-> something
['something', 'in', 'the', 'way', 'she', 'moves', 'attracts', 'me', 'like', 'no', 'other', 'lover', 'something', 'in', 'the', 'way', 'she', 'woos', 'me']
-----------------
-> help
['need', 'somebody', 'help', 'not', 'just', 'anybody', 'help', 'you', 'know', 'need', 'someone', 'help']
-----------------


#### 3) Normalização léxica

In [8]:
stemmer = PorterStemmer()
for doc_name, words in docs_words.items():
    words = [stemmer.stem(w) for w in words]
    docs_words[doc_name] = words

In [9]:
for doc_name, words in docs_words.items():
    print('->', doc_name)
    print(words)
    print('-----------------')

-> get back
['jojo', 'left', 'hi', 'home', 'in', 'tucson', 'arizona', 'for', 'some', 'california', 'grass']
-----------------
-> something
['someth', 'in', 'the', 'way', 'she', 'move', 'attract', 'me', 'like', 'no', 'other', 'lover', 'someth', 'in', 'the', 'way', 'she', 'woo', 'me']
-----------------
-> help
['need', 'somebodi', 'help', 'not', 'just', 'anybodi', 'help', 'you', 'know', 'need', 'someon', 'help']
-----------------


#### Juntando tudo em um só laço

In [10]:
# Vamos salvar nesse dict as coisas
docs_words = {}

for doc_name, doc_text in docs.items():
    words = nltk.word_tokenize(doc_text) # Separar em lista
    words = [w.lower() for w in words if len(w) > 1 and w.isalpha()] # Filtrar palavras
    words = [stemmer.stem(w) for w in words] # Normalização lexica
    docs_words[doc_name] = words

In [11]:
for doc_name, words in docs_words.items():
    print('->', doc_name)
    print(words)
    print('-----------------')

-> get back
['jojo', 'left', 'hi', 'home', 'in', 'tucson', 'arizona', 'for', 'some', 'california', 'grass']
-----------------
-> something
['someth', 'in', 'the', 'way', 'she', 'move', 'attract', 'me', 'like', 'no', 'other', 'lover', 'someth', 'in', 'the', 'way', 'she', 'woo', 'me']
-----------------
-> help
['need', 'somebodi', 'help', 'not', 'just', 'anybodi', 'help', 'you', 'know', 'need', 'someon', 'help']
-----------------


#### Contando palavras repetidas

Vamos usar o `docs_words` que acabamos de construir. Para contar repetições em uma lista basta transformar a lista em um conjunto (set) e de volta para lista, esse processo tira as repetições. Vamos processar um documento por vez, salvando o numero de repetições em um dicionário que iremos conferir no final.

In [12]:
docs_rep = {}

for doc_name, words in docs_words.items():
    words_no_rep = list(set(words))
    rep = len(words) - len(words_no_rep)
    docs_rep[doc_name] = rep

In [13]:
docs_rep

{'get back': 0, 'something': 6, 'help': 3}

Agora só precimos pegar o elemento de um dicionário com a maior chave.

Podemos usar o `sorted` do Python passando a lista de pares chave-valor que o `.items()` do dicionário retorna para transformar nosso dicionário em uma lista ordenada. Mas para isso precisamos dizer o que o Python deve considerar para as comparações, que no nosso caso é o valor (já que a chave é o nome do documento). Para isso usamos uma função lambda `lambda x: x[1]` isso significa o seguinte: para cada tupla x olhe para o elemento de indice 1 para fazer as comparações (numa tupla chave-valor o elemento de indice 1 é justamente o valor). Usamos `reverse=True` para ordenação decrescente.

In [15]:
sorted(docs_rep.items(), key=lambda x: x[1], reverse=True)

[('something', 6), ('help', 3), ('get back', 0)]