# Processamento de Linguagem Natural

#### O que é?
- Interpretação ou produção de linguagem humana por computador.

#### Conceitos
- Morfologia: Estrutura das palavras
- Sintaxe: A forma em que as palavras são usadas
- Semântica: Significado das palavras
- Pragmática: Significado no contexto

#### Ajudar x Substituir:
- Campo de conhecimento complexo
- Maior sucesso em escopo delimitado

#### Aplicações:
- Programas de perguntas e respostas
- Sistemas de tradução (ex.: Google Translate)
- Análise de sentimentos
- Correção ortográfico
- Sintetização de fala
- Previsão de digitação
- Classificação de textos e documentos
- Produção automatica de resumos

#### Noções importantes:
- Corpus: Conjunto de dados (texto não estruturado) em linguagem natural.
- Anotações: Processo mais importante em NLP. Coloca anotações no texto, como flexões, dependências, etc.
- Tokenization: Processo de separar a sentença em suas partes: palavras, pontos, símbolos, etc.
- Parts-of-Speech Tagging (POS): Adiciona tags a cada token, como por exemplo, se é verbo, substantivo, adjetivo, etc.
- Lemmatizing (Lemma): Traz a palavra na sua flexão, de modo que possam ser analizadas juntas.

#### Modelo:
- Análise:
  * Verbo?
  * Substantivo?
  * Quais são as flexões?
  * Quais as dependências?
- Um modelo é um banco de dados linguístico.
- Específico em cada idioma.
- Maioria das plataformas de NLP tem seus próprios modelos (ou usam de terceiros).
- cada pessoa pode criar o seu próprio modelo.

In [1]:
!pip install nltk



In [2]:
!pip install wordcloud



In [3]:
# Importação das bibliotecas
import matplotlib.pyplot as plt
import nltk
nltk.download('stopwords')
from nltk.corpus import PlaintextCorpusReader
from nltk.corpus import stopwords
from matplotlib.colors import ListedColormap
from wordcloud import WordCloud
import string

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Libania\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [8]:
# Criação de um corpus lendo textos do disco
corpus = PlaintextCorpusReader('Arquivos', '.*', encoding = "ISO-8859-1")

In [9]:
# Leitura dos arquivos do disco, percorrer os registros e mostrar o nome dos primeiros 100 arquivos
arquivos = corpus.fileids()
#primeiro arquivo
arquivos[0]

'1.txt'

In [10]:
#zero a 10
arquivos[0:10]

['1.txt',
 '10.txt',
 '100.txt',
 '1000.txt',
 '1001.txt',
 '1002.txt',
 '1003.txt',
 '1004.txt',
 '1005.txt',
 '1006.txt']

In [11]:
#imprime todos os nomes
for a in arquivos:
    print(a)

1.txt
10.txt
100.txt
1000.txt
1001.txt
1002.txt
1003.txt
1004.txt
1005.txt
1006.txt
1007.txt
1008.txt
1009.txt
101.txt
1010.txt
1011.txt
1012.txt
1013.txt
1014.txt
1015.txt
1016.txt
1017.txt
1018.txt
1019.txt
102.txt
1020.txt
1021.txt
1022.txt
1023.txt
1024.txt
1025.txt
1026.txt
1027.txt
1028.txt
1029.txt
103.txt
1030.txt
1031.txt
1032.txt
1033.txt
1034.txt
1035.txt
1036.txt
1037.txt
1038.txt
1039.txt
104.txt
1040.txt
1041.txt
1042.txt
1043.txt
1044.txt
1045.txt
1046.txt
1047.txt
1048.txt
1049.txt
105.txt
1050.txt
1051.txt
1052.txt
1053.txt
1054.txt
1055.txt
1056.txt
1057.txt
1058.txt
1059.txt
106.txt
1060.txt
1061.txt
1062.txt
1063.txt
1064.txt
1065.txt
1066.txt
1067.txt
1068.txt
1069.txt
107.txt
1070.txt
1071.txt
1072.txt
1073.txt
1074.txt
1075.txt
1076.txt
1077.txt
1078.txt
1079.txt
108.txt
1080.txt
1081.txt
1082.txt
1083.txt
1084.txt
1085.txt
1086.txt
1087.txt
1088.txt
1089.txt
109.txt
1090.txt
1091.txt
1092.txt
1093.txt
1094.txt
1095.txt
1096.txt
1097.txt
1098.txt
1099.txt
11.txt


In [12]:
# Acesso ao texto do primeiro arquivo
texto = corpus.raw('1.txt')
texto

"@relation 'Reuters-21578 Corn ModApte Train-weka.filters.unsupervised.attribute.NumericToBinary-weka.filters.unsupervised.instance.RemoveFolds-S0-N5-F1'\r\n"

In [18]:
# Acesso a todos as palavras de todos os arquivos do corpus
todo_texto = corpus.raw('1.txt')
todo_texto

"@relation 'Reuters-21578 Corn ModApte Train-weka.filters.unsupervised.attribute.NumericToBinary-weka.filters.unsupervised.instance.RemoveFolds-S0-N5-F1'\r\n"

In [14]:
# Obtenção de todas as palavras do corpus e visualização da quantidade
palavras = corpus.words()
#acessando pelo indíce
palavras[170]

'dividend'

In [15]:
#quantidade
len(palavras)

619424

In [16]:
# Usando o NLTK, obtemos as stop word em inglês
stops = stopwords.words('english')
#stops = stopwords.words('portuguese')
stops

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves',
 'what',
 'which',
 'who',
 'whom',
 'this',
 'that',
 "that'll",
 'these',
 'those',
 'am',
 'is',
 'are',
 'was',
 'were',
 'be',
 'been',
 'being',
 'have',
 'has',
 'had',
 'having',
 'do',
 'does',
 'did',
 'doing',
 'a',
 'an',
 'the',
 'and',
 'but',
 'if',
 'or',
 'because',
 'as',
 'until',
 'while',
 'of',
 'at',
 'by',
 'for',
 'with',
 'about',
 'against',
 'between',
 'into',
 'through',
 'during',
 'before',
 'after',
 'above',
 'below',
 'to',
 'from',
 'up',
 'down',
 'in',
 'out',
 'on',
 'off',
 'over',
 'under',
 'again',
 'further',
 'then',
 'once',
 'here',
 'there',
 'when',
 'where',
 'why',
 'how',
 'all',
 'any',
 'both',
 'each

In [19]:
# Definição das cores que serão utilizadas na nuvem de palavras
mapa_cores = ListedColormap(['orange', 'green', 'red', 'magenta'])
# Criação da nuvem de palavras, com no máximo 100 palavras e utilizando as stop words
nuvem = WordCloud(background_color = 'white',
                  colormap = mapa_cores,
                  stopwords = stops,
                  max_words = 100)
# Criação e visualização da nuvem de palavras
nuvem.generate(todo_texto)
plt.imshow(nuvem)

TypeError: expected string or bytes-like object

In [20]:
# Criação de nova lista de palavras, removendo stop words
palavras_semstop = [p for p in palavras if p not in stops]
len(palavras_semstop)

555712

In [21]:
# Remoção da pontuação, gerando uma lista sem stop words e sem pontuação
palavras_sem_pontuacao = [p for p in palavras_semstop if p not in string.punctuation]
len(palavras_sem_pontuacao)

492087

In [22]:
# Cálculo da frequência das palavras e visualização das mais comuns
frequencia = nltk.FreqDist(palavras_sem_pontuacao)
frequencia

FreqDist({'¸': 3886, 'said': 3398, '3': 2836, '0': 2728, 'mln': 2724, '1': 2321, 'vs': 2201, 'J': 2145, 'dlrs': 1946, '000': 1641, ...})

In [23]:
#mais comuns
mais_comuns = frequencia.most_common(100)
mais_comuns

[('¸', 3886),
 ('said', 3398),
 ('3', 2836),
 ('0', 2728),
 ('mln', 2724),
 ('1', 2321),
 ('vs', 2201),
 ('J', 2145),
 ('dlrs', 1946),
 ('000', 1641),
 ('2', 1584),
 ('txtPK', 1558),
 ('&#', 1466),
 (";',", 1432),
 ('The', 1429),
 ('U', 1422),
 ('S', 1414),
 ('PK', 1397),
 ('cts', 1374),
 ('\x00\x00\x00', 1318),
 ('4', 1296),
 ('lt', 1288),
 ('5', 1274),
 ('Reuter', 1214),
 ('\x10', 1181),
 ('pct', 1147),
 ('6', 1117),
 ('\x00', 1117),
 ('8', 1111),
 ('\x0f', 1087),
 ('7', 1080),
 ('\x14', 1072),
 ('\x91', 1048),
 ('\x08', 1041),
 ('\x83', 1041),
 ('9', 1039),
 ('\x03', 1039),
 ('\x9e', 995),
 ('\x92', 993),
 ('÷', 991),
 ('\x06', 975),
 ('\x05', 967),
 ('\x8e', 963),
 ('¶', 962),
 ('\x1b', 962),
 ('\x90', 960),
 ('\x93', 960),
 ('\x18', 949),
 ('\x94', 945),
 ('\x07', 945),
 ('\x8b', 942),
 ('\x8d', 941),
 ('\x9a', 936),
 ('±', 933),
 ('\x0e', 929),
 ('ï', 924),
 ('A', 923),
 ('\x1a', 922),
 ('\x9d', 912),
 ('´', 911),
 ('\x16', 910),
 ('\x81', 910),
 ('»', 906),
 ('\x82', 906),
 ('\x