# Preparando o texto para análise

Arquivo de entrada: **CNS_AGUA_2020.txt**

Arquivo pós-tratamento: **selecionadas_CNS_AGUA_2020.txt**

Arquivo de saída: **palavras_CNS_AGUA_2020.csv**

## ETAPAS
1 - extração;

2 - tratamento;

3 - limpeza;

4 - seleção das palavras a serem analisadas;

5 - armazenamento das palavras selecionadas em arquivo separado (ARQUIVO PÓS-TRATAMENTO);

6 - contagem da frequência das palavras serem analisadas;

7 - criação de um dataframe para armazenamento dos dados com a frequência das palavras a serem analisadas;

8 - armazenamento do dataframe em arquivo separado (ARQUIVO DE SAÍDA).

In [1]:
# importando biblioteca a serem utilizadas no projeto
import re
import nltk
from nltk import word_tokenize
from nltk.corpus import stopwords
import string
import text as text

In [2]:
# abrindo arquivo e colocando o texto em minusculo
texto = open('CNS_AGUA_2020.txt','r',encoding='UTF=8').read()
print(texto)

Ao Comitê de Crise para Supervisão e Monitoramento dos Impactos da Covid-19:
Que sejam tomadas as providências necessárias para o abastecimento imediato de água em todas as regiões do país, em especial ondem vivem pessoas sem acesso à água, para que as mesmas possam exercer o seu direito de implementarem as medidas sanitárias orientadas pelo Ministério da Saúde;
Que seja vedado o corte do abastecimento de água por inadimplência do consumidor residencial em todo o território nacional.


In [3]:
# Contando o total de palavras do texto
t_linhas = len(texto)
print('Quantidade total de palavras do texto:', t_linhas)

Quantidade total de palavras do texto: 503


In [4]:
# reabrindo arquivo e colocando o texto em minusculo

arquivo = open('CNS_AGUA_2020.txt','r',encoding='UTF=8').read()
texto_lower = arquivo.lower()

print(texto_lower)

ao comitê de crise para supervisão e monitoramento dos impactos da covid-19:
que sejam tomadas as providências necessárias para o abastecimento imediato de água em todas as regiões do país, em especial ondem vivem pessoas sem acesso à água, para que as mesmas possam exercer o seu direito de implementarem as medidas sanitárias orientadas pelo ministério da saúde;
que seja vedado o corte do abastecimento de água por inadimplência do consumidor residencial em todo o território nacional.


In [5]:
 # remoção de pontuação
    
text_sem_pontuar = ''.join ([palavra for palavra in texto if palavra not in string.punctuation])
print(text_sem_pontuar)

Ao Comitê de Crise para Supervisão e Monitoramento dos Impactos da Covid19
Que sejam tomadas as providências necessárias para o abastecimento imediato de água em todas as regiões do país em especial ondem vivem pessoas sem acesso à água para que as mesmas possam exercer o seu direito de implementarem as medidas sanitárias orientadas pelo Ministério da Saúde
Que seja vedado o corte do abastecimento de água por inadimplência do consumidor residencial em todo o território nacional


In [6]:
# Tokenizando  - texto

tokens = nltk.word_tokenize(text_sem_pontuar)
print(tokens)

['Ao', 'Comitê', 'de', 'Crise', 'para', 'Supervisão', 'e', 'Monitoramento', 'dos', 'Impactos', 'da', 'Covid19', 'Que', 'sejam', 'tomadas', 'as', 'providências', 'necessárias', 'para', 'o', 'abastecimento', 'imediato', 'de', 'água', 'em', 'todas', 'as', 'regiões', 'do', 'país', 'em', 'especial', 'ondem', 'vivem', 'pessoas', 'sem', 'acesso', 'à', 'água', 'para', 'que', 'as', 'mesmas', 'possam', 'exercer', 'o', 'seu', 'direito', 'de', 'implementarem', 'as', 'medidas', 'sanitárias', 'orientadas', 'pelo', 'Ministério', 'da', 'Saúde', 'Que', 'seja', 'vedado', 'o', 'corte', 'do', 'abastecimento', 'de', 'água', 'por', 'inadimplência', 'do', 'consumidor', 'residencial', 'em', 'todo', 'o', 'território', 'nacional']


In [7]:
# remoção de Stapwords - ou seja, remoção de palavras que não causam prejuijo ao sentido do texto

from nltk.corpus import stopwords

nltk.download('stopwords')
stopwords = stopwords.words('portuguese')

palavras_play = [palavra for palavra in tokens if palavra not in stopwords]
print(f'Palavras removidas: \n\n{stopwords} \n')

print(f'Texto após remoção das stopwords: \n\n {palavras_play}')

Palavras removidas: 

['a', 'à', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as', 'às', 'até', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas', 'dele', 'deles', 'depois', 'do', 'dos', 'e', 'é', 'ela', 'elas', 'ele', 'eles', 'em', 'entre', 'era', 'eram', 'éramos', 'essa', 'essas', 'esse', 'esses', 'esta', 'está', 'estamos', 'estão', 'estar', 'estas', 'estava', 'estavam', 'estávamos', 'este', 'esteja', 'estejam', 'estejamos', 'estes', 'esteve', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram', 'estivéramos', 'estiverem', 'estivermos', 'estivesse', 'estivessem', 'estivéssemos', 'estou', 'eu', 'foi', 'fomos', 'for', 'fora', 'foram', 'fôramos', 'forem', 'formos', 'fosse', 'fossem', 'fôssemos', 'fui', 'há', 'haja', 'hajam', 'hajamos', 'hão', 'havemos', 'haver', 'hei', 'houve', 'houvemos', 'houver', 'houvera', 'houverá', 'houveram', 'houvéramos', 'houverão', 'houverei', 'houverem', 'houveremos', 'houveria', 'houveriam', 'houveríamos', 'houvermos', 'houvesse', 

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/patrick/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [8]:
palavras_selecionadas = ', '.join(palavras_play)

In [9]:
# Criando arquivo e gravando palavras selecionadas nele
arquivo = open('selecionadas_CNS_AGUA_2020.txt', 'w')
arquivo.write(palavras_selecionadas)

432

In [1]:
# abrindo arquivo com as palavras selecionadas 
texto2 = open('selecionadas_CNS_AGUA_2020.txt','r',encoding='UTF=8').read()
print(texto2)

Ao, Comitê, Crise, Supervisão, Monitoramento, Impactos, Covid19, Que, tomadas, providências, necessárias, abastecimento, imediato, água, todas, regiões, país, especial, ondem, vivem, pessoas, acesso, à, água, mesmas, possam, exercer, direito, implementarem, medidas, sanitárias, orientadas, Ministério, Saúde, Que, vedado, corte, abastecimento, água, inadimplência, consumidor, residencial, todo, território, nacional


In [2]:
# Contar o quantidade de palavras no texto
qt_palavras = len(texto2)
print(f'O texto apresenta {qt_palavras} palavras no total.')

O texto apresenta 432 palavras no total.


In [3]:
# Tratamento de caracteres indesejados é a frequência daquela palavra.
import text as text
freq = text.bag_of_words('selecionadas_CNS_AGUA_2020.txt')

# Imprimir a frequencia de cada palavra
print(f'\nFrequência das palavras:{freq}')


Frequência das palavras:{'ao': 1, 'comitê': 1, 'crise': 1, 'supervisão': 1, 'monitoramento': 1, 'impactos': 1, 'covid19': 1, 'que': 2, 'tomadas': 1, 'providências': 1, 'necessárias': 1, 'abastecimento': 2, 'imediato': 1, 'água': 3, 'todas': 1, 'regiões': 1, 'país': 1, 'especial': 1, 'ondem': 1, 'vivem': 1, 'pessoas': 1, 'acesso': 1, 'à': 1, 'mesmas': 1, 'possam': 1, 'exercer': 1, 'direito': 1, 'implementarem': 1, 'medidas': 1, 'sanitárias': 1, 'orientadas': 1, 'ministério': 1, 'saúde': 1, 'vedado': 1, 'corte': 1, 'inadimplência': 1, 'consumidor': 1, 'residencial': 1, 'todo': 1, 'território': 1, 'nacional': 1}


In [4]:
# Retorna as palavras classificadas pelo maior frequencia
most = text.most_frequent(freq, qt_palavras)
print(f'Classificação das palavras pela frequência: {most}\n')

Classificação das palavras pela frequência: {'água': 3, 'que': 2, 'abastecimento': 2, 'ao': 1, 'comitê': 1, 'crise': 1, 'supervisão': 1, 'monitoramento': 1, 'impactos': 1, 'covid19': 1, 'tomadas': 1, 'providências': 1, 'necessárias': 1, 'imediato': 1, 'todas': 1, 'regiões': 1, 'país': 1, 'especial': 1, 'ondem': 1, 'vivem': 1, 'pessoas': 1, 'acesso': 1, 'à': 1, 'mesmas': 1, 'possam': 1, 'exercer': 1, 'direito': 1, 'implementarem': 1, 'medidas': 1, 'sanitárias': 1, 'orientadas': 1, 'ministério': 1, 'saúde': 1, 'vedado': 1, 'corte': 1, 'inadimplência': 1, 'consumidor': 1, 'residencial': 1, 'todo': 1, 'território': 1, 'nacional': 1}



In [5]:
# Criar um arquivo de saída chamado palavras_ANVISA_HM_2020.csv contendo as palavras e suas frequências.
arquivo_saida = open("palavras_CNS_AGUA_2020.csv","w") 

In [6]:
# Gravando palavras e frequência no arquivo csv
import text as text
grava = text.write_frequencies_csv("palavras_CNS_AGUA_2020.csv", freq)

In [7]:
# Carregando e visualizando dados do arquivo csv
import pandas as pd
data = pd.read_csv('palavras_CNS_AGUA_2020.csv', sep=';')
data

Unnamed: 0,Palavras,Frequência
0,ao,1
1,comitê,1
2,crise,1
3,supervisão,1
4,monitoramento,1
5,impactos,1
6,covid19,1
7,que,2
8,tomadas,1
9,providências,1
