# Análise de texto de fontes desestruturadas e Web

## Aula 01 - Parte 2:
- Listas
- Estruturas de Repetição
- Estruturas Condicionais
- Testes automatizados
- Arquivos
- Dicionários
- Plot de gráficos

## Baixando os dados no google colab

Execute as células abaixo para baixar arquivos de texto que serão utilizados em alguns exercícios

In [None]:
!wget "http://vision.ime.usp.br/~calebe/atd/esther_duflo.txt"
!wget "http://vision.ime.usp.br/~calebe/atd/2.txt"
!wget "http://vision.ime.usp.br/~calebe/atd/3.txt"
!wget "http://vision.ime.usp.br/~calebe/atd/4.txt"
!wget "http://vision.ime.usp.br/~calebe/atd/5.txt"
!wget "http://vision.ime.usp.br/~calebe/atd/6.txt"
!wget "http://vision.ime.usp.br/~calebe/atd/7.txt"

## Importando bibliotecas

Python é um ambiente comunitário incrível. Existe muitas funcionalidades prontas que são distribuídas em bibliotecas.

Geralmente os **imports** são realizados no começo dos notebooks. Assim, vamos logo importar as bibliotecas necessárias!

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import os

## Trabalhando com listas

Listas são estruturas de dados muito úteis, pois permitem armazenar diversos elementos em uma mesma variável. Estes elementos podem ser, por exemplo, palavras:

In [None]:
lista_palavras = ['oi', 'aceitar', 'a', 'por', 'modelo']

Listas também podem ser acessadas utilizando *índices*

In [None]:
print(lista_palavras[0])
print(lista_palavras[4])

e ter seu tamanho (número de elementos) consultado

In [None]:
len(lista_palavras)

também podemos alterar o elemento em alguma posição da lista

In [None]:
# Alterando a primeira palavra de 'oi' para 'tchau'

lista_palavras[0] = 'tchau'
print(lista_palavras)

e também adicionar novos elementos (*estimar*)

In [None]:
lista_palavras.append('estimar')
print(lista_palavras)

lembrando que a lista permite ter elementos repetidos. Então vamos adicionar a palavra *modelo* novamente:

In [None]:
lista_palavras.append('modelo')
print(lista_palavras)

para ver mais funcionalidades das listas em Python, consulte https://docs.python.org/3/tutorial/datastructures.html e https://www.w3schools.com/python/python_ref_list.asp

Você conseguiria descobrir como remover um elemento qualquer de uma lista?

In [None]:
print('Lista antes da remoção...: {}'.format(lista_palavras))

# seu codigo aqui!

print('Lista após a remoção.....: {}'.format(lista_palavras))

## Estruturas de repetição
Agora, iremos aprender como iterar sobre uma lista. Iremos percorrer cada elemento de uma lista, efetuando alguma operação ou verificação de interesse em seus elementos.

Mas primeiro vamos começar com *strings*. Considere a variável *msg*. Seria possível obter/percorrer cada uma das suas letras, caracteres ou símbolos?!


In [None]:
msg = 'fontes desestruturadas'
for simb in msg:
    print(simb)

Agora, vamos considerar uma lista de palavras mesmo!

In [None]:
lista_palavras = ['oi', 'aceitar', 'a', 'por', 'modelo']

for palavra in lista_palavras:
    print(palavra)

Seria possível exibir cada palavra em maiúsculo?

In [None]:
for palavra in lista_palavras:
    print(palavra.upper())

Agora vamos iterar/percorrer a lista utilizando índices com **range**:

In [None]:
for i in range(0, len(lista_palavras)):
    print(lista_palavras[i])

E se eu quisesse realizar alguma validação nestas palavras? Por exemplo, identificar quais tem ou não tem um determinado número de caracteres?

## Estruturas condicionais

Estruturas condicionais, mais conhecidas em Python como *if, elif, else*, são utilizadas quando parte dos comandos devam ser executados **apenas** quando **alguma condição** for **verdadeira**.

Exemplos:
- Se um documento possui alguma palavra de interesse, então separo para análise, caso contrário, o documento é descartado
- Se a senha está correta, abra o programa de alunos do Insper, caso contrário, solicite a senha novamente
- Se a palavra está escrita de forma errada, destaque ela no texto. Em caso contrário, não faça nada
- Se a base de cálculo for de 1.903,99 até 2.826,65, cobre 7,5% de imposto de renda

Podemos representar estas situações condicionais com o seguinte diagrama:
![image.png](attachment:image.png)
https://dq-blog-files.s3.amazonaws.com/if-else/if_else_flow_diagram_highlighted.svg

Então teremos um bloco de comandos que será executado caso a condição seja verdadeira, e um segundo bloco que será executado caso a condição seja falsa. Note que os blocos são executados de maneira exclusiva, ou seja, a expressão não pode ser verdadeira e falsa ao mesmo tempo, então apenas um deles será executado cada vez que o programa passar pelo *if else*. É importante salientar que não é obrigatório existir um bloco *else*.

Vamos resolver alguns exercícios como exemplo!

**Exercício 1** Suponha que um usuário esteja em processo de escolha de senha. Cria uma variável para armazenar a senha.

a) Verifique se a senha possui o comprimento mínimo de seis caracteres. Exiba as mensagens *'Tamanho mínimo atingido!'* ou *'A senha é curta demais!'*, conforme a situação.

In [None]:
senha = '123456'

tam = len(senha)

if tam >= 6:
    print('Tamanho mínimo atingido!')
else:
    print('A senha é curta demais!')

b) Verifique se a senha é numérica. Exiba as mensagens *'Senha numérica Ok!'* ou *'A senha deve ser numérica!'*, conforme a situação.

In [None]:
senha = '123456a'

if # Complete aqui!:
    print('Senha numérica Ok!')
else:
    print('A senha deve ser numérica!')

c) Verifique se a senha possui o comprimento mínimo de seis caracteres e máximo de oito caracteres. Exiba as mensagens *'Tamanho ok!'*, *'A senha é curta demais!'* ou *'A senha é longa demais!'*, conforme a situação.

In [None]:
senha = '123456xxs'

# seu codigo aqui!

**Exercício 2** Agora, utilize listas, estruturas de repetição e seleção para remover duplicações de uma lista.

In [None]:
lista_dup = ['oi', 'vai', 'modelo', 'vai', 'estimar', 'modelo', 'modelo', 'a', 'por']
lista_unica = []

# seu codigo aqui! Faça usando FOR
        
lista_unica

Na parte 1 vimos um exercícios sobre remoção de duplicações.

Podemos eliminar duplicações em uma lista ao transformá-la em um **set**, e depois transformá-la novamente para uma lista.

In [None]:
lista_sem_dup = list(set(lista_dup))
lista_sem_dup

o que também pode ser útil para remoção de stop words!

In [None]:
stop_w = ['a', 'por', 'oi']
list(set(lista_sem_dup) - set(stop_w))

**Exercício 3** Crie uma função chamada **count_digits** que conta quantos dígitos existem em uma string:

In [None]:
def count_digits(msg):
    # seu codigo aqui!
    return qtde

## Testes automatizados

Algo legal de se utilizar funções é que, como ela é um pequeno bloco de código, que resolve um problema geralmente pequeno e bem específico, é fácil imaginarmos possíveis situações onde conseguimos testar a função, simulando entradas e conferindo se o resultado bate com o esperado.

Veja na sequência, quando criamos testes para verificar se a função **count_digits** retorna a quantidade corretas de dígitos quando recebe uma mensagem de *\"Bom dia!\"*. Sabemos que neste caso o resultado esperado é zero, então:

In [None]:
assert count_digits('Bom dia!') == 0

Veja outros exemplos:

In [None]:
# Funciona com string vazia?
assert count_digits('') == 0

# Funciona com string toda numerica?
assert count_digits('1019') == 4

# Funciona com letras e numeros?
assert count_digits('Estamos em 2021, meu 19º ano de vida!') == 6

A partir de agora, sempre que possível crie testes para validar as funções que desenvolver!

**Exercício 4** Crie uma função que recebe uma string e retorna uma lista com apenas os números do conjunto dos inteiros que fazem parte da mensagem:

**Exercício 5** Crie uma função que recebe duas strings e retorna uma lista com as palavras contidas em ambas as strings. Remova pontuações e faça com que sua solução seja indiferente para maiúsculas / minúsculas.

In [None]:
def palavras_comum(str1, str2):
    # seu codigo aqui!
    return intersect

palavras_comum('eu quero saber das ferias', 'FERIAS eu nunca tive')

**Exercício 6** Crie uma função que recebe uma string e verifica se está no formato de CEP.
- Ex: 78663-001 retorna **True**
- Ex: 7866-3001 retorna **False**

Obs: sem usar expressão regular!

In [None]:
# Esta não é a melhor forma de fazer isso, veremos outras formas mais simples no futuro!
def cep_ok(cep):
    # seu codigo aqui!
    
cep_ok('78663-001')

**Exercício 7** Em qualquer lugar que contenha textos, é comum que ocorram variações de escrita de uma palavra:

Crie uma função que recebe:
- uma **mensagem**
- uma **palavra**, escrita de forma padrão
- uma lista de variantes de escrita da **palavra**

e retorna a mensagem corrigida. Ou seja, qualquer variantes de escrita da palavra deve ser substituída pela escrita padrão:

In [None]:
def corrige_grafia(msg, palavra, lista_erronea):
    # seu codigo aqui!
    return msg


msg = 'smartphone apple iphone12 64g blck'

msg_corrigida = corrige_grafia(msg, '64gb', ['64g', '64 gb'])
msg_corrigida = corrige_grafia(msg_corrigida, 'preto', ['black', 'blck', 'blk', 'bl', 'pto', 'pt'])

print(msg)
print(msg_corrigida)

## Arquivos

Vamos ver um exemplo de como trabalhar com arquivos de texto. Para isto, iremos utilizar o abstract da tese de doutorado da prêmio nobel de economia de 2019 Esther Duflo. O arquivo está em *dataset/esther_duflo.txt*.

Para ler o texto todo e exibir na tela, podemos fazer:

In [None]:
file_path = 'esther_duflo.txt'

with open(file_path, 'r') as arquivo:
    text = arquivo.read()
    
print(text)

**Exercício 8** Utilize o que aprendeu na parte 1 para criar um código que:
- Remova as pontuações do texto
- Separa as palavras em uma lista

In [None]:
pontuacao = [',', '.', '?', '!']

# seu codigo aqui!

print(palavras_clean)

**Exercício 9** Crie um bloco de código para identificar todas as palavras numéricas. Retorne uma lista.

In [None]:
# Apenas um exemplo. Tudo depende do que irá querer buscar e de como "limpou"/pré-processou o texto
palavras_num = []
for palavra in palavras_clean:
    if palavra[0].isnumeric():
        palavras_num.append(palavra)
    if palavra.endswith('%'):
        palavras_num.append(palavra)
        
        
print(palavras_num)

**Exercício 10** Utilizando as palavras limpas do texto da Esther Duflo:

a) Crie um bloco de código que receba uma lista de palavras e retorne outra lista apenas com as palavras que estão no texto:

In [None]:
lista_busca = ['predictions', 'model', 'artificial', 'evaluates', 'correlates', 'correlation']

In [None]:
lista_ambas = []
# seu codigo aqui!
        
print(lista_ambas)

b) Altere o código anterior para exibir uma mensagem "Nada encontrado" se a busca não tiver sucesso, ou a lista de palavras que estão no texto e foram encontradas.

In [None]:
if len(lista_ambas) == 0:
    print('Nada encontrado')
else:
    print('Palavras no texto: {}'.format(lista_ambas))

c) Você consegue pensar em alguma aplicação prática desta busca por termos?

R:

d) Imagine que você tenha textos do abstract da tese de outros economistas. Pense que tenha também o abstract da tese de matemáticos e psicólogos. Pensando nestes três grupos, você consegue pensar em alguma estratégia para identificar se um abstract novo aparenta ser de um economista, matemático ou psicólogo?

R:

## Dicionários + Listas

Dicionários são estruturas de dados que permitem armazenar **chave** e **valor**.

Ex: armazenar, entre diversas palavras, se elas são expressam geralmente um sentimento negativo, positivo ou neutro:

In [None]:
palavras_sent = dict({'odeio' : 'negativo',
                      'amo' : 'positivo',
                      'quero' : 'neutro',
                      'manhã' : 'neutro',
                      'problema' : 'negativo',
                      'raiva' : 'negativo',
                      'paz' : 'positivo'})


print(palavras_sent)

Ex: armazenar o salário de algumas pessoas.

In [None]:
salario = dict({'Bruna' : 3500.78,
                'Antônio' : 9880.18,
                'Maria' : 7533.19})


print(salario)

Vamos consultar o salário da Maria:

In [None]:
salario['Maria']

Vamos alterar o salário da Bruna:

In [None]:
salario['Bruna'] = 4200.00

Agora, consultando o salário da Bruna:

In [None]:
salario['Bruna']

E todos os salários:

In [None]:
salario

Voltando ao primeiro exemplo, podemos consultar todas as chaves:

In [None]:
palavras_sent.keys()

e também todas os valores:

In [None]:
palavras_sent.values()

ou consultar o valor de uma chave específica:

In [None]:
palavras_sent['problema']

Você também pode iterar sobre o dicionário, acessando suas chaves e valores:

In [None]:
for chave, valor in palavras_sent.items():
    print('A chave {} possui o valor {}'.format(chave, valor))

para saber mais sobre dicionários, consulte https://docs.python.org/3/tutorial/datastructures.html#dictionaries

**Exercício 11** Utilizando as palavras no abstract da Esther Duflo:

a) Crie um bloco de código que retorne a frequência absoluta das palavras

In [None]:
# use FOR!
# seu codigo aqui!

b) Crie um código que retorne a palavra mais frequente:

In [None]:
# seu codigo aqui!

In [None]:
print('A palavra mais frequente é "{}", que aparece {} vezes no texto'.format(pal_mais_freq.upper(), qtde))

c) Exiba de forma **ordenada**, da palavra mais frequente para a menos frequente:

d) Vamos gerar um gráfico com estas palavras?

In [None]:
fig = plt.figure(figsize = (10, 5))

# O dicionario precisa se chamar contagem
plt.bar(contagem.keys(), contagem.values())

plt.show()

e) Exiba apenas o top 10 (as 10 palavras mais frequentes) em um gráfico de barras:

In [None]:
# seu codigo aqui!    

Agora, vamos gerar um gráfico com estas contagens!

Esta abordagem, de olhar as palavras mais frequêntes, faz sentido? Considera estas palavras como informativas?

R:

## Lendo todos os arquivos de um diretório

Para isto, podemos utilizar **os.listdir(caminho)**:

In [None]:
path_dir = 'dataset'

lista_arquivos = os.listdir(path_dir)
lista_arquivos

Podemos também iterar nos arquivos e armazenar o conteúdo deles em uma lista:

In [None]:
text = []
for arquivo in lista_arquivos:
    if arquivo.endswith('.txt'):
        file_path = os.path.join(path_dir, arquivo)
        with open(file_path, 'r') as file:
            abstract = file.read()
            text.append(abstract)

In [None]:
text

**Exercício 12** Sobre o que fizemos hoje.

a) Voce consegue identificar blocos que poderiam virar funções?

b) Transforme estes blocos em funções e os utilize para analisar os demais arquivos de texto.
