# Análise de texto de fontes desestruturadas e Web

## Aula 09

Nesta aula vamos continuar a trabalhar com **Expressões Regulares (RegEx)**. Regex provê uma forma eficiente de encontrar padrões regulares em corpus textuais. 

A biblioteca utilizada será a **re**.

Para conhecer mais sobre ela, acesse https://docs.python.org/3/library/re.html ou https://docs.python.org/pt-br/3.8/howto/regex.html

## Importando as bibliotecas necessárias

Agora, vamos importar as bibliotecas necessárias:

In [None]:
# para trabalhar com diretórios / sistema operacional
import os

# para trabalhar com expressões regulares
import re

# utilizada para nos indicar o caminho do executável do Python
import sys

# para pandas DataFrame
import pandas as pd

Caso obtenha algum erro, utilize o **!pip install** para instalar a biblioteca ausente!

Vamos conferir com qual versão da biblioteca **re** estamos trabalhando?

In [None]:
print(re.__version__)

Você também pode conferir de onde está executando o Python e qual a versão

In [None]:
print('Executável:')
print(sys.executable)

print('\nVersão do Python:')
print(sys.version)

Vamos conferir em qual diretório iremos trabalhar (é o diretório do notebook)

In [None]:
print('O seu notebook está na pasta:')
print(os.getcwd())


# RegEx tester

Uma ferramenta legal para conferir expressões regulares é o https://www.regextester.com

# Relembrando

**|** ⟶ OU

**.** ⟶ Qualquer caractere, exceto quebra de linha

**[az]** ⟶ O caractere "a" OU "z". Pode ser qualquer caractere do conjunto

**[a-z]** ⟶ Qualquer caractere de "a" até "z" minúsculo

**[A-Z]** ⟶ Qualquer caractere de "A" até "Z" maiúsculo

**[0-9]** ⟶ Dígitos numéricos de "0" até "9"

**[^a-c]** ⟶ Qualquer caractere, exceto de "a" até "c"

**^[a-z]** ⟶ Qualquer caractere de "a" até "z". String deve começar com o padrão.

**[a-z]*** ⟶ Zero ou mais letras de "a" até "z"

**[A-Z]+** ⟶ Uma ou mais letras de "A" até "Z"

**a{5}** ⟶ Cinco **a**'s

**a{2,5}** ⟶ De dois a cinco **a**'s

**[a-z]{,3}** ⟶ Até três letras de "a" até "z"

**\w** ⟶ muito parecido com a RegEx [a-zA-ZÀ-ú0-9], mas apenas um caractere destes

**\w+** ⟶ um ou mais \w, formando uma palavra

**\s** ⟶ separadores


In [None]:
noticia = '''
A Lyft, rival da Uber nos Estados Unidos,
vai vender sua unidade de tecnologia de carros autônomos para
a Toyota em um acordo de 550 milhões de dólares, anunciaram as
empresas nesta segunda-feira. A venda vai ajudar a lyft a se
concentrar em parcerias com a ajuda de companhias de direção autônoma que
querem disponibilizar tecnologia na plataforma da empresa, em vez
da companhia ter de investir pesaaaaaadas somas em desenvolvimento de
tecnologia que ainda não foi colocada em uso amplo.
Siga eu_envio@jornal
'''

Como podemos encontrar todas as palavras?!

In [None]:
print(re.findall(r'\w+', noticia))

Como fazemos para encontrar todas as palavras que contém a substring **ia**

In [None]:
re.findall(r'\w*ia\w*', noticia)

Como encontrar todas as palavras de tamanho quatro?

In [None]:
re.findall(r'\b\w{4}\b', noticia)

Teste com outros tamanhos!

In [None]:
re.findall(r'\b\w{6}\b', noticia)

Palavras que começam com algum padrão.
Ex: palavras que começam por "a" ou "p".

In [None]:
re.findall(r'\b[ap]\w+', noticia)

Vamos aprender como filtrar hashtags e usuários?!

In [None]:
tweet = '''
A @Lyft, rival da @Uber, vende unidade #tech de carros autônomos para
a @Toyota. #deal #startup. macielcv@insper.edu.br #inovação #inova_geral w@a $#x
'''

In [None]:
re.findall(r'\s@\w+', tweet)

In [None]:
re.findall(r'\s(@\w+)', tweet)

In [None]:
re.findall(r'\s(#\w+)', tweet)

Tente criar uma expressão regular que seja uma bom chute para encontrar verbos no texto

In [None]:
re.findall(r'\w*[aeio]r\b', noticia)

# Compilando expressões regulares

As RegExp podem ser compiladas. Isto é bastante útil quando precisamos testar um padrão por diversas vezes, como acontece em validação de dados

In [None]:
lista = ['123.456.789-11', '23.456.789-11', '41 123.456.789-11', '123.456.789-11 maria']

padrao = re.compile(r'^\d{3}\.\d{3}\.\d{3}-\d{2}$')

for cpf in lista:
    if padrao.match(cpf):
        print(f'CPF valido {cpf}')
    else:
        print(f'CPF invalido {cpf}')

# Expressões regulares e Pandas

As RegExp podem ser utilizadas em colunas de texto de DataFrames.

Vamos criar um DataFrame de exemplo:

In [None]:
lista_user = ['@joaonoel', '@mariaaa', '@malex', '@elen', '@ton2']
lista_tweet = ['Nao gostei do atendimento #irritado. Não compro mais.',
               'Saiu o novo iphone. Quem já comprou?',
               'Pagar com Pix ficou muito melhor',
               'Precisamos falar sobre stress #saude',
               'Não consigo comprar. Meu app não abre, que raiva! Não fui atendido ainda.']

In [None]:
dft = pd.DataFrame({'Usuario': lista_user, 'Tweet': lista_tweet})
dft

Tentando encontrar ocorrências em textos:

In [None]:
dft['Tweet'].str.findall(r'\s(#\w+)')

In [None]:
dft['Tweet'].str.contains(r'\s(#\w+)', regex=True)

In [None]:
dft['Hashtags'] = dft['Tweet'].str.findall(r'\s(#\w+)')
dft

As vezes, precisamos identificar se algum registro (uma venda, um cliente, um tweet) segue ou não um determinado padrão e, a partir disso, separar os registros para atuação (filtrar e tomar alguma ação).

In [None]:
filtro = dft['Tweet'].str.contains(r'comp\w+', regex=True)
dft.loc[filtro]

In [None]:
dft['compra'] = dft['Tweet'].str.contains(r'comp\w+', regex=True)
dft

Vamos renomear a coluna recém criada, mapeando de True/False para Sim/Não?

In [None]:
dft['compra'] = dft['compra'].astype('category')
dft['compra'] = dft['compra'].cat.rename_categories({True: 'sim', False: 'não'})
dft

### DataFrame e Validação de campos

In [None]:
lista_cli = ['Joao Noel', 'Maria Alves', 'Mia Alexandria', 'Elen Perez', 'Antonio Silverio']
lista_cpf = ['123.456.789-11', '23.456.789-11', '41 123.456.789-11', '123.456.789-11 maria', '333.333.333-55']

dfcli = pd.DataFrame({'Cliente': lista_cli, 'CPF': lista_cpf})
dfcli

In [None]:
dfcli['CPF'].str.match(r'^\d{3}\.\d{3}\.\d{3}-\d{2}$')

Vamos ver como utilizar estas informações para filtrar usuários com CPFs válidos ou inválidos?!

In [None]:
filtro_valido = dfcli['CPF'].str.match(r'^\d{3}\.\d{3}\.\d{3}-\d{2}$')
dfcli.loc[filtro_valido]