# Expressões regulares em Pandas, SQL e PNL

Nesta seção, aprenderemos alguns lugares práticos onde podemos aplicar expressões regulares por meio de bibliotecas Python. Expressões regulares são suportadas em muitos lugares, mas esperamos que isso dê uma ideia de como elas podem ser usadas em bibliotecas comuns.

## Pandas 

Ao importar um arquivo CSV, normalmente você usaria o Pandas em um ambiente Python.

In [None]:
import pandas as pd 

url = r"https://raw.githubusercontent.com/thomasnield/machine-learning-demo-data/master/classification/iris.csv"
df = pd.read_csv(url)
df

Lembre-se de que, na última seção, separamos manualmente apenas a coluna `species` do restante dos dados. Podemos fazer isso usando o argumento `sep` e fornecer uma expressão regular. Precisaremos instruir o Pandas a usar o mecanismo `python` para manipular a expressão regular.

In [None]:
import re 

pd.read_csv(url, sep=",(?=[a-z]+$)", engine='python')

Voltando ao nosso DataFrame original com colunas separadas previsivelmente, digamos que queremos comparar uma expressão regular com um campo. Podemos usar a função `str.match()` para retornar um array `Boolean` de valores e, em seguida, qualificar apenas esses registros. Abaixo, comparamos apenas espécies que começam com `v` e o terceiro caractere é um `r`, conforme especificado pela expressão regular `^v[a-z]r.*`.

In [None]:
df[df['species'].str.match("^v[a-z]r.*") == True]

Com certeza, obtemos registros onde as espécies são `versicolor` e `virginica`.

Este exemplo pode ser um pouco artificial, mas também podemos substituir um padrão de expressão regular por um texto diferente. Abaixo, pegamos esse padrão de regex e substituímos essas três últimas por "XXX". Isso pode ser útil se você estiver tentando substituir informações confidenciais, como números de previdência social.

In [None]:
df['species'].str.replace("^v[a-z]r", "XXX", regex=True)

Existem muitos sites que aceitam expressões regulares no Pandas, portanto, fique atento aos parâmetros relacionados a regex nas funções que você usa!

## SQL 

Outro lugar onde você pode utilizar expressões regulares é na maioria das plataformas SQL tradicionais, como MySQL, PostgreSQL, Microsoft SQL Server, Oracle e SQLite. Vamos testar no SQLite só para ver isso em ação. Observe que cada plataforma SQL pode implementar chamadas de função de expressões regulares de forma diferente, assim como Python e Java terão suas próprias funções para corresponder, substituir e dividir texto usando expressões regulares. As expressões regulares são praticamente as mesmas em todas as plataformas, mas a forma como você as passa por meio de funções e operadores varia.

Vamos baixar e abrir um banco de dados SQLite e consultar uma tabela `CUSTOMER`. Para garantir, usaremos o Pandas para exibir convenientemente os resultados em um `DataFrame`.

In [None]:
import urllib.request
import sqlite3
import pandas as pd 

urllib.request.urlretrieve("https://github.com/thomasnield/anaconda_intro_to_sql/blob/main/company_operations.db?raw=true", "company_operations.db")
conn = sqlite3.connect('company_operations.db')


sql = "SELECT * FROM CUSTOMER"

pd.read_sql(sql, conn)

Embora outras plataformas SQL geralmente estejam prontas para usar expressões regulares, precisamos habilitá-las com o SQLite. Para usar uma expressão regular para corresponder registros em um determinado campo, precisamos implementar a função `REGEXP`. Felizmente, podemos fazer isso simplesmente passando uma função Python para a conexão SQLite com este nome, e pronto.

In [None]:
import re 

def regexp(pattern, string):
    return 1 if re.search(pattern, string) else 0

conn.create_function('regexp', 2, regexp)

Abaixo, consultamos registros onde `ADDRESS` termina em `Dr` ou `Ave`, que capturamos com uma expressão regular.

In [None]:
sql = "SELECT * FROM CUSTOMER WHERE ADDRESS REGEXP '.*(Dr|Ave)$'"

pd.read_sql(sql, conn)

Embora isso varie de acordo com a plataforma SQL, você também encontrará funções para dividir e substituir texto usando padrões de expressões regulares.

# PNL usando spaCy

Se você já se envolveu com processamento de linguagem natural (PLN) ou explorou como construir grandes modelos de linguagem, provavelmente sabe que a tokenização é uma etapa fundamental para transformar dados de texto em dados numéricos.

Antes de começar, vamos instalar o spaCy.

In [None]:
!pip install spacy 
!python -m spacy download en_core_web_sm

Ao tokenizar dados de texto, você normalmente tokeniza palavras, nomes e outras strings semelhantes a dicionários. Mas, às vezes, você pode querer tokenizar endereços IP, números de telefone e outros valores formatados estruturalmente e realizar correspondências personalizadas com eles. Talvez você queira corresponder diferentes variantes ou grafias da mesma palavra, como "tem" ou "têm".

Podemos usar expressões regulares para ajudar o spaCy a identificar números de telefone como este.

In [None]:
import spacy
import re

nlp = spacy.load("en_core_web_sm")
doc = nlp("My phone number is 742-278-0572")

expression = r"[0-9]{3}-[0-9]{3}-[0-9]{4}"
for match in re.finditer(expression, doc.text):
    start, end = match.span()
    span = doc.char_span(start, end)
    if span is not None:
        print("Found match:", span.text)

Se você conhece o spaCy, confira a [documentação sobre correspondência baseada em regras](https://spacy.io/usage/rule-based-matching).

## Exercício

Encontre uma maneira de modificar o `DataFrame` abaixo para filtrar apenas registros onde o campo `STREET_ADDRESS` tenha um número de rua de 3 dígitos.

In [None]:
import urllib.request
import sqlite3
import pandas as pd 

urllib.request.urlretrieve("https://github.com/thomasnield/anaconda_intro_to_sql/blob/main/company_operations.db?raw=true", "company_operations.db")
conn = sqlite3.connect('company_operations.db')

df = pd.read_sql("SELECT * FROM CUSTOMER", conn)

### RESPOSTA A BAIXO

|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
v 

Você pode realizar essa tarefa de duas maneiras, mas ambas usam a expressão regular `^[0-9]{3}\s`.

Modifique a consulta SQL para usar expressões regulares:

In [None]:
import urllib.request
import sqlite3
import pandas as pd 

urllib.request.urlretrieve("https://github.com/thomasnield/anaconda_intro_to_sql/blob/main/company_operations.db?raw=true", "company_operations.db")
conn = sqlite3.connect('company_operations.db')

import re 

def regexp(pattern, string):
    return 1 if re.search(pattern, string) else 0

conn.create_function('regexp', 2, regexp)

df = pd.read_sql(r"SELECT * FROM CUSTOMER WHERE ADDRESS REGEXP '^[0-9]{3}\s'", conn)
df

Filtre o dataframe usando uma expressão regular:

In [None]:
import urllib.request
import sqlite3
import pandas as pd 

urllib.request.urlretrieve("https://github.com/thomasnield/anaconda_intro_to_sql/blob/main/company_operations.db?raw=true", "company_operations.db")
conn = sqlite3.connect('company_operations.db')

df[df["ADDRESS"].str.match(r"^[0-9]{3}\s")]