<a href="https://www.kaggle.com/code/jonasaacampos/performance-de-regex-lambdas-vs-pandas?scriptVersionId=121457334" target="_blank"><img align="left" alt="Kaggle" title="Open in Kaggle" src="https://kaggle.com/static/images/open-in-kaggle.svg"></a>

[![](https://img.shields.io/badge/feito%20com%20%E2%9D%A4%20por-jaac-cyan)](https://github.com/jonasaacampos)
[![LinkedIn Badge](https://img.shields.io/badge/LinkedIn-Profile-informational?style=flat&logo=linkedin&logoColor=white&color=0D76A8)](https://www.linkedin.com/in/jonasaacampos)

[//]: # (Title: Performance de expressões regulares com funções anônimas e Pandas)
[//]: # (Author: Jonas Campos)
[//]: # (Date: March 08, 2023)
[//]: # (Comment: Projeto de análise de comparação entre métodos nativos do pandas e lambda functions para análise de performance) 
[//]: # (Tags: #python, #pandas, #lambda_functions, #map, #regex)  

# Performance de expressões regulares com funções anônimas (lambdas) e Pandas

> No caderno anterior [**clique aqui para acessar**](https://www.kaggle.com/code/jonasaacampos/uso-de-express-es-regulares-no-tratamento-de-dados) analisamos como utilizar regex com o Pandas é mais elegante e limpo do que utilizar funções lambdas. 
>
> Mas e quanto a performance? 




 <img src='https://raw.githubusercontent.com/jonasaacampos/data-science-works/main/img/cover-repo-small-projects-data-science.png' width=60%>
 
Usarei o mesmo código do caderno anterior (onde expliquei cada trecho). O foco aqui será o tempo de execução de cada método.

<br>
<br>

<details>
    <summary>
        <b>O vencedor foi... ALERTA DE SPOILER</b>
    </summary>   
   
        Cerca de 0.13 segundos mais rápido em ambos os cenários testados.
    
 <br>
    
  <img src='https://media.tenor.com/PezPHRkzuhUAAAAd/panda-seulisasoo.gif' width=30%>
 
 </details>
 

 Foram feitos testes de tempo de execução com 10 mil e com **meio milhão de linhas** (1 milhão ia forçar a barra do meu humilde computador, mas o código está aí pra quem quiser replicar com qualquer valor
 

In [2]:
# biblioteca necessária para gerar dados aleatórios para teste

!pip install faker

Collecting faker
  Downloading Faker-17.6.0-py3-none-any.whl (1.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m20.0 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Installing collected packages: faker
Successfully installed faker-17.6.0
[0m

In [3]:
# biblioteca para geração de dados aleatórios
from faker import Faker

# biblioteca para usarmos Regular Expression 'regex' com o pyuthon
import re

# biblioteca de análise e manipulação de dados
import pandas as pd

Vamos Gerar 10 mil dados de endereço, e depois separar os dados de Estado (state) e Código Postal (zip_code)

In [4]:
# criando nosso gerador e determinando o número de nossa amostra. Neste exemplo faremos a geração de 10 mil endereços fictícios
faker = Faker()
n = 10_000


In [5]:
# função de preenche um conjunto de dados com dados aleatórios

def preenche_dataset():
    return pd.Series([faker.address() for i in range (n)])

In [6]:
# gerando um conjunto de dados
df_enderecos = preenche_dataset()

In [7]:
# definindo o padrão da expressão regular

pattern = "\w{2} \d{5}"

Nosso objetivo não é a saída dos dados, que será a mesma em ambos os casos, mas o tempo de execução de cada método.

Usaremo o método `%%timeit` para que o jupiter notebook mostre como saída o tempo de execução de cada célula de código 

In [8]:
%%timeit
df_enderecos.map (lambda x: (re.search(pattern, x).group())).str .split(" ", expand=True).rename(columns={0: "state", 1:"zip_code"})

44.1 ms ± 1.3 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [9]:
%%timeit
df_enderecos.str.extract( r"(?P<state>\w{2}) (?P<zip_code>\d{5})" ) 

32 ms ± 690 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


Com 10.000 linhas, o pandas foi 13 milessegundos mais rápido que com funções lambdas. Vamos refazer o teste, mas desta vez com **meio milhão de linhas**


In [10]:
n = 500_000
df2 = preenche_dataset()

In [11]:
%%timeit
df_enderecos.map (lambda x: (re.search(pattern, x).group())).str .split(" ", expand=True).rename(columns={0: "state", 1:"zip_code"})

43.5 ms ± 865 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [12]:
%%timeit
df_enderecos.str.extract( r"(?P<state>\w{2}) (?P<zip_code>\d{5})" ) 

31.9 ms ± 161 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


## Conclusão

    Além de mais simples, é mais rápido. 


```python
# lambda function
(
    (df_enderecos)
        .map (lambda x: (re.search(pattern, x).group()))
        .str .split(" ", expand=True)
        .rename(columns={0: "state", 1:"zip_code"})    
)

# Pandas
df_enderecos.str.extract( r"(?P<state>\w{2}) (?P<zip_code>\d{5})" ) 

```


## Cont(r)ate-me 📫:

<p align='center'>
  <a href='https://github.com/jonasaacampos'>
    <img src='https://img.shields.io/badge/GitHub-100000?style=for-the-badge&logo=github&logoColor=white'/>
  </a>
  <a href='https://www.linkedin.com/in/jonasaacampos/'>
    <img src='https://img.shields.io/badge/LinkedIn-0077B5?style=for-the-badge&logo=linkedin&logoColor=white'/>
  </a>
   <a href='https://dev.to/jonasaacampos'>
    <img src='https://img.shields.io/badge/dev.to-0A0A0A?style=for-the-badge&logo=devdotto&logoColor=white'/>
  </a>
    <a href='https://www.buymeacoffee.com/jaac.dev'>
    <img src='https://img.shields.io/badge/Buy_Me_A_Coffee-FFDD00?style=for-the-badge&logo=buy-me-a-coffee&logoColor=black'/>
  </a>
</p>

![jonasaacampos header](https://raw.githubusercontent.com/jonasaacampos/jonasaacampos/master/img/banner2.png)
