<a href="https://colab.research.google.com/github/brodyandre/regex_em_dados_textuais_json_de_vendas/blob/main/regex_em_dados_textuais_json_de_vendas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üìù Documenta√ß√£o - Limpeza e Transforma√ß√£o de Dados de Vendas

Esta documenta√ß√£o descreve de forma estruturada e profissional o processo de limpeza e transforma√ß√£o de dados de vendas extra√≠dos de um arquivo JSON.

###1Ô∏è‚É£ Instala√ß√£o de Depend√™ncias

Para realizar o processamento dos dados, √© necess√°rio instalar a biblioteca pandas:

In [15]:
!pip install pandas



###2Ô∏è‚É£ Importa√ß√£o de Bibliotecas

As bibliotecas necess√°rias para manipula√ß√£o de dados e tratamento de strings s√£o importadas:

In [16]:
import numpy as np
import json
import pandas as pd
import re
import unicodedata

###3Ô∏è‚É£ Leitura do Arquivo JSON

O arquivo JSON √© carregado e convertido para um DataFrame do Pandas:

In [17]:
with open('/content/dados_vendas_clientes.json', 'r') as file:
    dados = json.load(file)

dados = pd.DataFrame(dados)
dados.head()

Unnamed: 0,dados_vendas
0,"{'Data de venda': '06/06/2022', 'Cliente': ['@..."
1,"{'Data de venda': '07/06/2022', 'Cliente': ['I..."
2,"{'Data de venda': '08/06/2022', 'Cliente': ['I..."
3,"{'Data de venda': '09/06/2022', 'Cliente': ['J..."
4,"{'Data de venda': '10/06/2022', 'Cliente': ['M..."


###4Ô∏è‚É£ Normaliza√ß√£o dos Dados

Para acessar corretamente as informa√ß√µes, √© realizada a normaliza√ß√£o dos dados:

In [18]:
dados = pd.json_normalize(dados['dados_vendas'])
dados

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JO√£O Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


###5Ô∏è‚É£ Renomea√ß√£o das Colunas

As colunas s√£o renomeadas para nomes mais intuitivos:

In [19]:
colunas = list(dados.columns)
dados = dados.rename(columns={
    colunas[0]: 'data_da_venda',
    colunas[1]: 'cliente',
    colunas[2]: 'valor_da_compra'
})
dados

Unnamed: 0,data_da_venda,cliente,valor_da_compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JO√£O Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


###6Ô∏è‚É£ Tratamento de Dados

Para manipular listas aninhadas, o m√©todo explode() √© utilizado, seguido do reset do √≠ndice:

In [20]:
colunas = list(dados.columns)
dados = dados.explode(colunas[1:])
dados.reset_index(drop=True, inplace=True)
dados

Unnamed: 0,data_da_venda,cliente,valor_da_compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
1,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
2,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
3,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
4,07/06/2022,Isabely JOanes 738,"R$ 825,31"
5,07/06/2022,Isabely JOanes 738,"R$ 168,07"
6,07/06/2022,Isabely JOanes 738,"R$ 339,18"
7,07/06/2022,Isabely JOanes 738,"R$ 314,69"
8,08/06/2022,Isabely JOanes 738,"R$ 682,05"
9,08/06/2022,JO√£O Gabriel 671,"R$ 386,34"


###7Ô∏è‚É£ Remo√ß√£o de Acentos e Caracteres Especiais

√â implementada uma fun√ß√£o para remover acentua√ß√£o e caracteres especiais dos nomes dos clientes, convertendo todos os nomes para  letras min√∫sculas:

In [21]:
def remove_acentos_caracteres_especiais(texto):
    # Remover acentos
    nfkd = unicodedata.normalize('NFKD', texto)
    texto_sem_acentos = u"".join([c for c in nfkd if not unicodedata.combining(c)])
    # Remover caracteres especiais e n√∫meros, e converter para min√∫sculas
    texto_limpo = re.sub(r'[^a-zA-Z\s]', '', texto_sem_acentos).lower()
    return texto_limpo

dados['cliente'] = dados['cliente'].apply(remove_acentos_caracteres_especiais)
dados

Unnamed: 0,data_da_venda,cliente,valor_da_compra
0,06/06/2022,ana lucia,"R$ 836,5"
1,06/06/2022,diego armandiu,"R$ 573,33"
2,06/06/2022,diego armandiu,"R$ 392,8"
3,06/06/2022,diego armandiu,"R$ 512,34"
4,07/06/2022,isabely joanes,"R$ 825,31"
5,07/06/2022,isabely joanes,"R$ 168,07"
6,07/06/2022,isabely joanes,"R$ 339,18"
7,07/06/2022,isabely joanes,"R$ 314,69"
8,08/06/2022,isabely joanes,"R$ 682,05"
9,08/06/2022,joao gabriel,"R$ 386,34"


###8Ô∏è‚É£ Formata√ß√£o dos Valores Monet√°rios

Os valores de compra s√£o formatados para tipo float, removendo o s√≠mbolo "R$" e ajustando a pontua√ß√£o:

In [22]:
dados['valor_da_compra'] = dados['valor_da_compra'].str.replace('R$', '', regex=False)
dados['valor_da_compra'] = dados['valor_da_compra'].str.replace('.', '', regex=False)
dados['valor_da_compra'] = dados['valor_da_compra'].str.replace(',', '.', regex=False)
dados['valor_da_compra'] = dados['valor_da_compra'].astype(float)
dados

Unnamed: 0,data_da_venda,cliente,valor_da_compra
0,06/06/2022,ana lucia,836.5
1,06/06/2022,diego armandiu,573.33
2,06/06/2022,diego armandiu,392.8
3,06/06/2022,diego armandiu,512.34
4,07/06/2022,isabely joanes,825.31
5,07/06/2022,isabely joanes,168.07
6,07/06/2022,isabely joanes,339.18
7,07/06/2022,isabely joanes,314.69
8,08/06/2022,isabely joanes,682.05
9,08/06/2022,joao gabriel,386.34


###9Ô∏è‚É£ Convertendo a Coluna data_da_venda para o tipo datetime

A estrutura final dos dados √© exibida, pronta para an√°lise:

In [23]:
dados['data_da_venda'] = pd.to_datetime(dados['data_da_venda'])
dados.info()
dados

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   data_da_venda    20 non-null     datetime64[ns]
 1   cliente          20 non-null     object        
 2   valor_da_compra  20 non-null     float64       
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 612.0+ bytes


Unnamed: 0,data_da_venda,cliente,valor_da_compra
0,2022-06-06,ana lucia,836.5
1,2022-06-06,diego armandiu,573.33
2,2022-06-06,diego armandiu,392.8
3,2022-06-06,diego armandiu,512.34
4,2022-07-06,isabely joanes,825.31
5,2022-07-06,isabely joanes,168.07
6,2022-07-06,isabely joanes,339.18
7,2022-07-06,isabely joanes,314.69
8,2022-08-06,isabely joanes,682.05
9,2022-08-06,joao gabriel,386.34


###üéØ Conclus√£o:
Os dados est√£o organizados, limpos e prontos para serem analisados, garantindo maior precis√£o nas opera√ß√µes futuras.