<a href="https://colab.research.google.com/github/marceloodr/transformacao_e_manipulacao_de_dados_com_pandas/blob/main/desafios_pandas_transforma%C3%A7%C3%A3o_e_manipula%C3%A7%C3%A3o_de_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# importar bibliotecas utilizadas
import pandas as pd
import numpy as np

# Desafio 1 - vendas online

In [2]:
# ler a base de dados
dados_vendas = pd.read_json('/content/dados_vendas_clientes.json')
dados_vendas.head()

Unnamed: 0,dados_vendas
0,"{'Data de venda': '06/06/2022', 'Cliente': ['@..."
1,"{'Data de venda': '07/06/2022', 'Cliente': ['I..."
2,"{'Data de venda': '08/06/2022', 'Cliente': ['I..."
3,"{'Data de venda': '09/06/2022', 'Cliente': ['J..."
4,"{'Data de venda': '10/06/2022', 'Cliente': ['M..."


In [3]:
# normalizar os dados do arquivo .json
dados_vendas = pd.json_normalize(dados_vendas['dados_vendas'])
dados_vendas

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


In [4]:
# criar uma lista com as colunas do dataframe
colunas_vendas = list(dados_vendas.columns)

In [5]:
# transformar as listas do dataframe em linhas (explodir as listas)
dados_vendas = dados_vendas.explode(colunas_vendas[1:])
dados_vendas

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
1,07/06/2022,Isabely JOanes 738,"R$ 825,31"
1,07/06/2022,Isabely JOanes 738,"R$ 168,07"
1,07/06/2022,Isabely JOanes 738,"R$ 339,18"
1,07/06/2022,Isabely JOanes 738,"R$ 314,69"
2,08/06/2022,Isabely JOanes 738,"R$ 682,05"
2,08/06/2022,JOãO Gabriel 671,"R$ 386,34"


In [6]:
# remover caracteres não númericos da coluna 'Valor da compra'
dados_vendas['Valor da compra'] = dados_vendas['Valor da compra'].apply(lambda x: x.replace('R$','').replace(',','.').strip())
dados_vendas['Valor da compra'].head()

Unnamed: 0,Valor da compra
0,836.5
0,573.33
0,392.8
0,512.34
1,825.31


In [7]:
# mudar o tipo da coluna 'Valor da compra' para float64
dados_vendas['Valor da compra'] = dados_vendas['Valor da compra'].astype(np.float64)
dados_vendas.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20 entries, 0 to 4
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Data de venda    20 non-null     object 
 1   Cliente          20 non-null     object 
 2   Valor da compra  20 non-null     float64
dtypes: float64(1), object(2)
memory usage: 1.2+ KB


In [8]:
# resetar o index do dataframe
dados_vendas.reset_index(inplace=True, drop=True)
dados_vendas.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,836.5
1,06/06/2022,DieGO ARMANDIU 210,573.33
2,06/06/2022,DieGO ARMANDIU 210,392.8
3,06/06/2022,DieGO ARMANDIU 210,512.34
4,07/06/2022,Isabely JOanes 738,825.31


In [19]:
# remove números e caracteres especiais dos nomes dos clientes e converte tudo para minúsculo
dados_vendas['Cliente'] = dados_vendas['Cliente'].str.replace('[^a-zA-Z\ã]', ' ', regex=True).str.lower()

In [24]:
# transformar 'Data de venda' para datetime
dados_vendas['Data de venda'] = pd.to_datetime(dados_vendas['Data de venda'])

In [28]:
# calcular o valor total de compras de cada cliente
total_compras = dados_vendas.groupby(['Cliente'])['Valor da compra'].sum()
total_compras

Unnamed: 0_level_0,Valor da compra
Cliente,Unnamed: 1_level_1
ana lucia,836.5
diego armandiu,1478.47
isabely joanes,2329.3
joão gabriel,386.34
julya meireles,1643.74
maria julia,2086.65
paulo castro,899.16
pedro pasco,311.15
thiago fritzz,885.24


# Desafio 2 - administração de condomínios

In [9]:
# ler a base de dados
dados_imoveis = pd.read_json('/content/dados_locacao_imoveis.json')
dados_imoveis.head()

Unnamed: 0,dados_locacao
0,"{'apartamento': 'A101 (blocoAP)', 'datas_combi..."
1,"{'apartamento': 'A102 (blocoAP)', 'datas_combi..."
2,"{'apartamento': 'B201 (blocoAP)', 'datas_combi..."
3,"{'apartamento': 'B202 (blocoAP)', 'datas_combi..."
4,"{'apartamento': 'C301 (blocoAP)', 'datas_combi..."


In [10]:
# normalizar os dados do arquivo .json
dados_imoveis = pd.json_normalize(dados_imoveis['dados_locacao'])
dados_imoveis

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"
5,C302 (blocoAP),"[06/06/2022, 06/07/2022]","[08/06/2022, 12/07/2022]","[$ 1500,0 reais, $ 1200,0 reais]"
6,D401 (blocoAP),"[07/06/2022, 07/07/2022]","[07/06/2022, 09/07/2022]","[$ 1600,0 reais, $ 1300,0 reais]"
7,D402 (blocoAP),"[08/06/2022, 08/07/2022]","[10/06/2022, 14/07/2022]","[$ 1700,0 reais, $ 1400,0 reais]"
8,E501 (blocoAP),"[09/06/2022, 09/07/2022]","[10/06/2022, 09/07/2022]","[$ 1800,0 reais, $ 1500,0 reais]"
9,E502 (blocoAP),"[10/06/2022, 10/07/2022]","[16/06/2022, 12/07/2022]","[$ 1900,0 reais, $ 1600,0 reais]"


In [11]:
# criar uma lista com as colunas do dataframe
colunas_imoveis = list(dados_imoveis.columns)
# transformar as listas do dataframe em linhas (explodir as listas)
dados_imoveis = dados_imoveis.explode(colunas_imoveis[1:])
dados_imoveis.reset_index(inplace=True, drop=True)
dados_imoveis.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,"$ 1000,0 reais"
1,A101 (blocoAP),01/07/2022,03/07/2022,"$ 2500,0 reais"
2,A102 (blocoAP),02/06/2022,02/06/2022,"$ 1100,0 reais"
3,A102 (blocoAP),02/07/2022,06/07/2022,"$ 2600,0 reais"
4,B201 (blocoAP),03/06/2022,07/06/2022,"$ 1200,0 reais"


In [12]:
# remover caracteres não númericos da coluna 'valor_aluguel'
dados_imoveis['valor_aluguel'] = dados_imoveis['valor_aluguel'].apply(lambda x: x.replace('$','').replace('reais','').replace(',','.').strip())
# mudar o tipo da coluna 'valor_aluguel' para float64
dados_imoveis['valor_aluguel'] = dados_imoveis['valor_aluguel'].astype(np.float64)
dados_imoveis.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   apartamento                 30 non-null     object 
 1   datas_combinadas_pagamento  30 non-null     object 
 2   datas_de_pagamento          30 non-null     object 
 3   valor_aluguel               30 non-null     float64
dtypes: float64(1), object(3)
memory usage: 1.1+ KB


In [13]:
dados_imoveis.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,1000.0
1,A101 (blocoAP),01/07/2022,03/07/2022,2500.0
2,A102 (blocoAP),02/06/2022,02/06/2022,1100.0
3,A102 (blocoAP),02/07/2022,06/07/2022,2600.0
4,B201 (blocoAP),03/06/2022,07/06/2022,1200.0


In [22]:
# remove o texto '(blocoAP)'
dados_imoveis['apartamento'] = dados_imoveis['apartamento'].str.replace('\(blocoAP\)', '', regex=True)

In [29]:
# transformar 'datas_combinadas_pagamento' e 'datas_de_pagamento' para datetime
dados_imoveis['datas_combinadas_pagamento'] = pd.to_datetime(dados_imoveis['datas_combinadas_pagamento'], format='%d/%m/%Y')
dados_imoveis['datas_de_pagamento'] = pd.to_datetime(dados_imoveis['datas_de_pagamento'], format='%d/%m/%Y')
dados_imoveis

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101,2022-06-01,2022-06-05,1000.0
1,A101,2022-07-01,2022-07-03,2500.0
2,A102,2022-06-02,2022-06-02,1100.0
3,A102,2022-07-02,2022-07-06,2600.0
4,B201,2022-06-03,2022-06-07,1200.0
5,B201,2022-07-03,2022-07-03,2700.0
6,B202,2022-06-04,2022-06-07,1300.0
7,B202,2022-07-04,2022-07-05,2800.0
8,C301,2022-06-05,2022-06-10,1400.0
9,C301,2022-07-05,2022-07-09,2900.0


In [30]:
# verificar pagamentos atrasados
dados_imoveis['atraso'] = (dados_imoveis['datas_de_pagamento'] - dados_imoveis['datas_combinadas_pagamento']).dt.days
dados_imoveis

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel,atraso
0,A101,2022-06-01,2022-06-05,1000.0,4
1,A101,2022-07-01,2022-07-03,2500.0,2
2,A102,2022-06-02,2022-06-02,1100.0,0
3,A102,2022-07-02,2022-07-06,2600.0,4
4,B201,2022-06-03,2022-06-07,1200.0,4
5,B201,2022-07-03,2022-07-03,2700.0,0
6,B202,2022-06-04,2022-06-07,1300.0,3
7,B202,2022-07-04,2022-07-05,2800.0,1
8,C301,2022-06-05,2022-06-10,1400.0,5
9,C301,2022-07-05,2022-07-09,2900.0,4


In [31]:
# calcular média de tempo de atraso por apartamento
media_atraso = dados_imoveis.groupby(['apartamento'])['atraso'].mean()
media_atraso

Unnamed: 0_level_0,atraso
apartamento,Unnamed: 1_level_1
A101,3.0
A102,2.0
B201,2.0
B202,2.0
C301,4.5
C302,4.0
D401,1.0
D402,4.0
E501,0.5
E502,4.0
