### Desafio 1: trabalhando em outros contextos

#### Desafio 1.1 - vendas online

In [15]:
# Import do pandas
import pandas as pd
# Ler o arquivo json com read_json
dados = pd.read_json('dados_vendas_clientes.json')
# Aplicar json_normalize na coluna dados_vendas
dados = pd.json_normalize(dados['dados_vendas'])
# Mostrar valores
dados

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


### Desafio 1.1

In [16]:
# Coletar os valores das colunas e verificar
colunas = list(dados.columns)
colunas

# Destrinchar as listas com explode
dados = dados.explode(colunas[1:])
# Resetar os index das linhas
dados.reset_index(drop=True,inplace=True)
# Observar o DataFrame
dados

# Verificar os tipos de dados com info
dados.info()

# A coluna numérica é a 'Valor da compra'
dados['Valor da compra']

# Iniciar a transformação
# Import da biblioteca numpy
import numpy as np
# Remover os textos presentes na base
# Trocar as vírgulas separadoras do decimal por ponto
dados['Valor da compra'] = dados['Valor da compra'].apply(lambda x: x.replace('R$ ', '').replace(',','.').strip())
# Alterar os tipo de dado para float
dados['Valor da compra'] = dados['Valor da compra'].astype(np.float64)
# Verificar a transformação
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Data de venda    20 non-null     object
 1   Cliente          20 non-null     object
 2   Valor da compra  20 non-null     object
dtypes: object(3)
memory usage: 612.0+ bytes
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Data de venda    20 non-null     object 
 1   Cliente          20 non-null     object 
 2   Valor da compra  20 non-null     float64
dtypes: float64(1), object(2)
memory usage: 612.0+ bytes


### Desafio 1.3

In [17]:
# Transformar os textos de Cliente para texto em minúsculo
dados['Cliente'] = dados['Cliente'].str.lower()
# Verificar o resultado
dados.head()

# Opção de substituição - necessário verificar o resultado da substituição
# O regex não seleciona todas as letras de a-z e espaços em branco ' '
# Tudo que satisfaz o regex é apagado
dados['Cliente'].str.replace('[^a-z ]', '', regex=True)

# Realizar a substituição dos dados na coluna textual
dados['Cliente'] = dados['Cliente'].str.replace('[^a-z ]', '', regex=True).str.strip()
# Visualizar o resultado final
dados.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,ana lucia,836.5
1,06/06/2022,diego armandiu,573.33
2,06/06/2022,diego armandiu,392.8
3,06/06/2022,diego armandiu,512.34
4,07/06/2022,isabely joanes,825.31


### Desafio 1.4

In [18]:
# Transformar para o tipo datetime definindo o formato de data como DD/MM/AAAA ('%d/%m/%Y')
dados['Data de venda'] = pd.to_datetime(dados['Data de venda'], format='%d/%m/%Y')
# Visualizar o resultado
dados

# Verificar o resultado da transformação
dados.info()

# Calcular o total arrecadado em compras por cada cliente
total_compras = dados.groupby(['Cliente'])['Valor da compra'].sum()
# Visualizar o resultado
total_compras

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Data de venda    20 non-null     datetime64[ns]
 1   Cliente          20 non-null     object        
 2   Valor da compra  20 non-null     float64       
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 612.0+ bytes


Cliente
ana lucia          836.50
diego armandiu    1478.47
isabely joanes    2329.30
joo gabriel        386.34
julya meireles    1643.74
maria julia       2086.65
paulo castro       899.16
pedro pasco        311.15
thiago fritzz      885.24
Name: Valor da compra, dtype: float64

#### Desafio 2 - administração de condomínios

In [19]:
# Import do pandas
import pandas as pd
# Ler o arquivo json com read_json
dados = pd.read_json('dados_locacao_imoveis.json')
# Aplicar json_normalize na coluna dados_locacao
dados = pd.json_normalize(dados['dados_locacao'])
# Mostrar valores
dados

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"
5,C302 (blocoAP),"[06/06/2022, 06/07/2022]","[08/06/2022, 12/07/2022]","[$ 1500,0 reais, $ 1200,0 reais]"
6,D401 (blocoAP),"[07/06/2022, 07/07/2022]","[07/06/2022, 09/07/2022]","[$ 1600,0 reais, $ 1300,0 reais]"
7,D402 (blocoAP),"[08/06/2022, 08/07/2022]","[10/06/2022, 14/07/2022]","[$ 1700,0 reais, $ 1400,0 reais]"
8,E501 (blocoAP),"[09/06/2022, 09/07/2022]","[10/06/2022, 09/07/2022]","[$ 1800,0 reais, $ 1500,0 reais]"
9,E502 (blocoAP),"[10/06/2022, 10/07/2022]","[16/06/2022, 12/07/2022]","[$ 1900,0 reais, $ 1600,0 reais]"


### Desafio 2.1

In [20]:
# Coletar os valores das colunas e verificar
colunas = list(dados.columns)
colunas

# Destrinchar as listas com explode
dados = dados.explode(colunas[1:])
# Resetar os index das linhas
dados.reset_index(drop=True,inplace=True)
# Observar o DataFrame
dados

# Verificar os tipos de dados com info
dados.info()

# A coluna numérica é a 'valor_aluguel'
dados['valor_aluguel']

# Iniciar a transformação
# Import da biblioteca numpy
import numpy as np
# Remover os textos presentes na base
# Trocar as vírgulas separadoras do decimal por ponto
dados['valor_aluguel'] = dados['valor_aluguel'].apply(lambda x: x.replace('$ ', '').replace(' reais', '').replace(',','.').strip())
# Alterar os tipo de dado para float
dados['valor_aluguel'] = dados['valor_aluguel'].astype(np.float64)
# Verificar a transformação
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   apartamento                 30 non-null     object
 1   datas_combinadas_pagamento  30 non-null     object
 2   datas_de_pagamento          30 non-null     object
 3   valor_aluguel               30 non-null     object
dtypes: object(4)
memory usage: 1.1+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   apartamento                 30 non-null     object 
 1   datas_combinadas_pagamento  30 non-null     object 
 2   datas_de_pagamento          30 non-null     object 
 3   valor_aluguel               30 non-null     float64
dtypes: float64(1), object(3)
memory usage: 1.1+ KB


### Desafio 2.2

In [21]:
# Opção de substituição - necessário verificar o resultado da substituição
# Foi necessário adicionar a barra '\' para ser considerados os parênteses como caracteres literais
dados['apartamento'].str.replace(' \(blocoAP\)', '', regex=True)

# Realizar a substituição dos dados na coluna textual
dados['apartamento'] = dados['apartamento'].str.replace(' \(blocoAP\)', '', regex=True)
# Visualizar o resultado final
dados

  dados['apartamento'].str.replace(' \(blocoAP\)', '', regex=True)
  dados['apartamento'] = dados['apartamento'].str.replace(' \(blocoAP\)', '', regex=True)


Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101,01/06/2022,05/06/2022,1000.0
1,A101,01/07/2022,03/07/2022,2500.0
2,A102,02/06/2022,02/06/2022,1100.0
3,A102,02/07/2022,06/07/2022,2600.0
4,B201,03/06/2022,07/06/2022,1200.0
5,B201,03/07/2022,03/07/2022,2700.0
6,B202,04/06/2022,07/06/2022,1300.0
7,B202,04/07/2022,05/07/2022,2800.0
8,C301,05/06/2022,10/06/2022,1400.0
9,C301,05/07/2022,09/07/2022,2900.0


### Desafio 2.3

In [22]:
# Transformar para o tipo datetime definindo o formato de data como DD/MM/AAAA ('%d/%m/%Y')
dados['datas_combinadas_pagamento'] = pd.to_datetime(dados['datas_combinadas_pagamento'], format='%d/%m/%Y')
dados['datas_de_pagamento'] = pd.to_datetime(dados['datas_de_pagamento'], format='%d/%m/%Y')

# Visualizar o resultado
dados

# Para contribuir na solução do contexto é possível calcular a diferença de dias
# entre a data combinada e a data de pagamento com dt.days
dados['atraso'] = (dados['datas_de_pagamento'] - dados['datas_combinadas_pagamento']).dt.days

# Observar o novo DataFrame
dados

# Calcular a média de tempo de atraso por apartamentos
media_atraso = dados.groupby(['apartamento'])['atraso'].mean()

# Visualizar o resultado
media_atraso

apartamento
A101    3.0
A102    2.0
B201    2.0
B202    2.0
C301    4.5
C302    4.0
D401    1.0
D402    4.0
E501    0.5
E502    4.0
F601    4.0
F602    1.5
G701    6.5
G702    2.0
H801    2.0
Name: atraso, dtype: float64