# Desafios Práticos - Pandas

Chegou a hora de pôr em prática tudo o que aprendemos durante as aulas. Preparei dois projetos extras para desenvolvermos durante o curso, para garantir que possamos praticar bastante! Para isso, vamos trabalhar com 2 novos conjuntos de dados, mas que dessa vez serão bem menores.

## Bases de Dados Disponíveis
- **Projeto desafio 1**: vendas online - `dados_vendas_clientes.json`
- **Projeto desafio 2**: administração de condomínios - `dados_locacao_imoveis.json`

Em cada aula, desenvolveremos uma etapa dos projetos. Portanto, salve seu código de construção em cada desafio para que possa aplicá-lo nos desafios posteriores.

## Etapa 1

### Projeto desafio 1: Vendas Online
O objetivo desse projeto é realizar uma análise dos resultados de um evento com os clientes de uma empresa de vendas online. Foi coletado um conjunto de dados que contém os clientes que mais gastaram com produtos dentro de 5 dias de vendas, que é o período de duração do evento. Essa análise vai identificar o cliente com a maior compra na semana, que irá receber um prêmio da loja, e posteriormente, ela pode ajudar a empresa a criar novas estratégias para atrair mais clientes.

A base de dados utilizada nessa análise é a `dados_vendas_clientes.json` e contém informações importantes sobre os clientes como:

- O nome de cadastro do cliente
- O valor total pago na compra
- O dia da compra

**Desafio**: Abrir a base de dados com Pandas e aplicar o `json_normalize`.

### Projeto desafio 2: Administração de Condomínios
A administração de condomínios é uma tarefa que requer muita atenção e organização. Entre as diversas responsabilidades da gestão está o recebimento dos aluguéis dos locatários. Para garantir uma boa saúde financeira do empreendimento, é fundamental que esses pagamentos sejam feitos de forma regular e pontual. No entanto, sabemos que nem sempre isso acontece.

Pensando nisso, proponho um desafio de tratamento de dados com o objetivo de analisar o atraso no pagamento de aluguéis no condomínio de alguns moradores. Disponibilizo a base de dados `dados_locacao_imoveis.json`, que contém informações sobre:

- O apartamento dos locatários
- O dia acordado para o pagamento do aluguel
- O dia da efetivação do pagamento de aluguel
- O valor do aluguel

**Desafio**: Similar ao desafio do projeto 1, abrir a base de dados com Pandas e aplicar o `json_normalize` no

In [2]:
import pandas as pd

url = 'https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_vendas_clientes.json'

url_2 = 'https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_locacao_imoveis.json'

#### Desafio 1

In [3]:
dados = pd.read_json(url)
dados.head()

Unnamed: 0,dados_vendas
0,"{'Data de venda': '06/06/2022', 'Cliente': ['@..."
1,"{'Data de venda': '07/06/2022', 'Cliente': ['I..."
2,"{'Data de venda': '08/06/2022', 'Cliente': ['I..."
3,"{'Data de venda': '09/06/2022', 'Cliente': ['J..."
4,"{'Data de venda': '10/06/2022', 'Cliente': ['M..."


In [4]:
dados = pd.json_normalize(dados['dados_vendas'])
dados

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


#### Desafio 02

In [5]:
dados_2 = pd.read_json(url_2)
dados_2.head()

Unnamed: 0,dados_locacao
0,"{'apartamento': 'A101 (blocoAP)', 'datas_combi..."
1,"{'apartamento': 'A102 (blocoAP)', 'datas_combi..."
2,"{'apartamento': 'B201 (blocoAP)', 'datas_combi..."
3,"{'apartamento': 'B202 (blocoAP)', 'datas_combi..."
4,"{'apartamento': 'C301 (blocoAP)', 'datas_combi..."


In [6]:
dados_2 = pd.json_normalize(dados_2['dados_locacao'])
dados_2

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"
5,C302 (blocoAP),"[06/06/2022, 06/07/2022]","[08/06/2022, 12/07/2022]","[$ 1500,0 reais, $ 1200,0 reais]"
6,D401 (blocoAP),"[07/06/2022, 07/07/2022]","[07/06/2022, 09/07/2022]","[$ 1600,0 reais, $ 1300,0 reais]"
7,D402 (blocoAP),"[08/06/2022, 08/07/2022]","[10/06/2022, 14/07/2022]","[$ 1700,0 reais, $ 1400,0 reais]"
8,E501 (blocoAP),"[09/06/2022, 09/07/2022]","[10/06/2022, 09/07/2022]","[$ 1800,0 reais, $ 1500,0 reais]"
9,E502 (blocoAP),"[10/06/2022, 10/07/2022]","[16/06/2022, 12/07/2022]","[$ 1900,0 reais, $ 1600,0 reais]"


# Etapa 02


### Projeto desafio 1: vendas online

Lemos a base de dados no desafio anterior, agora podemos avançar nas transformações desses dados. Então, o novo desafio do projeto 1 será dividido em algumas metas:

- Remover os dados em listas dentro do DataFrame;
- Verificar os tipos de dados;
- Identificar colunas numéricas;
- Transformar a coluna numérica para o tipo numérico.

### Projeto desafio 2: administração de condomínios

Lemos a base de dados no desafio anterior, agora podemos avançar nas transformações desses dados. Então, da mesma forma que o projeto 1, o desafio do projeto 2 está listado em algumas metas:

- Remover os dados em listas dentro do DataFrame;
- Verificar os tipos de dados;
- Identificar colunas numéricas;
- Transformar a coluna numérica para o tipo numérico.


In [7]:
# Projeto desafio 01 - Etapa 02
colunas = list(dados.columns)
colunas

['Data de venda', 'Cliente', 'Valor da compra']

In [8]:
# Projeto desafio 01 - Etapa 02
dados = dados.explode(colunas[1:])
dados.reset_index(drop=True, inplace=True)
dados

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
1,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
2,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
3,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
4,07/06/2022,Isabely JOanes 738,"R$ 825,31"
5,07/06/2022,Isabely JOanes 738,"R$ 168,07"
6,07/06/2022,Isabely JOanes 738,"R$ 339,18"
7,07/06/2022,Isabely JOanes 738,"R$ 314,69"
8,08/06/2022,Isabely JOanes 738,"R$ 682,05"
9,08/06/2022,JOãO Gabriel 671,"R$ 386,34"


In [9]:
# Projeto desafio 01 - Etapa 02
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Data de venda    20 non-null     object
 1   Cliente          20 non-null     object
 2   Valor da compra  20 non-null     object
dtypes: object(3)
memory usage: 612.0+ bytes


In [10]:
# Projeto desafio 01 - Etapa 02
import numpy as np

dados['Valor da compra'] = dados['Valor da compra'].apply(lambda x: x.replace('R$', '').replace(',', '.').strip())
dados['Valor da compra'] = dados['Valor da compra'].astype(np.float64)
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Data de venda    20 non-null     object 
 1   Cliente          20 non-null     object 
 2   Valor da compra  20 non-null     float64
dtypes: float64(1), object(2)
memory usage: 612.0+ bytes


### Projeto desafio 02 - Etapa 02

In [11]:
# Projeto desafio 02 - Etapa 02
colunas_2 = list(dados_2.columns)
colunas_2

['apartamento',
 'datas_combinadas_pagamento',
 'datas_de_pagamento',
 'valor_aluguel']

In [12]:
# Projeto desafio 02 - Etapa 02
dados_2 = dados_2.explode(colunas_2[1:])
dados_2.reset_index(drop=True, inplace=True)
dados_2


Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,"$ 1000,0 reais"
1,A101 (blocoAP),01/07/2022,03/07/2022,"$ 2500,0 reais"
2,A102 (blocoAP),02/06/2022,02/06/2022,"$ 1100,0 reais"
3,A102 (blocoAP),02/07/2022,06/07/2022,"$ 2600,0 reais"
4,B201 (blocoAP),03/06/2022,07/06/2022,"$ 1200,0 reais"
5,B201 (blocoAP),03/07/2022,03/07/2022,"$ 2700,0 reais"
6,B202 (blocoAP),04/06/2022,07/06/2022,"$ 1300,0 reais"
7,B202 (blocoAP),04/07/2022,05/07/2022,"$ 2800,0 reais"
8,C301 (blocoAP),05/06/2022,10/06/2022,"$ 1400,0 reais"
9,C301 (blocoAP),05/07/2022,09/07/2022,"$ 2900,0 reais"


In [13]:
# Projeto desafio 02 - Etapa 02
dados_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   apartamento                 30 non-null     object
 1   datas_combinadas_pagamento  30 non-null     object
 2   datas_de_pagamento          30 non-null     object
 3   valor_aluguel               30 non-null     object
dtypes: object(4)
memory usage: 1.1+ KB


In [14]:
dados_2['valor_aluguel'] = dados_2['valor_aluguel'].apply(lambda x: x.replace('$', '').replace(' reais', '').replace(',','.').strip())

dados_2['valor_aluguel'] = dados_2['valor_aluguel'].astype(np.float64)

dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Data de venda    20 non-null     object 
 1   Cliente          20 non-null     object 
 2   Valor da compra  20 non-null     float64
dtypes: float64(1), object(2)
memory usage: 612.0+ bytes


## Etapa 3
Projeto desafio 1: vendas online
Na etapa 2, trabalhamos na transformação dos dados numéricos. Agora, podemos trabalhar com valores textuais.

Devido a uma instabilidade no site da empresa, tivemos problemas com os nomes dos clientes durante o salvamento. Isso resultou em uma coluna de nomes de clientes com uma mistura de letras, maiúsculas e minúsculas, números e outros caracteres.

Sabendo disso, manipule os textos presentes na coluna Cliente para que seja obtido como resultado os nomes dos clientes em letras minúsculas, com a ausência de caracteres especiais ou números.

Projeto desafio 2: administração de condomínios
Na etapa 2, trabalhamos na transformação dos dados numéricos. Agora, podemos trabalhar com valores textuais.

Buscando explicar a organização da identificação dos apartamentos, durante a criação do conjunto de dados, foi adicionado o texto (blocoAP). Esse texto informa que os nomes dos apartamentos estão organizados com a letra do bloco seguida do número do apartamento. No entanto, isso não traz nenhuma informação para nossos dados, sendo interessante realizar a remoção desse texto no conjunto de dados.

Com isso, manipule os textos na coluna apartamento para remover o texto (blocoAP) do DataFrame.

In [15]:
### Projeto desafio 1: vendas online

dados['Cliente'] = dados['Cliente'].str.lower()
dados.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ana _lucia 321,836.5
1,06/06/2022,diego armandiu 210,573.33
2,06/06/2022,diego armandiu 210,392.8
3,06/06/2022,diego armandiu 210,512.34
4,07/06/2022,isabely joanes 738,825.31


In [16]:
dados['Cliente'].str.replace('[^a-z ]', '', regex=True)

0          ana lucia 
1     diego armandiu 
2     diego armandiu 
3     diego armandiu 
4     isabely joanes 
5     isabely joanes 
6     isabely joanes 
7     isabely joanes 
8     isabely joanes 
9        joo gabriel 
10    julya meireles 
11    julya meireles 
12    julya meireles 
13       maria julia 
14       maria julia 
15       maria julia 
16       maria julia 
17       pedro pasco 
18      paulo castro 
19     thiago fritzz 
Name: Cliente, dtype: object

In [17]:
dados['Cliente'] = dados['Cliente'].str.replace('[^a-z ]', '', regex=True).str.strip()
dados.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,ana lucia,836.5
1,06/06/2022,diego armandiu,573.33
2,06/06/2022,diego armandiu,392.8
3,06/06/2022,diego armandiu,512.34
4,07/06/2022,isabely joanes,825.31


In [18]:
# Projeto desafio 2: administração de condomínios

dados_2['apartamento'].str.replace(r' \(blocoAP\)', '', regex=True)


0     A101
1     A101
2     A102
3     A102
4     B201
5     B201
6     B202
7     B202
8     C301
9     C301
10    C302
11    C302
12    D401
13    D401
14    D402
15    D402
16    E501
17    E501
18    E502
19    E502
20    F601
21    F601
22    F602
23    F602
24    G701
25    G701
26    G702
27    G702
28    H801
29    H801
Name: apartamento, dtype: object

In [19]:
dados_2['apartamento'] = dados_2['apartamento'].str.replace(r' \(blocoAP\)', '', regex=True)
dados_2

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101,01/06/2022,05/06/2022,1000.0
1,A101,01/07/2022,03/07/2022,2500.0
2,A102,02/06/2022,02/06/2022,1100.0
3,A102,02/07/2022,06/07/2022,2600.0
4,B201,03/06/2022,07/06/2022,1200.0
5,B201,03/07/2022,03/07/2022,2700.0
6,B202,04/06/2022,07/06/2022,1300.0
7,B202,04/07/2022,05/07/2022,2800.0
8,C301,05/06/2022,10/06/2022,1400.0
9,C301,05/07/2022,09/07/2022,2900.0


## Etapa 4
Projeto desafio 1: vendas online

Na coluna Data de venda, temos datas em formato 'dia/mês/ano' (dd/mm/AAAA). Transforme esses dados para o tipo datetime e busque uma forma de visualização de subconjunto que possa contribuir no objetivo do contexto que os dados estão inseridos.

In [20]:
dados['Data de venda'] = pd.to_datetime(dados['Data de venda'], format='%d/%m/%Y')
dados

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,2022-06-06,ana lucia,836.5
1,2022-06-06,diego armandiu,573.33
2,2022-06-06,diego armandiu,392.8
3,2022-06-06,diego armandiu,512.34
4,2022-06-07,isabely joanes,825.31
5,2022-06-07,isabely joanes,168.07
6,2022-06-07,isabely joanes,339.18
7,2022-06-07,isabely joanes,314.69
8,2022-06-08,isabely joanes,682.05
9,2022-06-08,joo gabriel,386.34


In [21]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Data de venda    20 non-null     datetime64[ns]
 1   Cliente          20 non-null     object        
 2   Valor da compra  20 non-null     float64       
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 612.0+ bytes


In [22]:
total_compras = dados.groupby(['Cliente'])['Valor da compra'].sum()
total_compras

Cliente
ana lucia          836.50
diego armandiu    1478.47
isabely joanes    2329.30
joo gabriel        386.34
julya meireles    1643.74
maria julia       2086.65
paulo castro       899.16
pedro pasco        311.15
thiago fritzz      885.24
Name: Valor da compra, dtype: float64

#### Projeto desafio 2: administração de condomínios

In [24]:
dados_2['datas_combinadas_pagamento'] = pd.to_datetime(dados_2['datas_combinadas_pagamento'], format='%d/%m/%Y')
dados_2['datas_de_pagamento'] = pd.to_datetime(dados_2['datas_de_pagamento'], format='%d/%m/%Y')
dados_2

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101,2022-06-01,2022-06-05,1000.0
1,A101,2022-07-01,2022-07-03,2500.0
2,A102,2022-06-02,2022-06-02,1100.0
3,A102,2022-07-02,2022-07-06,2600.0
4,B201,2022-06-03,2022-06-07,1200.0
5,B201,2022-07-03,2022-07-03,2700.0
6,B202,2022-06-04,2022-06-07,1300.0
7,B202,2022-07-04,2022-07-05,2800.0
8,C301,2022-06-05,2022-06-10,1400.0
9,C301,2022-07-05,2022-07-09,2900.0


In [25]:
dados_2['atraso'] = (dados_2['datas_de_pagamento'] - dados_2['datas_combinadas_pagamento']).dt.days
dados_2


Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel,atraso
0,A101,2022-06-01,2022-06-05,1000.0,4
1,A101,2022-07-01,2022-07-03,2500.0,2
2,A102,2022-06-02,2022-06-02,1100.0,0
3,A102,2022-07-02,2022-07-06,2600.0,4
4,B201,2022-06-03,2022-06-07,1200.0,4
5,B201,2022-07-03,2022-07-03,2700.0,0
6,B202,2022-06-04,2022-06-07,1300.0,3
7,B202,2022-07-04,2022-07-05,2800.0,1
8,C301,2022-06-05,2022-06-10,1400.0,5
9,C301,2022-07-05,2022-07-09,2900.0,4


In [26]:
media_atraso = dados_2.groupby(['apartamento'])['atraso'].mean()
media_atraso

apartamento
A101    3.0
A102    2.0
B201    2.0
B202    2.0
C301    4.5
C302    4.0
D401    1.0
D402    4.0
E501    0.5
E502    4.0
F601    4.0
F602    1.5
G701    6.5
G702    2.0
H801    2.0
Name: atraso, dtype: float64