## Desafio 2 - administração de condomínios

A administração de condomínios é uma tarefa que requer muita atenção e organização. Entre as diversas responsabilidades da gestão está o recebimento dos aluguéis dos locatários. Para garantir uma boa saúde financeira do empreendimento, é fundamental que esses pagamentos sejam feitos de forma regular e pontual. No entanto, sabemos que nem sempre isso acontece.<br>
Pensando nisso, proponho um desafio de tratamento de dados com o objetivo de analisar o atraso no pagamento de aluguéis no condomínio de alguns moradores. 

In [143]:
# Importando os dados 
import pandas as pd

dados = pd.read_json('dados_locacao_imoveis.json')
dados.head()

Unnamed: 0,dados_locacao
0,"{'apartamento': 'A101 (blocoAP)', 'datas_combi..."
1,"{'apartamento': 'A102 (blocoAP)', 'datas_combi..."
2,"{'apartamento': 'B201 (blocoAP)', 'datas_combi..."
3,"{'apartamento': 'B202 (blocoAP)', 'datas_combi..."
4,"{'apartamento': 'C301 (blocoAP)', 'datas_combi..."


In [144]:
# Normalizando os dados
dados = pd.json_normalize(dados['dados_locacao'])
dados.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"


In [145]:
# Remover os dados em listas dentro do DataFrame;
colunas = list(dados.columns[1:])
dados = dados.explode(colunas)
dados.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,"$ 1000,0 reais"
0,A101 (blocoAP),01/07/2022,03/07/2022,"$ 2500,0 reais"
1,A102 (blocoAP),02/06/2022,02/06/2022,"$ 1100,0 reais"
1,A102 (blocoAP),02/07/2022,06/07/2022,"$ 2600,0 reais"
2,B201 (blocoAP),03/06/2022,07/06/2022,"$ 1200,0 reais"


In [146]:
#Verificar os tipos de dados;
dados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 30 entries, 0 to 14
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   apartamento                 30 non-null     object
 1   datas_combinadas_pagamento  30 non-null     object
 2   datas_de_pagamento          30 non-null     object
 3   valor_aluguel               30 non-null     object
dtypes: object(4)
memory usage: 1.2+ KB


In [147]:
#Identificar colunas numéricas;
dados['valor_aluguel'].head()

0    $ 1000,0 reais
0    $ 2500,0 reais
1    $ 1100,0 reais
1    $ 2600,0 reais
2    $ 1200,0 reais
Name: valor_aluguel, dtype: object

In [148]:
#Transformar a coluna numérica para o tipo numérico.
import numpy as np

dados['valor_aluguel'] = dados['valor_aluguel'].apply(lambda x: x.replace('$','').replace(',','.')
                             .replace(' reais','').strip()).astype(np.float64)
dados['valor_aluguel']

0     1000.0
0     2500.0
1     1100.0
1     2600.0
2     1200.0
2     2700.0
3     1300.0
3     2800.0
4     1400.0
4     2900.0
5     1500.0
5     1200.0
6     1600.0
6     1300.0
7     1700.0
7     1400.0
8     1800.0
8     1500.0
9     1900.0
9     1600.0
10    2000.0
10    1000.0
11    2100.0
11    1100.0
12    2200.0
12    1200.0
13    2300.0
13    2100.0
14    2400.0
14    2200.0
Name: valor_aluguel, dtype: float64

In [149]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 30 entries, 0 to 14
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   apartamento                 30 non-null     object 
 1   datas_combinadas_pagamento  30 non-null     object 
 2   datas_de_pagamento          30 non-null     object 
 3   valor_aluguel               30 non-null     float64
dtypes: float64(1), object(3)
memory usage: 1.2+ KB


In [150]:
dados['apartamento']

0     A101 (blocoAP)
0     A101 (blocoAP)
1     A102 (blocoAP)
1     A102 (blocoAP)
2     B201 (blocoAP)
2     B201 (blocoAP)
3     B202 (blocoAP)
3     B202 (blocoAP)
4     C301 (blocoAP)
4     C301 (blocoAP)
5     C302 (blocoAP)
5     C302 (blocoAP)
6     D401 (blocoAP)
6     D401 (blocoAP)
7     D402 (blocoAP)
7     D402 (blocoAP)
8     E501 (blocoAP)
8     E501 (blocoAP)
9     E502 (blocoAP)
9     E502 (blocoAP)
10    F601 (blocoAP)
10    F601 (blocoAP)
11    F602 (blocoAP)
11    F602 (blocoAP)
12    G701 (blocoAP)
12    G701 (blocoAP)
13    G702 (blocoAP)
13    G702 (blocoAP)
14    H801 (blocoAP)
14    H801 (blocoAP)
Name: apartamento, dtype: object

In [151]:
# Removendo os texto '(blocoAP)'
dados['apartamento'] = dados['apartamento'].str.replace(r"\(blocoAP\)", '', regex=True)

In [152]:
dados['apartamento']

0     A101 
0     A101 
1     A102 
1     A102 
2     B201 
2     B201 
3     B202 
3     B202 
4     C301 
4     C301 
5     C302 
5     C302 
6     D401 
6     D401 
7     D402 
7     D402 
8     E501 
8     E501 
9     E502 
9     E502 
10    F601 
10    F601 
11    F602 
11    F602 
12    G701 
12    G701 
13    G702 
13    G702 
14    H801 
14    H801 
Name: apartamento, dtype: object

In [45]:
dados

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101,01/06/2022,05/06/2022,1000.0
0,A101,01/07/2022,03/07/2022,2500.0
1,A102,02/06/2022,02/06/2022,1100.0
1,A102,02/07/2022,06/07/2022,2600.0
2,B201,03/06/2022,07/06/2022,1200.0
2,B201,03/07/2022,03/07/2022,2700.0
3,B202,04/06/2022,07/06/2022,1300.0
3,B202,04/07/2022,05/07/2022,2800.0
4,C301,05/06/2022,10/06/2022,1400.0
4,C301,05/07/2022,09/07/2022,2900.0


In [163]:
dados['datas_combinadas_pagamento'] = pd.to_datetime(dados['datas_combinadas_pagamento'], format="%d/%m/%Y")
dados['datas_de_pagamento'] = pd.to_datetime(dados['datas_de_pagamento'], format="%d/%m/%Y")
dados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 30 entries, 0 to 14
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   apartamento                 30 non-null     object        
 1   datas_combinadas_pagamento  30 non-null     datetime64[ns]
 2   datas_de_pagamento          30 non-null     datetime64[ns]
 3   valor_aluguel               30 non-null     float64       
dtypes: datetime64[ns](2), float64(1), object(1)
memory usage: 1.2+ KB


In [165]:
alugueis_atrasado = dados[dados['datas_combinadas_pagamento'] != dados['datas_de_pagamento']]

alugueis_atrasado

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101,2022-06-01,2022-06-05,1000.0
0,A101,2022-07-01,2022-07-03,2500.0
1,A102,2022-07-02,2022-07-06,2600.0
2,B201,2022-06-03,2022-06-07,1200.0
3,B202,2022-06-04,2022-06-07,1300.0
3,B202,2022-07-04,2022-07-05,2800.0
4,C301,2022-06-05,2022-06-10,1400.0
4,C301,2022-07-05,2022-07-09,2900.0
5,C302,2022-06-06,2022-06-08,1500.0
5,C302,2022-07-06,2022-07-12,1200.0


In [167]:
dados['dias_atrasado'] = (dados['datas_de_pagamento'] - dados['datas_combinadas_pagamento']).dt.days
dados = dados[['apartamento','datas_combinadas_pagamento','dias_atrasado','datas_de_pagamento','valor_aluguel']]

In [169]:
dados

Unnamed: 0,apartamento,datas_combinadas_pagamento,dias_atrasado,datas_de_pagamento,valor_aluguel
0,A101,2022-06-01,4,2022-06-05,1000.0
0,A101,2022-07-01,2,2022-07-03,2500.0
1,A102,2022-06-02,0,2022-06-02,1100.0
1,A102,2022-07-02,4,2022-07-06,2600.0
2,B201,2022-06-03,4,2022-06-07,1200.0
2,B201,2022-07-03,0,2022-07-03,2700.0
3,B202,2022-06-04,3,2022-06-07,1300.0
3,B202,2022-07-04,1,2022-07-05,2800.0
4,C301,2022-06-05,5,2022-06-10,1400.0
4,C301,2022-07-05,4,2022-07-09,2900.0


In [171]:
# Calculando a media de atrado por apartamento
media_atraso = dados.groupby(['apartamento'])['dias_atrasado'].mean()
media_atraso

apartamento
A101     3.0
A102     2.0
B201     2.0
B202     2.0
C301     4.5
C302     4.0
D401     1.0
D402     4.0
E501     0.5
E502     4.0
F601     4.0
F602     1.5
G701     6.5
G702     2.0
H801     2.0
Name: dias_atrasado, dtype: float64