A administração de condomínios é uma tarefa que requer muita atenção e organização. Entre as diversas responsabilidades da gestão está o recebimento dos aluguéis dos locatários. Para garantir uma boa saúde financeira do empreendimento, é fundamental que esses pagamentos sejam feitos de forma regular e pontual. No entanto, sabemos que nem sempre isso acontece.

Pensando nisso, proponho um desafio de tratamento de dados com o objetivo de analisar o atraso no pagamento de aluguéis no condomínio de alguns moradores. Disponibilizo a base de dados dados_locacao_imoveis.json, que contém informações sobre o apartamento dos locatários, o dia acordado para o pagamento do aluguel, o dia da efetivação do pagamento de aluguel e o valor do aluguel.

In [1]:
import pandas as pd

In [8]:
import numpy as np

In [2]:
dados = pd.read_json('dados_locacao_imoveis.json')
dados.head()

Unnamed: 0,dados_locacao
0,"{'apartamento': 'A101 (blocoAP)', 'datas_combi..."
1,"{'apartamento': 'A102 (blocoAP)', 'datas_combi..."
2,"{'apartamento': 'B201 (blocoAP)', 'datas_combi..."
3,"{'apartamento': 'B202 (blocoAP)', 'datas_combi..."
4,"{'apartamento': 'C301 (blocoAP)', 'datas_combi..."


In [3]:
dados = pd.json_normalize(dados['dados_locacao'])
dados.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"


In [4]:
df_colunas = list(dados.columns)
df_colunas

['apartamento',
 'datas_combinadas_pagamento',
 'datas_de_pagamento',
 'valor_aluguel']

In [5]:
dados = dados.explode(df_colunas[1:])
dados

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,"$ 1000,0 reais"
0,A101 (blocoAP),01/07/2022,03/07/2022,"$ 2500,0 reais"
1,A102 (blocoAP),02/06/2022,02/06/2022,"$ 1100,0 reais"
1,A102 (blocoAP),02/07/2022,06/07/2022,"$ 2600,0 reais"
2,B201 (blocoAP),03/06/2022,07/06/2022,"$ 1200,0 reais"
2,B201 (blocoAP),03/07/2022,03/07/2022,"$ 2700,0 reais"
3,B202 (blocoAP),04/06/2022,07/06/2022,"$ 1300,0 reais"
3,B202 (blocoAP),04/07/2022,05/07/2022,"$ 2800,0 reais"
4,C301 (blocoAP),05/06/2022,10/06/2022,"$ 1400,0 reais"
4,C301 (blocoAP),05/07/2022,09/07/2022,"$ 2900,0 reais"


In [6]:
dados.reset_index(inplace=True, drop=True)
dados.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,"$ 1000,0 reais"
1,A101 (blocoAP),01/07/2022,03/07/2022,"$ 2500,0 reais"
2,A102 (blocoAP),02/06/2022,02/06/2022,"$ 1100,0 reais"
3,A102 (blocoAP),02/07/2022,06/07/2022,"$ 2600,0 reais"
4,B201 (blocoAP),03/06/2022,07/06/2022,"$ 1200,0 reais"


In [7]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   apartamento                 30 non-null     object
 1   datas_combinadas_pagamento  30 non-null     object
 2   datas_de_pagamento          30 non-null     object
 3   valor_aluguel               30 non-null     object
dtypes: object(4)
memory usage: 1.1+ KB


In [10]:
dados['valor_aluguel'] = dados['valor_aluguel'].apply(lambda x: x.replace('$', '').replace(',', '.').replace('reais', '').strip())
dados.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,1000.0
1,A101 (blocoAP),01/07/2022,03/07/2022,2500.0
2,A102 (blocoAP),02/06/2022,02/06/2022,1100.0
3,A102 (blocoAP),02/07/2022,06/07/2022,2600.0
4,B201 (blocoAP),03/06/2022,07/06/2022,1200.0


In [11]:
dados['valor_aluguel'] = dados['valor_aluguel'].astype(np.float64)
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   apartamento                 30 non-null     object 
 1   datas_combinadas_pagamento  30 non-null     object 
 2   datas_de_pagamento          30 non-null     object 
 3   valor_aluguel               30 non-null     float64
dtypes: float64(1), object(3)
memory usage: 1.1+ KB


In [14]:
dados['apartamento'] = dados['apartamento'].str.replace('(blocoAP)', '').str.strip()
dados.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101,01/06/2022,05/06/2022,1000.0
1,A101,01/07/2022,03/07/2022,2500.0
2,A102,02/06/2022,02/06/2022,1100.0
3,A102,02/07/2022,06/07/2022,2600.0
4,B201,03/06/2022,07/06/2022,1200.0


In [17]:
dados[['datas_combinadas_pagamento', 'datas_de_pagamento']]

Unnamed: 0,datas_combinadas_pagamento,datas_de_pagamento
0,01/06/2022,05/06/2022
1,01/07/2022,03/07/2022
2,02/06/2022,02/06/2022
3,02/07/2022,06/07/2022
4,03/06/2022,07/06/2022
5,03/07/2022,03/07/2022
6,04/06/2022,07/06/2022
7,04/07/2022,05/07/2022
8,05/06/2022,10/06/2022
9,05/07/2022,09/07/2022


In [20]:
dados['datas_combinadas_pagamento'] = pd.to_datetime(dados['datas_combinadas_pagamento'], format='%d/%m/%Y')
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   apartamento                 30 non-null     object        
 1   datas_combinadas_pagamento  30 non-null     datetime64[ns]
 2   datas_de_pagamento          30 non-null     object        
 3   valor_aluguel               30 non-null     float64       
dtypes: datetime64[ns](1), float64(1), object(2)
memory usage: 1.1+ KB


In [21]:
dados['datas_de_pagamento'] = pd.to_datetime(dados['datas_de_pagamento'], format='%d/%m/%Y')
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   apartamento                 30 non-null     object        
 1   datas_combinadas_pagamento  30 non-null     datetime64[ns]
 2   datas_de_pagamento          30 non-null     datetime64[ns]
 3   valor_aluguel               30 non-null     float64       
dtypes: datetime64[ns](2), float64(1), object(1)
memory usage: 1.1+ KB


In [22]:
dados.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101,2022-06-01,2022-06-05,1000.0
1,A101,2022-07-01,2022-07-03,2500.0
2,A102,2022-06-02,2022-06-02,1100.0
3,A102,2022-07-02,2022-07-06,2600.0
4,B201,2022-06-03,2022-06-07,1200.0


In [29]:
atrasos_por_apartamento = dados.groupby([dados['datas_de_pagamento'] - dados['datas_combinadas_pagamento'], 'apartamento'])[['valor_aluguel']].sum()
atrasos_por_apartamento

Unnamed: 0_level_0,Unnamed: 1_level_0,valor_aluguel
Unnamed: 0_level_1,apartamento,Unnamed: 2_level_1
0 days,A102,1100.0
0 days,B201,2700.0
0 days,D401,1600.0
0 days,E501,1500.0
0 days,F602,1100.0
1 days,B202,2800.0
1 days,E501,1800.0
1 days,G702,2300.0
1 days,H801,2200.0
2 days,A101,2500.0


In [34]:
atrasos_por_apartamento.reset_index(level=[0,1]).groupby('apartamento').sum(numeric_only=True).sort_values('valor_aluguel', ascending=False)

Unnamed: 0_level_0,valor_aluguel
apartamento,Unnamed: 1_level_1
H801,4600.0
G702,4400.0
C301,4300.0
B202,4100.0
B201,3900.0
A102,3700.0
A101,3500.0
E502,3500.0
G701,3400.0
E501,3300.0


In [35]:
dados['atraso'] = (dados['datas_de_pagamento'] - dados['datas_combinadas_pagamento']).dt.days
dados

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel,atraso
0,A101,2022-06-01,2022-06-05,1000.0,4
1,A101,2022-07-01,2022-07-03,2500.0,2
2,A102,2022-06-02,2022-06-02,1100.0,0
3,A102,2022-07-02,2022-07-06,2600.0,4
4,B201,2022-06-03,2022-06-07,1200.0,4
5,B201,2022-07-03,2022-07-03,2700.0,0
6,B202,2022-06-04,2022-06-07,1300.0,3
7,B202,2022-07-04,2022-07-05,2800.0,1
8,C301,2022-06-05,2022-06-10,1400.0,5
9,C301,2022-07-05,2022-07-09,2900.0,4


In [36]:
media_atraso = dados.groupby(['apartamento'])['atraso'].mean()
media_atraso

apartamento
A101    3.0
A102    2.0
B201    2.0
B202    2.0
C301    4.5
C302    4.0
D401    1.0
D402    4.0
E501    0.5
E502    4.0
F601    4.0
F602    1.5
G701    6.5
G702    2.0
H801    2.0
Name: atraso, dtype: float64