### Etapa 1 - Projeto desafio 2: administração de condomínios

A administração de condomínios é uma tarefa que requer muita atenção e organização. Entre as diversas responsabilidades da gestão está o recebimento dos aluguéis dos locatários. Para garantir uma boa saúde financeira do empreendimento, é fundamental que esses pagamentos sejam feitos de forma regular e pontual. No entanto, sabemos que nem sempre isso acontece.

Pensando nisso, proponho um desafio de tratamento de dados com o objetivo de analisar o atraso no pagamento de aluguéis no condomínio de alguns moradores. Disponibilizo a base de dados dados_locacao_imoveis.json, que contém informações sobre o apartamento dos locatários, o dia acordado para o pagamento do aluguel, o dia da efetivação do pagamento de aluguel e o valor do aluguel.

Com essas informações, o desafio do projeto 2: administração de condomínios será similar ao desafio do projeto 1, abrir a base de dados com Pandas e aplicar o json_normalize no DataFrame.

In [107]:
# Biblioteca
import pandas as pd

In [108]:
# Carregar os dados do arquivo Json
dados_adm = pd.read_json('dados_locacao_imoveis.json')
dados_adm

Unnamed: 0,dados_locacao
0,"{'apartamento': 'A101 (blocoAP)', 'datas_combi..."
1,"{'apartamento': 'A102 (blocoAP)', 'datas_combi..."
2,"{'apartamento': 'B201 (blocoAP)', 'datas_combi..."
3,"{'apartamento': 'B202 (blocoAP)', 'datas_combi..."
4,"{'apartamento': 'C301 (blocoAP)', 'datas_combi..."
5,"{'apartamento': 'C302 (blocoAP)', 'datas_combi..."
6,"{'apartamento': 'D401 (blocoAP)', 'datas_combi..."
7,"{'apartamento': 'D402 (blocoAP)', 'datas_combi..."
8,"{'apartamento': 'E501 (blocoAP)', 'datas_combi..."
9,"{'apartamento': 'E502 (blocoAP)', 'datas_combi..."


In [109]:
# Normalizando os dados
dados_adm = pd.json_normalize(dados_adm['dados_locacao'])

In [110]:
dados_adm

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"
5,C302 (blocoAP),"[06/06/2022, 06/07/2022]","[08/06/2022, 12/07/2022]","[$ 1500,0 reais, $ 1200,0 reais]"
6,D401 (blocoAP),"[07/06/2022, 07/07/2022]","[07/06/2022, 09/07/2022]","[$ 1600,0 reais, $ 1300,0 reais]"
7,D402 (blocoAP),"[08/06/2022, 08/07/2022]","[10/06/2022, 14/07/2022]","[$ 1700,0 reais, $ 1400,0 reais]"
8,E501 (blocoAP),"[09/06/2022, 09/07/2022]","[10/06/2022, 09/07/2022]","[$ 1800,0 reais, $ 1500,0 reais]"
9,E502 (blocoAP),"[10/06/2022, 10/07/2022]","[16/06/2022, 12/07/2022]","[$ 1900,0 reais, $ 1600,0 reais]"


### Etapa 2 - Projeto desafio 2: administração de condomínios
Lemos a base de dados no desafio anterior, agora podemos avançar nas transformações desses dados. Então, da mesma forma que o projeto 1, o desafio do projeto 2 está listado em algumas metas:

- Remover os dados em listas dentro do DataFrame;
- Verificar os tipos de dados;
- Identificar colunas numéricas;
- Transformar a coluna numérica para o tipo numérico.

In [111]:
# Colunas a tratar
col_exp = ['datas_combinadas_pagamento','datas_de_pagamento','valor_aluguel']

In [112]:
# Explode nas colunas para tirar os dados de lista
dados_adm = dados_adm.explode(col_exp[:])

In [113]:
# Visualizando 
dados_adm.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,"$ 1000,0 reais"
0,A101 (blocoAP),01/07/2022,03/07/2022,"$ 2500,0 reais"
1,A102 (blocoAP),02/06/2022,02/06/2022,"$ 1100,0 reais"
1,A102 (blocoAP),02/07/2022,06/07/2022,"$ 2600,0 reais"
2,B201 (blocoAP),03/06/2022,07/06/2022,"$ 1200,0 reais"


In [114]:
# Tipo dos dados
dados_adm.info()

<class 'pandas.core.frame.DataFrame'>
Index: 30 entries, 0 to 14
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   apartamento                 30 non-null     object
 1   datas_combinadas_pagamento  30 non-null     object
 2   datas_de_pagamento          30 non-null     object
 3   valor_aluguel               30 non-null     object
dtypes: object(4)
memory usage: 1.2+ KB


In [None]:
# Alterando o valores
dados_adm['valor_aluguel'] = dados_adm['valor_aluguel'].str.extract(r'(\d+,\d+)')[0].str.replace(',', '.').astype(float)


In [117]:
# Conferindo informações dos dados
dados_adm.info()

<class 'pandas.core.frame.DataFrame'>
Index: 30 entries, 0 to 14
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   apartamento                 30 non-null     object        
 1   datas_combinadas_pagamento  30 non-null     datetime64[ns]
 2   datas_de_pagamento          30 non-null     datetime64[ns]
 3   valor_aluguel               30 non-null     float64       
dtypes: datetime64[ns](2), float64(1), object(1)
memory usage: 1.2+ KB


In [118]:
# Visualizando
dados_adm.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),2022-06-01,2022-06-05,1000.0
0,A101 (blocoAP),2022-07-01,2022-07-03,2500.0
1,A102 (blocoAP),2022-06-02,2022-06-02,1100.0
1,A102 (blocoAP),2022-07-02,2022-07-06,2600.0
2,B201 (blocoAP),2022-06-03,2022-06-07,1200.0


### Etapa 3 - Projeto desafio 2: administração de condomínios
Na etapa 2, trabalhamos na transformação dos dados numéricos. Agora, podemos trabalhar com valores textuais.

Buscando explicar a organização da identificação dos apartamentos, durante a criação do conjunto de dados, foi adicionado o texto (blocoAP). Esse texto informa que os nomes dos apartamentos estão organizados com a letra do bloco seguida do número do apartamento. No entanto, isso não traz nenhuma informação para nossos dados, sendo interessante realizar a remoção desse texto no conjunto de dados.

Com isso, manipule os textos na coluna apartamento para remover o texto (blocoAP) do DataFrame.

In [119]:
dados_adm['apartamento'] = dados_adm['apartamento'].str.replace(r'\s*\(.*?\)', '', regex=True)

In [121]:
dados_adm.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101,2022-06-01,2022-06-05,1000.0
0,A101,2022-07-01,2022-07-03,2500.0
1,A102,2022-06-02,2022-06-02,1100.0
1,A102,2022-07-02,2022-07-06,2600.0
2,B201,2022-06-03,2022-06-07,1200.0


### Etapa 4 - Projeto desafio 2: administração de condomínios
Assim como no projeto desafio 1, trabalhamos com todas as colunas exceto as que envolvem datas.

Nas colunas datas_de_pagamento e datas_combinadas_pagamento, temos datas em formato 'dia/mês/ano' (dd/mm/AAAA). Transforme esses dados para o tipo datetime e busque uma forma de visualização de subconjunto que possa contribuir no objetivo do contexto que os dados estão inseridos.

In [115]:
# Alterando o tipo dos dados para data
dados_adm['datas_combinadas_pagamento'] = pd.to_datetime(dados_adm['datas_combinadas_pagamento'], format='%d/%m/%Y')
dados_adm['datas_de_pagamento'] = pd.to_datetime(dados_adm['datas_de_pagamento'], format='%d/%m/%Y')

In [None]:
# Agrupando pelo mês temos o valor total por mês referente as datas combinadas
dados_adm.groupby(dados_adm['datas_combinadas_pagamento'].dt.strftime('%Y-%m'))['valor_aluguel'].sum()

datas_combinadas_pagamento
2022-06    25500.0
2022-07    28100.0
Name: valor_aluguel, dtype: float64

In [126]:
# Para contribuir na solução do contexto é possível calcular a diferença de dias
# entre a data combinada e a data de pagamento com dt.days
dados_adm['atraso'] = (dados_adm['datas_de_pagamento'] - dados_adm['datas_combinadas_pagamento']).dt.days

In [127]:
# Calcular a média de tempo de atraso por apartamentos
media_atraso = dados_adm.groupby(['apartamento'])['atraso'].mean()

# Visualizar o resultado
media_atraso

apartamento
A101    3.0
A102    2.0
B201    2.0
B202    2.0
C301    4.5
C302    4.0
D401    1.0
D402    4.0
E501    0.5
E502    4.0
F601    4.0
F602    1.5
G701    6.5
G702    2.0
H801    2.0
Name: atraso, dtype: float64