Etapa 1

#### Projeto desafio 2: administração de condomínios

A administração de condomínios é uma tarefa que requer muita atenção e organização. Entre as diversas responsabilidades da gestão está o recebimento dos aluguéis dos locatários. Para garantir uma boa saúde financeira do empreendimento, é fundamental que esses pagamentos sejam feitos de forma regular e pontual. No entanto, sabemos que nem sempre isso acontece.

Pensando nisso, proponho um desafio de tratamento de dados com o objetivo de analisar o atraso no pagamento de aluguéis no condomínio de alguns moradores. Disponibilizo a base de dados dados_locacao_imoveis.json, que contém informações sobre o apartamento dos locatários, o dia acordado para o pagamento do aluguel, o dia da efetivação do pagamento de aluguel e o valor do aluguel.

Com essas informações, o desafio do projeto 2: administração de condomínios será similar ao desafio do projeto 1, abrir a base de dados com Pandas e aplicar o json_normalize no DataFrame.

In [27]:
import pandas as pd
import numpy as np
import requests
import io
url = 'https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_locacao_imoveis.json'
response = requests.get(url)

json = io.StringIO(response.text)

dados = pd.read_json(json)
dados

Unnamed: 0,dados_locacao
0,"{'apartamento': 'A101 (blocoAP)', 'datas_combi..."
1,"{'apartamento': 'A102 (blocoAP)', 'datas_combi..."
2,"{'apartamento': 'B201 (blocoAP)', 'datas_combi..."
3,"{'apartamento': 'B202 (blocoAP)', 'datas_combi..."
4,"{'apartamento': 'C301 (blocoAP)', 'datas_combi..."
5,"{'apartamento': 'C302 (blocoAP)', 'datas_combi..."
6,"{'apartamento': 'D401 (blocoAP)', 'datas_combi..."
7,"{'apartamento': 'D402 (blocoAP)', 'datas_combi..."
8,"{'apartamento': 'E501 (blocoAP)', 'datas_combi..."
9,"{'apartamento': 'E502 (blocoAP)', 'datas_combi..."


In [28]:
dados = pd.json_normalize(dados['dados_locacao'])
dados

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"
5,C302 (blocoAP),"[06/06/2022, 06/07/2022]","[08/06/2022, 12/07/2022]","[$ 1500,0 reais, $ 1200,0 reais]"
6,D401 (blocoAP),"[07/06/2022, 07/07/2022]","[07/06/2022, 09/07/2022]","[$ 1600,0 reais, $ 1300,0 reais]"
7,D402 (blocoAP),"[08/06/2022, 08/07/2022]","[10/06/2022, 14/07/2022]","[$ 1700,0 reais, $ 1400,0 reais]"
8,E501 (blocoAP),"[09/06/2022, 09/07/2022]","[10/06/2022, 09/07/2022]","[$ 1800,0 reais, $ 1500,0 reais]"
9,E502 (blocoAP),"[10/06/2022, 10/07/2022]","[16/06/2022, 12/07/2022]","[$ 1900,0 reais, $ 1600,0 reais]"


Projeto desafio 2: administração de condomínios
Lemos a base de dados no desafio anterior, agora podemos avançar nas transformações desses dados. Então, da mesma forma que o projeto 1, o desafio do projeto 2 está listado em algumas metas:

Remover os dados em listas dentro do DataFrame;
Verificar os tipos de dados;
Identificar colunas numéricas;
Transformar a coluna numérica para o tipo numérico.

In [29]:
# Lista com nomes das colunas para fazer explode
columns_explode = list(dados.columns[1:])

# Fazendo explode nas colunas e resetando indices
dados = dados.explode(column=columns_explode).reset_index( drop=True)
dados

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,"$ 1000,0 reais"
1,A101 (blocoAP),01/07/2022,03/07/2022,"$ 2500,0 reais"
2,A102 (blocoAP),02/06/2022,02/06/2022,"$ 1100,0 reais"
3,A102 (blocoAP),02/07/2022,06/07/2022,"$ 2600,0 reais"
4,B201 (blocoAP),03/06/2022,07/06/2022,"$ 1200,0 reais"
5,B201 (blocoAP),03/07/2022,03/07/2022,"$ 2700,0 reais"
6,B202 (blocoAP),04/06/2022,07/06/2022,"$ 1300,0 reais"
7,B202 (blocoAP),04/07/2022,05/07/2022,"$ 2800,0 reais"
8,C301 (blocoAP),05/06/2022,10/06/2022,"$ 1400,0 reais"
9,C301 (blocoAP),05/07/2022,09/07/2022,"$ 2900,0 reais"


In [38]:
# Verificando os tipos das colunas
dados.dtypes

apartamento                           object
datas_combinadas_pagamento    datetime64[ns]
datas_de_pagamento            datetime64[ns]
valor_aluguel                         object
dtype: object

In [41]:
# Formatando os dados da coluna valor monetário

dados['valor_aluguel'] = dados['valor_aluguel'].map(lambda x: x.replace('$', '')\
    .replace(',', '.')\
    .replace('reais','').strip())

# Separando as colunas de datas em uma lista
date_columns = ['datas_combinadas_pagamento','datas_de_pagamento']
# Formatando as colunas de data para o formato correto
dados[date_columns] = dados[date_columns].apply(pd.to_datetime, format='%d/%m/%Y')


In [46]:
dados['valor_aluguel'] = dados['valor_aluguel'].astype(np.float64)


In [47]:
dados.dtypes

apartamento                           object
datas_combinadas_pagamento    datetime64[ns]
datas_de_pagamento            datetime64[ns]
valor_aluguel                        float64
dtype: object

#### Etapa 3

Projeto desafio 2: administração de condomínios
Na etapa 2, trabalhamos na transformação dos dados numéricos. Agora, podemos trabalhar com valores textuais.

Buscando explicar a organização da identificação dos apartamentos, durante a criação do conjunto de dados, foi adicionado o texto (blocoAP). Esse texto informa que os nomes dos apartamentos estão organizados com a letra do bloco seguida do número do apartamento. No entanto, isso não traz nenhuma informação para nossos dados, sendo interessante realizar a remoção desse texto no conjunto de dados.

Com isso, manipule os textos na coluna apartamento para remover o texto (blocoAP) do DataFrame.

In [8]:
dados

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),2022-06-01,2022-06-05,1000.0
1,A101 (blocoAP),2022-07-01,2022-07-03,2500.0
2,A102 (blocoAP),2022-06-02,2022-06-02,1100.0
3,A102 (blocoAP),2022-07-02,2022-07-06,2600.0
4,B201 (blocoAP),2022-06-03,2022-06-07,1200.0
5,B201 (blocoAP),2022-07-03,2022-07-03,2700.0
6,B202 (blocoAP),2022-06-04,2022-06-07,1300.0
7,B202 (blocoAP),2022-07-04,2022-07-05,2800.0
8,C301 (blocoAP),2022-06-05,2022-06-10,1400.0
9,C301 (blocoAP),2022-07-05,2022-07-09,2900.0


In [50]:
dados['apartamento'] = dados['apartamento'].str.replace('(blocoAP)', '')
dados

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101,2022-06-01,2022-06-05,1000.0
1,A101,2022-07-01,2022-07-03,2500.0
2,A102,2022-06-02,2022-06-02,1100.0
3,A102,2022-07-02,2022-07-06,2600.0
4,B201,2022-06-03,2022-06-07,1200.0
5,B201,2022-07-03,2022-07-03,2700.0
6,B202,2022-06-04,2022-06-07,1300.0
7,B202,2022-07-04,2022-07-05,2800.0
8,C301,2022-06-05,2022-06-10,1400.0
9,C301,2022-07-05,2022-07-09,2900.0


#### Etapa 4

Projeto desafio 2: administração de condomínios
Assim como no projeto desafio 1, trabalhamos com todas as colunas exceto as que envolvem datas.

Nas colunas datas_de_pagamento e datas_combinadas_pagamento, temos datas em formato 'dia/mês/ano' (dd/mm/AAAA). Transforme esses dados para o tipo datetime e busque uma forma de visualização de subconjunto que possa contribuir no objetivo do contexto que os dados estão inseridos.

Se você não lembra o problema do projeto desafio 2, vou deixar abaixo o texto da situação para facilitar o encontro da informação:

A administração de condomínios é uma tarefa que requer muita atenção e organização. Entre as diversas responsabilidades da gestão está o recebimento dos aluguéis dos locatários. Para garantir uma boa saúde financeira do empreendimento, é fundamental que esses pagamentos sejam feitos de forma regular e pontual. No entanto, sabemos que nem sempre isso acontece. Pensando nisso, proponho um desafio de tratamento de dados com o objetivo de analisar o atraso no pagamento de aluguéis no condomínio fictício de alguns moradores.

In [48]:
dados.dtypes

apartamento                           object
datas_combinadas_pagamento    datetime64[ns]
datas_de_pagamento            datetime64[ns]
valor_aluguel                        float64
dtype: object

In [51]:
dados

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101,2022-06-01,2022-06-05,1000.0
1,A101,2022-07-01,2022-07-03,2500.0
2,A102,2022-06-02,2022-06-02,1100.0
3,A102,2022-07-02,2022-07-06,2600.0
4,B201,2022-06-03,2022-06-07,1200.0
5,B201,2022-07-03,2022-07-03,2700.0
6,B202,2022-06-04,2022-06-07,1300.0
7,B202,2022-07-04,2022-07-05,2800.0
8,C301,2022-06-05,2022-06-10,1400.0
9,C301,2022-07-05,2022-07-09,2900.0


In [52]:
dados['dias_em_atraso'] = dados['datas_de_pagamento'] - dados['datas_combinadas_pagamento']

In [62]:
dados['dias_em_atraso'] = dados['dias_em_atraso'].dt.days

In [None]:
dados[dados['dias_em_atraso']== 0]

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel,dias_em_atraso
2,A102,2022-06-02,2022-06-02,1100.0,0
5,B201,2022-07-03,2022-07-03,2700.0,0
12,D401,2022-06-07,2022-06-07,1600.0,0
17,E501,2022-07-09,2022-07-09,1500.0,0
23,F602,2022-07-12,2022-07-12,1100.0,0


In [68]:
dados[dados['dias_em_atraso'] >= 5]

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel,dias_em_atraso
8,C301,2022-06-05,2022-06-10,1400.0,5
11,C302,2022-07-06,2022-07-12,1200.0,6
15,D402,2022-07-08,2022-07-14,1400.0,6
18,E502,2022-06-10,2022-06-16,1900.0,6
20,F601,2022-06-11,2022-06-17,2000.0,6
24,G701,2022-06-13,2022-06-19,2200.0,6
25,G701,2022-07-13,2022-07-20,1200.0,7


In [74]:
media_atraso = dados.groupby('apartamento')['dias_em_atraso'].mean().sort_values(ascending=False).reset_index()
media_atraso

Unnamed: 0,apartamento,dias_em_atraso
0,G701,6.5
1,C301,4.5
2,C302,4.0
3,D402,4.0
4,E502,4.0
5,F601,4.0
6,A101,3.0
7,A102,2.0
8,B201,2.0
9,B202,2.0
