<a href="https://colab.research.google.com/github/strawndri/python-ds-pandas-transformacao-manipulacao-dados/blob/main/Desafio_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Projeto desafio 2: *administração de condomínios*

A administração de condomínios é uma tarefa que requer muita atenção e organização. Entre as diversas responsabilidades da gestão está o recebimento dos aluguéis dos locatários. Para garantir uma boa saúde financeira do empreendimento, é fundamental que esses pagamentos sejam feitos de forma regular e pontual. No entanto, sabemos que nem sempre isso acontece.

Pensando nisso, proponho um desafio de tratamento de dados com o objetivo de analisar o atraso no pagamento de aluguéis no condomínio de alguns moradores.

### 1. Entendendo o problema

Diante do conjunto de dados de administração de condomínios, será necessário abri-lo com o Pandas e aplicar o método `json_normalize` para normalização do arquivo JSON.

In [1]:
import pandas as pd

In [2]:
dados = pd.read_json('https://raw.githubusercontent.com/strawndri/python-ds-pandas-transformacao-manipulacao-dados/main/dados/dados_locacao_imoveis.json')
dados.head()

Unnamed: 0,dados_locacao
0,"{'apartamento': 'A101 (blocoAP)', 'datas_combi..."
1,"{'apartamento': 'A102 (blocoAP)', 'datas_combi..."
2,"{'apartamento': 'B201 (blocoAP)', 'datas_combi..."
3,"{'apartamento': 'B202 (blocoAP)', 'datas_combi..."
4,"{'apartamento': 'C301 (blocoAP)', 'datas_combi..."


In [3]:
dados = pd.json_normalize(dados['dados_locacao'])
dados.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"


### 2. Dados numéricos

Lemos a base de dados no desafio anterior, agora podemos avançar nas transformações desses dados. Então, da mesma forma que o projeto 1, o desafio do projeto 2 está listado em algumas metas.

#### Remover os dados em listas dentro do DataFrame

In [4]:
dados.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"


In [5]:
colunas = list(dados.columns)
colunas

['apartamento',
 'datas_combinadas_pagamento',
 'datas_de_pagamento',
 'valor_aluguel']

In [7]:
dados = dados.explode(colunas[1:])
dados.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,"$ 1000,0 reais"
0,A101 (blocoAP),01/07/2022,03/07/2022,"$ 2500,0 reais"
1,A102 (blocoAP),02/06/2022,02/06/2022,"$ 1100,0 reais"
1,A102 (blocoAP),02/07/2022,06/07/2022,"$ 2600,0 reais"
2,B201 (blocoAP),03/06/2022,07/06/2022,"$ 1200,0 reais"


In [8]:
dados.reset_index(inplace = True, drop = True)
dados.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,"$ 1000,0 reais"
1,A101 (blocoAP),01/07/2022,03/07/2022,"$ 2500,0 reais"
2,A102 (blocoAP),02/06/2022,02/06/2022,"$ 1100,0 reais"
3,A102 (blocoAP),02/07/2022,06/07/2022,"$ 2600,0 reais"
4,B201 (blocoAP),03/06/2022,07/06/2022,"$ 1200,0 reais"


#### Verificar os tipos de dados

In [9]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   apartamento                 30 non-null     object
 1   datas_combinadas_pagamento  30 non-null     object
 2   datas_de_pagamento          30 non-null     object
 3   valor_aluguel               30 non-null     object
dtypes: object(4)
memory usage: 1.1+ KB


#### Identificar colunas numéricas

In [10]:
dados['valor_aluguel']

0     $ 1000,0 reais
1     $ 2500,0 reais
2     $ 1100,0 reais
3     $ 2600,0 reais
4     $ 1200,0 reais
5     $ 2700,0 reais
6     $ 1300,0 reais
7     $ 2800,0 reais
8     $ 1400,0 reais
9     $ 2900,0 reais
10    $ 1500,0 reais
11    $ 1200,0 reais
12    $ 1600,0 reais
13    $ 1300,0 reais
14    $ 1700,0 reais
15    $ 1400,0 reais
16    $ 1800,0 reais
17    $ 1500,0 reais
18    $ 1900,0 reais
19    $ 1600,0 reais
20    $ 2000,0 reais
21    $ 1000,0 reais
22    $ 2100,0 reais
23    $ 1100,0 reais
24    $ 2200,0 reais
25    $ 1200,0 reais
26    $ 2300,0 reais
27    $ 2100,0 reais
28    $ 2400,0 reais
29    $ 2200,0 reais
Name: valor_aluguel, dtype: object

#### Transformar a coluna numérica para o tipo numérico

In [13]:
import numpy as np

In [12]:
dados['valor_aluguel'] = dados['valor_aluguel'].apply(lambda x: x.replace('$', '').replace(',', '.').replace('reais', '').strip())

In [14]:
dados['valor_aluguel'] = dados['valor_aluguel'].astype(np.float64)

In [15]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   apartamento                 30 non-null     object 
 1   datas_combinadas_pagamento  30 non-null     object 
 2   datas_de_pagamento          30 non-null     object 
 3   valor_aluguel               30 non-null     float64
dtypes: float64(1), object(3)
memory usage: 1.1+ KB


### 3. Dados textuais

Na etapa 2, trabalhamos na transformação dos dados numéricos. Agora, podemos trabalhar com valores textuais.

Buscando explicar a organização da identificação dos apartamentos, durante a criação do conjunto de dados, foi adicionado o texto `(blocoAP)`. Esse texto informa que os nomes dos apartamentos estão organizados com a letra do bloco seguida do número do apartamento. No entanto, isso não traz nenhuma informação para nossos dados, sendo interessante realizar a remoção desse texto no conjunto de dados.

Com isso, manipule os textos na coluna `apartamento` para remover o texto `(blocoAP)` do *DataFrame*.

In [16]:
dados['apartamento']

0     A101 (blocoAP)
1     A101 (blocoAP)
2     A102 (blocoAP)
3     A102 (blocoAP)
4     B201 (blocoAP)
5     B201 (blocoAP)
6     B202 (blocoAP)
7     B202 (blocoAP)
8     C301 (blocoAP)
9     C301 (blocoAP)
10    C302 (blocoAP)
11    C302 (blocoAP)
12    D401 (blocoAP)
13    D401 (blocoAP)
14    D402 (blocoAP)
15    D402 (blocoAP)
16    E501 (blocoAP)
17    E501 (blocoAP)
18    E502 (blocoAP)
19    E502 (blocoAP)
20    F601 (blocoAP)
21    F601 (blocoAP)
22    F602 (blocoAP)
23    F602 (blocoAP)
24    G701 (blocoAP)
25    G701 (blocoAP)
26    G702 (blocoAP)
27    G702 (blocoAP)
28    H801 (blocoAP)
29    H801 (blocoAP)
Name: apartamento, dtype: object

In [26]:
dados['apartamento'] = dados['apartamento'].str.replace('\(blocoAP\)', '', regex = True).str.strip()

In [27]:
dados.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101,01/06/2022,05/06/2022,1000.0
1,A101,01/07/2022,03/07/2022,2500.0
2,A102,02/06/2022,02/06/2022,1100.0
3,A102,02/07/2022,06/07/2022,2600.0
4,B201,03/06/2022,07/06/2022,1200.0
