# <font color=green> **Challenge: trabajando en otros contextos**

## <font color=green> **Proyecto Desafío 2: Administración de Condominios**

### <font color=green> **Etapa 01**

Administrar condominios es una tarea que requiere mucha atención y organización. Entre las diversas responsabilidades de gestión se encuentra el cobro del alquiler a los inquilinos. Para garantizar la buena salud financiera de la empresa, es fundamental que estos pagos se realicen de forma regular y puntual. Sin embargo, sabemos que esto no siempre sucede.

Teniendo esto en cuenta, propongo un desafío de procesamiento de datos con el objetivo de analizar el retraso en el pago del alquiler en el condominio de algunos residentes. Pongo a disposición la base de datos `dados_locacao_imoveis.json`, que contiene información sobre el departamento de los inquilinos, el día acordado para el pago del alquiler, el día en que se realiza el pago del alquiler y el monto del alquiler.

Con esta información, el desafío del proyecto 2: administración del condominio será similar al desafío del proyecto 1, abrir la base de datos con Pandas y aplicar `json_normalize` al DataFrame.

In [1]:
# Importacion de Pandas

import pandas as pd

In [2]:
# Leyendo el archivo JSON con read_json

datos = pd.read_json('data\\dados_locacao_imoveis.json')

In [3]:
# Visualizando los datos almacenados del archivo JSON

datos

Unnamed: 0,dados_locacao
0,"{'apartamento': 'A101 (blocoAP)', 'datas_combi..."
1,"{'apartamento': 'A102 (blocoAP)', 'datas_combi..."
2,"{'apartamento': 'B201 (blocoAP)', 'datas_combi..."
3,"{'apartamento': 'B202 (blocoAP)', 'datas_combi..."
4,"{'apartamento': 'C301 (blocoAP)', 'datas_combi..."
5,"{'apartamento': 'C302 (blocoAP)', 'datas_combi..."
6,"{'apartamento': 'D401 (blocoAP)', 'datas_combi..."
7,"{'apartamento': 'D402 (blocoAP)', 'datas_combi..."
8,"{'apartamento': 'E501 (blocoAP)', 'datas_combi..."
9,"{'apartamento': 'E502 (blocoAP)', 'datas_combi..."


In [4]:
# Aplicando json_normalize en la columna dados_locacao

datos = pd.json_normalize(datos['dados_locacao'])

In [5]:
# Visualizando los datos normalizados

datos

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"
5,C302 (blocoAP),"[06/06/2022, 06/07/2022]","[08/06/2022, 12/07/2022]","[$ 1500,0 reais, $ 1200,0 reais]"
6,D401 (blocoAP),"[07/06/2022, 07/07/2022]","[07/06/2022, 09/07/2022]","[$ 1600,0 reais, $ 1300,0 reais]"
7,D402 (blocoAP),"[08/06/2022, 08/07/2022]","[10/06/2022, 14/07/2022]","[$ 1700,0 reais, $ 1400,0 reais]"
8,E501 (blocoAP),"[09/06/2022, 09/07/2022]","[10/06/2022, 09/07/2022]","[$ 1800,0 reais, $ 1500,0 reais]"
9,E502 (blocoAP),"[10/06/2022, 10/07/2022]","[16/06/2022, 12/07/2022]","[$ 1900,0 reais, $ 1600,0 reais]"


### <font color=green> **Etapa 02**

Leímos la base de datos en el desafío anterior, ahora podemos seguir adelante con la transformación de estos datos. Entonces, de la misma manera que en el proyecto 1, el desafío del proyecto 2 está listado en algunas metas:

01 - Eliminar datos en listas dentro del DataFrame

In [7]:
# Colectar los valores de las columnas y verificar

columnas = list(datos.columns)
columnas

['apartamento',
 'datas_combinadas_pagamento',
 'datas_de_pagamento',
 'valor_aluguel']

In [8]:
# Destrincar las listas con explode

datos = datos.explode(columnas[1:])

In [9]:
# Validando datos de las columnas

datos

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,"$ 1000,0 reais"
0,A101 (blocoAP),01/07/2022,03/07/2022,"$ 2500,0 reais"
1,A102 (blocoAP),02/06/2022,02/06/2022,"$ 1100,0 reais"
1,A102 (blocoAP),02/07/2022,06/07/2022,"$ 2600,0 reais"
2,B201 (blocoAP),03/06/2022,07/06/2022,"$ 1200,0 reais"
2,B201 (blocoAP),03/07/2022,03/07/2022,"$ 2700,0 reais"
3,B202 (blocoAP),04/06/2022,07/06/2022,"$ 1300,0 reais"
3,B202 (blocoAP),04/07/2022,05/07/2022,"$ 2800,0 reais"
4,C301 (blocoAP),05/06/2022,10/06/2022,"$ 1400,0 reais"
4,C301 (blocoAP),05/07/2022,09/07/2022,"$ 2900,0 reais"


In [10]:
# Resetear los index de las líneas

datos.reset_index(drop=True,inplace=True)

In [11]:
# Observando el DataFrame

datos

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,"$ 1000,0 reais"
1,A101 (blocoAP),01/07/2022,03/07/2022,"$ 2500,0 reais"
2,A102 (blocoAP),02/06/2022,02/06/2022,"$ 1100,0 reais"
3,A102 (blocoAP),02/07/2022,06/07/2022,"$ 2600,0 reais"
4,B201 (blocoAP),03/06/2022,07/06/2022,"$ 1200,0 reais"
5,B201 (blocoAP),03/07/2022,03/07/2022,"$ 2700,0 reais"
6,B202 (blocoAP),04/06/2022,07/06/2022,"$ 1300,0 reais"
7,B202 (blocoAP),04/07/2022,05/07/2022,"$ 2800,0 reais"
8,C301 (blocoAP),05/06/2022,10/06/2022,"$ 1400,0 reais"
9,C301 (blocoAP),05/07/2022,09/07/2022,"$ 2900,0 reais"


02 - Verificar tipos de datos

In [12]:
# Verificar los tipos de datos con info

datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   apartamento                 30 non-null     object
 1   datas_combinadas_pagamento  30 non-null     object
 2   datas_de_pagamento          30 non-null     object
 3   valor_aluguel               30 non-null     object
dtypes: object(4)
memory usage: 1.1+ KB


03 - Identificar columnas numéricas

In [13]:
# La columna numérica es el 'valor_aluguel'

datos['valor_aluguel']

0     $ 1000,0 reais
1     $ 2500,0 reais
2     $ 1100,0 reais
3     $ 2600,0 reais
4     $ 1200,0 reais
5     $ 2700,0 reais
6     $ 1300,0 reais
7     $ 2800,0 reais
8     $ 1400,0 reais
9     $ 2900,0 reais
10    $ 1500,0 reais
11    $ 1200,0 reais
12    $ 1600,0 reais
13    $ 1300,0 reais
14    $ 1700,0 reais
15    $ 1400,0 reais
16    $ 1800,0 reais
17    $ 1500,0 reais
18    $ 1900,0 reais
19    $ 1600,0 reais
20    $ 2000,0 reais
21    $ 1000,0 reais
22    $ 2100,0 reais
23    $ 1100,0 reais
24    $ 2200,0 reais
25    $ 1200,0 reais
26    $ 2300,0 reais
27    $ 2100,0 reais
28    $ 2400,0 reais
29    $ 2200,0 reais
Name: valor_aluguel, dtype: object

04 - Transformar la columna numérica a tipo numérico

In [14]:
# Import de la biblioteca numpy

import numpy as np

In [15]:
# Remover los textos presentes en la base
# Cambiar las comas separadoras del decimal por punto

datos['valor_aluguel'] = datos['valor_aluguel'].apply(lambda x: x.replace('$ ', '').replace(' reais', '').replace(',','.').strip())

In [16]:
# Validando cambio realizado en la columna valor_aluguel

datos['valor_aluguel']

0     1000.0
1     2500.0
2     1100.0
3     2600.0
4     1200.0
5     2700.0
6     1300.0
7     2800.0
8     1400.0
9     2900.0
10    1500.0
11    1200.0
12    1600.0
13    1300.0
14    1700.0
15    1400.0
16    1800.0
17    1500.0
18    1900.0
19    1600.0
20    2000.0
21    1000.0
22    2100.0
23    1100.0
24    2200.0
25    1200.0
26    2300.0
27    2100.0
28    2400.0
29    2200.0
Name: valor_aluguel, dtype: object

In [17]:
# Cambiar los tipos de datos para float

datos['valor_aluguel'] = datos['valor_aluguel'].astype(np.float64)

In [18]:
# Validando la transformación realizada

datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   apartamento                 30 non-null     object 
 1   datas_combinadas_pagamento  30 non-null     object 
 2   datas_de_pagamento          30 non-null     object 
 3   valor_aluguel               30 non-null     float64
dtypes: float64(1), object(3)
memory usage: 1.1+ KB


### <font color=green> **Etapa 03**

Buscando explicar la organización de la identificación de los apartamentos, durante la creación del conjunto de datos se añadió el texto `(blocoAP)`. Este texto informa que los nombres de los apartamentos están organizados con la letra mayúscula seguida del número del apartamento. Sin embargo, esto no aporta ninguna información a nuestros datos, por lo que resulta interesante eliminar este texto del conjunto de datos.

Con esto, manipule los textos de la columna `apartamento` para eliminar el texto `(blocoAP)` del DataFrame.