<a href="https://colab.research.google.com/github/cmpm09/Aprendiendo-a-hacer-ETL/blob/Pandas/Pandas3_Desafio.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

 # **Proyecto Desafío 1: Ventas Online**

El objetivo de este proyecto es analizar los resultados de un evento con los clientes de una empresa de venta online. Se recopiló un conjunto de datos que contiene los clientes que más gastaron en productos durante los 5 días de ventas, que es la duración del evento. Este análisis identificará al cliente con la mayor compra esta semana, quien recibirá un premio de la tienda, y posteriormente, puede ayudar a la empresa a crear nuevas estrategias para atraer más clientes.

La base de datos utilizada en este análisis es dados_vendas_clientes.json y contiene información importante sobre los clientes, como el nombre registrado del cliente, el monto total pagado al momento de la compra y el día de la compra.

## **Etapa 1: conociendo el problema**

El desafío del proyecto 1: ventas online será abrir la base de datos con Pandas y aplicar json_normalize.

In [5]:
import pandas as pd
import json

In [6]:
datos_D1_originales = pd.read_json('/content/dados_vendas_clientes.json')
datos_D1_originales.head()

Unnamed: 0,dados_vendas
0,"{'Data de venda': '06/06/2022', 'Cliente': ['@..."
1,"{'Data de venda': '07/06/2022', 'Cliente': ['I..."
2,"{'Data de venda': '08/06/2022', 'Cliente': ['I..."
3,"{'Data de venda': '09/06/2022', 'Cliente': ['J..."
4,"{'Data de venda': '10/06/2022', 'Cliente': ['M..."


In [7]:
datos_D1 = pd.json_normalize(datos_D1_originales['dados_vendas'])
datos_D1.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


## **Etapa 2: Datos numéricos**

Leímos la base de datos en el desafío anterior, ahora podemos seguir adelante con la transformación de estos datos. Así, el nuevo desafío del proyecto 1 será dividido en algunas metas:

- Eliminar datos en listas dentro del DataFrame;
- Verificar tipos de datos;
- Identificar columnas numéricas;
- Transformar la columna numérica a tipo numérico.

In [8]:
columnas = list(datos_D1.columns)
columnas

['Data de venda', 'Cliente', 'Valor da compra']

In [9]:
# Eliminar datos en listas dentro del DataFrame;
datos_D1 = datos_D1.explode(columnas[1:])
datos_D1.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
1,07/06/2022,Isabely JOanes 738,"R$ 825,31"


In [10]:
# Verificar tipos de datos;
datos_D1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20 entries, 0 to 4
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Data de venda    20 non-null     object
 1   Cliente          20 non-null     object
 2   Valor da compra  20 non-null     object
dtypes: object(3)
memory usage: 1.2+ KB


In [11]:
# Identificar columnas numéricas;
datos_D1.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
1,07/06/2022,Isabely JOanes 738,"R$ 825,31"


In [12]:
import numpy as np

In [13]:
# Transformar la columna numérica a tipo numérico.

datos_D1['Valor da compra'] = datos_D1['Valor da compra'].apply(lambda x: str(x).replace('R$ ', '').replace(',', '.').strip())

datos_D1['Valor da compra'] = datos_D1['Valor da compra'].astype(np.float64)
datos_D1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20 entries, 0 to 4
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Data de venda    20 non-null     object 
 1   Cliente          20 non-null     object 
 2   Valor da compra  20 non-null     float64
dtypes: float64(1), object(2)
memory usage: 1.2+ KB


In [14]:
datos_D1.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,836.5
0,06/06/2022,DieGO ARMANDIU 210,573.33
0,06/06/2022,DieGO ARMANDIU 210,392.8
0,06/06/2022,DieGO ARMANDIU 210,512.34
1,07/06/2022,Isabely JOanes 738,825.31


## **Etapa 3: Datos de texto**

In [15]:
datos_D1['Cliente'] = datos_D1['Cliente'].astype(str)
datos_D1['Cliente'] = datos_D1['Cliente'].str.lower()
datos_D1['Cliente'].head(2)

Unnamed: 0,Cliente
0,@ana _lucia 321
0,diego armandiu 210


In [16]:
datos_D1['Cliente'] = datos_D1['Cliente'].str.replace('[^a-zA-Z-\-\']', ' ', regex=True)
datos_D1['Cliente'].head(2)

Unnamed: 0,Cliente
0,ana lucia
0,diego armandiu


In [17]:
datos_D1['Cliente'] = datos_D1['Cliente'].str.replace('(?<!\\b)-(?!\\w)', ' ', regex=True)
datos_D1['Cliente'].head(2)

Unnamed: 0,Cliente
0,ana lucia
0,diego armandiu


## **Etapa 4: Datos de tiempo**

En la columna Fecha de venta tenemos fechas en el formato 'día/mes/año' (dd/mm/AAAA). Transforme estos datos al tipo datetime y busque una forma de visualización de subconjunto que pueda contribuir al objetivo del contexto en el que se insertan los datos.

In [18]:
datos_D1['Data de venda'] = pd.to_datetime(datos_D1['Data de venda'])

In [28]:
datos_D1['Data de venda'].head(2)

Unnamed: 0,Data de venda
0,2022-06-06
0,2022-06-06


**Ventas por mes**

In [30]:
ventasmes = datos_D1.groupby(datos_D1['Data de venda'].dt.strftime('%Y-%m'))['Valor da compra'].sum()
ventasmes

Unnamed: 0_level_0,Valor da compra
Data de venda,Unnamed: 1_level_1
2022-06,2314.97
2022-07,1647.25
2022-08,2321.83
2022-09,2162.71
2022-10,2409.79


**Recaudado por los clientes**

In [32]:
total_compras = datos_D1.groupby(['Cliente'])['Valor da compra'].sum()

In [33]:
total_compras

Unnamed: 0_level_0,Valor da compra
Cliente,Unnamed: 1_level_1
ana lucia,836.5
diego armandiu,1478.47
isabely joanes,2329.3
jo o gabriel,386.34
julya meireles,1643.74
maria julia,2086.65
paulo castro,899.16
pedro pasco,311.15
thiago fritzz,885.24


 # **Proyecto Desafío 2: Administración de Condominios**

Administrar condominios es una tarea que requiere mucha atención y organización. Entre las diversas responsabilidades de gestión se encuentra el cobro del alquiler a los inquilinos. Para garantizar la buena salud financiera de la empresa, es fundamental que estos pagos se realicen de forma regular y puntual. Sin embargo, sabemos que esto no siempre sucede.

Teniendo esto en cuenta, propongo un desafío de procesamiento de datos con el objetivo de analizar el retraso en el pago del alquiler en el condominio de algunos residentes. Pongo a disposición la base de datos dados_locacao_imoveis.json, que contiene información sobre el departamento de los inquilinos, el día acordado para el pago del alquiler, el día en que se realiza el pago del alquiler y el monto del alquiler.

## **Etapa 1: conociendo el problema**

El desafío del proyecto 2: administración del condominio será similar al desafío del proyecto 1, abrir la base de datos con Pandas y aplicar json_normalize al DataFrame.

In [19]:
datos_D2_originales = pd.read_json('/content/dados_locacao_imoveis.json')
datos_D2_originales.head()

Unnamed: 0,dados_locacao
0,"{'apartamento': 'A101 (blocoAP)', 'datas_combi..."
1,"{'apartamento': 'A102 (blocoAP)', 'datas_combi..."
2,"{'apartamento': 'B201 (blocoAP)', 'datas_combi..."
3,"{'apartamento': 'B202 (blocoAP)', 'datas_combi..."
4,"{'apartamento': 'C301 (blocoAP)', 'datas_combi..."


In [20]:
datos_D2 = pd.json_normalize(datos_D2_originales['dados_locacao'])
datos_D2.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"


## **Etapa 2: Datos numéricos**

Leímos la base de datos en el desafío anterior, ahora podemos seguir adelante con la transformación de estos datos. Entonces, de la misma manera que en el proyecto 1, el desafío del proyecto 2 está listado en algunas metas:

- Eliminar datos en listas dentro del DataFrame;
- Verificar tipos de datos;
- Identificar columnas numéricas;
- Transformar la columna numérica a tipo numérico.

In [21]:
# Eliminar datos en listas dentro del DataFrame;
columnas_2 = list(datos_D2.columns)
columnas_2

['apartamento',
 'datas_combinadas_pagamento',
 'datas_de_pagamento',
 'valor_aluguel']

In [22]:
datos_D2 = datos_D2.explode(columnas_2[1:])
datos_D2.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,"$ 1000,0 reais"
0,A101 (blocoAP),01/07/2022,03/07/2022,"$ 2500,0 reais"
1,A102 (blocoAP),02/06/2022,02/06/2022,"$ 1100,0 reais"
1,A102 (blocoAP),02/07/2022,06/07/2022,"$ 2600,0 reais"
2,B201 (blocoAP),03/06/2022,07/06/2022,"$ 1200,0 reais"


In [23]:
# Verificar tipos de datos;
datos_D2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 30 entries, 0 to 14
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   apartamento                 30 non-null     object
 1   datas_combinadas_pagamento  30 non-null     object
 2   datas_de_pagamento          30 non-null     object
 3   valor_aluguel               30 non-null     object
dtypes: object(4)
memory usage: 1.2+ KB


In [24]:
# Identificar columnas numéricas;
datos_D2.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,"$ 1000,0 reais"
0,A101 (blocoAP),01/07/2022,03/07/2022,"$ 2500,0 reais"
1,A102 (blocoAP),02/06/2022,02/06/2022,"$ 1100,0 reais"
1,A102 (blocoAP),02/07/2022,06/07/2022,"$ 2600,0 reais"
2,B201 (blocoAP),03/06/2022,07/06/2022,"$ 1200,0 reais"


In [25]:
# Transformar la columna numérica a tipo numérico.
datos_D2['valor_aluguel'] = datos_D2['valor_aluguel'].apply(lambda x: str(x).replace('$ ', '').replace(',', '.').replace('reais', '').strip())

datos_D2['valor_aluguel'] = datos_D2['valor_aluguel'].astype(np.float64)
datos_D2.info()


<class 'pandas.core.frame.DataFrame'>
Index: 30 entries, 0 to 14
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   apartamento                 30 non-null     object 
 1   datas_combinadas_pagamento  30 non-null     object 
 2   datas_de_pagamento          30 non-null     object 
 3   valor_aluguel               30 non-null     float64
dtypes: float64(1), object(3)
memory usage: 1.2+ KB


In [26]:
datos_D2.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,1000.0
0,A101 (blocoAP),01/07/2022,03/07/2022,2500.0
1,A102 (blocoAP),02/06/2022,02/06/2022,1100.0
1,A102 (blocoAP),02/07/2022,06/07/2022,2600.0
2,B201 (blocoAP),03/06/2022,07/06/2022,1200.0


## **Etapa 3: Datos de texto**

Buscando explicar la organización de la identificación de los apartamentos, durante la creación del conjunto de datos se añadió el texto (blocoAP). Este texto informa que los nombres de los apartamentos están organizados con la letra mayúscula seguida del número del apartamento. Sin embargo, esto no aporta ninguna información a nuestros datos, por lo que resulta interesante eliminar este texto del conjunto de datos.

Con esto, manipule los textos de la columna apartamento para eliminar el texto (blocoAP) del DataFrame.

In [43]:
datos_D2['apartamento'] = datos_D2['apartamento'] .str.replace('(blocoAP)', '', regex=True)
datos_D2['apartamento'] = datos_D2['apartamento'].str.replace('[()]', '', regex=True)
datos_D2['apartamento'].head(2)

Unnamed: 0,apartamento
0,A101
0,A101


## **Etapa 4: Datos de tiempo**

En las columnas datas_de_pagamento y datas_combinadas_pagamento tenemos fechas en el formato 'día/mes/año' (dd/mm/AAAA). Transforme estos datos al tipo datetime y busque una forma de visualización de subconjunto que pueda contribuir al objetivo del contexto en el que se insertan los datos.

In [44]:
datos_D2['datas_combinadas_pagamento'] = pd.to_datetime(datos_D2['datas_combinadas_pagamento'], format='%d/%m/%Y')
datos_D2['datas_de_pagamento'] = pd.to_datetime(datos_D2['datas_de_pagamento'], format='%d/%m/%Y')

In [45]:
datos_D2['atraso'] = (datos_D2['datas_de_pagamento'] - datos_D2['datas_combinadas_pagamento']).dt.days

In [46]:
datos_D2.head(2)

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel,atraso
0,A101,2022-06-01,2022-06-05,1000.0,4
0,A101,2022-07-01,2022-07-03,2500.0,2


In [48]:
atraso_prom = datos_D2.groupby(['apartamento'])['atraso'].mean()
atraso_prom.head()

Unnamed: 0_level_0,atraso
apartamento,Unnamed: 1_level_1
A101,3.0
A102,2.0
B201,2.0
B202,2.0
C301,4.5
