# Proyecto Desafío 1: Ventas Online



El objetivo de este proyecto es analizar los resultados de un evento con los clientes de una empresa de venta online. Se recopiló un conjunto de datos que contiene los clientes que más gastaron en productos durante los 5 días de ventas, que es la duración del evento. Este análisis identificará al cliente con la mayor compra esta semana, quien recibirá un premio de la tienda, y posteriormente, puede ayudar a la empresa a crear nuevas estrategias para atraer más clientes.

La base de datos utilizada en este análisis es ```dados_vendas_clientes.json``` y contiene información importante sobre los clientes, como el nombre registrado del cliente, el monto total pagado al momento de la compra y el día de la compra.

Sabiendo esta información, el desafío del proyecto 1: ventas online será abrir la base de datos con Pandas y aplicar json_normalize.

In [203]:
import pandas as pd
import numpy as np

### Leyendo el Archivo

In [204]:
datos = pd.read_json('dados_vendas_clientes.json')
datos.head()

Unnamed: 0,dados_vendas
0,"{'Data de venda': '06/06/2022', 'Cliente': ['@..."
1,"{'Data de venda': '07/06/2022', 'Cliente': ['I..."
2,"{'Data de venda': '08/06/2022', 'Cliente': ['I..."
3,"{'Data de venda': '09/06/2022', 'Cliente': ['J..."
4,"{'Data de venda': '10/06/2022', 'Cliente': ['M..."


### Normalizando el archivo

In [205]:
datos = pd.json_normalize(datos['dados_vendas'])
datos.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


## Transformacion de los Datos

    Eliminar datos en listas dentro del DataFrame;
    Verificar tipos de datos;
    Identificar columnas numéricas;
    Transformar la columna numérica a tipo numérico.

In [206]:
columnas = list(datos.columns)
columnas

['Data de venda', 'Cliente', 'Valor da compra']

In [207]:
datos = datos.explode(columnas[1:])
datos.reset_index(drop=True, inplace=True)
datos.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
1,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
2,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
3,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
4,07/06/2022,Isabely JOanes 738,"R$ 825,31"


In [208]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Data de venda    20 non-null     object
 1   Cliente          20 non-null     object
 2   Valor da compra  20 non-null     object
dtypes: object(3)
memory usage: 612.0+ bytes


### Extraer de la columna Cliente - el ID y el Nombre_cliente

In [209]:
datos['ID_cliente'] = datos['Cliente'].str.extract(r'(\d+)$').astype(np.int64) # Extrae el ID del cliente como entero
datos['Nombre_cliente'] = datos['Cliente'].str.replace(r'\s*\d+$', '', regex=True) # Elimina el ID del nombre del cliente
datos.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra,ID_cliente,Nombre_cliente
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5",321,@ANA _LUCIA
1,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33",210,DieGO ARMANDIU
2,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8",210,DieGO ARMANDIU
3,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34",210,DieGO ARMANDIU
4,07/06/2022,Isabely JOanes 738,"R$ 825,31",738,Isabely JOanes


### Limpiar el Nombre_cliente

In [210]:
datos['Nombre_cliente'] = datos['Nombre_cliente'].map(lambda x: str(x.replace('@', '').replace('_', '').strip())) # Elimina caracteres especiales y espacios en blanco
datos['Nombre_cliente'] = datos['Nombre_cliente'].str.title() # Capitaliza la primera letra de cada palabra
datos.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra,ID_cliente,Nombre_cliente
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5",321,Ana Lucia
1,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33",210,Diego Armandiu
2,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8",210,Diego Armandiu
3,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34",210,Diego Armandiu
4,07/06/2022,Isabely JOanes 738,"R$ 825,31",738,Isabely Joanes


### Limpiar Valor de compra

In [211]:
datos['Valor da compra'] = datos['Valor da compra'].map(lambda x: float(x.replace('R', '').replace('$', '').replace(',', '.').strip()))

### Convirtiendo a Float

In [212]:
datos['Valor da compra'] = datos['Valor da compra'].astype(np.float64)
datos.info()
datos.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Data de venda    20 non-null     object 
 1   Cliente          20 non-null     object 
 2   Valor da compra  20 non-null     float64
 3   ID_cliente       20 non-null     int64  
 4   Nombre_cliente   20 non-null     object 
dtypes: float64(1), int64(1), object(3)
memory usage: 932.0+ bytes


Unnamed: 0,Data de venda,Cliente,Valor da compra,ID_cliente,Nombre_cliente
0,06/06/2022,@ANA _LUCIA 321,836.5,321,Ana Lucia
1,06/06/2022,DieGO ARMANDIU 210,573.33,210,Diego Armandiu
2,06/06/2022,DieGO ARMANDIU 210,392.8,210,Diego Armandiu
3,06/06/2022,DieGO ARMANDIU 210,512.34,210,Diego Armandiu
4,07/06/2022,Isabely JOanes 738,825.31,738,Isabely Joanes


### Convertir Fecha a datetime

In [213]:
datos['Data de venda'] = pd.to_datetime(datos['Data de venda'], format='%d/%m/%Y')

### Eliminar la columna Cliente - ya que fue dividida

In [214]:
datos = datos.drop(columns=['Cliente'])

datos.info()
datos.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Data de venda    20 non-null     datetime64[ns]
 1   Valor da compra  20 non-null     float64       
 2   ID_cliente       20 non-null     int64         
 3   Nombre_cliente   20 non-null     object        
dtypes: datetime64[ns](1), float64(1), int64(1), object(1)
memory usage: 772.0+ bytes


Unnamed: 0,Data de venda,Valor da compra,ID_cliente,Nombre_cliente
0,2022-06-06,836.5,321,Ana Lucia
1,2022-06-06,573.33,210,Diego Armandiu
2,2022-06-06,392.8,210,Diego Armandiu
3,2022-06-06,512.34,210,Diego Armandiu
4,2022-06-07,825.31,738,Isabely Joanes


# Proyecto Desafío 2: Administración de Condominios



Administrar condominios es una tarea que requiere mucha atención y organización. Entre las diversas responsabilidades de gestión se encuentra el cobro del alquiler a los inquilinos. Para garantizar la buena salud financiera de la empresa, es fundamental que estos pagos se realicen de forma regular y puntual. Sin embargo, sabemos que esto no siempre sucede.

Teniendo esto en cuenta, propongo un desafío de procesamiento de datos con el objetivo de analizar el retraso en el pago del alquiler en el condominio de algunos residentes. Pongo a disposición la base de datos ```dados_locacao_imoveis.json```, que contiene información sobre el departamento de los inquilinos, el día acordado para el pago del alquiler, el día en que se realiza el pago del alquiler y el monto del alquiler.

Con esta información, el desafío del proyecto 2: administración del condominio será similar al desafío del proyecto 1, abrir la base de datos con Pandas y aplicar json_normalize al DataFrame.

In [215]:
import pandas as pd

### Leyendo el Archivo

In [216]:
datos = pd.read_json('dados_locacao_imoveis.json')
datos.head()

Unnamed: 0,dados_locacao
0,"{'apartamento': 'A101 (blocoAP)', 'datas_combi..."
1,"{'apartamento': 'A102 (blocoAP)', 'datas_combi..."
2,"{'apartamento': 'B201 (blocoAP)', 'datas_combi..."
3,"{'apartamento': 'B202 (blocoAP)', 'datas_combi..."
4,"{'apartamento': 'C301 (blocoAP)', 'datas_combi..."


### Normalizando el Archivo

In [217]:
datos = pd.json_normalize(datos['dados_locacao'])
datos.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"
