In [84]:
import pandas as pd

## **Proyecto Desafió 1 -> Ventas online**


El objetivo de este proyecto es analizar los resultados de un evento con los clientes de una empresa de venta online. Se recopiló un conjunto de datos que contiene los clientes que más gastaron en productos durante los 5 días de ventas, que es la duración del evento. Este análisis identificará al cliente con la mayor compra esta semana, quien recibirá un premio de la tienda, y posteriormente, puede ayudar a la empresa a crear nuevas estrategias para atraer más clientes.

La base de datos utilizada en este análisis es dados_vendas_clientes.json y contiene información importante sobre los clientes, como el nombre registrado del cliente, el monto total pagado al momento de la compra y el día de la compra

In [85]:
file = "./resources/challengues/datos_ventas_clientes.json"
# leer el archivo
datos_venta = pd.read_json(file)
# Normalizar los datos
datos_venta = pd.json_normalize(datos_venta['dados_vendas'])
datos_venta

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


1. Eliminar datos en listas dentro del DataFrame
2. Verificar tipos de datos
3. Identificar columnas numéricas
4. Transformar la columna numérica a tipo numérico

In [86]:
# utilizar el método explode para eliminar los datos que están en listas
datos_venta = datos_venta.explode(['Cliente', 'Valor da compra'])
datos_venta

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
1,07/06/2022,Isabely JOanes 738,"R$ 825,31"
1,07/06/2022,Isabely JOanes 738,"R$ 168,07"
1,07/06/2022,Isabely JOanes 738,"R$ 339,18"
1,07/06/2022,Isabely JOanes 738,"R$ 314,69"
2,08/06/2022,Isabely JOanes 738,"R$ 682,05"
2,08/06/2022,JOãO Gabriel 671,"R$ 386,34"


In [87]:
# ahora que se realizo, hay que resetear el index ya que se repiten varios al transformar las lista a valores únicos
datos_venta.reset_index(inplace=True, drop=True)
datos_venta

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
1,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
2,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
3,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
4,07/06/2022,Isabely JOanes 738,"R$ 825,31"
5,07/06/2022,Isabely JOanes 738,"R$ 168,07"
6,07/06/2022,Isabely JOanes 738,"R$ 339,18"
7,07/06/2022,Isabely JOanes 738,"R$ 314,69"
8,08/06/2022,Isabely JOanes 738,"R$ 682,05"
9,08/06/2022,JOãO Gabriel 671,"R$ 386,34"


In [88]:
datos_venta.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Data de venda    20 non-null     object
 1   Cliente          20 non-null     object
 2   Valor da compra  20 non-null     object
dtypes: object(3)
memory usage: 612.0+ bytes


In [89]:
import numpy as np

datos_venta['Valor da compra']=datos_venta['Valor da compra'].apply(lambda x: x.replace('R$','').replace(',','.').strip()).astype(np.float32)

In [90]:
# '''
# Proyecto Desafío 1: Ventas Online
# En el paso 2, trabajamos en la transformación de datos numéricos. Ahora podemos trabajar con valores textuales.

# Debido a una inestabilidad en el sitio web de la empresa, tuvimos problemas con los nombres de los clientes durante el guardado. Esto resultó en una columna de nombres de clientes con una combinación de letras, mayúsculas y minúsculas, números y otros caracteres.

# Sabiendo esto, manipula los textos de la columna Cliente para que el resultado sean los nombres de los clientes en letras minúsculas, con ausencia de caracteres especiales o números.

# '''

In [91]:
datos_venta['Cliente'] = datos_venta['Cliente'].str.lower().replace(r"[^a-z/ã]"," ", regex=True)

In [92]:
datos_venta['Cliente'] = datos_venta['Cliente'].str.strip()

In [93]:
datos_venta

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,ana lucia,836.5
1,06/06/2022,diego armandiu,573.330017
2,06/06/2022,diego armandiu,392.799988
3,06/06/2022,diego armandiu,512.340027
4,07/06/2022,isabely joanes,825.309998
5,07/06/2022,isabely joanes,168.070007
6,07/06/2022,isabely joanes,339.179993
7,07/06/2022,isabely joanes,314.690002
8,08/06/2022,isabely joanes,682.049988
9,08/06/2022,joão gabriel,386.339996


In [94]:
# convertir la fecha a tipo fecha
datos_venta['Data de venda'] = pd.to_datetime(datos_venta['Data de venda'])

In [95]:
# formatear la fecha
datos_venta['Data de venda'] = datos_venta['Data de venda'].dt.strftime("%d-%m-%y")

In [96]:
total_compras = datos_venta.groupby(['Cliente'])['Valor da compra'].sum()
total_compras

Cliente
ana  lucia         836.500000
diego armandiu    1478.469971
isabely joanes    2329.300049
joão gabriel       386.339996
julya meireles    1643.739990
maria julia       2086.649902
paulo castro       899.159973
pedro pasco        311.149994
thiago fritzz      885.239990
Name: Valor da compra, dtype: float32

In [97]:
datos_venta['Data de venda']


0     06-06-22
1     06-06-22
2     06-06-22
3     06-06-22
4     06-07-22
5     06-07-22
6     06-07-22
7     06-07-22
8     06-08-22
9     06-08-22
10    06-08-22
11    06-08-22
12    06-09-22
13    06-09-22
14    06-09-22
15    06-09-22
16    06-10-22
17    06-10-22
18    06-10-22
19    06-10-22
Name: Data de venda, dtype: object

## **Proyecto Desafió 2 -> Administración de condominios**


Administrar condominios es una tarea que requiere mucha atención y organización. Entre las diversas responsabilidades de gestión se encuentra el cobro del alquiler a los inquilinos. Para garantizar la buena salud financiera de la empresa, es fundamental que estos pagos se realicen de forma regular y puntual. Sin embargo, sabemos que esto no siempre sucede.

Teniendo esto en cuenta, propongo un desafío de procesamiento de datos con el objetivo de analizar el retraso en el pago del alquiler en el condominio de algunos residentes. Pongo a disposición la base de datos dados_locacao_imoveis.json, que contiene información sobre el departamento de los inquilinos, el día acordado para el pago del alquiler, el día en que se realiza el pago del alquiler y el monto del alquiler.

In [98]:
file2 = "./resources/challengues/datos_locacao_imoveis.json"
# leer el archivo
datos_inmobiliaria = pd.read_json(file2)
# Normalizar los datos
datos_inmobiliaria = pd.json_normalize(datos_inmobiliaria['dados_locacao'])
datos_inmobiliaria

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"
5,C302 (blocoAP),"[06/06/2022, 06/07/2022]","[08/06/2022, 12/07/2022]","[$ 1500,0 reais, $ 1200,0 reais]"
6,D401 (blocoAP),"[07/06/2022, 07/07/2022]","[07/06/2022, 09/07/2022]","[$ 1600,0 reais, $ 1300,0 reais]"
7,D402 (blocoAP),"[08/06/2022, 08/07/2022]","[10/06/2022, 14/07/2022]","[$ 1700,0 reais, $ 1400,0 reais]"
8,E501 (blocoAP),"[09/06/2022, 09/07/2022]","[10/06/2022, 09/07/2022]","[$ 1800,0 reais, $ 1500,0 reais]"
9,E502 (blocoAP),"[10/06/2022, 10/07/2022]","[16/06/2022, 12/07/2022]","[$ 1900,0 reais, $ 1600,0 reais]"


1. Eliminar datos en listas dentro del DataFrame
2. Verificar tipos de datos
3. Identificar columnas numéricas
4. Transformar la columna numérica a tipo numérico

In [99]:
# utilizar el método explode para eliminar los datos que están en listas
datos_inmobiliaria = datos_inmobiliaria.explode(['datas_combinadas_pagamento', 'datas_de_pagamento', 'valor_aluguel'])
datos_inmobiliaria
datos_inmobiliaria.reset_index(inplace=True, drop=True)
datos_inmobiliaria

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),01/06/2022,05/06/2022,"$ 1000,0 reais"
1,A101 (blocoAP),01/07/2022,03/07/2022,"$ 2500,0 reais"
2,A102 (blocoAP),02/06/2022,02/06/2022,"$ 1100,0 reais"
3,A102 (blocoAP),02/07/2022,06/07/2022,"$ 2600,0 reais"
4,B201 (blocoAP),03/06/2022,07/06/2022,"$ 1200,0 reais"
5,B201 (blocoAP),03/07/2022,03/07/2022,"$ 2700,0 reais"
6,B202 (blocoAP),04/06/2022,07/06/2022,"$ 1300,0 reais"
7,B202 (blocoAP),04/07/2022,05/07/2022,"$ 2800,0 reais"
8,C301 (blocoAP),05/06/2022,10/06/2022,"$ 1400,0 reais"
9,C301 (blocoAP),05/07/2022,09/07/2022,"$ 2900,0 reais"


In [100]:
import numpy as np

datos_inmobiliaria['valor_aluguel']=datos_inmobiliaria['valor_aluguel'].apply(lambda x: x.replace('$','').replace('reais','').replace(',','.').strip()).astype(np.float32)

In [101]:
datos_inmobiliaria.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   apartamento                 30 non-null     object 
 1   datas_combinadas_pagamento  30 non-null     object 
 2   datas_de_pagamento          30 non-null     object 
 3   valor_aluguel               30 non-null     float32
dtypes: float32(1), object(3)
memory usage: 972.0+ bytes


In [102]:
# '''
# Proyecto Desafío 2: Administración de Condominios
# En el paso 2, trabajamos en transformar los datos numéricos. Ahora podemos trabajar con valores textuales.

# Buscando explicar la organización de la identificación de los apartamentos, durante la creación del conjunto de datos se añadió el texto (blocoAP). Este texto informa que los nombres de los apartamentos están organizados con la letra mayúscula seguida del número del apartamento. Sin embargo, esto no aporta ninguna información a nuestros datos, por lo que resulta interesante eliminar este texto del conjunto de datos.

# Con esto, manipule los textos de la columna apartamento para eliminar el texto (blocoAP) del DataFrame.
# '''
datos_inmobiliaria['apartamento'] = datos_inmobiliaria['apartamento'].str.replace('(blocoAP)','')


In [103]:
datos_inmobiliaria['apartamento'].str.strip()

0     A101
1     A101
2     A102
3     A102
4     B201
5     B201
6     B202
7     B202
8     C301
9     C301
10    C302
11    C302
12    D401
13    D401
14    D402
15    D402
16    E501
17    E501
18    E502
19    E502
20    F601
21    F601
22    F602
23    F602
24    G701
25    G701
26    G702
27    G702
28    H801
29    H801
Name: apartamento, dtype: object

In [104]:
# Administrar condominios es una tarea que requiere mucha atención y organización. Entre las diversas responsabilidades de gestión se encuentra el cobro del alquiler a los inquilinos. Para garantizar la buena salud financiera de la empresa, es fundamental que estos pagos se realicen de forma regular y puntual. Sin embargo, sabemos que esto no siempre sucede. Teniendo esto en cuenta, propongo un desafío de procesamiento de datos con el objetivo de analizar el retraso en el pago de la renta en el condominio ficticio de algunos residentes.

In [105]:
datos_inmobiliaria['datas_combinadas_pagamento'] = pd.to_datetime(datos_inmobiliaria['datas_combinadas_pagamento'], format="%d/%m/%Y")

In [106]:
datos_inmobiliaria['datas_de_pagamento'] = pd.to_datetime(datos_inmobiliaria['datas_de_pagamento'], format="%d/%m/%Y")

In [107]:
datos_inmobiliaria.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   apartamento                 30 non-null     object        
 1   datas_combinadas_pagamento  30 non-null     datetime64[ns]
 2   datas_de_pagamento          30 non-null     datetime64[ns]
 3   valor_aluguel               30 non-null     float32       
dtypes: datetime64[ns](2), float32(1), object(1)
memory usage: 972.0+ bytes


In [108]:
# hacemos la resta de las fechas y indicamos que el tipo de datetime para obtener los Dias de atraso
datos_inmobiliaria['atraso'] = (datos_inmobiliaria['datas_de_pagamento'] - datos_inmobiliaria['datas_combinadas_pagamento']).dt.days

In [109]:
datos_inmobiliaria

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel,atraso
0,A101,2022-06-01,2022-06-05,1000.0,4
1,A101,2022-07-01,2022-07-03,2500.0,2
2,A102,2022-06-02,2022-06-02,1100.0,0
3,A102,2022-07-02,2022-07-06,2600.0,4
4,B201,2022-06-03,2022-06-07,1200.0,4
5,B201,2022-07-03,2022-07-03,2700.0,0
6,B202,2022-06-04,2022-06-07,1300.0,3
7,B202,2022-07-04,2022-07-05,2800.0,1
8,C301,2022-06-05,2022-06-10,1400.0,5
9,C301,2022-07-05,2022-07-09,2900.0,4


In [83]:
# media de atraso por apartamento
media_atraso = datos_inmobiliaria.groupby(['apartamento'])['atraso'].mean()
media_atraso

apartamento
A101     3.0
A102     2.0
B201     2.0
B202     2.0
C301     4.5
C302     4.0
D401     1.0
D402     4.0
E501     0.5
E502     4.0
F601     4.0
F602     1.5
G701     6.5
G702     2.0
H801     2.0
Name: atraso, dtype: float64