In [388]:
import pandas as pd

## **Desafío: trabajando en otros contextos**

- Proyecto Desafío 1: Ventas Online - dados_vendas_clientes.json;
- Proyecto Desafío 2: Administración de Condominios - dados_locacao_imoveis.json.

En cada clase desarrollaremos una etapa de los proyectos. Así que guarde su código de construcción para cada desafío para poder aplicarlo en los desafíos posteriores.

Etapa 1

    Proyecto Desafío 1: Ventas Online

El objetivo de este proyecto es analizar los resultados de un evento con los clientes de una empresa de venta online. Se recopiló un conjunto de datos que contiene los clientes que más gastaron en productos durante los 5 días de ventas, que es la duración del evento. Este análisis identificará al cliente con la mayor compra esta semana, quien recibirá un premio de la tienda, y posteriormente, puede ayudar a la empresa a crear nuevas estrategias para atraer más clientes.

La base de datos utilizada en este análisis es **dados_vendas_clientes.json** y contiene información importante sobre los clientes, como el nombre registrado del cliente, el monto total pagado al momento de la compra y el día de la compra.

Sabiendo esta información, el desafío del proyecto 1: ventas online será abrir la base de datos con Pandas y aplicar json_normalize.

#### *Etapa 1*

In [389]:
# Desafio Proyecto 1 ventas online
# importamos los archivos 
proyecto1 = pd.read_json('../Data/dados_vendas_clientes.json')
proyecto1.head()

Unnamed: 0,dados_vendas
0,"{'Data de venda': '06/06/2022', 'Cliente': ['@..."
1,"{'Data de venda': '07/06/2022', 'Cliente': ['I..."
2,"{'Data de venda': '08/06/2022', 'Cliente': ['I..."
3,"{'Data de venda': '09/06/2022', 'Cliente': ['J..."
4,"{'Data de venda': '10/06/2022', 'Cliente': ['M..."


#### *Etapa 2*

In [390]:
# Normalizamos la info
proyecto1 = pd.json_normalize(proyecto1['dados_vendas'])
proyecto1.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


In [391]:
proyecto1['Cliente'] = proyecto1['Cliente'].astype(str)

In [392]:
proyecto1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Data de venda    5 non-null      object
 1   Cliente          5 non-null      object
 2   Valor da compra  5 non-null      object
dtypes: object(3)
memory usage: 252.0+ bytes


#### *Etapa 3*

Debido a una inestabilidad en el sitio web de la empresa, tuvimos problemas con los nombres de los clientes durante el guardado. Esto resultó en una columna de nombres de clientes con una combinación de letras, mayúsculas y minúsculas, números y otros caracteres.

Sabiendo esto, manipula los textos de la columna <mark>Cliente</mark> para que el resultado sean los nombres de los clientes en letras minúsculas, con ausencia de caracteres especiales o números.

In [393]:
# transformamos los datos a minusculas
proyecto1['Cliente'] = (proyecto1['Cliente'].str.lower())

In [394]:
proyecto1['Cliente'].head()

0    ['@ana _lucia 321', 'diego armandiu 210', 'die...
1    ['isabely joanes 738', 'isabely joanes 738', '...
2    ['isabely joanes 738', 'joão gabriel 671', 'ju...
3    ['julya meireles 914', 'maria julia 444', 'mar...
4    ['maria julia 444', 'pedro pasco 812', 'paulo ...
Name: Cliente, dtype: object

In [None]:
#limpiamos todo el texto luego de trasnformarlas en minusculas quitando todo lo solicitado y respetandos los espacios entre palabras
proyecto1['Cliente'] = proyecto1['Cliente'].str.replace(r'[^a-záéíóúñü\, ]', '', regex=True)

In [396]:
proyecto1['Cliente'].head()

0    ana lucia , diego armandiu , diego armandiu , ...
1    isabely joanes , isabely joanes , isabely joan...
2    isabely joanes , joo gabriel , julya meireles ...
3    julya meireles , maria julia , maria julia , m...
4    maria julia , pedro pasco , paulo castro , thi...
Name: Cliente, dtype: object

In [None]:
# el texto quedara todo separados por coma y con espacios entre coma y palabras, con elsiguiente replace reemplazaremos 
# los espacios entre la ultima palabra y la coma que lo separa
proyecto1['Cliente'] = proyecto1['Cliente'].str.replace(' ,', ',')

In [398]:
# revisamos la limpieza
proyecto1['Cliente'].head()

0    ana lucia, diego armandiu, diego armandiu, die...
1    isabely joanes, isabely joanes, isabely joanes...
2    isabely joanes, joo gabriel, julya meireles, j...
3    julya meireles, maria julia, maria julia, mari...
4    maria julia, pedro pasco, paulo castro, thiago...
Name: Cliente, dtype: object

#### *Etapa 4*

En la columna Fecha de venta tenemos fechas en el formato <mark>'día/mes/año' (dd/mm/AAAA)</mark>. Transforme estos datos al tipo <mark>datetime</mark> y busque una forma de visualización de subconjunto que pueda contribuir al objetivo del contexto en el que se insertan los datos.

Si no recuerdas el problema del Proyecto Desafío 1, te dejo el texto de la situación a continuación para que sea más fácil encontrar la información:

        El objetivo de este proyecto es analizar los resultados de un evento con los clientes de una empresa de venta online. Se recopiló un conjunto de datos que contiene los clientes que gastaron más en productos dentro de los 5 días posteriores a la venta, que es la duración del evento. Este análisis identificará al cliente con la mayor compra esa semana, quien recibirá un premio de la tienda, y posteriormente, puede ayudar a la empresa a crear nuevas estrategias para atraer más clientes.

In [404]:
#  transformamos y guardamos la columna con su tipo correspondiente datetime
proyecto1['Data de venda'] = pd.to_datetime(proyecto1['Data de venda'])

In [405]:
proyecto1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Data de venda    5 non-null      datetime64[ns]
 1   Cliente          5 non-null      object        
 2   Valor da compra  5 non-null      object        
dtypes: datetime64[ns](1), object(2)
memory usage: 252.0+ bytes


In [411]:
proyecto1['Data de venda'].dt.strftime('%d-%m-%Y')

0    06-06-2022
1    06-07-2022
2    06-08-2022
3    06-09-2022
4    06-10-2022
Name: Data de venda, dtype: object

    Proyecto Desafío 2: Administración de Condominios

Administrar condominios es una tarea que requiere mucha atención y organización. Entre las diversas responsabilidades de gestión se encuentra el cobro del alquiler a los inquilinos. Para garantizar la buena salud financiera de la empresa, es fundamental que estos pagos se realicen de forma regular y puntual. Sin embargo, sabemos que esto no siempre sucede.

Teniendo esto en cuenta, propongo un desafío de procesamiento de datos con el objetivo de analizar el retraso en el pago del alquiler en el condominio de algunos residentes. Pongo a disposición la base de datos ***dados_locacao_imoveis.json***., que contiene información sobre el departamento de los inquilinos, el día acordado para el pago del alquiler, el día en que se realiza el pago del alquiler y el monto del alquiler.

Con esta información, el desafío del proyecto 2: administración del condominio será similar al desafío del proyecto 1, abrir la base de datos con Pandas y aplicar ***json_normalize*** al DataFrame.

#### *Etapa 1*

In [399]:
# Desafio Proyecto 2 Administracion de Condominios
# importamos los archivos 
proyecto2 = pd.read_json('../Data/dados_locacao_imoveis.json')
proyecto2.head()

Unnamed: 0,dados_locacao
0,"{'apartamento': 'A101 (blocoAP)', 'datas_combi..."
1,"{'apartamento': 'A102 (blocoAP)', 'datas_combi..."
2,"{'apartamento': 'B201 (blocoAP)', 'datas_combi..."
3,"{'apartamento': 'B202 (blocoAP)', 'datas_combi..."
4,"{'apartamento': 'C301 (blocoAP)', 'datas_combi..."


#### *Etapa 2*

In [400]:
# Normalizamos la info
proyecto2 = pd.json_normalize(proyecto2['dados_locacao'])
proyecto2.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101 (blocoAP),"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102 (blocoAP),"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201 (blocoAP),"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202 (blocoAP),"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301 (blocoAP),"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"


#### *Etapa 3*

Buscando explicar la organización de la identificación de los apartamentos, durante la creación del conjunto de datos se añadió el texto <mark>(blocoAP)</mark>. Este texto informa que los nombres de los apartamentos están organizados con la letra mayúscula seguida del número del apartamento. Sin embargo, esto no aporta ninguna información a nuestros datos, por lo que resulta interesante eliminar este texto del conjunto de datos.

Con esto, manipule los textos de la columna <mark>apartamento</mark> para eliminar el texto <mark>(blocoAP)</mark> del DataFrame.

In [None]:
#Eliminaremos la palabra (blocoAP) de la columna apartamentos
proyecto2['apartamento'] = proyecto2['apartamento'].apply(lambda x: x.replace('(blocoAP)', ''))

In [403]:
proyecto2.head()

Unnamed: 0,apartamento,datas_combinadas_pagamento,datas_de_pagamento,valor_aluguel
0,A101,"[01/06/2022, 01/07/2022]","[05/06/2022, 03/07/2022]","[$ 1000,0 reais, $ 2500,0 reais]"
1,A102,"[02/06/2022, 02/07/2022]","[02/06/2022, 06/07/2022]","[$ 1100,0 reais, $ 2600,0 reais]"
2,B201,"[03/06/2022, 03/07/2022]","[07/06/2022, 03/07/2022]","[$ 1200,0 reais, $ 2700,0 reais]"
3,B202,"[04/06/2022, 04/07/2022]","[07/06/2022, 05/07/2022]","[$ 1300,0 reais, $ 2800,0 reais]"
4,C301,"[05/06/2022, 05/07/2022]","[10/06/2022, 09/07/2022]","[$ 1400,0 reais, $ 2900,0 reais]"


#### *Etapa 4*