# Bloque 1

- **Proyecto Desafío 1: Ventas Online**

El objetivo de este proyecto es analizar los resultados de un evento con los clientes de una empresa de venta online. Se recopiló un conjunto de datos que contiene los clientes que más gastaron en productos durante los 5 días de ventas, que es la duración del evento. Este análisis identificará al cliente con la mayor compra esta semana, quien recibirá un premio de la tienda, y posteriormente, puede ayudar a la empresa a crear nuevas estrategias para atraer más clientes.

La base de datos utilizada en este análisis es dados_vendas_clientes.json y contiene información importante sobre los clientes, como el nombre registrado del cliente, el monto total pagado al momento de la compra y el día de la compra.

Sabiendo esta información, **el desafío del proyecto 1: ventas online** será abrir la base de datos con Pandas y aplicar json_normalize.

In [80]:
import pandas as pd

In [81]:
df = pd.read_json('dados_vendas_clientes.json')
df

Unnamed: 0,dados_vendas
0,"{'Data de venda': '06/06/2022', 'Cliente': ['@..."
1,"{'Data de venda': '07/06/2022', 'Cliente': ['I..."
2,"{'Data de venda': '08/06/2022', 'Cliente': ['I..."
3,"{'Data de venda': '09/06/2022', 'Cliente': ['J..."
4,"{'Data de venda': '10/06/2022', 'Cliente': ['M..."


In [82]:
df = pd.json_normalize(df['dados_vendas'])
df

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


# Bloque 2

- **Proyecto Desafío 1: Ventas Online**

Leímos la base de datos en el desafío anterior, ahora podemos seguir adelante con la transformación de estos datos. Así, el nuevo desafío del proyecto 1 será dividido en algunas metas:

- Eliminar datos en listas dentro del DataFrame;
- Verificar tipos de datos;
- Identificar columnas numéricas;
- Transformar la columna numérica a tipo numérico.

In [83]:
# Guardamos los nombres de las columnas en un lista
columnas = list(df.columns)
columnas

['Data de venda', 'Cliente', 'Valor da compra']

In [84]:
# Utilizamos el metodo explode de pandas para mejorar la visualizacion de los datos
df = df.explode(columnas[1:])
df

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
1,07/06/2022,Isabely JOanes 738,"R$ 825,31"
1,07/06/2022,Isabely JOanes 738,"R$ 168,07"
1,07/06/2022,Isabely JOanes 738,"R$ 339,18"
1,07/06/2022,Isabely JOanes 738,"R$ 314,69"
2,08/06/2022,Isabely JOanes 738,"R$ 682,05"
2,08/06/2022,JOãO Gabriel 671,"R$ 386,34"


In [85]:
# Creamos un nuevo indice para el data frame
df.reset_index(inplace=True, drop=True)
df.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
1,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
2,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
3,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
4,07/06/2022,Isabely JOanes 738,"R$ 825,31"


In [86]:
# Averiguamos los tipos de datos de las columnas
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Data de venda    20 non-null     object
 1   Cliente          20 non-null     object
 2   Valor da compra  20 non-null     object
dtypes: object(3)
memory usage: 612.0+ bytes


## Cambio de tipo de valor

In [87]:
import numpy as np

In [88]:
# Usamos el metodo apply con el parametro lambda para quitar los string de los datos numericos
df['Valor da compra'] = df['Valor da compra'].apply(lambda x: x.replace('R','').replace(',','.').strip())
df['Valor da compra'] = df['Valor da compra'].apply(lambda x: x.replace('$','').replace(',','.').strip())

In [89]:
# Usamos el metodo astype para cambiar el tipo de dato
df['Valor da compra'] = df['Valor da compra'].astype(np.float64)

In [90]:
df

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,836.5
1,06/06/2022,DieGO ARMANDIU 210,573.33
2,06/06/2022,DieGO ARMANDIU 210,392.8
3,06/06/2022,DieGO ARMANDIU 210,512.34
4,07/06/2022,Isabely JOanes 738,825.31
5,07/06/2022,Isabely JOanes 738,168.07
6,07/06/2022,Isabely JOanes 738,339.18
7,07/06/2022,Isabely JOanes 738,314.69
8,08/06/2022,Isabely JOanes 738,682.05
9,08/06/2022,JOãO Gabriel 671,386.34


In [91]:
df['Valor da compra'].head()

0    836.50
1    573.33
2    392.80
3    512.34
4    825.31
Name: Valor da compra, dtype: float64

In [92]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Data de venda    20 non-null     object 
 1   Cliente          20 non-null     object 
 2   Valor da compra  20 non-null     float64
dtypes: float64(1), object(2)
memory usage: 612.0+ bytes


# Bloque 3

- **Proyecto Desafío 1: Ventas Online**

En el paso 2, trabajamos en la transformación de datos numéricos. Ahora podemos trabajar con valores textuales.

Debido a una inestabilidad en el sitio web de la empresa, tuvimos problemas con los nombres de los clientes durante el guardado. Esto resultó en una columna de nombres de clientes con una combinación de letras, mayúsculas y minúsculas, números y otros caracteres.

Sabiendo esto, manipula los textos de la columna ``Cliente`` para que el resultado sean los nombres de los clientes en letras minúsculas, con ausencia de caracteres especiales o números.

In [93]:
df.head(10)

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,836.5
1,06/06/2022,DieGO ARMANDIU 210,573.33
2,06/06/2022,DieGO ARMANDIU 210,392.8
3,06/06/2022,DieGO ARMANDIU 210,512.34
4,07/06/2022,Isabely JOanes 738,825.31
5,07/06/2022,Isabely JOanes 738,168.07
6,07/06/2022,Isabely JOanes 738,339.18
7,07/06/2022,Isabely JOanes 738,314.69
8,08/06/2022,Isabely JOanes 738,682.05
9,08/06/2022,JOãO Gabriel 671,386.34


In [94]:
# Cambia las letras en minusculas
df['Cliente'] = df['Cliente'].str.lower()

In [95]:
df

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ana _lucia 321,836.5
1,06/06/2022,diego armandiu 210,573.33
2,06/06/2022,diego armandiu 210,392.8
3,06/06/2022,diego armandiu 210,512.34
4,07/06/2022,isabely joanes 738,825.31
5,07/06/2022,isabely joanes 738,168.07
6,07/06/2022,isabely joanes 738,339.18
7,07/06/2022,isabely joanes 738,314.69
8,08/06/2022,isabely joanes 738,682.05
9,08/06/2022,joão gabriel 671,386.34


In [96]:
# Crea un egex para quitar caracteres extraños
df['Cliente'] = df['Cliente'].str.replace('[^a-zA-Z0-9\-\'ã]',' ', regex=True)

In [97]:
# Borrar espacio antes de los numeros

In [98]:
# Crea un regex para borrar los numeros
df['Cliente'] = df['Cliente'].str.replace('[0-9]',' ', regex=True)

In [99]:
df

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,ana lucia,836.5
1,06/06/2022,diego armandiu,573.33
2,06/06/2022,diego armandiu,392.8
3,06/06/2022,diego armandiu,512.34
4,07/06/2022,isabely joanes,825.31
5,07/06/2022,isabely joanes,168.07
6,07/06/2022,isabely joanes,339.18
7,07/06/2022,isabely joanes,314.69
8,08/06/2022,isabely joanes,682.05
9,08/06/2022,joão gabriel,386.34


# Bloque 4

- **Proyecto Desafío 1: Ventas Online**

En los pasos anteriores ya hemos trabajado con varios tipos de datos, ahora podemos trabajar con datos de tiempo.

En la columna ``Fecha de venta`` tenemos fechas en el formato 'día/mes/año' ``(dd/mm/AAAA)``. Transforme estos datos al tipo datetime y busque una forma de visualización de subconjunto que pueda contribuir al objetivo del contexto en el que se insertan los datos.

Si no recuerdas el problema del Proyecto Desafío 1, te dejo el texto de la situación a continuación para que sea más fácil encontrar la información:

El objetivo de este proyecto es analizar los resultados de un evento con los clientes de una empresa de venta online. Se recopiló un conjunto de datos que contiene los clientes que gastaron más en productos dentro de los 5 días posteriores a la venta, que es la duración del evento. Este análisis identificará al cliente con la mayor compra esa semana, quien recibirá un premio de la tienda, y posteriormente, puede ayudar a la empresa a crear nuevas estrategias para atraer más clientes.

In [100]:
df

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,ana lucia,836.5
1,06/06/2022,diego armandiu,573.33
2,06/06/2022,diego armandiu,392.8
3,06/06/2022,diego armandiu,512.34
4,07/06/2022,isabely joanes,825.31
5,07/06/2022,isabely joanes,168.07
6,07/06/2022,isabely joanes,339.18
7,07/06/2022,isabely joanes,314.69
8,08/06/2022,isabely joanes,682.05
9,08/06/2022,joão gabriel,386.34


In [101]:
# Convierte el tipo de valor de fecha a datetime
df['Data de venda'] = pd.to_datetime(df['Data de venda'])

In [102]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Data de venda    20 non-null     datetime64[ns]
 1   Cliente          20 non-null     object        
 2   Valor da compra  20 non-null     float64       
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 612.0+ bytes


In [103]:
df

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,2022-06-06,ana lucia,836.5
1,2022-06-06,diego armandiu,573.33
2,2022-06-06,diego armandiu,392.8
3,2022-06-06,diego armandiu,512.34
4,2022-07-06,isabely joanes,825.31
5,2022-07-06,isabely joanes,168.07
6,2022-07-06,isabely joanes,339.18
7,2022-07-06,isabely joanes,314.69
8,2022-08-06,isabely joanes,682.05
9,2022-08-06,joão gabriel,386.34


In [None]:
# Se cambia el tipo de dato a datetime
df['Data de venda'] = pd.to_datetime(df['Data de venda'], format='%d/%m/%Y')

In [114]:
df

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,2022-06-06,ana lucia,836.5
1,2022-06-06,diego armandiu,573.33
2,2022-06-06,diego armandiu,392.8
3,2022-06-06,diego armandiu,512.34
4,2022-07-06,isabely joanes,825.31
5,2022-07-06,isabely joanes,168.07
6,2022-07-06,isabely joanes,339.18
7,2022-07-06,isabely joanes,314.69
8,2022-08-06,isabely joanes,682.05
9,2022-08-06,joão gabriel,386.34


In [115]:
subset = df.groupby(df['Cliente'])['Valor da compra'].sum()
subset

Cliente
 ana  lucia            836.50
diego armandiu        1478.47
isabely joanes        2329.30
joão gabriel           386.34
julya meireles        1643.74
maria julia           2086.65
paulo castro           899.16
pedro pasco            311.15
thiago fritzz          885.24
Name: Valor da compra, dtype: float64