<a href="https://colab.research.google.com/github/AngelTroncoso/Data_Science/blob/main/7_Proyecto_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

##**Proyecto Desafío 1: Ventas Online**

El objetivo de este proyecto es analizar los resultados de un evento con los clientes de una empresa de venta online. Se recopiló un conjunto de datos que contiene los clientes que más gastaron en productos durante los 5 días de ventas, que es la duración del evento. Este análisis identificará al cliente con la mayor compra esta semana, quien recibirá un premio de la tienda, y posteriormente, puede ayudar a la empresa a crear nuevas estrategias para atraer más clientes.

La base de datos utilizada en este análisis es dados_vendas_clientes.json y contiene información importante sobre los clientes, como el nombre registrado del cliente, el monto total pagado al momento de la compra y el día de la compra.

Sabiendo esta información, el desafío del proyecto 1: ventas online será abrir la base de datos con Pandas y aplicar json_normalize.

In [1]:
# Import de pandas
import pandas as pd
# Leer el archivo json con read_json
datos = pd.read_json('/content/dados_vendas_clientes.json')
# Aplicar json_normalize en la columna dados_vendas
datos = pd.json_normalize(datos['dados_vendas'])
# Mostrar valores
datos

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


In [2]:
# Colectar los valores de las columnas y verificar
columnas = list(datos.columns)
columnas

['Data de venda', 'Cliente', 'Valor da compra']

In [3]:
# Destrincar las listas con explode
datos = datos.explode(columnas[1:])

In [4]:
# Resetear los index de las líneas
datos.reset_index(drop=True,inplace=True)
# Observar el DataFrame
datos

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
1,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
2,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
3,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
4,07/06/2022,Isabely JOanes 738,"R$ 825,31"
5,07/06/2022,Isabely JOanes 738,"R$ 168,07"
6,07/06/2022,Isabely JOanes 738,"R$ 339,18"
7,07/06/2022,Isabely JOanes 738,"R$ 314,69"
8,08/06/2022,Isabely JOanes 738,"R$ 682,05"
9,08/06/2022,JOãO Gabriel 671,"R$ 386,34"


In [5]:
# Verificar los tipos de datos con info
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Data de venda    20 non-null     object
 1   Cliente          20 non-null     object
 2   Valor da compra  20 non-null     object
dtypes: object(3)
memory usage: 612.0+ bytes


In [6]:
# La columna numérica es el 'Valor da compra'
datos['Valor da compra']

Unnamed: 0,Valor da compra
0,"R$ 836,5"
1,"R$ 573,33"
2,"R$ 392,8"
3,"R$ 512,34"
4,"R$ 825,31"
5,"R$ 168,07"
6,"R$ 339,18"
7,"R$ 314,69"
8,"R$ 682,05"
9,"R$ 386,34"


In [7]:
# Iniciar la transformación
# Import de la biblioteca numpy
import numpy as np
# Remover los textos presentes en la base
# Cambiar las comas separadoras del decimal por punto
datos['Valor da compra'] = datos['Valor da compra'].apply(lambda x: x.replace('R$ ', '').replace(',','.').strip())
# Cambiar los tipo de datos para float
datos['Valor da compra'] = datos['Valor da compra'].astype(np.float64)
# Verificar la transformación
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Data de venda    20 non-null     object 
 1   Cliente          20 non-null     object 
 2   Valor da compra  20 non-null     float64
dtypes: float64(1), object(2)
memory usage: 612.0+ bytes


##**Transformando columna Cliente**

In [12]:
# Transformar los textos de Cliente para texto en minúscula
datos['Cliente'] = datos['Cliente'].str.lower()
# Verificar el resultado
datos.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ana _lucia 321,836.5
1,06/06/2022,diego armandiu 210,573.33
2,06/06/2022,diego armandiu 210,392.8
3,06/06/2022,diego armandiu 210,512.34
4,07/06/2022,isabely joanes 738,825.31


In [13]:
# Opción de substitución - necesario verificar el resultado de la substitución
# Regex no selecciona todas las letras de a-z y espacios en blanco ' '
# Todo que satisface el regex es borrado
datos['Cliente'].str.replace('[^a-z ]', '', regex=True)
datos.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ana _lucia 321,836.5
1,06/06/2022,diego armandiu 210,573.33
2,06/06/2022,diego armandiu 210,392.8
3,06/06/2022,diego armandiu 210,512.34
4,07/06/2022,isabely joanes 738,825.31


In [14]:
# Realizar la substitución de los datos en la columna textual
datos['Cliente'] = datos['Cliente'].str.replace('[^a-z ]', '', regex=True).str.strip()
# Visualizar el resultado final
datos.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,ana lucia,836.5
1,06/06/2022,diego armandiu,573.33
2,06/06/2022,diego armandiu,392.8
3,06/06/2022,diego armandiu,512.34
4,07/06/2022,isabely joanes,825.31
