<a href="https://colab.research.google.com/github/Kevincancino26/mis-notebook-de-estudio-/blob/main/Proyecto%20Desaf%C3%ADo%201%3A%20Ventas%20Online(Pandas_Tratamiento_manipulacion_de_datos).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Proyecto Desafío 1: Ventas Online


El objetivo de este proyecto es analizar los resultados de un evento con los clientes de una empresa de venta online. Se recopiló un conjunto de datos que contiene los clientes que más gastaron en productos durante los 5 días de ventas, que es la duración del evento. Este análisis identificará al cliente con la mayor compra esta semana, quien recibirá un premio de la tienda, y posteriormente, puede ayudar a la empresa a crear nuevas estrategias para atraer más clientes.

La base de datos utilizada en este análisis es dados_vendas_clientes.json y contiene información importante sobre los clientes, como el nombre registrado del cliente, el monto total pagado al momento de la compra y el día de la compra.

Sabiendo esta información, el desafío del proyecto 1: ventas online será abrir la base de datos con Pandas y aplicar json_normalize.

In [4]:
import pandas as pd
import requests
import json
import numpy as np

¿Qué hace esto?

pandas se usa para manipular y analizar los datos en forma de DataFrame.

requests permite hacer peticiones HTTP para acceder a datos en línea.

json puede ser útil para trabajar con el contenido en formato JSON (aunque en este caso no es estrictamente necesario porque requests ya convierte con .json()).

In [5]:
url='https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_vendas_clientes.json'

###Preparar una cabecera para simular un navegador

In [6]:
# Agrega cabeceras para evitar el error 403
headers = {'User-Agent': 'Mozilla/5.0'}

¿Por qué es necesario?

* Algunos servidores bloquean peticiones automáticas.

* Este encabezado hace que el servidor "crea" que somos un navegador real (como Chrome o Firefox), evitando el error 403 Forbidden.

###Hacer la petición HTTP python Copiar Editar


¿Qué hace esto?

* Envía una petición GET a la URL con la cabecera definida.

* El contenido de la respuesta se guarda en la variable response.

In [7]:
response = requests.get(url, headers=headers)

###Verificar si la petición fue exitosa y cargar los datos

¿Qué pasa aquí?

Si el código de estado HTTP es 200 (lo que significa "OK"), los datos se procesan normalmente.

response.json() convierte el contenido JSON a una estructura de Python (lista o diccionario).

pd.DataFrame() convierte esa estructura en una tabla (DataFrame).

head() muestra las primeras 5 filas para ver una vista previa.

In [8]:


# Si la respuesta fue exitosa (código 200)
if response.status_code == 200:
    data_json = response.json()
    datos_ventas = pd.DataFrame(data_json)
    print(datos_ventas.head())
else:
    print("Error al acceder a los datos:", response.status_code)


                                        dados_vendas
0  {'Data de venda': '06/06/2022', 'Cliente': ['@...
1  {'Data de venda': '07/06/2022', 'Cliente': ['I...
2  {'Data de venda': '08/06/2022', 'Cliente': ['I...
3  {'Data de venda': '09/06/2022', 'Cliente': ['J...
4  {'Data de venda': '10/06/2022', 'Cliente': ['M...


In [9]:
datos_ventas

Unnamed: 0,dados_vendas
0,"{'Data de venda': '06/06/2022', 'Cliente': ['@..."
1,"{'Data de venda': '07/06/2022', 'Cliente': ['I..."
2,"{'Data de venda': '08/06/2022', 'Cliente': ['I..."
3,"{'Data de venda': '09/06/2022', 'Cliente': ['J..."
4,"{'Data de venda': '10/06/2022', 'Cliente': ['M..."


In [10]:
datos_ventas_tabla=pd.json_normalize(datos_ventas['dados_vendas'])
datos_ventas_tabla.head(10)

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


##trabajando en otros contextos

Etapa 2

Proyecto Desafío 1: Ventas Online
Leímos la base de datos en el desafío anterior, ahora podemos seguir adelante con la transformación de estos datos. Así, el nuevo desafío del proyecto 1 será dividido en algunas metas:

* Eliminar datos en listas dentro del DataFrame;
* Verificar tipos de datos;
* Identificar columnas numéricas;
* Transformar la columna numérica a tipo numérico.

####Identificar columnas numéricas

In [11]:
columnas=list(datos_ventas_tabla.columns)
columnas

['Data de venda', 'Cliente', 'Valor da compra']

In [12]:
#revisamos la tabla y vemos que las columna que tienen una lista son las columnas 0,1,2
datos_ventas_tabla=datos_ventas_tabla.explode(columnas[1:])

In [13]:
datos_ventas_tabla.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
1,07/06/2022,Isabely JOanes 738,"R$ 825,31"


reiniciando index

In [14]:
datos_ventas_tabla.reset_index(inplace=True,drop=True)

In [15]:
datos_ventas_tabla.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
1,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
2,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
3,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
4,07/06/2022,Isabely JOanes 738,"R$ 825,31"


ahora vemos la tabla que la unica columna con valores numericos es valor de compra, por lo tanto convertiremos a float pero antes verificamos los datos que estos sean float o int

####Verificar los tipos de datos

In [16]:
datos_ventas_tabla.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Data de venda    20 non-null     object
 1   Cliente          20 non-null     object
 2   Valor da compra  20 non-null     object
dtypes: object(3)
memory usage: 612.0+ bytes


####Eliminar datos en listas dentro del DataFrame

In [17]:
datos_ventas_tabla['Valor da compra']=datos_ventas_tabla['Valor da compra'].apply(lambda x:x.replace('R$ ', '').replace(',','.').strip())

nota: los simbolos y los str se pueden poner dentro de un solo replace para elimnarlo dado que estos los entiende por igual si ponemos asi: .replace('R','').replace('$','') nos dara un error

por lo tanto lo ponemos como antes para que asi se eliminen asi mismo los separadoes son uno por uno

In [18]:
datos_ventas_tabla.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,836.5
1,06/06/2022,DieGO ARMANDIU 210,573.33
2,06/06/2022,DieGO ARMANDIU 210,392.8
3,06/06/2022,DieGO ARMANDIU 210,512.34
4,07/06/2022,Isabely JOanes 738,825.31


####Transformar la columna numérica a tipo numérico

transformamos los datos usando la funcion de numpy astype

ojo pero debemos checar que solo sean numero nada mas

In [19]:
datos_ventas_tabla['Valor da compra']=datos_ventas_tabla['Valor da compra'].astype(np.float64)

In [20]:
datos_ventas_tabla.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Data de venda    20 non-null     object 
 1   Cliente          20 non-null     object 
 2   Valor da compra  20 non-null     float64
dtypes: float64(1), object(2)
memory usage: 612.0+ bytes


##Etapa 3

En el paso 2, trabajamos en la transformación de datos numéricos. Ahora podemos trabajar con valores textuales.

Debido a una inestabilidad en el sitio web de la empresa, tuvimos problemas con los nombres de los clientes durante el guardado. Esto resultó en una columna de nombres de clientes con una combinación de letras, mayúsculas y minúsculas, números y otros caracteres.

Sabiendo esto, manipula los textos de la columna Cliente para que el resultado sean los nombres de los clientes en letras minúsculas, con ausencia de caracteres especiales o números.

In [21]:
datos_ventas_tabla['Cliente']=datos_ventas_tabla['Cliente'].str.lower()

In [22]:
datos_ventas_tabla.sample(10)

Unnamed: 0,Data de venda,Cliente,Valor da compra
7,07/06/2022,isabely joanes 738,314.69
13,09/06/2022,maria julia 444,759.16
4,07/06/2022,isabely joanes 738,825.31
6,07/06/2022,isabely joanes 738,339.18
12,09/06/2022,julya meireles 914,390.3
2,06/06/2022,diego armandiu 210,392.8
17,10/06/2022,pedro pasco 812,311.15
1,06/06/2022,diego armandiu 210,573.33
14,09/06/2022,maria julia 444,334.47
3,06/06/2022,diego armandiu 210,512.34


In [23]:
datos_ventas_tabla['Cliente']=datos_ventas_tabla['Cliente'].str.replace('[^a-z]',' ',regex=True)

In [51]:
datos_ventas_tabla.sample(10)

Unnamed: 0,Data de venda,Cliente,Valor da compra
12,2022-06-09,julya meireles,390.3
19,2022-06-10,thiago fritzz,885.24
16,2022-06-10,maria julia,314.24
18,2022-06-10,paulo castro,899.16
0,2022-06-06,ana lucia,836.5
14,2022-06-09,maria julia,334.47
9,2022-06-08,jo o gabriel,386.34
15,2022-06-09,maria julia,678.78
8,2022-06-08,isabely joanes,682.05
2,2022-06-06,diego armandiu,392.8


##Etapa 4

En los pasos anteriores ya hemos trabajado con varios tipos de datos, ahora podemos trabajar con datos de tiempo.

En la columna Fecha de venta tenemos fechas en el formato 'día/mes/año' (dd/mm/AAAA). Transforme estos datos al tipo datetime y busque una forma de visualización de subconjunto que pueda contribuir al objetivo del contexto en el que se insertan los datos.

Si no recuerdas el problema del Proyecto Desafío 1, te dejo el texto de la situación a continuación para que sea más fácil encontrar la información:
El objetivo de este proyecto es analizar los resultados de un evento con los clientes de una empresa de venta online. Se recopiló un conjunto de datos que contiene los clientes que gastaron más en productos dentro de los 5 días posteriores a la venta, que es la duración del evento. Este análisis identificará al cliente con la mayor compra esa semana, quien recibirá un premio de la tienda, y posteriormente, puede ayudar a la empresa a crear nuevas estrategias para atraer más clientes.

In [52]:
datos_ventas_tabla['Data de venda']=pd.to_datetime(datos_ventas_tabla['Data de venda'],format='%d/%m/%Y')

In [53]:
datos_ventas_tabla.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Data de venda    20 non-null     datetime64[ns]
 1   Cliente          20 non-null     object        
 2   Valor da compra  20 non-null     float64       
dtypes: datetime64[ns](1), float64(1), object(1)
memory usage: 612.0+ bytes


In [55]:
fecha_congrupo=datos_ventas_tabla.groupby('Cliente')['Valor da compra'].sum()

In [58]:
fecha_congrupo

Unnamed: 0_level_0,Valor da compra
Cliente,Unnamed: 1_level_1
ana lucia,836.5
diego armandiu,1478.47
isabely joanes,2329.3
jo o gabriel,386.34
julya meireles,1643.74
maria julia,2086.65
paulo castro,899.16
pedro pasco,311.15
thiago fritzz,885.24
