<a href="https://colab.research.google.com/github/BjorkMagno/Portafolio/blob/main/data-science/proyectos/ventas_online/ventas_online.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **VENTAS ONLINE**

El objetivo de este proyecto es analizar los resultados de un evento con los clientes de una empresa de venta online. Se recopiló un conjunto de datos que contiene los clientes que más gastaron en productos durante los 5 días de ventas, que es la duración del evento. Este análisis identificará al cliente con la mayor compra esta semana, quien recibirá un premio de la tienda, y posteriormente, puede ayudar a la empresa a crear nuevas estrategias para atraer más clientes.

Las bases utilizada en este análisis es: [datos_ventas_clientes.json](https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_vendas_clientes.json) y contiene información:

- Nombre registrado del cliente,
- Monto total pagado al momento de la compra y
- Día de la compra.

## Importación de paquetería

In [1]:
import numpy as np
import pandas as pd
import requests
import json

## Importación de datos.

In [2]:
# Almacenamiento del archivo.
dados_vendas_clientes = requests.get('https://cdn3.gnarususercontent.com.br/2928-transformacao-manipulacao-dados/dados_vendas_clientes.json')
archivo_json = json.loads(dados_vendas_clientes.text)
# Almacenamiento usual, normalizando.
archivo_json = pd.json_normalize(archivo_json)
archivo_json.head()

Unnamed: 0,dados_vendas
0,"[{'Data de venda': '06/06/2022', 'Cliente': ['..."


In [3]:
archivo_normalizado = pd.json_normalize(archivo_json['dados_vendas'][0])

In [4]:
archivo_normalizado

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


## Datos numericos

In [5]:
columnas = list(archivo_normalizado.columns)
columnas

['Data de venda', 'Cliente', 'Valor da compra']

In [6]:
archivo_normalizado = archivo_normalizado.explode(columnas[1:])

In [7]:
archivo_normalizado.reset_index(drop=True, inplace=True)

In [8]:
archivo_normalizado

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
1,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
2,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
3,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
4,07/06/2022,Isabely JOanes 738,"R$ 825,31"
5,07/06/2022,Isabely JOanes 738,"R$ 168,07"
6,07/06/2022,Isabely JOanes 738,"R$ 339,18"
7,07/06/2022,Isabely JOanes 738,"R$ 314,69"
8,08/06/2022,Isabely JOanes 738,"R$ 682,05"
9,08/06/2022,JOãO Gabriel 671,"R$ 386,34"


In [9]:
archivo_normalizado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Data de venda    20 non-null     object
 1   Cliente          20 non-null     object
 2   Valor da compra  20 non-null     object
dtypes: object(3)
memory usage: 612.0+ bytes


In [10]:
archivo_normalizado['Valor da compra'] = archivo_normalizado['Valor da compra'].apply(lambda x: x.replace('R$', '').replace(',', '.').strip())

In [11]:
archivo_normalizado['Valor da compra'] = archivo_normalizado['Valor da compra'].astype(np.float64)

In [12]:
archivo_normalizado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Data de venda    20 non-null     object 
 1   Cliente          20 non-null     object 
 2   Valor da compra  20 non-null     float64
dtypes: float64(1), object(2)
memory usage: 612.0+ bytes


## Datos texto
Debido a una inestabilidad en el sitio web de la empresa, tuvimos problemas con los nombres de los clientes durante el guardado. Esto resultó en una columna de nombres de clientes con una combinación de letras, mayúsculas y minúsculas, números y otros caracteres.

Sabiendo esto, manipula los textos de la columna Cliente para que el resultado sean los nombres de los clientes en letras minúsculas, con ausencia de caracteres especiales o números.

In [13]:
archivo_normalizado['Cliente'] = archivo_normalizado['Cliente'].str.lower()
archivo_normalizado['Cliente'] = archivo_normalizado['Cliente'].str.replace('[^a-z ]', '', regex=True)
archivo_normalizado

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,ana lucia,836.5
1,06/06/2022,diego armandiu,573.33
2,06/06/2022,diego armandiu,392.8
3,06/06/2022,diego armandiu,512.34
4,07/06/2022,isabely joanes,825.31
5,07/06/2022,isabely joanes,168.07
6,07/06/2022,isabely joanes,339.18
7,07/06/2022,isabely joanes,314.69
8,08/06/2022,isabely joanes,682.05
9,08/06/2022,joo gabriel,386.34


In [16]:
# Realizar la substitución de los datos en la columna textual
archivo_normalizado['Cliente']=archivo_normalizado['Cliente'].str.replace('[^a-z ]', '', regex=True).str.strip()

## Datos tiempo

In [18]:
archivo_normalizado.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,ana lucia,836.5
1,06/06/2022,diego armandiu,573.33
2,06/06/2022,diego armandiu,392.8
3,06/06/2022,diego armandiu,512.34
4,07/06/2022,isabely joanes,825.31


In [19]:
archivo_normalizado['Data de venda'] = pd.to_datetime(archivo_normalizado['Data de venda'], format='%d/%m/%Y')
archivo_normalizado.head()

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,2022-06-06,ana lucia,836.5
1,2022-06-06,diego armandiu,573.33
2,2022-06-06,diego armandiu,392.8
3,2022-06-06,diego armandiu,512.34
4,2022-06-07,isabely joanes,825.31


In [20]:
total_compras = archivo_normalizado.groupby(['Cliente'])['Valor da compra'].sum()
total_compras

Unnamed: 0_level_0,Valor da compra
Cliente,Unnamed: 1_level_1
ana lucia,836.5
diego armandiu,1478.47
isabely joanes,2329.3
joo gabriel,386.34
julya meireles,1643.74
maria julia,2086.65
paulo castro,899.16
pedro pasco,311.15
thiago fritzz,885.24
