# <font color=green> **Challenge: trabajando en otros contextos**

## <font color=green> **Proyecto Desafío 1: Ventas Online**

### <font color=green> **Etapa 01**

El objetivo de este proyecto es analizar los resultados de un evento con los clientes de una empresa de venta online. Se recopiló un conjunto de datos que contiene los clientes que más gastaron en productos durante los 5 días de ventas, que es la duración del evento. Este análisis identificará al cliente con la mayor compra esta semana, quien recibirá un premio de la tienda, y posteriormente, puede ayudar a la empresa a crear nuevas estrategias para atraer más clientes.

La base de datos utilizada en este análisis es `dados_vendas_clientes.json` y contiene información importante sobre los clientes, como el nombre registrado del cliente, el monto total pagado al momento de la compra y el día de la compra.

Sabiendo esta información, el desafío del proyecto 1: ventas online será abrir la base de datos con Pandas y aplicar `json_normalize`.

In [1]:
# Importancion de Pandas

import pandas as pd

In [2]:
# Leyendo el archivo JSON con read_json y guardando los datos en variable

datos = pd.read_json('data\\dados_vendas_clientes.json')

In [3]:
# Visualizando los datos almacenados del archivo JSON

datos

Unnamed: 0,dados_vendas
0,"{'Data de venda': '06/06/2022', 'Cliente': ['@..."
1,"{'Data de venda': '07/06/2022', 'Cliente': ['I..."
2,"{'Data de venda': '08/06/2022', 'Cliente': ['I..."
3,"{'Data de venda': '09/06/2022', 'Cliente': ['J..."
4,"{'Data de venda': '10/06/2022', 'Cliente': ['M..."


In [4]:
# Aplicando json_normalize en la columna dados_vendas

datos = pd.json_normalize(datos['dados_vendas'])

In [5]:
# Visualizando los datos normalizados

datos

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,"[@ANA _LUCIA 321, DieGO ARMANDIU 210, DieGO AR...","[R$ 836,5, R$ 573,33, R$ 392,8, R$ 512,34]"
1,07/06/2022,"[Isabely JOanes 738, Isabely JOanes 738, Isabe...","[R$ 825,31, R$ 168,07, R$ 339,18, R$ 314,69]"
2,08/06/2022,"[Isabely JOanes 738, JOãO Gabriel 671, Julya m...","[R$ 682,05, R$ 386,34, R$ 622,65, R$ 630,79]"
3,09/06/2022,"[Julya meireles 914, MaRIA Julia 444, MaRIA Ju...","[R$ 390,3, R$ 759,16, R$ 334,47, R$ 678,78]"
4,10/06/2022,"[MaRIA Julia 444, PEDRO PASCO 812, Paulo castr...","[R$ 314,24, R$ 311,15, R$ 899,16, R$ 885,24]"


### <font color=green> **Etapa 02**

Leímos la base de datos en el desafío anterior, ahora podemos seguir adelante con la transformación de estos datos. Así, el nuevo desafío del proyecto 1 será dividido en algunas metas:

01 - Eliminar datos en listas dentro del DataFrame

In [6]:
# Colectar los valores de las columnas y verificar

columnas = list(datos.columns)
columnas

['Data de venda', 'Cliente', 'Valor da compra']

In [8]:
# Destrincar las listas con explode

datos = datos.explode(columnas[1:])
datos

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
0,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
1,07/06/2022,Isabely JOanes 738,"R$ 825,31"
1,07/06/2022,Isabely JOanes 738,"R$ 168,07"
1,07/06/2022,Isabely JOanes 738,"R$ 339,18"
1,07/06/2022,Isabely JOanes 738,"R$ 314,69"
2,08/06/2022,Isabely JOanes 738,"R$ 682,05"
2,08/06/2022,JOãO Gabriel 671,"R$ 386,34"


In [11]:
# Observar el DataFrame

datos

Unnamed: 0,Data de venda,Cliente,Valor da compra
0,06/06/2022,@ANA _LUCIA 321,"R$ 836,5"
1,06/06/2022,DieGO ARMANDIU 210,"R$ 573,33"
2,06/06/2022,DieGO ARMANDIU 210,"R$ 392,8"
3,06/06/2022,DieGO ARMANDIU 210,"R$ 512,34"
4,07/06/2022,Isabely JOanes 738,"R$ 825,31"
5,07/06/2022,Isabely JOanes 738,"R$ 168,07"
6,07/06/2022,Isabely JOanes 738,"R$ 339,18"
7,07/06/2022,Isabely JOanes 738,"R$ 314,69"
8,08/06/2022,Isabely JOanes 738,"R$ 682,05"
9,08/06/2022,JOãO Gabriel 671,"R$ 386,34"


In [10]:
# Resetear los index de las líneas

datos.reset_index(drop=True,inplace=True)

02 - Verificar tipos de datos

In [12]:
# Verificar los tipos de datos con info

datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Data de venda    20 non-null     object
 1   Cliente          20 non-null     object
 2   Valor da compra  20 non-null     object
dtypes: object(3)
memory usage: 612.0+ bytes


03 - Identificar columnas numéricas

In [13]:
# La columna numérica es el 'Valor da compra'

datos['Valor da compra']

0      R$ 836,5
1     R$ 573,33
2      R$ 392,8
3     R$ 512,34
4     R$ 825,31
5     R$ 168,07
6     R$ 339,18
7     R$ 314,69
8     R$ 682,05
9     R$ 386,34
10    R$ 622,65
11    R$ 630,79
12     R$ 390,3
13    R$ 759,16
14    R$ 334,47
15    R$ 678,78
16    R$ 314,24
17    R$ 311,15
18    R$ 899,16
19    R$ 885,24
Name: Valor da compra, dtype: object

04 - Transformar la columna numérica a tipo numérico

In [14]:
# Import de la biblioteca numpy

import numpy as np

In [15]:
# Remover los textos presentes en la base
# Cambiar las comas separadoras del decimal por punto

datos['Valor da compra'] = datos['Valor da compra'].apply(lambda x: x.replace('R$ ', '').replace(',','.').strip())

In [16]:
# Validando el cambio realizado a columna

datos['Valor da compra']

0      836.5
1     573.33
2      392.8
3     512.34
4     825.31
5     168.07
6     339.18
7     314.69
8     682.05
9     386.34
10    622.65
11    630.79
12     390.3
13    759.16
14    334.47
15    678.78
16    314.24
17    311.15
18    899.16
19    885.24
Name: Valor da compra, dtype: object

In [17]:
# Cambiar los tipo de datos para float

datos['Valor da compra'] = datos['Valor da compra'].astype(np.float64)

In [18]:
# Verificando la transformación realizada

datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Data de venda    20 non-null     object 
 1   Cliente          20 non-null     object 
 2   Valor da compra  20 non-null     float64
dtypes: float64(1), object(2)
memory usage: 612.0+ bytes


### <font color=green> **Etapa 03**

Debido a una inestabilidad en el sitio web de la empresa, tuvimos problemas con los nombres de los clientes durante el guardado. Esto resultó en una columna de nombres de clientes con una combinación de letras, mayúsculas y minúsculas, números y otros caracteres.

Sabiendo esto, manipula los textos de la columna `Cliente` para que el resultado sean los nombres de los clientes en letras minúsculas, con ausencia de caracteres especiales o números.