# Taller de Estadística Aplicada y Análisis de Ecommerce

In [1]:
import warnings
warnings.filterwarnings('ignore')

Contexto
    
Normalmente, los conjuntos de datos de comercio electrónico son propiedad de la empresa y, por lo tanto, son difíciles de encontrar entre los datos disponibles al público. Sin embargo, el Repositorio de Aprendizaje Automático de la UCI ha elaborado este conjunto de datos que contiene transacciones reales de 2010 y 2011.

# 1. Identificación
¿Qué problema está tratando de resolver la empresa? ¿Qué necesita medir y cómo lo medirá?

Imaginemos que la empresa saber la cantidad promedio de productos vendidos y promedio de precio total por transacción. 
Además quiere saber cuál es la cantidad de ventas por país y en qué país genera la mayor cantidad de ventas. 


Para ello cuenta con data de transacciones de su ecommerce de un periodo de tiempo determinado. 

In [2]:
import os
os.getcwd()

'C:\\Users\\PC\\DataAnalitica\\Análisis Exploratorio\\Módulo 1_Estadística Descriptiva con Python'

In [None]:
path= 'C:/Users/Gary/DATA_ANALITICA/especializacion_ds1/analisis_exploratorio/sesion 1/' 

# 2. Recopilación de datos

**Cargando y revisando Data**

Documentación read_csv: https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

In [None]:
import pandas as pd 
import numpy as np

In [None]:
ecommerce_path = path+'data/data.csv'

df = pd.read_csv(ecommerce_path,
                 dtype = {'CustomerID': str,
                          'InvoiceNo': str},
                 parse_dates = ['InvoiceDate'], 
                 infer_datetime_format = True,
                 encoding = 'unicode_escape')
df.head()

### Descripción de las variables

- **InvoiceNo:** Número de factura que consta de 6 dígitos. Si este código comienza con la letra "c", indica una cancelación.
- **StockCode:** Código del producto que consta de 5 dígitos.
- **Description:** Nombre del producto.
- **Quantity:** Las cantidades de cada producto por transacción.
- **InvoiceDate:** Día y la hora en que se generó cada transacción.
- **UnitPrice:** Precio del producto por unidad.
- **CustomerID:** Número de cliente que consta de 5 dígitos. Cada cliente tiene un único ID de cliente.
- **Country:** Nombre del país donde reside cada cliente.

### ***Antes de continuar con la siguiente etapa aprendamos a como calcular ...***

### Medidas de tendencia central

Veamos como podemos calcular estas medidas de tendencia central usando Python.


In [None]:
# Calculando dichos valores para una variable en específico 
import statistics as st

In [None]:
# Media
media= st.mean(df['Quantity'])
print('Media:', media)

# Mediana
mediana= st.median(df['Quantity'])
print('Mediana:', mediana)

# Moda
moda= st.mode(df['Quantity'])
print('Moda:', moda)

In [None]:
# La moda es 1, ¿Cuantos registros tienen el valor de 1?
df['Quantity']==1

In [None]:
# Selecionamos los casos en los cuales Quantity es igual a 1
df[df['Quantity']==1]

In [None]:
#  Cantidad de registros que tienen el valor de 1 en la variable Quantity
df[df['Quantity']==1].shape[0]

#### **¡A PRACTICAR!**

##### Ejercicio 1

Acabamos de ver como puedes obtener la media, mediana y moda de una variable. 

¿Cuál es la media, mediana y moda de la variable **UnitPrice**?

In [None]:
##### SOLUCIÓN #####


##### Ejercicio 2
¿Cuántas veces se repite el valor de la moda de la variable **UnitPrice**?

In [None]:
##### SOLUCIÓN #####


### ¿Cómo podemos sacar algunas de las tendencias centrales y otros indicadores de una forma más rápida? 

**Forma 1:** Usando bucle **For**

In [None]:
# Recordemos los bucles (For)
for i in range(1,10):
  print(i)

In [None]:
# ¿De que tipo es dataframe?
type(df)

In [None]:
# Nombres de las columnas del DataFrame dataset 
df.columns

In [None]:
for i in df.columns:
  print(i)

In [None]:
# ¿Todas las variables son cuantitativas?
# Selecionemos solo las cuantitativas
columnas=list(['Quantity','UnitPrice'])

In [None]:
for i in columnas:
  print('Variable: '+i)
  # Media
  media= st.mean(df[i])
  print('Media:', media)

  # Mediana
  mediana= st.median(df[i])
  print('Mediana:', mediana)

  # Moda
  moda= st.mode(df[i])
  print('Moda:', moda)
  print('')

### Medidas de Posición

Calculemos las medidas de posición para la variable Quantity

In [None]:
# Cuartiles
df['Quantity'].quantile([0.25,0.5,0.75])

In [None]:
# Deciles
df['Quantity'].quantile([0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9])

In [None]:
# Percentiles

# Percentil 5
print("Percentil 5:",np.percentile(df['Quantity'], 5))

# Percentil 50 
print("Percentil 50:",np.percentile(df['Quantity'], 50))

# Percentil 95
print("Percentil 95:",np.percentile(df['Quantity'], 95))

#### **¡A PRACTICAR!**

##### Ejercicio 3 
¿Cúal es el cuartil 1 de UnitPrice? 

In [None]:
##### SOLUCIÓN #####


##### Ejercicio 4 
¿Cúal es el decil 6 de UnitPrice? 

In [None]:
##### SOLUCIÓN #####


##### Ejercicio 5 
¿Cúal es el percentil 95 de UnitPrice? 

In [None]:
##### SOLUCIÓN #####


### Medidas de Dispersión 

Calculemos las medidas de dispersión para la variable Quantity

In [None]:
# Varianza
# Calculando la varianza usando numpy 
np.var(df['Quantity'])

In [None]:
# Calculando la varianza usando la formula 
media= st.mean(df['Quantity'])
var = np.sum((df['Quantity'] - media)**2)/len(df['Quantity'])
var

In [None]:
# Desviación estandar
# Calculando la varianza usando numpy 
np.std(df['Quantity'])

In [None]:
# Calculando la desviación estandar usando la formula 
import math

media= st.mean(df['Quantity'])
var = np.sum((df['Quantity'] - media)**2)/len(df['Quantity'])
sd=math.sqrt(var)
sd

In [None]:
# Rango 

# Max
print("Max:",max(df['Quantity']))

# Min
print("Min:",min(df['Quantity']))

print("Rango:",max(df['Quantity'])-min(df['Quantity']))

In [None]:
# calcular el rango intercuartílico  

Q3, Q1 = np.percentile(df['Quantity'], [75, 25])
IQR = Q3 - Q1
IQR

#### **¡A PRACTICAR!**

##### Ejercicio 6: 
¿Cúal es el varianza de UnitPrice? 

In [None]:
##### SOLUCIÓN #####


##### Ejercicio 7: 
¿Cúal es el rango de UnitPrice? 

In [None]:
##### SOLUCIÓN #####


##### Ejercicio 8: 
¿Cúal es el rango intercuartílico de UnitPrice?

In [None]:
##### SOLUCIÓN #####


### Medidas de Forma

Calculemos las medidas de forma para la variable Quantity

In [None]:
# Asimetría

In [None]:
!pip install scipy

In [None]:
from scipy.stats import skew

In [None]:
x=df['Quantity']

In [None]:
print(skew(x, bias=False)) # Si es bias=False los cálculos se corrigen por sesgo estadístico.

# Interpretación:
# Para datos distribuidos normalmente, la asimetría debe ser aproximadamente cero. 
# Para distribuciones continuas unimodales, un valor de asimetría mayor que cero significa
# que hay más peso en la cola derecha de la distribución (Asimetria positiva).
# Un valor de asimetría menor a cero significa Asimetria negativa, por lo que hay outliers en la cola izquierda.  

In [None]:
# Kurtosis 
from scipy.stats import kurtosis

In [None]:
# La Kurtosis puede ser calculado por la definición de Pearson o Fisher

# Kurtosis según definición de Pearson (La Kurtosis de la distribución normal es igual a 3)
print(kurtosis(x, fisher=False)) 

# Interpretación: 
# Si Kurtosis>3 -> Leptokurtica
# Si Kurtosis=3 -> Mesokurtica
# Si Kurtosis<3 -> Platikurtica

# Kurtosis según definición de Fisher (La Kurtosis de la distribución normal es igual a 0)
print(kurtosis(x, fisher=True)) 

# Interpretación: 
# Si Kurtosis>0 -> Leptokurtica
# Si Kurtosis=0 -> Mesokurtica
# Si Kurtosis<0 -> Platikurtica

In [None]:
# ¿Y cual es la distribución de quantity gráficamente? 

In [None]:
!pip install matplotlib

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.hist(df['Quantity'], color = 'blue', edgecolor = 'black')

plt.show()

#### **¡A PRACTICAR!**

##### Ejercicio 9
¿Cúal es la asimetría de UnitPrice? 

In [None]:
##### SOLUCIÓN #####


##### Ejercicio 10
¿Cúal es la kurtosis según definición de Pearson de UnitPrice? 

In [None]:
##### SOLUCIÓN #####


### Covarianza y correlación 

Calcular la covarianza entre Quantity y UnitPrice

In [None]:
covariance = np.cov(df['Quantity'], df['UnitPrice'])[0][1]
print(covariance)

Calcular la correlación entre Quantity y UnitPrice

In [None]:
# Forma 1
correlacion = (np.cov(df['Quantity'], df['UnitPrice'])[0][1])/(np.std(df['Quantity'])*np.std(df['UnitPrice']))
print(correlacion)

In [None]:
# Forma 2
np.corrcoef(df['Quantity'], df['UnitPrice'])[0][1]

# 3. Limpieza de datos

In [None]:
def check_data(dataframe, head=5):
    print(" CANTIDAD DE FILAS Y COLUMNAS ".center(70,'-'))
    print('Filas: {}'.format(dataframe.shape[0]))
    print('Columnas: {}'.format(dataframe.shape[1]))
    print(" TIPOS DE DATOS ".center(70,'-'))
    print(dataframe.dtypes)
    print(" HEAD ".center(70,'-'))
    print(dataframe.head(head))
    print(" TAIL ".center(70,'-'))
    print(dataframe.tail(head))
    print(" VALORES PERDIDOS ".center(70,'-'))
    print(dataframe.isnull().sum())
    print(" DUPLICADOS ".center(70,'-'))
    # Busca duplicados de todas las columnas y marca a partir del 2do registro.
    print(dataframe.duplicated().sum())
    print(" CUANTILES ".center(70,'-'))
    print(dataframe.quantile([0, 0.05, 0.50, 0.95, 0.99, 1]).T)
    
check_data(df)

### Estadística Descriptiva

In [None]:
df.select_dtypes(include = [float, int])

In [None]:
dataframe=df.select_dtypes(include = [float, int])
dataframe.describe()

In [None]:
dataframe.describe().T

In [None]:
!pip install matplotlib

In [None]:
# Usando Seaboarn y Mapplotlib
import seaborn as sns
import matplotlib.pyplot as plot

fig = plot.figure(figsize =(10, 7))  # plot.figure: una figura vacía sin ejes, figsize: Ancho, altura en pulgadas.
sns.boxplot(x=df['Quantity'])
plot.title('Quantity')
plot.show()

In [None]:
# Usando matplotlib
import matplotlib.pyplot as plot

fig = plot.figure(figsize =(10, 7)) 
plot.boxplot(x=df['Quantity'])
plot.title('Quantity')
plot.show()

In [None]:
!pip install plotly

In [None]:
# Usando Plotly 
import plotly.express as px 
  
fig = px.box(df, x='Quantity') 
fig.show()

**Hasta el momento hemos visto que ...**
*   Existen valores negativos en UnitPrice y Quantity 
*   Hay valores atípicos en UnitPrice y Quantity
*   Existen valores perdidos tanto en Customer ID y Description
*   Existen 5268 registros duplicados de un total de 541909 registros



In [None]:
# ¿Las cantidades negativas son solo de transacciones canceladas? 
df[df['Quantity']<0]

In [None]:
df[(df['Quantity']<0) & (df['InvoiceNo'].str.contains('C', na = False))]

In [None]:
df[(df['Quantity']<0) & ~(df['InvoiceNo'].str.contains('C', na = False))]

### Prepocesamiento de Data

In [None]:
df_ = df.copy()

# Eliminando registros duplicados 
# Solo nos quedaremos con 1 de ellos si esta duplicado
df_ = df_[df_.duplicated()==False]

# Eliminando valores perdidos
df_ = df_.dropna()

# Eliminando las ordenes canceladas y Quantity menor igual a 0
df_ = df_[~df_['InvoiceNo'].str.contains('C', na = False)]
df_ = df_[df_['Quantity'] > 0]

df_

# 4. Análisis de datos

# **Caso 1: Cantidad promedio de productos vendidos y  promedio de precio total por transacción**

In [None]:
dataframe=df_.select_dtypes(include = [float, int])
dataframe.describe().T

In [None]:
# Gráfica de cajas para la variable Quantity
# Usando Plotly 
import plotly.express as px 
  
fig = px.box(df_, x='Quantity') 
fig.show()

In [None]:
#Precio Total
df_["TotalPrice"] = df_["Quantity"] * df_["UnitPrice"]

In [None]:
df_[df_['Quantity']>27]

In [None]:
df_[df_['Quantity']>1000]

In [None]:
dataframe=df_.select_dtypes(include = [float, int])
dataframe.describe().T

In [None]:
# Calculando el percentil 99 
perc99=np.percentile(df_['Quantity'],99)
perc99

In [None]:
df_filtrado=df_[df_['Quantity']<=perc99]

In [None]:
dataframe=df_filtrado.select_dtypes(include = [float, int])
dataframe.describe().T

Luego de haber hecho el procesamiento de datos y posteriormente selecionando los datos menores al percentil 99:

***¿Cuál es la cantidad promedio de productos vendidos por transacción?*** <br/>

 La cantidad promedio de productos vendidos por transacción 10

***¿Cuál es el promedio de precio total por transacción?*** <br/>

El promedio de precio total por transacción es 18.5

# **Caso 2: ¿Cuál es la cantidad de ventas por país? ¿En qué país genera la mayor cantidad de ventas?**

In [None]:
# Sacando el listado de todos los cliente, número de factura y país distintos
world_map = df_filtrado[['CustomerID', 'InvoiceNo', 'Country']
              ].groupby(['CustomerID', 'InvoiceNo', 'Country']
                       ).count().reset_index(drop = False)
world_map

In [None]:
countries = world_map['Country'].value_counts()
countries

***¿En qué país genera la mayor cantidad de ventas?*** <br/>

El país que genera una mayor cantidad de pedidos es United Kingdom 

# BONUS: Graficando la cantidad de pedidos en un mapa

Documentación: 

https://plotly.com/python/v3/mapbox-county-choropleth/  <br/>
https://plotly.com/python-api-reference/generated/plotly.graph_objects.Figure.html

In [None]:
import plotly.graph_objs as go
import plotly.offline as pyo
from plotly.offline import iplot
pyo.init_notebook_mode()

In [None]:
data = dict(type='choropleth',
            locations = countries.index,
            locationmode = 'country names',
            z = countries,
            text = countries.index,
            colorbar = {'title':'Num. Pedidos'},
            colorscale='haline',
            reversescale = True)

layout = dict(title={'text': "Número de Pedidos por País",
                     'y':0.9,
                     'x':0.5,
                     'xanchor': 'center',
                     'yanchor': 'top'},
              geo = dict(resolution = 50,
                         showocean = True,
                         oceancolor = "LightBlue",
                         showland = True,
                         landcolor = "whitesmoke",
                         showframe = True),
             template = 'plotly_white',
             height = 600,
             width = 1000)

choromap = go.Figure(data = [data], layout = layout)
iplot(choromap, validate = False)

# Créditos y recursos importantes: 

Data Original: 
https://www.kaggle.com/carrie1/ecommerce-data
<br>

Notebooks revisados: 
<br>
https://www.kaggle.com/code/sercanyesiloz/crm-analytics/notebook

https://www.kaggle.com/code/pierrelouisdanieau/recommender-system-associations-rules/notebook 
