Autor:  
Manuel Eugenio Morocho Cayamcela, PhD

# **Test**  
## Manejo de outliers y operaciones en grupos para transacciones de e-commerce

### **Objetivo y alcance del trabajo:**

El objetivo de este trabajo es aplicar técnicas de minería de datos para identificar los productos más relevantes en nuestro conjunto de datos. Además, se utilizará el método del rango intercuartil (IQR) para detectar y eliminar outliers, mejorando así la calidad de nuestros datos y la precisión de nuestros análisis.

Este trabajo cubrirá los siguientes aspectos:

1. Carga y exploración inicial de los datos.
2. Análisis exploratorio de datos para entender las características y distribuciones de las variables.
3. Aplicación del método IQR para la detección y eliminación de outliers.
4. Aplicación de técnicas de minería de datos para identificar los productos más relevantes.
5. Interpretación y visualización de los resultados.

### **Fase I:** Carga y Preprocesamiento de Datos

#### Importamos las librerías necesarias

In [13]:
# Importamos la librería 'numpy' con alias 'np'
import ____ as ____

# Importamos la librería 'pandas' con alias 'pd'
____ pandas ____ pd

# Importamos la librería 'matplotlib.pyplot' con alias 'plt'
____ matplotlib.pyplot as ____

# Importamos la librería 'seaborn' con alias 'sns'
import ____ as ____

# Importamos la librería 'datetime' con alias 'dt'
import ____ as ____

%matplotlib inline

#### Carga y preprocesamiento de datos

In [None]:
# Leemos el archivo 'ecommerce_transactions.csv' y lo cargamos en un DataFrame con el nombre 'transacciones'
transacciones = ____('____')

# Mostramos las primeras 5 filas del DataFrame 'transacciones' usando el método 'head()'
transacciones.____

In [None]:
# Revisamos los tipos de datos por cada columna con el método 'info()' del DataFrame 'transacciones'
____.____

### **Fase II:** Limpieza de valores atípicos (outliers)

In [None]:
# Revisamos los valores nulos en el DataFrame 'transacciones' con el método 'isnull().sum()'
transacciones.____.____

In [24]:
# Eliminamos valores nulos en el DataFrame 'transacciones' con el método 'dropna()'
transacciones = transacciones.____

In [None]:
# Usamos el método 'boxplot()' de la librería seaborn 'sns'
# Visualizamos la distribución de la variable 'Quantity' del DataFrame 'transacciones'
____.____(y=transacciones['____'])
plt.show()

In [17]:
# Calculamos el primer cuartil (Q1) de la variable 'Quantity' del DataFrame 'transacciones'
# Usamos el método 'quantile()' y el parámetro '0.25' 
Q1 = transacciones['____'].____(____)

# Calculamos el tercer cuartil (Q3) de la variable 'Quantity' del DataFrame 'transacciones'
# Usamos el método 'quantile()' y el parámetro '0.75'
Q3 = transacciones['____'].____(____)

# Calculamos el rango intercuartil (IQR) de la variable 'Quantity' 
# restando el tercer cuartil (Q3) menos el primer cuartil (Q1)
IQR = ____ - ____
IQR

In [18]:
# Definimos el límite inferior usando la fórmula Q1 - 1.5 * IQR
# Q1 es el primer cuartil, IQR es el rango intercuartil y 1.5 es un factor de escala
limite_inferior = ____ - ____ * ____

# Definimos el límite superior usando la fórmula Q3 + 1.5 * IQR 
# Q3 es el tercer cuartil, IQR es el rango intercuartil y 1.5 es un factor de escala
limite_superior = ____ + ____ * ____

# Filtramos los valores atípicos de la variable 'Quantity' del DataFrame 'transacciones' 
# Los outliers son aquellas observaciones que están por debajo del límite inferior o por encima del límite superior
# Usamos el operador lógico '|' para indicar 'o' en la condición
outliers = (transacciones['Quantity'] < ____) | (transacciones['Quantity'] > ____)

# Eliminamos los valores atípicos de la variable 'Quantity' del DataFrame 'transacciones'
# Usamos el operador '~' para negar la condición y obtener los valores que no son atípicos
transacciones = transacciones[~outliers]

In [None]:
# Revisamos nuevamente los valores atípicos (outliers) en la columna 'Quantity'
# Usamos el método 'boxplot()' de la librería 'seaborn' con la variable 'Quantity
____.____(y=transacciones['____'])

In [None]:
# Eliminamos los valores negativos de la columna 'Quantity' del DataFrame 'transacciones'
# Usamos el operador '>' para seleccionar los valores mayores a cero (0) en la columna 'Quantity'
transacciones = transacciones[transacciones['____'] > ____]

# Revisamos nuevamente los valores atípicos (outliers) en la columna 'Quantity'
# Usamos el método 'boxplot()' de la librería 'seaborn' con la variable 'Quantity' en el eje y
____.____(y=transacciones['____'])

### **Fase III:** Productos que más se venden y que mayor ganancia (revenue) generan

Creamos una columna nueva para las ganancias (revenue) por venta

In [None]:
# Usamos el operador '*' para multiplicar las columnas 'Price' y 'Quantity' del DataFrame 'transacciones'
# Asignamos el resultado de la multiplicación a la columna 'Revenue' del DataFrame 'transacciones'
transacciones['____'] = transacciones['____'] * transacciones['____']

# Mostramos las primeras 5 filas del DataFrame 'transacciones' con el método 'head()'
____.head()

Revisamos los 10 productos que más se han vendido

In [None]:
# Agrupamos el DataFrame 'transacciones' por la columna 'ProductName'
# Usamos el método 'groupby()' y pasamos la columna 'ProductName' como argumento
productos_agrupados = transacciones.____('____')

# Sumamos la columna 'Quantity' de cada grupo
# Usamos el método 'sum()' para sumar la columna 'Quantity' de cada grupo
suma_cantidades_por_producto = productos_agrupados['____'].____

# Ordenamos los resultados de forma descendente
# Usamos el método 'sort_values()' con el argumento 'ascending=False'
# Guardamos el resultado en la variable 'productos_mas_vendidos'
productos_mas_vendidos = suma_cantidades_por_producto.____(ascending=____)

# Mostramos los 10 productos que más se han vendido con el método 'head()'
productos_mas_vendidos.head(____)

Visualizamos los 10 productos que más se han vendido

In [None]:
# Creamos una figura con el método 'figure()' de la librería matplotlib.pyplot con alias 'plt'
# Definimos el tamaño de la figura con el parámetro 'figsize' y las dimensiones (12, 6)
____.figure(figsize=(____, ____))

# Usamos el método 'barplot()' de la librería seaborn 'sns' para mostrar solo los 10 productos más vendidos
# Definimos el eje x con los valores de la columna 'Quantity' de los 'productos_mas_vendidos'
# Definimos el eje y con los valores de los índices de los 'productos_mas_vendidos'
# Definimos la paleta de colores con el parámetro 'palette' y el valor 'viridis'
sns.____(x=____.head(10), y=____.head(10).index, palette='____')

# Definimos el título de la gráfica con el método 'title()' de la librería matplotlib.pyplot con alias 'plt'
# Definimos el título 'Top 10 Productos más Vendidos'
plt.title('____')

# Definimos la etiqueta del eje x con el método 'xlabel()' de la librería matplotlib.pyplot con alias 'plt'
# Definimos el título de la etiqueta del eje x como 'Cantidad'
plt.____('Cantidad')

# Definimos la etiqueta del eje y con el método 'ylabel()' de la librería matplotlib.pyplot con alias 'plt'
# Definimos el título de la etiqueta del eje y como 'Producto'
plt.ylabel('____')

# Mostramos la gráfica con el método 'show()' de la librería matplotlib.pyplot con alias 'plt'
plt.____

Revisamos los 10 productos que más ingresos han generado

In [None]:
# Agrupamos el DataFrame 'transacciones' por la columna 'ProductName' con el método 'groupby()'
productos_agrupados = transacciones.____('____')

# Sumamos los ingresos (Revenue) por cada producto usando el método 'sum()'
suma_ingresos_por_producto = productos_agrupados['____'].____

# Ordenamos los resultados de forma descendente
# Usamos el método 'sort_values()' con el argumento 'ascending=False'
# Guardamos el resultado en la variable 'productos_mas_ingresos'
productos_mas_ingresos = suma_ingresos_por_producto.____(____=False)

# Mostramos los 10 productos que más ingresos han generado con el método 'head()'
productos_mas_ingresos.head(____)

Visualizamos los productos que más ingresos han generado

In [None]:
# Creamos una figura con el método 'figure()' de la librería matplotlib.pyplot con alias 'plt'
# Definimos el tamaño de la figura con el parámetro 'figsize' y las dimensiones (12, 6)
plt.figure(____=(12, 6))

# Usamos el método 'barplot()' de la librería seaborn 'sns' 
# Visualizamos solo los 10 productos que más ingresos han generado 
# Definimos el eje x con los valores de la columna 'Revenue' que correspondan a los 'productos_mas_ingresos'
# Definimos el eje y con los valores de los índices de los 10 'productos_mas_ingresos' 
sns.____(x=productos_mas_ingresos.head(____), y=productos_mas_ingresos.head(____).index, palette='viridis')

# Definimos el título de la gráfica con el método 'title()' de la librería matplotlib.pyplot con alias 'plt'
# Definimos el título 'Top 10 Productos con más Ingresos'
plt.____('Top 10 Productos con más Ingresos')

# Definimos la etiqueta del eje x con el método 'xlabel()' de la librería matplotlib.pyplot con alias 'plt'
# Definimos el título de la etiqueta del eje x como 'Ingresos'
plt.____('Ingresos')

# Definimos la etiqueta del eje y con el método 'ylabel()' de la librería matplotlib.pyplot con alias 'plt'
# Definimos el título de la etiqueta del eje y como 'Producto'
plt.ylabel('____')

# Mostramos la gráfica con el método 'show()' de la librería matplotlib.pyplot con alias 'plt'
____.show()

Visualizamos la distribución de las ganancias por mes

In [None]:
# Convertimos la columna 'Date' del DataFrame 'transacciones' a formato de fecha con el método 'to_datetime()'
# Usamos el formato '%m/%d/%Y' para indicar el mes, día, y año
# Guardamos el resultado en la columna 'Date' del DataFrame 'transacciones'
transacciones['____'] = pd.____(transacciones['Date'], format  = '____')

# Creamos una nueva columna 'Month' en el DataFrame 'transacciones' con el mes de cada transacción
# Usamos el método 'dt.month' para obtener el mes de la columna 'Date'
transacciones['____'] = transacciones['Date'].dt.month

# Agrupamos el DataFrame 'transacciones' por la columna 'Month' usando el método 'groupby()'
# Sumamos los ingresos (Revenue) por mes usando el método 'sum()'
# Guardamos los resultados en la variable 'ventas_por_mes'
ventas_por_mes = transacciones.____('____')['Revenue'].____

# Creamos una figura con el método 'figure()' de la librería matplotlib.pyplot con alias 'plt'
# Definimos el tamaño de la figura con el parámetro 'figsize' y las dimensiones (12, 6)
____.figure(____=(12, ____))

# Usamos el método 'barplot()' de la librería seaborn 'sns' para visualizar los datos en forma de barras
# Definimos el eje x con los valores de los índices de 'ventas_por_mes'
# Definimos el eje y con los valores de 'ventas_por_mes'
# Definimos la paleta de colores con el parámetro 'palette' y el valor 'viridis'
sns.____(x=____.index, y=____.values, ____='viridis')

# Definimos el título de la gráfica con el método 'title()' de la librería matplotlib.pyplot con alias 'plt'
# Definimos el título 'Ganancias por Mes'
____.____('Ganancias por Mes')

# Definimos la etiqueta del eje x con el método 'xlabel()' de la librería matplotlib.pyplot con alias 'plt'
# Definimos el título de la etiqueta del eje x como 'Mes'
____.____('Mes')

# Definimos la etiqueta del eje y con el método 'ylabel()' de la librería matplotlib.pyplot con alias 'plt'
# Definimos el título de la etiqueta del eje y como 'Ganancias'
____.____('Ganancias')

# Mostramos la gráfica con el método 'show()' de la librería matplotlib.pyplot con alias 'plt'
____.____

Visualizamos la distribución de las ventas por día de la semana con un gráfico de barras

In [None]:
# Creamos una nueva columna 'DayOfWeek en el DataFrame 'transacciones' con el día de la semana de cada transacción
# Usamos el método 'dt.day_name()' para obtener el nombre del día de la columna 'Date'
transacciones['____'] = transacciones['Date'].____()

# Contamos el número de ventas por día de la semana con el método 'value_counts()' de la columna 'DayOfWeek'
# Guardamos los resultados en la variable 'ventas_por_dia_semana'
ventas_por_dia_semana = transacciones['____'].____

# Creamos una figura con el método 'figure()' de la librería matplotlib.pyplot con alias 'plt'
# Definimos el tamaño de la figura con el parámetro 'figsize' y las dimensiones (12, 6)
____.____(____=(____, ____))

# Usamos el método 'barplot()' de la librería seaborn 'sns' para visualizar los datos en forma de barras
# Definimos el eje x con los valores de los índices de 'ventas_por_dia_semana'
# Definimos el eje y con los valores de 'ventas_por_dia_semana'
# Definimos la paleta de colores con el parámetro 'palette' y el valor 'viridis'
____.____(____=ventas_por_dia_semana.index, ____=ventas_por_dia_semana.values, ____='____')

# Definimos el título de la gráfica con el método 'title()' de la librería matplotlib.pyplot con alias 'plt'
# Definimos el título 'Ventas por Día de la Semana'
____.____('____')

# Definimos la etiqueta del eje x con el método 'xlabel()' de la librería matplotlib.pyplot con alias 'plt'
# Definimos el título de la etiqueta del eje x como 'Día de la Semana'
____.____('____')

# Definimos la etiqueta del eje y con el método 'ylabel()' de la librería matplotlib.pyplot con alias 'plt'
# Definimos el título de la etiqueta del eje y como 'Ventas'
____.____('____')

# Mostramos la gráfica con el método 'show()' de la librería matplotlib.pyplot con alias 'plt'
____.____