# Trabajo Práctico: Análisis Exploratorio de Datos (EDA)

## Descripción:
Pertenecen a un equipo de analistas de datos de una tienda en línea. Su objetivo es realizar un Análisis Exploratorio de Datos (EDA) para identificar patrones de compra, analizar las ventas y extraer insights valiosos para la empresa.

## Dataset: 
**Online Retail II**

## Objetivos:
* Limpiar y preprocesar el dataset.
* Obtener estadísticas descriptivas y analizar las mismas.
* Visualizar patrones de ventas temporales y comportamiento de los clientes.
* Extraer conclusiones (insights) del análisis.
* Presentar las conclusiones extraídas con el objetivo de potenciar las ventas de la empresa.

## Consejos: 
* Comenzar efectuando un resumen del dataset y de sus características (para entenderlo antes de comenzar a trabajar con él).
* Utilizar los procedimientos vistos en clase y otros que pueden agregar ustedes.
* Esto es un bosquejo de lo que como mínimo deben hacer, pudiendo explayarse todo lo que consideren conveniente:

    * Preprocesamiento de Datos:
        * Revisar valores faltantes.
        * Limpiar o Tratar datos con valores nulos o inconsistentes (tener en cuenta filas con cantidad negativa y a qué se deben).
        * Transformar columnas necesarias (en caso de considerarlo conveniente, por ejemplo convertir 'InvoiceDate' a formato *string* si desean trabajarlo así o mantenerlo en formato *datetime*, dicha decisión queda a criterio del grupo).
        * Crear nuevas columnas útiles para el análisis, como 'TotalPrice'.
        * Efectuar las agrupaciones necesarias según el análisis que deban hacer, por ejemplo: por clientes (pueden analizar gastos promedios por cliente), por país (pueden comparar el gasto promedio por país o identificar qué productos son más populares en determinados países), etc.
    * Obtener estadísticas descriptivas y analizar las mismas:
        * Obtener un Resumen Estadístico Básico y extraer conclusiones (todas las conclusiones deben estar escritas en el cuaderno Jupyter).
        * Revisar si hay valores extremos u outliers en el dataset y decidir si deben ser tratados o no.
        * Relación entre las Variables (como la correlación para analizar las relaciones entre las diferentes variables numéricas del dataset, por ejemplo, pueden ver cómo se correlaciona 'TotalPrice' con 'Quantity').
    * Visualización de Datos:
        * Libertad para trabajar con cualquier librería de visualización: Matplotlib, Pandas, Seaborn, Plotly.
        * Mantener la coherencia entre los distintos gráficos y la librería utilizada (es decir, centrarse en una sola librería).
        * Mantener también la consistencia entre la personalización y el estilo aplicado a los gráficos.
        * En las visualizaciones deben destacarse las conclusiones o insights a los que se hayan arribado.
        * Trabajar con el canvas, grid, títulos, ticks, estilos de texto, anotaciones, leyenda y subplots (todo aquello visto en clase). No entregar gráficos sin haber hecho un trabajo de personalización.
        * Algunos gráficos que pueden efectuar (entre otros, dependerá del análisis de cada grupo y lo que deseen resaltar):
            * Gráfico de ventas por fecha (ya sea por día, semana o mes, a criterio del grupo).
            * Gráfico de productos más vendidos.
            * Distribución de las compras por cliente (analizar los TOP que más venden y compararlos, también analizar los que menos venden).
            * Distribución de las compras por país o región (analizando la cantidad o proporción del total de las ventas por país).
    * Conclusiones: Con base en las visualizaciones y el análisis realizado (esto dependerá fundamentalmente de su propio análisis), **conectar los resultados con las decisiones comerciales** (por ejemplo cómo la empresa podría optimizar sus campañas de marketing), respondiendo algunas preguntas:
        * ¿Cuáles son los productos más vendidos?
        * ¿Qué días, semanas o meses tuvieron mayores ventas?. ¿Hay patrones estacionales?
        * ¿Cuál es el comportamiento de las compras por cliente?
        * ¿Cuál es la distribución geográfica de las ventas?. ¿Qué países generan más ingresos?
    
     
## Deberán presentar:
* Cuaderno de Jupyter con celdas de código y markdown explicando detalladamente el análisis realizado, las decisiones tomadas y las conclusiones a las que han llegado en cada etapa del trabajo.
* Gráficos o visualizaciones con los insights obtenidos a fin de explicar los mismos (los mismos se utilizarán posteriormente a efectos de exponerlos como si lo tuviesen que hacer ante los directivos de la empresa). Tener en cuenta la utilización de algún recurso extra para la presentación de los gráficos (Power Point, PDF, etc) y consistencia del mismo (que tenga el mismo estilo y no sea uno distinto al exponer cada alumno del mismo grupo).

## Grupos:
* Serán 2 grupos de 5 integrantes, 3 grupos de 4 integrantes y 1 grupo de 3 integrantes.
* Entrega del trabajo realizado: A determinar.
* Exposición del trabajo realizado (16 y 23 de Junio) - 45 minutos por grupo (aprox 10 minutos por alumno).

## Se evaluará:  
* Aplicación de los procedimientos vistos en clase relacionados con el análisis exploratorio, la obtención de estadísticas descriptivas, como con las visualizaciones presentadas.
* Fundamentación de las decisiones tomadas y del porqué del análisis efectuado.
* Iniciativa, creatividad e ingenio para lograr resultados novedosos.

### Instalamos las dependencias necesarias (estamos trabajando en Jupyter Lab)

In [2]:
%pip install openpyxl

Note: you may need to restart the kernel to use updated packages.


### Al abrir el excel notamos que tiene dos hojas, por lo que vamos a abrir ambas

In [3]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt

df_1 = pd.read_excel('online_retail_II.xlsx', sheet_name = 0)
df_2 = pd.read_excel('online_retail_II.xlsx', sheet_name = 1)

print(df_1)
print(df_2)

       Invoice StockCode                          Description  Quantity  \
0       489434     85048  15CM CHRISTMAS GLASS BALL 20 LIGHTS        12   
1       489434    79323P                   PINK CHERRY LIGHTS        12   
2       489434    79323W                  WHITE CHERRY LIGHTS        12   
3       489434     22041         RECORD FRAME 7" SINGLE SIZE         48   
4       489434     21232       STRAWBERRY CERAMIC TRINKET BOX        24   
...        ...       ...                                  ...       ...   
525456  538171     22271                 FELTCRAFT DOLL ROSIE         2   
525457  538171     22750         FELTCRAFT PRINCESS LOLA DOLL         1   
525458  538171     22751       FELTCRAFT PRINCESS OLIVIA DOLL         1   
525459  538171     20970   PINK FLORAL FELTCRAFT SHOULDER BAG         2   
525460  538171     21931               JUMBO STORAGE BAG SUKI         2   

               InvoiceDate  Price  Customer ID         Country  
0      2009-12-01 07:45:00   6.95 

### Notamos que las columnas son las mismas, pero que cambian las fechas. Vamos a concatenar las filas en un solo df y chequear que no haya registros duplicados.

In [47]:
df = pd.concat([df_1, df_2], ignore_index=True)

print("El tamaño del df antes de eliminar duplicados es: " + str(df.shape))

df = df.drop_duplicates()

print("El tamaño del df después de eliminar duplicados es: " + str(df.shape))

El tamaño del df antes de eliminar duplicados es: (1067371, 8)


El tamaño del df después de eliminar duplicados es: (1033036, 8)


### Cómo hay menos filas después de haber eliminado los registros duplicados que antes de hacerlo, eso significa que había registros duplicados.

In [49]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1033036 entries, 0 to 1067370
Data columns (total 8 columns):
 #   Column       Non-Null Count    Dtype         
---  ------       --------------    -----         
 0   Invoice      1033036 non-null  object        
 1   StockCode    1033036 non-null  object        
 2   Description  1028761 non-null  object        
 3   Quantity     1033036 non-null  int64         
 4   InvoiceDate  1033036 non-null  datetime64[ns]
 5   Price        1033036 non-null  float64       
 6   Customer ID  797885 non-null   float64       
 7   Country      1033036 non-null  object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(4)
memory usage: 70.9+ MB


### Vemos que hay valores nulos en las columnas "Description" y "Customer ID".

In [None]:
porcentaje_nulos = df['Description'].isnull().sum() * 100 / len(df['Description'])
print(f"El porcentaje de valores nulos en la columna Description es: {porcentaje_nulos:.2f}%")

El porcentaje de valores nulos en la columna Description es: 0.41%


0,41% parece un valor bajo.

In [30]:
df_agrup_descrip =  df.groupby('Description').size().sort_values(ascending=False)

df_agrup_descrip_porc = round(df_agrup_descrip*100/1028761,2)

df_agrup_descrip_porc

Description
WHITE HANGING HEART T-LIGHT HOLDER     0.56
REGENCY CAKESTAND 3 TIER               0.42
JUMBO BAG RED RETROSPOT                0.33
ASSORTED COLOUR BIRD ORNAMENT          0.28
PARTY BUNTING                          0.27
                                       ... 
FROSTED GLASS WITH SILVER SURROUND     0.00
WET/MOULDY                             0.00
FRENCH ENAMEL SOAP DISH WITH LID       0.00
FOOD COVER WITH BEADS , SET 2 SIZES    0.00
FOLDING SHIRT TIDY                     0.00
Length: 5698, dtype: float64

Vemos que solo el 0,56% de las filas tienen el valor más común de description, lo que parece un valor relativamente bajo.

In [31]:
df['StockCode'].nunique()

5305

Tal vez podemos hallar las descripciones faltantes basándonos en el StockCode.

In [50]:
descripcion_por_stockcode = (
    df.dropna(subset=['Description'])
      .groupby('StockCode')['Description']
      .agg(lambda x: x.value_counts().idxmax())
      .to_dict()
)

# Rellenar los NaN en Description usando el diccionario
df['Description'] = df.apply(
    lambda row: descripcion_por_stockcode[row['StockCode']]
    if pd.isna(row['Description']) and row['StockCode'] in descripcion_por_stockcode
    else row['Description'],
    axis=1
)

df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1033036 entries, 0 to 1067370
Data columns (total 8 columns):
 #   Column       Non-Null Count    Dtype         
---  ------       --------------    -----         
 0   Invoice      1033036 non-null  object        
 1   StockCode    1033036 non-null  object        
 2   Description  1032673 non-null  object        
 3   Quantity     1033036 non-null  int64         
 4   InvoiceDate  1033036 non-null  datetime64[ns]
 5   Price        1033036 non-null  float64       
 6   Customer ID  797885 non-null   float64       
 7   Country      1033036 non-null  object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(4)
memory usage: 70.9+ MB


In [45]:
conteo_productos_por_precio = df.groupby('Price')['Description'].nunique().sort_values(ascending=False)

print(conteo_productos_por_precio)

Price
0.00     2602
1.25     1071
0.85      791
2.51      574
2.95      573
         ... 
80.94       1
81.33       1
81.42       1
81.61       1
79.68       1
Name: Description, Length: 2807, dtype: int64


Al haber precios que se repiten en diferentes productos sabemos que no podemos usar Price para completar los valores de la columna Description con Nan´s

In [46]:
df_agrup_descrip_2 =  df.groupby('Description').size().sort_values(ascending=False)

df_agrup_descrip_porc_2 = round(df_agrup_descrip*100/1028761,2)

df_agrup_descrip_porc_2

Description
WHITE HANGING HEART T-LIGHT HOLDER     0.56
REGENCY CAKESTAND 3 TIER               0.42
JUMBO BAG RED RETROSPOT                0.33
ASSORTED COLOUR BIRD ORNAMENT          0.28
PARTY BUNTING                          0.27
                                       ... 
FROSTED GLASS WITH SILVER SURROUND     0.00
WET/MOULDY                             0.00
FRENCH ENAMEL SOAP DISH WITH LID       0.00
FOOD COVER WITH BEADS , SET 2 SIZES    0.00
FOLDING SHIRT TIDY                     0.00
Length: 5698, dtype: float64

In [7]:
df['Invoice'].nunique()

53628

### Tenemos 53628 facturas

In [8]:
df['Customer ID'].nunique()

5942

### Hay 5942 clientes

In [9]:
promedio_facturas_por_cliente = df.groupby('Customer ID')['Invoice'].nunique().mean()

print("El promedio de facturas por cliente es: " + str(promedio_facturas_por_cliente))

El promedio de facturas por cliente es: 7.552339279703803


In [10]:
df = df.sort_values('InvoiceDate')

print("La primera fecha del dataset es: ")
print(df['InvoiceDate'][0])

print("La última fecha del dataset es: ")
print(df['InvoiceDate'].iloc[-1])

La primera fecha del dataset es: 
2009-12-01 07:45:00
La última fecha del dataset es: 
2011-12-09 12:50:00


In [11]:
df['YearMonth'] = df['InvoiceDate'].dt.to_period('M')

ventas_por_mes = df.groupby('YearMonth')['Invoice'].nunique()

print("Cantidad de facturas por mes:")
print(ventas_por_mes)

Cantidad de facturas por mes:
YearMonth
2009-12    2330
2010-01    1633
2010-02    1969
2010-03    2367
2010-04    1892
2010-05    2418
2010-06    2216
2010-07    2017
2010-08    1877
2010-09    2375
2010-10    2965
2010-11    3669
2010-12    2025
2011-01    1476
2011-02    1393
2011-03    1983
2011-04    1744
2011-05    2162
2011-06    2012
2011-07    1927
2011-08    1737
2011-09    2327
2011-10    2637
2011-11    3462
2011-12    1015
Freq: M, Name: Invoice, dtype: int64


### Notamos que el dataset tiene ventas en un rango temporal de 2 años y 9 días.

In [12]:
df['StockCode'].nunique()

5305

In [13]:
df['Description'].nunique()

5698

In [14]:
df['Price'].describe()

count    1.033036e+06
mean     4.613980e+00
std      1.223975e+02
min     -5.359436e+04
25%      1.250000e+00
50%      2.100000e+00
75%      4.150000e+00
max      3.897000e+04
Name: Price, dtype: float64

### Notamos que el precio mínimo es negativo, y esto no tiene sentido.

In [15]:
# Encontrar el índice donde Price es mínimo
indice_min_price = df['Price'].idxmin()

# Mostrar la fila correspondiente
fila_min_price = df.loc[indice_min_price]
print("Fila donde Price toma su valor mínimo:")
print(fila_min_price)

Fila donde Price toma su valor mínimo:
Invoice                    A506401
StockCode                        B
Description        Adjust bad debt
Quantity                         1
InvoiceDate    2010-04-29 13:36:00
Price                    -53594.36
Customer ID                    NaN
Country             United Kingdom
YearMonth                  2010-04
Name: 179403, dtype: object


El valor "Adjust bad debt" de la columna Description nos hace suponer que se trata de algo como un reembolso.

In [16]:
df_solo_price_pos = df[df['Price'] > 0]
print("El tamaño del df con solo precios positivos es: " + str(df_solo_price_pos.shape))

El tamaño del df con solo precios positivos es: (1027017, 9)
