# **Análisis de un Dataset de ventas al detalle**

#### Librerías utilizadas

In [9]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

#### Exploración de datos

In [3]:
# Lectura del archivo Online Retail
file_path = "Online Retail.xlsx"
df = pd.read_excel(file_path)

In [4]:
# Primeras filas del dataset
print(df.head())

  InvoiceNo StockCode                          Description  Quantity  \
0    536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1    536365     71053                  WHITE METAL LANTERN         6   
2    536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3    536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4    536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   

          InvoiceDate  UnitPrice  CustomerID         Country  
0 2010-12-01 08:26:00       2.55     17850.0  United Kingdom  
1 2010-12-01 08:26:00       3.39     17850.0  United Kingdom  
2 2010-12-01 08:26:00       2.75     17850.0  United Kingdom  
3 2010-12-01 08:26:00       3.39     17850.0  United Kingdom  
4 2010-12-01 08:26:00       3.39     17850.0  United Kingdom  


El dataset está compuesto por 8 columnas, donde 3 son variables cuantitativas (cadenas de texto), 4 son variables numéricas y 1 es una serie de tiempo.

In [8]:
# Información general del dataset
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   InvoiceNo    541909 non-null  object        
 1   StockCode    541909 non-null  object        
 2   Description  540455 non-null  object        
 3   Quantity     541909 non-null  int64         
 4   InvoiceDate  541909 non-null  datetime64[ns]
 5   UnitPrice    541909 non-null  float64       
 6   CustomerID   406829 non-null  float64       
 7   Country      541909 non-null  object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(4)
memory usage: 33.1+ MB
None


In [6]:
# Análisis exploratorio de datos (resumen estadístico)
print(df.describe())

            Quantity      UnitPrice     CustomerID
count  541909.000000  541909.000000  406829.000000
mean        9.552250       4.611114   15287.690570
std       218.081158      96.759853    1713.600303
min    -80995.000000  -11062.060000   12346.000000
25%         1.000000       1.250000   13953.000000
50%         3.000000       2.080000   15152.000000
75%        10.000000       4.130000   16791.000000
max     80995.000000   38970.000000   18287.000000


##### Columna ***Quantity***
La cantidad de registros en esta columna es de 541909. En promedio, la cantidad total de productos vendidos es de 9.55 productos, por tanto, podríamos inferir que serían 10 productos. La desviación estándar es de 218.08, lo cual indica que la variabilidad entre las cantidades pedidas oscila en ese valor respecto al promedio; además, hay una gran variabilidad. El valor mínimo de la columna es -80955, lo cual es inusual dado que las cantidades son números enteros y podría indicar un error en los datos. El valor máximo es 80955, el cual es muy grande y podría representar un error por las razones anteriores y considerando que la empresa vende al detal. Finalmente, hablando de los cuartiles, el 25% de las transacciones tuvieron una cantidad igual o menor a 1; el 50% de las transacciones tuvieron una cantidad igual o menor a 3; y el 75% de las transacciones tuvieron una cantidad menor o igual a 10.
##### Columna ***UnitPrice***
La cantidad de registros en esta columna es de 541909. En promedio, el precio unitario de los productos es de 4.61 USD. La desviación estándar es de 96.75 USD, lo cual indica que la variabilidad entre las cantidades pedidas oscila en ese valor respecto al promedio; además, hay una gran variabilidad. El valor mínimo de la columna es -11062.06 USD, lo cual es inusual y podría indicar un error en los datos, debido a que es un valor negativo; aunque podría significar la devolución de dinero. El valor máximo es 38970 USD, el cual es muy grande considerando que la empresa vende al detal. Finalmente, hablando de los cuartiles, el 25% de las transacciones tuvieron una cantidad igual o menor a 1.25 USD; el 50% de las transacciones tuvieron una cantidad igual o menor a 2.08 USD; y el 75% de las transacciones tuvieron una cantidad menor o igual a 4.13 USD. Teniendo en cuenta el valor de la mediana, la cual es una medida robusta, podemos confirmar la sospecha de que la columna tiene valores erróneos, puesto que esta es muy pequeña respecto al mínimo y el máximo.
##### Columna ***Customer ID***
Las estadísticas de esta columna son insignificantes, porque a pesar de estar representadas por un valor numúerico, no se pueden interpretar porque solo indican la identificación de cada cliente. 

In [12]:
# Identificación de valores atípicos para Quantity mediante diagramas de cajas y bigotes. Los valores que están afuera de los bigotes son atípicos
Q1 = df['Quantity'].quantile(0.25)
Q3 = df['Quantity'].quantile(0.75)
lower_bound = Q1 - 1.5 * (Q3 - Q1) # La diferencia entre el cuartil 3 y el cuartil 1 es el rango intercuartílico
upper_bound = Q3 + 1.5 * (Q3 - Q1)
outliers_quantity = df[(df['Quantity'] < lower_bound) | (df['Quantity'] > upper_bound)]
print(f"Cantidad de outliers en la variable Quantity: {outliers_quantity.shape[0]}")

# Identificación de valores atípicos para UnitPrice mediante diagrama de cajas y bigotes. Los valores que están afuera de los bigotes son atípicos
Q1 = df['UnitPrice'].quantile(0.25)
Q3 = df['UnitPrice'].quantile(0.75)
lower_bound = Q1 - 1.5 * (Q3 - Q1) 
upper_bound = Q3 + 1.5 * (Q3 - Q1)
outliers_unitprice = df[(df['UnitPrice'] < lower_bound) | (df['UnitPrice'] > upper_bound)]
print(f"Cantidad de outliers en la variable UnitPrice: {outliers_unitprice.shape[0]}")

Cantidad de outliers en la variable Quantity: 58619
Cantidad de outliers en la variable UnitPrice: 39627
