# Tienda en linea: Análisis exploratorio con Python

En este proyecto, se trabajara con datos transaccionales de una tienda minorista en línea. El conjunto de datos contiene información sobre las compras realizadas por los clientes, incluyendo detalles de los productos, cantidades, precios y marcas de tiempo. 

Mediante un análisis exploratorio de datos, identificaremos patrones, valores atípicos y correlaciones, lo que te permitirá tomar decisiones fundamentadas en datos y hacer recomendaciones para optimizar las operaciones de la tienda y mejorar la satisfacción del cliente. A través de visualizaciones y análisis estadísticos, se obtendran tendencias clave, como los meses con mayor volumen de ventas, los productos más vendidos y los clientes más valiosos de la tienda.

En última instancia, este proyecto tiene como objetivo proporcionar insights accionables que impulsen decisiones estratégicas de negocio y mejoren el rendimiento general de la tienda en el competitivo mercado del comercio electrónico.

## Objetivos del proyecto
1. Describir los datos para responder preguntas clave y descubrir insights.
2. Obtener insights valiosos que ayuden a mejorar el desempeño del comercio minorista en línea.
3. Proporcionar insights analíticos y recomendaciones basadas en datos.



## Base de datos

La base tiene las siguientes columnas:
- InvoiceNo: Número de la factura de la operación 
- StockCode: Código único del producto
- Description: Descripción del producto
- Quantity: Cantidad del producto en la transacción
- InvoiceDate: Fecha y hora de la transacción
- UnitPrice: Precio unitario del producto
- CustomerID: Identificador unico del cliente
- Country: Pais en donde se realizo la transacción

## Carga de la base de datos

Usando la libreria pandas cargamos nuestra base como un dataframe y mostramos los primeros datos para tener una visión general de nuestros datos

In [230]:
import pandas as pd
df = pd.read_excel('/Users/carloscarmona/Documents/Projects/Data_an/CO2WZWHLQ3GpXlr5Rkeq4w_6bb40d853b58401ebd85f554991bc2f1_online_retail/Online Retail.xlsx')
print(df.head())

  InvoiceNo StockCode                          Description  Quantity  \
0    536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1    536365     71053                  WHITE METAL LANTERN         6   
2    536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3    536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4    536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   

          InvoiceDate  UnitPrice  CustomerID         Country  
0 2010-12-01 08:26:00       2.55     17850.0  United Kingdom  
1 2010-12-01 08:26:00       3.39     17850.0  United Kingdom  
2 2010-12-01 08:26:00       2.75     17850.0  United Kingdom  
3 2010-12-01 08:26:00       3.39     17850.0  United Kingdom  
4 2010-12-01 08:26:00       3.39     17850.0  United Kingdom  


## Panorama general del dataframe

Ejecutamos algunos comandos de pandas para tener un panorama general de la estructura de nuestro dataframe y asi hacer una revisión inicial

In [231]:
df.info()
df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   InvoiceNo    541909 non-null  object        
 1   StockCode    541909 non-null  object        
 2   Description  540455 non-null  object        
 3   Quantity     541909 non-null  int64         
 4   InvoiceDate  541909 non-null  datetime64[ns]
 5   UnitPrice    541909 non-null  float64       
 6   CustomerID   406829 non-null  float64       
 7   Country      541909 non-null  object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(4)
memory usage: 33.1+ MB


Unnamed: 0,Quantity,InvoiceDate,UnitPrice,CustomerID
count,541909.0,541909,541909.0,406829.0
mean,9.55225,2011-07-04 13:34:57.156386048,4.611114,15287.69057
min,-80995.0,2010-12-01 08:26:00,-11062.06,12346.0
25%,1.0,2011-03-28 11:34:00,1.25,13953.0
50%,3.0,2011-07-19 17:17:00,2.08,15152.0
75%,10.0,2011-10-19 11:27:00,4.13,16791.0
max,80995.0,2011-12-09 12:50:00,38970.0,18287.0
std,218.081158,,96.759853,1713.600303


Encontramos datos inusuales en nuestro dataframe:
1. Tenemos transacciones con descripciones de productos vacios
2. Tenemos transacciones sin ID de clientes
1. La cantidad tiene valores minimos negativos
2. El precio unitario también tiene valores negativos


## Observaciones duplicadas

Buscamos si hay filas duplicadas

In [232]:
df[df.duplicated()].count()

InvoiceNo      5268
StockCode      5268
Description    5268
Quantity       5268
InvoiceDate    5268
UnitPrice      5268
CustomerID     5225
Country        5268
dtype: int64

Encontramos 5268 duplicamos, las eliminamos

In [233]:
df = df.drop_duplicates()
df[df.duplicated()].count()

InvoiceNo      0
StockCode      0
Description    0
Quantity       0
InvoiceDate    0
UnitPrice      0
CustomerID     0
Country        0
dtype: int64

##  Precios negativos o en ceros

### Precios negativos

In [235]:
df[df['UnitPrice'] < 0].groupby('Description')['UnitPrice'].count()

Description
Adjust bad debt    2
Name: UnitPrice, dtype: int64

Notamos que los precios negativos son para hacer ajustes por lo cual esas observaciones no son relevantes para el analisis, procedemos a eliminarlas

In [236]:
df = df[df['UnitPrice'] >= 0]
print(df[df['UnitPrice'] < 0])
df.describe()

Empty DataFrame
Columns: [InvoiceNo, StockCode, Description, Quantity, InvoiceDate, UnitPrice, CustomerID, Country]
Index: []


Unnamed: 0,Quantity,InvoiceDate,UnitPrice,CustomerID
count,536639.0,536639,536639.0,401604.0
mean,9.620061,2011-07-04 08:56:53.450010880,4.6739,15281.160818
min,-80995.0,2010-12-01 08:26:00,0.0,12346.0
25%,1.0,2011-03-28 10:52:00,1.25,13939.0
50%,3.0,2011-07-19 14:04:00,2.08,15145.0
75%,10.0,2011-10-18 17:05:00,4.13,16784.0
max,80995.0,2011-12-09 12:50:00,38970.0,18287.0
std,219.130564,,94.857114,1714.006089


### Precios en cero

In [237]:
df[(df['UnitPrice'] == 0)]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
622,536414,22139,,56,2010-12-01 11:52:00,0.0,,United Kingdom
1970,536545,21134,,1,2010-12-01 14:32:00,0.0,,United Kingdom
1971,536546,22145,,1,2010-12-01 14:33:00,0.0,,United Kingdom
1972,536547,37509,,1,2010-12-01 14:33:00,0.0,,United Kingdom
1987,536549,85226A,,1,2010-12-01 14:34:00,0.0,,United Kingdom
...,...,...,...,...,...,...,...,...
536981,581234,72817,,27,2011-12-08 10:33:00,0.0,,United Kingdom
538504,581406,46000M,POLYESTER FILLER PAD 45x45cm,240,2011-12-08 13:58:00,0.0,,United Kingdom
538505,581406,46000S,POLYESTER FILLER PAD 40x40cm,300,2011-12-08 13:58:00,0.0,,United Kingdom
538554,581408,85175,,20,2011-12-08 14:06:00,0.0,,United Kingdom


Hay varias observaciones con precio cero, asumiremos que se trata de errores por lo que los eliminaremos

In [238]:
df = df[df['UnitPrice'] != 0]
df[(df['UnitPrice'] == 0)]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country


## Cantidades negativas


In [239]:
df[df['Quantity'] < 0]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
141,C536379,D,Discount,-1,2010-12-01 09:41:00,27.50,14527.0,United Kingdom
154,C536383,35004C,SET OF 3 COLOURED FLYING DUCKS,-1,2010-12-01 09:49:00,4.65,15311.0,United Kingdom
235,C536391,22556,PLASTERS IN TIN CIRCUS PARADE,-12,2010-12-01 10:24:00,1.65,17548.0,United Kingdom
236,C536391,21984,PACK OF 12 PINK PAISLEY TISSUES,-24,2010-12-01 10:24:00,0.29,17548.0,United Kingdom
237,C536391,21983,PACK OF 12 BLUE PAISLEY TISSUES,-24,2010-12-01 10:24:00,0.29,17548.0,United Kingdom
...,...,...,...,...,...,...,...,...
540449,C581490,23144,ZINC T-LIGHT HOLDER STARS SMALL,-11,2011-12-09 09:57:00,0.83,14397.0,United Kingdom
541541,C581499,M,Manual,-1,2011-12-09 10:28:00,224.69,15498.0,United Kingdom
541715,C581568,21258,VICTORIAN SEWING BOX LARGE,-5,2011-12-09 11:57:00,10.95,15311.0,United Kingdom
541716,C581569,84978,HANGING HEART JAR T-LIGHT HOLDER,-1,2011-12-09 11:58:00,1.25,17315.0,United Kingdom


Todas la cantidades negativas corresponden a devoluciones por lo que las dejamos tal como estan

### Clientes desconocidos

In [240]:
df[df['CustomerID'].isnull()]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
1443,536544,21773,DECORATIVE ROSE BATHROOM BOTTLE,1,2010-12-01 14:32:00,2.51,,United Kingdom
1444,536544,21774,DECORATIVE CATS BATHROOM BOTTLE,2,2010-12-01 14:32:00,2.51,,United Kingdom
1445,536544,21786,POLKADOT RAIN HAT,4,2010-12-01 14:32:00,0.85,,United Kingdom
1446,536544,21787,RAIN PONCHO RETROSPOT,2,2010-12-01 14:32:00,1.66,,United Kingdom
1447,536544,21790,VINTAGE SNAP CARDS,9,2010-12-01 14:32:00,1.66,,United Kingdom
...,...,...,...,...,...,...,...,...
541536,581498,85099B,JUMBO BAG RED RETROSPOT,5,2011-12-09 10:26:00,4.13,,United Kingdom
541537,581498,85099C,JUMBO BAG BAROQUE BLACK WHITE,4,2011-12-09 10:26:00,4.13,,United Kingdom
541538,581498,85150,LADIES & GENTLEMEN METAL SIGN,1,2011-12-09 10:26:00,4.96,,United Kingdom
541539,581498,85174,S/4 CACTI CANDLES,1,2011-12-09 10:26:00,10.79,,United Kingdom


Ya que tenemos celdas vacias en los clientes, vamos a sustituirlos con desconocido para evitar errores 

In [241]:
df['CustomerID'] = df['CustomerID'].fillna('Unknown Costumer')


## Valores nulos

Buscamos valores nulos

In [243]:
df.isnull().sum()

InvoiceNo      0
StockCode      0
Description    0
Quantity       0
InvoiceDate    0
UnitPrice      0
CustomerID     0
Country        0
dtype: int64

In [244]:
df['Description'].isnull()

0         False
1         False
2         False
3         False
4         False
          ...  
541904    False
541905    False
541906    False
541907    False
541908    False
Name: Description, Length: 534129, dtype: bool

No tenemos valores nulos

## Revisión final general antes del análisis

In [259]:
df.info()
df.describe()

<class 'pandas.core.frame.DataFrame'>
Index: 534129 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   InvoiceNo    534129 non-null  object        
 1   StockCode    534129 non-null  object        
 2   Description  534129 non-null  object        
 3   Quantity     534129 non-null  int64         
 4   InvoiceDate  534129 non-null  datetime64[ns]
 5   UnitPrice    534129 non-null  float64       
 6   CustomerID   534129 non-null  object        
 7   Country      534129 non-null  object        
dtypes: datetime64[ns](1), float64(1), int64(1), object(5)
memory usage: 36.7+ MB


Unnamed: 0,Quantity,InvoiceDate,UnitPrice
count,534129.0,534129,534129.0
mean,9.916818,2011-07-04 12:02:01.631403776,4.695864
min,-80995.0,2010-12-01 08:26:00,0.001
25%,1.0,2011-03-28 11:36:00,1.25
50%,3.0,2011-07-19 15:55:00,2.1
75%,10.0,2011-10-18 17:10:00,4.13
max,80995.0,2011-12-09 12:50:00,38970.0
std,216.452113,,95.079189
