# __Segmentacion de Comercio Online__

## Importar librerias

In [1]:
# librerias para el dataframe y la visualizacion
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import datetime as dt

## Cargar los datos

In [2]:
retail_df = pd.read_csv('./OnlineRetail.csv', sep=',', encoding='ISO-8859-1', header=0)
retail_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,01-12-2010 08:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,01-12-2010 08:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,01-12-2010 08:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,01-12-2010 08:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,01-12-2010 08:26,3.39,17850.0,United Kingdom


In [3]:
# tamano del dataset
retail_df.shape

(541909, 8)

> El dataset presenta 541.909 registros y solo 8 columnas.

In [4]:
# tipo de dato de cada variable
retail_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    541909 non-null  object 
 1   StockCode    541909 non-null  object 
 2   Description  540455 non-null  object 
 3   Quantity     541909 non-null  int64  
 4   InvoiceDate  541909 non-null  object 
 5   UnitPrice    541909 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      541909 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 33.1+ MB


> 5 de las 8 variables son de tipo object. Hay que tenerlo en cuenta. 

## Acerca de los datos

Este es un conjunto de datos transaccionales que contiene todas las transacciones realizadas entre el 01/12/2010 y el 09/12/2011 para una tienda online sin establecimientos físicos con sede en el Reino Unido. La empresa vende principalmente regalos únicos para cualquier ocasión. Muchos de sus clientes son mayoristas.

Las variables que contienen los datos son:

- _InvoiceNo_: Numero de factura. Es un numero entero de 6 digitos asignado de forma unica a cada transaccion. si este codigo empieza con la letra "c", indica una cancelacion.

- _StockCode_: Codigo de stock del producto. Es un numero de 5 digitos asignado de forma unica a cada producto.

- _Description_: Nombre del producto.

- _Quantity_: Cantidades de cada producto por transaccion.

- _InvoiceDate_: Fecha de factura. Marca el dia y la hora en que se genero cada transaccion.

- _UnitPrice_: Precio del producto por unidad.

- _CustomerID_: Numero integral de 5 digitos asignado de forma unica a cada cliente.

- _Country_: Nombre del pais donde reside cada cliente.

El objetivo es segmentar a los clientes en funcion del __RFM__ para que la empresa pueda dirigirse a sus clientes de manera eficiente. El __RFM__ es una tecnica basada en 3 variables que indican el valor y comportamiento de compra de cada cliente. Estas son: Recency (tiempo que ha pasado desde la ultima compra), Frequency (frecuencia de compra del cliente) y Monetary (dinero total gastado).

## Resumen estadistico de las variables numericas

In [5]:
retail_df.describe()

Unnamed: 0,Quantity,UnitPrice,CustomerID
count,541909.0,541909.0,406829.0
mean,9.55225,4.611114,15287.69057
std,218.081158,96.759853,1713.600303
min,-80995.0,-11062.06,12346.0
25%,1.0,1.25,13953.0
50%,3.0,2.08,15152.0
75%,10.0,4.13,16791.0
max,80995.0,38970.0,18287.0


__Sobre Cantidad__

> Hay 541.909 datos, valor que coincide con la cantidad de registros. Esto indica que la variable no presenta valores faltantes.

> Presenta una media de 9.5 unidades por transaccion.

> El valor de std es muy alto (218.08) lo que indica que los datos estan muy dispersos probablemente por la presencia de valores atipicos. La distribucion no es normal.

> 25% de las transacciones tienen 1 o 0 unidades.

> 50% de las transacciones tienen 3 o menos unidades.

> 75% tienen 10 o menos unidades.

> El valor de min es negativo lo que posiblemente representa devoluciones.

__Sobre Precio Unitario__

> Presenta la misma cantidad de registros lo que nos indica que la variable no presenta valores faltantes.

> La media es de 4.61$ por unidad.

> El valor de std es muy alto (96.76$) lo que sugiere la presencia de precios muy altos.

> El valor de min es negativo lo cual no es valido. Sugiere la presencial de outliers.

> 25% de las transacciones son de 1.25$.

> 50% de las transacciones son de 2.08$.

> 75% de las transacciones son de 4.13$.

__Sobre CustomerID__

> Esta variable es un identificador de los clientes por lo que no tiene un significado estadistico relevante.

## Resumen estadistico de las variables categoricas

In [6]:
retail_df.describe(include=['object'])

Unnamed: 0,InvoiceNo,StockCode,Description,InvoiceDate,Country
count,541909,541909,540455,541909,541909
unique,25900,4070,4223,23260,38
top,573585,85123A,WHITE HANGING HEART T-LIGHT HOLDER,31-10-2011 14:41,United Kingdom
freq,1114,2313,2369,1114,495478


__Sobre Numero de factura__

> Presenta la misma cantidad de registros lo que indica que no hay valores nulos.

> Existen 25900 facturas unicas, o mejor dicho, 25900 clientes.

> La factura mas frecuente es la 573585 con 1114 apariciones.

__Sobre el codigo del producto__

> Presenta la misma cantidad de registros lo que indica que no hay valores nulos.

> Hay 4070 productos diferentes.

> El producto mas vendido tiene el codigo 85123A el cual ha sido vendido 2313 veces.

__Sobre la Descripcion__

> Hay 540.455 descripciones. Faltan 1.454 descripciones que probablemente sean valores nulos.

> El producto mas frecuente de acuerdo a su descripcion fue "WHITE HANGING HEART T-LIGHT HOLDER" cuya presencia fue de 2369 veces.

__Sobre Fecha y Hora de la factura__

> No presenta valores nulos.

> Hay 23.260 momentos diferentes de venta

> El momento donde hubo mayor cantidad de venta fue 31-10-2011 a las 14:41 con un valor de 1114 ventas.

__Sobre Pais__

> No presenta valores nulos.

> Se vendio a clientes de 38 paises.

> El pais con mayor transacciones fue Reino unido con un total de 495.478 ventas.