**Table of contents**<a id='toc0_'></a>    
- [Descripción del proyecto](#toc1_)    
  - [Objetivo](#toc1_1_)    
- [Preprocesamiento de datos](#toc2_)    
    - [Conclusión](#toc2_1_1_)    
  - [Tratamiento y limpieza de datos](#toc2_2_)    

<!-- vscode-jupyter-toc-config
	numbering=false
	anchor=true
	flat=false
	minLevel=1
	maxLevel=6
	/vscode-jupyter-toc-config -->
<!-- THIS CELL WILL BE REPLACED ON TOC UPDATE. DO NOT WRITE YOUR TEXT IN THIS CELL -->

# <a id='toc1_'></a>[Descripción del proyecto](#toc0_)

En un mundo donde las empresas dependen cada vez más de los datos para tomar decisiones estratégicas, la capacidad de segmentar clientes de manera efectiva se vuelve crucial. La segmentación de clientes permite a las empresas personalizar sus estrategias de marketing, mejorar la retención de clientes y maximizar el valor del cliente a lo largo del tiempo.

## <a id='toc1_1_'></a>[Objetivo](#toc0_)
Este proyecto tiene como objetivo desarrollar una aplicación web interactiva que permita a los científicos de datos realizar análisis de segmentación de clientes utilizando el modelo RFM (Recencia, Frecuencia, Valor Monetario). La aplicación proporcionará herramientas para cargar datos, realizar análisis exploratorio y visualizar resultados de segmentación mediante gráficos interactivos.

# <a id='toc2_'></a>[Preprocesamiento de datos](#toc0_)

In [204]:
# Librerias
import pandas as pd
import datetime as dt

In [205]:
# Obteniendo dataset
df = pd.read_csv('https://raw.githubusercontent.com/MaElmoon39/RetailSaviors/DS/datasets/Online_Retail.csv', 
                 encoding='unicode_escape')

# Visualización de dataset
df.head()

Unnamed: 0,INVOICE_NO,STOCK_CODE,DESCRIPTION,QUANTITY,INVOICE_DATE,UNIT_PRICE,CUSTOMER_ID,REGION
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,01/12/2019 08:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,01/12/2019 08:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,01/12/2019 08:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,01/12/2019 08:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,01/12/2019 08:26,3.39,17850.0,United Kingdom


In [206]:
# Visualización de información
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column        Non-Null Count   Dtype  
---  ------        --------------   -----  
 0   INVOICE_NO    541909 non-null  object 
 1   STOCK_CODE    541909 non-null  object 
 2   DESCRIPTION   540455 non-null  object 
 3   QUANTITY      541909 non-null  int64  
 4   INVOICE_DATE  541909 non-null  object 
 5   UNIT_PRICE    541909 non-null  float64
 6   CUSTOMER_ID   406829 non-null  float64
 7   REGION        541909 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 33.1+ MB


In [207]:
# Verificación de valores duplicados
print('Valores duplicados:', df.duplicated().sum())

# Visualización de ejemplo de duplicados
df[(df['DESCRIPTION']== 'UNION JACK FLAG LUGGAGE TAG') & (df['CUSTOMER_ID']== 17908.0)]

Valores duplicados: 5268


Unnamed: 0,INVOICE_NO,STOCK_CODE,DESCRIPTION,QUANTITY,INVOICE_DATE,UNIT_PRICE,CUSTOMER_ID,REGION
494,536409,21866,UNION JACK FLAG LUGGAGE TAG,1,01/12/2019 11:45,1.25,17908.0,United Kingdom
517,536409,21866,UNION JACK FLAG LUGGAGE TAG,1,01/12/2019 11:45,1.25,17908.0,United Kingdom


In [208]:
# Verificación de valores nulos
df.isna().sum()

INVOICE_NO           0
STOCK_CODE           0
DESCRIPTION       1454
QUANTITY             0
INVOICE_DATE         0
UNIT_PRICE           0
CUSTOMER_ID     135080
REGION               0
dtype: int64

In [209]:
#Visualización de cantidad de valores únicos
df.nunique()

INVOICE_NO      25900
STOCK_CODE       4070
DESCRIPTION      4214
QUANTITY          722
INVOICE_DATE    23260
UNIT_PRICE       1630
CUSTOMER_ID      4372
REGION             38
dtype: int64

In [210]:
# Descripcion del dataset
df.describe()

Unnamed: 0,QUANTITY,UNIT_PRICE,CUSTOMER_ID
count,541909.0,541909.0,406829.0
mean,9.55225,4.611114,15287.69057
std,218.081158,96.759853,1713.600303
min,-80995.0,-11062.06,12346.0
25%,1.0,1.25,13953.0
50%,3.0,2.08,15152.0
75%,10.0,4.13,16791.0
max,80995.0,38970.0,18287.0


In [211]:
# Observación de valores negativos
df[(df['UNIT_PRICE']< 0)]

Unnamed: 0,INVOICE_NO,STOCK_CODE,DESCRIPTION,QUANTITY,INVOICE_DATE,UNIT_PRICE,CUSTOMER_ID,REGION
299983,A563186,B,Adjust bad debt,1,12/08/2020 14:51,-11062.06,,United Kingdom
299984,A563187,B,Adjust bad debt,1,12/08/2020 14:52,-11062.06,,United Kingdom


## <a id='toc2_1_1_'></a>[Conclusión](#toc0_)
Nuestro dataser está formado por un total de 541909 filas y 8 columnas que representan los siguiente:

* `INVOICE_NO`: Número de orden
* `STOCK_CODE`: Código del producto
* `DESCRIPTION`: Descripción del producto
* `QUANTITY`: Cantidad de producto seleccionado
* `INVOICE_DATE`: Fecha de compra
* `UNIT_PRICE`: Precio unitario
* `CUSTOMER ID`: Número de cliente
* `REGION`: País de compra

Se cuentan con un total de 5268 valores duplicados, estos pueden ser eliminados dado que tenemos un ID de identificación. También se observan dos columnas con valores nulos. Observamos la cantidad de valores únicos de cada columna. y por último en la descripción de la tabla se aprecian valores negativos en las columnas `QUANTITY` y `UNIT_PRICE`.

Las siguientes acciones a tomar son:

* Cambio por minusculas los nombres de las columnas
* Eliminación de valores duplicados
* Tratamiento de valores negativos en las cantidades y precios unitarios
* Tratamiento de valores nulos
* Creación de nuevas columnas con valores RFM

Para ello vamos a realizar una copia de nuestra tabla original

## <a id='toc2_2_'></a>[Tratamiento y limpieza de datos](#toc0_)

In [212]:
# copia del dataset
df_new = df.copy()

# camio a minúsculas de los nombres
df_new.columns = df_new.columns.str.lower()

# verificación de cambio
df_new.columns

Index(['invoice_no', 'stock_code', 'description', 'quantity', 'invoice_date',
       'unit_price', 'customer_id', 'region'],
      dtype='object')

In [213]:
# Eliminación de valroes duplicados
df_new = df_new.drop_duplicates().reset_index(drop = True)

# Comprobando que no queden valores duplicados
df_new.duplicated().sum()

0

## Valores nulos

In [228]:
x=df_new['invoice_no'][df_new['customer_id'].isna()]

df_new['customer_id'][df_new['invoice_no'].isin(x)].dropna().reset_index()

Unnamed: 0,index,customer_id


In [236]:
y=df_new['stock_code'][df_new['description'].isna()]

y=df_new[['description', 'stock_code']][df_new['stock_code'].isin(y)].dropna().drop_duplicates()
y

Unnamed: 0,description,stock_code
2,CREAM CUPID HEARTS COAT HANGER,84406B
3,KNITTED UNION FLAG HOT WATER BOTTLE,84029G
4,RED WOOLLY HOTTIE WHITE HEART.,84029E
7,HAND WARMER UNION JACK,22633
8,HAND WARMER RED POLKA DOT,22632
...,...,...
517114,check,16045
517193,Amazon,21868
519264,CHECK,23406
519270,found,84876B


In [None]:
# Eliminación de datos nulos
df_new= df_new.dropna().reset_index(drop = True)

df_new['invoice_date'] = df_new['invoice_date'].astype('datetime64[ns]')

### RFM Tabla

In [None]:
#Creación de nuestra columna de total
df_new['total'] = df_new['quantity'] * df_new['unit_price']

In [None]:
# Creación de nuestra última fecha
final_date = max(df_new['invoice_date']+ dt.timedelta(days=1))


In [None]:
# Creación de la tabla de rfm
rfm_df = df_new.groupby('customer_id').agg(
    recency = ('invoice_date', lambda x: (final_date- x.max()).days),
    frecuency = ('invoice_no', 'count'),
    monetary = ('total', 'sum')
)

# Visualización de tabla
rfm_df

Unnamed: 0_level_0,recency,frecuency,monetary
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12346.0,328,2,0.00
12347.0,41,182,4310.00
12348.0,77,31,1797.24
12349.0,20,73,1757.55
12350.0,313,17,334.40
...,...,...,...
18280.0,161,10,180.60
18281.0,5,7,80.82
18282.0,94,13,176.60
18283.0,11,721,2045.53


In [None]:
df_new.size

3614436