# **Solución al problema práctico Semana 1**

## **Los hábitos de consumo y los tarjetahabientes**

La agrupación es una técnica que permite identificar patrones y tendencias en los datos con base en la identificación de grupos o segmentos de objetos con características comunes. Para el caso de una empresa que ofrece el servicio de tarjetas de crédito, la segmentación de clientes le permitiría, por ejemplo, ofrecer productos adaptados a las características de los grupos identificados, dirigir campañas de marketing a segmentos específicos de clientes y mejorar la experiencia de estos con un servicio de atención personalizado.

### **A. Problema práctico.**

Una empresa de tarjetas de crédito desea segmentar a sus clientes en función de su comportamiento de compra en centros comerciales con el fin de identificar los diferentes tipos de tarjetahabientes y establecer estrategias de marketing personalizadas para cada uno. Para realizar este estudio se cuenta con datos sobre saldos, límites de crédito y hábitos de compra, entre otros, de una muestra de clientes suministrada por la empresa. 

La empresa nos ha contratado para llevar adelante este estudio, el cual realizaremos en estas dos primeras semanas del curso. Las tareas para realizar en cada una de ellas son:

**Semana 1.** Exploración, limpieza y preparación del conjunto de datos, considerando que se utilizará un algoritmo de agrupación basado en distancias.

**Semana 2.** Aplicación del algoritmo de agrupación y caracterización de cada segmento, con el fin de definir patrones de comportamiento.

Conjunto de datos. Los datos ("Customer_data") han sido tomados de este 
repositorio  y han sido modificados para propósitos de este ejercicio. Es importante que revises el diccionario (lo encuentras en el repositorio) como primer paso para comprender estos datos.

### **B. Actividad - Semana 1.**
 Construir un notebook que realice la exploración (perfilamiento), limpieza y preparación de los datos. Para la fase de exploración puedes utilizar la librería pandas-profiling (aunque no es un requisito): 

https://github.com/ydataai/ydata-profiling. 



### **1. Importar librerías necesarios**
Iniciaremos importando las librerias `Pandas` y `scikit-learn`, además de la librería `numpy` para procesamiento matemático y `joblib` para persistencia de objetos. En particular, importaremos algunas clases dentro de `scikit-learn` que nos serán de utilidad para realizar el procesamiento de datos:

* [`SimpleImputer`](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html): clase para realizar la imputación de datos faltantes.
* [`StandardScaler`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html): clase para realizar la normalización de valores numéricos.
* [`MinMaxScaler`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html): clase para realizar la normalización de valores numéricos usando los valores límite de los datos.
* [`OneHotEncoder`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html): clase para realizar la codificación One-Hot de las variables categóricas.
* [`ColumnTransformer`](https://scikit-learn.org/stable/modules/generated/sklearn.compose.ColumnTransformer.html): clase para combinar pasos de preprocesamiento.

In [3]:
import pandas as pd
import numpy as np
import joblib
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, MinMaxScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer

### **2. Carga de datos**

`Pandas` permite la lectura de fuentes de datos almacenadas en archivos con varios formatos. Entre los formatos más comunes para el almacenamiento de conjuntos de datos se encuentran los archivos de valores separados por comas (CSV) y JavaScript Object Notation (JSON). 
En este caso los datos están en un archivo CSV por que se leerán utilizando la función de `Pandas` `read_csv()`.

Los datos están en la carpeta `data` y el archivo se llama `Customer_Data.csv`. Se cargan los datos en un DataFrame de `Pandas` llamado `data_raw` de la siguiente manera:


In [6]:
data_raw = pd.read_csv('./data/Customer_Data.csv')

Para ver una muestra de los datos, se utiliza la función `head()` que, por defecto, muestra las primeras 5 filas del DataFrame:

In [7]:
data_raw.head()

Unnamed: 0,CUST_ID,BALANCE,BALANCE_FREQUENCY,PURCHASES,ONEOFF_PURCHASES,INSTALLMENTS_PURCHASES,CASH_ADVANCE,PURCHASES_FREQUENCY,ONEOFF_PURCHASES_FREQUENCY,PURCHASES_INSTALLMENTS_FREQUENCY,CASH_ADVANCE_FREQUENCY,CASH_ADVANCE_TRX,PURCHASES_TRX,CREDIT_LIMIT,PAYMENTS,MINIMUM_PAYMENTS,PRC_FULL_PAYMENT,TENURE
0,C10001,5323.148883,0.250693,26344.072201,38237.442525,3727.113162,15708.239684,0.496536,0.464442,0.821611,0.194502,100,77,16819.480037,21337.027458,39452.958121,0.817907,7
1,C10002,12726.638115,0.791307,37958.519019,5690.74244,18733.810964,38284.354433,0.699457,0.250327,0.654863,1.083902,78,156,15617.570575,8000.183624,63013.748477,0.343119,9
2,C10003,4305.572068,0.176531,28392.953338,36009.470088,2873.383232,14294.185035,0.419764,0.523662,0.899912,0.207049,72,81,15515.586213,27111.360493,,0.829074,6
3,C10004,4740.988511,0.178076,27399.003842,38246.863491,3402.853375,6936.812518,0.439666,0.606597,0.783129,0.228299,78,83,12926.587974,23919.113404,38444.219979,0.883984,7
4,C10005,13820.92064,0.826914,42214.021633,7341.007821,19273.070991,40091.347849,0.821412,0.283579,0.501361,1.10635,88,182,14404.705067,6994.688474,62041.61734,0.383186,10
