# Trabajo Práctico 1: Análisis Exploratorio de Datos #
## Cientes potenciales a tarjetas de crédito. ##
El [DATASET](https://www.kaggle.com/datasets/sajidhussain3/jobathon-may-2021-credit-card-lead-prediction?select=train.csv) contiene información de clientes de un banco denominado Happy Customer Bank. Es un banco privado de tamaño medio que se ocupa de todo tipo de productos bancarios, como cuentas de ahorro, cuentas corrientes, productos de inversión, productos de crédito, entre otras ofertas.  

En este caso, el Happy Customer Bank desea realizar ventas cruzadas de sus tarjetas de crédito a sus clientes existentes. El banco ha identificado un conjunto de clientes que son elegibles para aceptar estas tarjetas de crédito.

El banco tiene la necesidad, de identificar a los clientes que podrían mostrar intención hacia una tarjeta de crédito recomendada.

<img src = "https://storage.googleapis.com/kaggle-datasets-images/1371711/2277422/2c35585d42b3747882e83e926d0f643e/dataset-cover.png?t=2021-05-27-18-40-42">


 --- 

## 1. Listado de variables y selección ###
### a) Variables de Entrada (vamos a utilizar)##

- **Gender:** Género del cliente. (male/female), no Nans



- **Age:** Edad del cliente. (En años), no NaNs


        
- **Region_Code:** Código de la Región para los clientes. (string), no NaNs. No estan detalladas las regiones por nombre, sin embargo al cliente se le puede demostrar la influencia del dato por medio del código.

        
- **Occupation:** Ocupación del cliente, no NaNs. Valores posibles: 'Entrepreneur', 'Other', 'Salaried','Employed',

        
        
- **Channel_Code:** Código de Canal de Adquisición para el Cliente (Codificado), no NaNs. Valores posibles: X1, X2, X3, X4


        
- **Vintage:** Antiguedad del Cliente (En Meses), no NaNs.

        
        
- **Credit_Product:** Si el Cliente tiene algún producto de crédito activo (Préstamo de vivienda, Préstamo personal, Tarjeta de crédito, etc,algunos Nans. Valor posible: True, False, NaNs.


- **Avg_Account_Balance:** Saldo de cuenta promedio. Saldo promedio de la cuenta del cliente en los últimos 12 meses. Valor posible: Integer, no NaNs

      
      
- **Is_Active:** Si el cliente está activo en los últimos 3 meses. No NaNs
            No-> El cliente no esta activo | Yes-> el cliente esta activo
            
            
--------



### b) Variable de Salida (a predecir) ###

- **Is_Lead:**  Si el Cliente está interesado en la Tarjeta de Crédito.
            0-> El cliente no esta interesado | 1-> el cliente esta interesado

### c) Variable que no vamos a utilizar 

**ID:** Podría conducir a un sobreajuste.

In [1]:
%matplotlib inline

import warnings
import numpy as np
import pandas as pd 
import matplotlib
import keras
import h5py
import PIL
import seaborn as sns
import sklearn
import pytz

from matplotlib import pyplot as plt

from sklearn.metrics import accuracy_score, precision_score, recall_score, confusion_matrix
from sklearn.model_selection import train_test_split

pd.options.display.max_columns = 0

plt.rcParams.update({
    "font.family": ["serif"],
    "font.sans-serif": ["Roboto"],
    "font.size": 9,
    "axes.labelsize": 11,
    "axes.titlesize": 13,
    "xtick.labelsize": 11,
    "ytick.labelsize": 11,
    "legend.fontsize": 11,
    'figure.figsize': (15.0, 4.0),
    'axes.grid': False,
    'axes.spines.left': True,
    'axes.spines.right': True,
    'axes.spines.top': True,
    'axes.spines.bottom': True,
})

np.set_printoptions(suppress=True)

warnings.filterwarnings('ignore')

In [2]:
data_TC = pd.read_csv('train.csv')

BETTER_COLUMN_NAMES = {
    'ID': 'id',
    'Gender': 'sexo',
    'Age': 'edad',
    'Region_Code': 'codigo_region',
    'Occupation': 'ocupacion',
    'Channel_Code': 'codigo_canal',
    'Vintage': 'antiguedad',
    'Credit_Product': 'tiene_producto_credito_activo',
    'Avg_Account_Balance': 'saldo_promedio_cuenta',
    'Is_Active': 'es_activo',
    'Is_Lead': 'esta_interesado',
}
data_TC.rename(columns=BETTER_COLUMN_NAMES, inplace=True)

data_TC.set_index('id', inplace=True)

In [3]:
data_TC.sample(10)

Unnamed: 0_level_0,sexo,edad,codigo_region,ocupacion,codigo_canal,antiguedad,tiene_producto_credito_activo,saldo_promedio_cuenta,es_activo,esta_interesado
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
MKBIIW7K,Male,49,RG251,Self_Employed,X2,20,No,440790,Yes,0
MJU3U7K2,Male,71,RG254,Other,X3,117,Yes,1210702,Yes,0
PNPVT7U9,Male,28,RG282,Other,X1,25,No,1164173,No,0
EYFQF6SA,Male,70,RG284,Other,X3,44,Yes,1025760,No,0
7XVJ7PAI,Female,80,RG276,Other,X2,63,No,1199194,No,0
UDHPXDJG,Male,63,RG276,Other,X3,61,No,1597149,No,0
FGRAPUDY,Female,41,RG251,Self_Employed,X2,50,Yes,1399943,No,0
2AAQGYU3,Female,30,RG275,Salaried,X1,13,Yes,280768,No,1
JQ3OKVAG,Female,46,RG268,Self_Employed,X3,68,,1724481,No,1
O8HUEGD5,Male,52,RG272,Other,X2,92,No,1034785,Yes,0


In [18]:
df2 = data_TC[data_TC["edad"] < 33]['edad']

In [19]:
print(df2)

id
IDD62UNG    30
TEASRWXV    30
GZ5TMYIR    27
FCPEEIY3    27
KCE7JSFN    31
            ..
EJMPTVQZ    26
HFNB7JY8    27
GEHAUCWT    26
GE7V8SAH    28
BOCZSWLJ    29
Name: edad, Length: 82761, dtype: int64


### c) Transformaciones ###

In [None]:
# 1. Obtener los nombres de las columas como una lista
col_name = data_TC.columns.tolist()

# 2. Itera sobre la lista de nombres
for column in col_name:
    print ("Valores nulos en <{0}>: {1}".format(column, data_TC[column].isnull().sum()))

In [None]:
Nulos = data_TC.isnull().sum()
print("Columnas             Cantidad de nulos")
print(Nulos)

In [None]:
data_TC.count()

In [None]:
#esto capaz nos convenga hacerlo en el mapper con sklearn
data_notNull = data_TC[data_TC['tiene_producto_credito_activo'].notna()]

In [None]:
Nulos = data_notNull.isnull().sum()
print("Columnas             Cantidad de nulos")
print(Nulos)

In [None]:
# Se dividen los datos en train y test
# 60% train, 20% test, 20% validation
train, not_train = train_test_split(data_notNull, test_size=0.4)
validation, test = train_test_split(not_train, test_size=0.5)

#Dimención (filas, columnas) de los distintos dataset
print (" Train:", train.shape, '\n', 'Validation:', validation.shape, '\n', 'Test:', test.shape)
#print("first line", "second line", sep="\n")`

In [None]:
# One Hot Encoder

from sklearn.pipeline import Pipeline
from sklearn_pandas import DataFrameMapper
from sklearn.preprocessing import StandardScaler, OneHotEncoder, LabelBinarizer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import SimpleImputer, IterativeImputer

from sklearn.pipeline import Pipeline

# Primer maper

In [None]:
mapper = DataFrameMapper([
    (['sexo'], [LabelBinarizer()]), 
    (['edad'], [StandardScaler()]),
    (['codigo_region'], [OneHotEncoder()]),
    (['ocupacion'], [OneHotEncoder()]),
    (['antiguedad'], [StandardScaler()]),
    (['codigo_canal'], [OneHotEncoder()]),
    (['tiene_producto_credito_activo'], [LabelBinarizer()]),
    (['saldo_promedio_cuenta'], [StandardScaler()]),
    (['es_activo'], [LabelBinarizer()])
], df_out=True) # df_out=True → Es lo que muestra el nombre de la columna

# Lo entrenamos con train
mapper.fit(data_notNull)

In [None]:
# vemos como transforma un sample:
sample = data_notNull.sample(5, random_state=20) #Semilla 20

# Sample original:
sample

In [None]:
# Sample transformado
mapper.transform(sample)

In [None]:
# Nombres de los faetures
mapper.transformed_names_

In [None]:
np.round(mapper.fit_transform(sample), 2)

In [None]:
np.round(mapper.transform(sample), 1)

In [None]:
data_TC.edad.rank()

In [None]:
# Descripción de los datos
data_notNull.describe()

### Tipo de cada columna

In [None]:

# Tipo de cada columna
# ==============================================================================
# En pandas, el tipo "object" hace referencia a strings
# datos.dtypes
data_notNull.info()

In [None]:
#Primero necesita hacer esto para poder dibujar la matriz de correlaciones
corr_matrix = data_notNull.select_dtypes(include=['float64', 'int']).corr(method='pearson')

In [None]:
# Heatmap matriz de correlaciones
# ==============================================================================
fig, ax = plt.subplots(nrows=1, ncols=1, figsize=(10, 10)) # (8, 8) tamaño de la grilla 

sns.heatmap(
    corr_matrix,
    annot     = True,
    cbar      = True, # Barra del costado
    annot_kws = {"size": 20}, # tamaño nro cuadrilla
    vmin      = -1,
    vmax      = 1,
    center    = 0,
    cmap      = sns.diverging_palette(20, 220, n=200), # (20, 220, n=200) color de la grilla
    square    = False, 
    ax        = ax
)
ax.set_xticklabels(
    ax.get_xticklabels(),
    rotation = 45,
    horizontalalignment = 'right',
)

ax.tick_params(labelsize = 10) # (labelsize = 50) tamaño la leyenda de los ejes

- **Gender:** en lugar de usar el one-hot encoder vamos a aplicar el Label Binarizer. Transformado el valor en 0 y 1



- **Age:** rango


        
- **Region_Code:** one-hot encoder


        
- **Occupation:** one-hot encoder

        
        
- **Channel_Code:** one-hot encoder


        
- **Vintage:** rango

        
        
- **Credit_Product:** en lugar de usar el one-hot encoder vamos a aplicar el Label Binarizer. Transformado el valor en 0 y 1. Y eliminamos los null.



- **Avg_Account_Balance:** escalar y rangos (y ver outliers)

      
      
- **Is_Active:** en lugar de usar el one-hot encoder vamos a aplicar el Label Binarizer