In [None]:
# importación de las librerias y bibliotecas que serán utilizadas para el análisis y preparación de los datos
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import RobustScaler

In [None]:
#Lectura del dataset 
df = pd.read_csv('Churn_Modelling.csv')

In [None]:
#Visualización inicial del conjunto de datos
df

# Evaluación de los datos

Vamos analizar la información del dataset para poder conocer un poco los datos con los que estaremos trabajando, asi como para poder determinar que procesos necesitamos implementar.

In [None]:
#Visualizamos la informacion básica del conjunto de datos
df.info()

In [None]:
#Visualización de la información estadística del conjunto de datos
df.describe()

In [None]:
# Validación de la correlación entre las variables de entrada con relación a la variable de salida.
corr_matrix = df.corr()
corr_matrix["Exited"].sort_values(ascending=False)

In [None]:
#Validación si hay algún valor nulo en el conjunto de datos.
df.isna().any()

In [None]:
#Validación de la cantidad de ejemplos que posee el dataset segun la variable de salida.
df["Exited"].value_counts()

In [None]:
#Transformación de las columnas categoricas a numericas.
df_new = pd.get_dummies(df, columns=['Geography','Gender'], drop_first=True)

In [None]:
#Eliminación de datos que son irrelevantes y que podrian afectar los resultado.
df_new = df_new.drop(['RowNumber','CustomerId','Surname'], axis=1)

In [None]:
#Vizualición de los cambios aplicados
df_new

In [None]:
# Representación gráfica de la distribución de los atributos
df_new.hist(bins=50, figsize=(20,15))
plt.show()

In [None]:
edad_grupo = pd.cut(x=df_new['Age'],
                    bins=[18,20,30,40,50,60,70,80,92,float('inf')], 
                    labels=["18-20","20-30","30-40","40-50","50-60","60-70","70-80","80-92","92+"])
edad_total = edad_grupo.value_counts().sort_index()

edad_indexes = edad_total.index.values
edad_valores = edad_total.values

In [None]:
plt.figure(figsize = (12, 8))
 
# Creación de una gráfica bar plot para representar la distribución de la edad
edad_bar = plt.bar(edad_indexes, edad_valores, color ='Skyblue', width = 0.4)
for i, rectangle in enumerate(edad_bar):
    height = rectangle.get_height()
    plt.text(rectangle.get_x() + rectangle.get_width()/2, height+2,
             edad_valores[i], horizontalalignment='center', weight='bold', fontsize=12)
 
plt.xlabel("Edad", fontsize=13)
plt.ylabel("Recuento del rango de edad", fontsize=13)
plt.title("Distribución de los datos por edad", weight='bold', fontsize=18)
plt.show()

In [None]:
sueldo_grupo = pd.cut(x=df_new['EstimatedSalary'], 
                      bins=[10,10000,40000,80000,120000,160000,200000,float('inf')], 
                      labels=["10-10000","10000-40000","40000-80000","80000-120000","120000-160000","160000-200000","200000+"])
sueldo_total = sueldo_grupo.value_counts().sort_index()

sueldo_indexes = sueldo_total.index.values
sueldo_valores = sueldo_total.values

In [None]:
plt.figure(figsize = (15, 15))
 
# Creacion de una gráfica bar plot para representar la distribución del sueldo
sueldo_bar = plt.bar(sueldo_indexes, sueldo_valores, color ='Skyblue', width = 0.4)
for i, rectangle in enumerate(sueldo_bar):
    height = rectangle.get_height()
    plt.text(rectangle.get_x() + rectangle.get_width()/2, height+2,
             sueldo_valores[i], horizontalalignment='center', weight='bold', fontsize=12)
 
plt.xlabel("Sueldo", fontsize=13)
plt.ylabel("Recuento del sueldo estimado", fontsize=13)
plt.title("Distribución de los datos por la cantidad de sueldo", weight='bold', fontsize=18)
plt.show()

In [None]:
sueldo_grupo = pd.cut(x=df_new['Balance'], 
                       bins=[10,20000,60000,100000,140000,180000,220000,260000,float('inf')], 
                       labels=["10-20000","40000-60000","60000-100000","100000-140000","140000-180000","180000-220000","220000-260000","260000+"])
sueldo_total = sueldo_grupo.value_counts().sort_index()

sueldo_indexes = sueldo_total.index.values
sueldo_valores = sueldo_total.values

In [None]:
plt.figure(figsize = (15, 15))
 
# Creacion de una gráfica bar plot para representar la distribución del sueldo
sueldo_bar = plt.bar(sueldo_indexes, sueldo_valores, color ='Skyblue', width = 0.4)
for i, rectangle in enumerate(sueldo_bar):
    height = rectangle.get_height()
    plt.text(rectangle.get_x() + rectangle.get_width()/2, height+2,
             sueldo_valores[i], horizontalalignment='center', weight='bold', fontsize=12)
 
plt.xlabel("Sueldo", fontsize=13)
plt.ylabel("Recuento del sueldo estimado", fontsize=13)
plt.title("Distribución de los datos por la cantidad de sueldo", weight='bold', fontsize=18)
plt.show()

In [None]:
# Creación de una gráfica por género de las personas que hicieron si o no click al anuncio
plt.figure(figsize=[15,8])
sns.countplot(x = 'Gender', hue = 'Exited', data = df)
plt.title('Gráfica de la cantidad por género que se retiraron del banco o se quedaron', weight='bold', fontsize=18)

In [None]:
#Creación de una gráfica para representar el porcentaje por género
Gender = df['Gender'].value_counts()

fig, ax = plt.subplots(figsize =(8, 6))
_, _, autotexts = ax.pie(x=Gender, labels=Gender.index, autopct="%.2f%%", radius=1.2,
                         colors=sns.color_palette("YlOrBr_r"), explode=None, textprops=dict(fontsize=13))

ax.set_title('Distribución de los datos por Género', y=1.1, weight='bold', fontsize=14)

for autotext in autotexts:
    autotext.set_color('white')
    autotext.set_weight('bold')

In [None]:
#Creación de una gráfica para representar el porcentaje por género
Gender = df['Geography'].value_counts()

fig, ax = plt.subplots(figsize =(8, 6))
_, _, autotexts = ax.pie(x=Gender, labels=Gender.index, autopct="%.2f%%", radius=1.2,
                         colors=sns.color_palette("YlOrBr_r"), explode=None, textprops=dict(fontsize=13))

ax.set_title('Distribución de los datos por Geografia', y=1.1, weight='bold', fontsize=14)

for autotext in autotexts:
    autotext.set_color('white')
    autotext.set_weight('bold')

## Submuestreo

In [None]:
#Pasamos los datos a un DataFrame (datos en pandas)
X = pd.DataFrame(df_new.drop("Exited", axis=1))
y = pd.DataFrame(df_new["Exited"].copy())
no = y.sum()
si = y.shape[0]- no
print('Personas que se quedan en el banco:',si, 'Personas que se van del banco:', no)

In [None]:
#Importamos los paquetes
from imblearn.under_sampling import RandomUnderSampler, NearMiss

#Inicialización de los métodos de submuestreo
#RUS
rus = RandomUnderSampler()#random_state = 0
#NearMiss
nm = NearMiss()

In [None]:
#RUS. Elimina muestras de la clase más representada aleatoriamente
X_Rus, y_Rus = rus.fit_resample(X,y)
no = y_Rus.sum()
si = y_Rus.shape[0]- no
print('Personas que se quedan en el banco:',si, 'Personas que se van del banco:', no)
X_Rus

In [None]:
#NearMiss. Elimina las muestras más cercanas de la clase más representada
dataNm, targetNm = nm.fit_resample(data,target)
BenignoNm = targetNm.sum()
MalignoNm = targetNm.shape[0]- BenignoNm
print('Tumores Benignos: ', BenignoNm, ' , Tumores Malignos: ', MalignoNm )
dataNm

## Balanceo de los datos

In [None]:
# Conjunto de datos general
X_df = df_new.drop("Exited", axis=1)
y_df = df_new["Exited"].copy()

In [None]:
no = y_df.sum()
si = y_df.shape[0]- no
print('Personas que se quedan en el banco:',si, 'Personas que se van del banco:', no)

In [None]:
#Importamos los paquetes
from imblearn.combine import SMOTETomek

#Inicialización del método combinado
#SMOTE Tomek
smoteT = SMOTETomek()#random_state = 0

In [None]:
#Smote-Tomek. Sobremuestreo con Smote seguido de un submuestreo con Uniones de Tomek
X_dfsmoteT, y_dfsmoteT = smoteT.fit_resample(X_df,y_df)
nosmoteT = y_dfsmoteT.sum()
sismoteT = y_dfsmoteT.shape[0]- nosmoteT
print('Personas que se quedan en el banco:', nosmoteT, 'Personas que se van del banco:', sismoteT )
X_dfsmoteT

In [None]:
#Validación de la cantidad de ejemplos que posee el dataset segun la variable de salida.
y_dfsmoteT.value_counts()

## Escalado de los datos

In [None]:
# Conjunto de datos general
X_df = df_new.drop("Exited", axis=1)
y_df = df_new["Exited"].copy()

In [None]:
scaler = RobustScaler()
X_scaled = scaler.fit_transform(X_df)

In [None]:
# Transformación a un DataFrame de Pandas
X_scaled = pd.DataFrame(X_scaled, columns=X_df.columns, index=X_df.index)

In [None]:
X_scaled

## Entrenar y evaluar utilizando regresión logística

In [None]:
#División del dataset en conjunto de entramiento y prueba
from sklearn.model_selection import train_test_split
X_train, X_val ,y_train, y_val = train_test_split(X_Rus, y_Rus, test_size = 0.25, random_state=0)

In [None]:
# Entrenamos un algoritmo basado en regresión logística
from sklearn.linear_model import LogisticRegression

#Creación del modelo
clf = LogisticRegression(random_state =0).fit(X_train, y_train)

In [None]:
#Prediccion con el conjunto de pruebas
y_pred = clf.predict(X_val)

In [None]:
#Validación del accuracy
from sklearn.metrics import accuracy_score
print('Accuracy: {:.3f}'.format(accuracy_score(y_val, y_pred)))

In [None]:
#Validación de la matriz de confusión
from sklearn.metrics import confusion_matrix
confusion_matrix(y_val, y_pred)