# CONTEXTO
Un gerente del banco está molesto porque cada vez más clientes abandonan sus servicios de tarjeta de crédito. Realmente apreciarían si se pudiera predecir quién va a ser expulsado para que puedan acudir de manera proactiva al cliente para brindarle mejores servicios y cambiar las decisiones de los clientes en la dirección opuesta.

Obtuve este conjunto de datos de un sitio web con la URL como https://leaps.analyttica.com/home . He estado usando esto durante un tiempo para obtener conjuntos de datos y, en consecuencia, trabajar en ellos para producir resultados fructíferos. El sitio explica cómo resolver un problema comercial en particular.

Ahora, este conjunto de datos consta de 10,000 clientes que mencionan su edad, salario, estado civil, límite de tarjeta de crédito, categoría de tarjeta de crédito, etc. Hay casi 18 características.

Solo tenemos un 16,07% de clientes que se han batido. Por lo tanto, es un poco difícil entrenar nuestro modelo para predecir la rotación de clientes.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## CARGANDO LOS DATOS Y OBTENIENDO LOS DATOS DE INTERES

In [2]:
clientes = pd.read_csv("C:/Users/Arley/Desktop/AaPortafoliodeProyectos/DataSets/BankChurners.csv")

In [3]:
titulosnuevos = ["NroCliente", "EstadoCuenta", "Edad", "Genero", "NroDependientes", "NivelEducativo", "EstadoCivil", "IngresosAnual", "TipoTarjeta", "Antiguedad","NroProductosBanco",
                 "MesesInactivos_Ult_Año","Reclamos_Ult_año", "CupoMax", "SaldoRot","Borrar1","Borrar2", "Borrar3","Transacciones_Ult_año","Borrar4","Borrar5","Borrar6","Borrar7"]
clientes.columns = titulosnuevos

In [4]:
# ELIMINANDO COLUMNAS QUE NO SON DE INTERES
clientes = clientes.drop(["Borrar1","Borrar2", "Borrar3","Borrar4","Borrar5","Borrar6","Borrar7", "SaldoRot"], axis=1)

In [5]:
#ANALIZANDO SI HAY DATOS NULLOS
clientes.info()

# Conclusión: El dataSet esta Completo

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10127 entries, 0 to 10126
Data columns (total 15 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   NroCliente              10127 non-null  int64  
 1   EstadoCuenta            10127 non-null  object 
 2   Edad                    10127 non-null  int64  
 3   Genero                  10127 non-null  object 
 4   NroDependientes         10127 non-null  int64  
 5   NivelEducativo          10127 non-null  object 
 6   EstadoCivil             10127 non-null  object 
 7   IngresosAnual           10127 non-null  object 
 8   TipoTarjeta             10127 non-null  object 
 9   Antiguedad              10127 non-null  int64  
 10  NroProductosBanco       10127 non-null  int64  
 11  MesesInactivos_Ult_Año  10127 non-null  int64  
 12  Reclamos_Ult_año        10127 non-null  int64  
 13  CupoMax                 10127 non-null  float64
 14  Transacciones_Ult_año   10127 non-null

# MODIFICANDO LOS DATOS CATEGORICOS CONVIERTIENDOLOS A DATOS NUMERICOS

In [6]:
# Numero 1 Para Masculino Numero Cero para femenino
clientes["Genero"] = np.where(clientes["Genero"]=="M",1,0)

In [7]:
# Creamos una columna nueva para asignar las categorias numericas a los diferentes niveles de formacion

clientes["NivelEducativo"]= np.where(clientes["NivelEducativo"]=="Doctorate",7,
                            np.where(clientes["NivelEducativo"]=="Post-Graduate",6,
                            np.where(clientes["NivelEducativo"]=="Graduate",5,
                            np.where(clientes["NivelEducativo"]=="High School",4,
                            np.where(clientes["NivelEducativo"]=="College",3,
                            np.where(clientes["NivelEducativo"]=="Uneducated",2,
                            np.where(clientes["NivelEducativo"]=="Unknown",1,0)))))))

In [8]:
# Numero uno cuenta activa
clientes["EstadoCuenta"] = np.where(clientes["EstadoCuenta"]=="Existing Customer",1,0)

In [9]:
# Se asigna valores enteros para cada categoria
clientes["EstadoCivil"] = np.where(clientes["EstadoCivil"]=="Single",4,
                          np.where(clientes["EstadoCivil"]=="Divorced",3,
                          np.where(clientes["EstadoCivil"]=="Married",2,
                          np.where(clientes["EstadoCivil"]=="Unknown",1,0))))

In [10]:
clientes["IngresosAnual"] = np.where(clientes["IngresosAnual"]=="$120K +",6,
                            np.where(clientes["IngresosAnual"]=="$80K - $120K",5,
                            np.where(clientes["IngresosAnual"]=="$60K - $80K",4,
                            np.where(clientes["IngresosAnual"]=="$40K - $60K",3,
                            np.where(clientes["IngresosAnual"]=="Less than $40K",2,
                            np.where(clientes["IngresosAnual"]=="Unknown",1,0))))))

In [11]:
clientes["TipoTarjeta"] = np.where(clientes["TipoTarjeta"]=="Platinum",4,
                          np.where(clientes["TipoTarjeta"]=="Gold",3,
                          np.where(clientes["TipoTarjeta"]=="Silver",2,
                          np.where(clientes["TipoTarjeta"]=="Blue",1,0))))

## TRANSFORMACION DE DATOS
Como podemos observar con la siguiente linea todos los datos quedan en definitiva como valores numericos


In [12]:
clientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10127 entries, 0 to 10126
Data columns (total 15 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   NroCliente              10127 non-null  int64  
 1   EstadoCuenta            10127 non-null  int32  
 2   Edad                    10127 non-null  int64  
 3   Genero                  10127 non-null  int32  
 4   NroDependientes         10127 non-null  int64  
 5   NivelEducativo          10127 non-null  int32  
 6   EstadoCivil             10127 non-null  int32  
 7   IngresosAnual           10127 non-null  int32  
 8   TipoTarjeta             10127 non-null  int32  
 9   Antiguedad              10127 non-null  int64  
 10  NroProductosBanco       10127 non-null  int64  
 11  MesesInactivos_Ult_Año  10127 non-null  int64  
 12  Reclamos_Ult_año        10127 non-null  int64  
 13  CupoMax                 10127 non-null  float64
 14  Transacciones_Ult_año   10127 non-null

In [24]:
# Exportando el Dataframe con el Preprocesamiento
from pathlib import Path  
filepath = Path('C:/Users/Arley/Desktop/AaPortafoliodeProyectos/clientes.csv')  
filepath.parent.mkdir(parents=True, exist_ok=True)  
clientes.to_csv(filepath, index=False)