<a href="https://colab.research.google.com/github/unknownMaaax/tarea4-SistemasInteligentes/blob/main/Tarea_4_Sistemas_inteligentes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ☕ **Tarea 4: Predicción de retención de clientes**



---
## 🧐 **Introducción**
En este proyecto, se abordara el problema de retención de clientes usando redes neuronales.




---
## 🚀 **Integrantes**
El proyecto es desarrollado por los siguientes integrantes:

* 👤 Javier Almarza.
* 👤 Gonzalo Cañas.
* 👤 Nicolas Cruz.
* 👤 Vicente Salas.

---
## 🪛 **Dependencias y requerimientos**
Para la correcta ejecución del proyecto, es necesario contar con las siguientes dependencias:

* 🐍 *Python versión >= 3.6.x*.
* 🛢️ *Numpy*.
* 🎰 *Matplotlib*.
* 🐼 *Pandas*.
* 🎲 *Scikit-learn*.

Para instalar las dependencias es necesario ejecutar el siguiente comando:

In [None]:
!pip install numpy matplotlib pandas sklearn

Para corroborar la correcta instalación de las dependencias, es posible ejecutar el siguiente comando:

In [None]:
!pip freeze

In [None]:
# Dependencias.
import numpy as np;
import matplotlib.pyplot as plt;
import pandas as pd;
import sklearn as sk;

---
## 💾 **Base de datos**

La base de datos puede ser descargada accediendo al siguiente enlace: [Churn_Modelling.csv](https://drive.google.com/file/d/1fcVNUx_oqYu3RMieohyXzvYVZJhuxhUK/view) 

La base de datos consiste en 10000 clientes con 14 variables originales donde la variable Exited (Salida) es binaria e indica si la persona se retuvo o no como cliente dentro de un plazo
prefijado. Dentro de la base de datos utilizada, se pueden encontrar los siguientes atributos de cada cliente:

1. RowNumber (**Numero de fila, desde 1 a 10001**).
  * Tipo: **INT**.
  * Rango: **\[1, 10001\]**.

2. CustomerId (**Identificador del cliente**).
  * Tipo: **INT**.
  * Largo: **8 digitos**.

3. Surname (**Apellido del cliente**).
  * Tipo: **STRING**.

4. CreditScore (**Puntaje de credito**).
  * Tipo: **INT**.
  * Largo: **8 digitos**.

5. Geography (**País del cliente**).
  * Tipo: **STRING**.
  * Numeración: **\[Spain, France, Germany\]**.

6. Gender (**Género del cliente**).
  * Tipo: **STRING**.
  * Binario: **Male | Female**.

7. Age (**Edad del cliente**).
  * Tipo: **INT**.
  * Condición: **NO negativo**.

8.	Tenure (**Posesiones del cliente**).
  * Tipo: **INT**.
  

9. Balance (**Balance del cliente**).
  * Tipo: **FLOAT**
  * Valor minimo: **0**.

10. NumOfProducts (**Numero de productos**).
  * Tipo: **INT**

11. HasCrCard (**¿Tiene tarjeta de crédito?**).
  * Tipo: **INT**
  * Binario: **1 | 0**
  * Representación: **Booleana**

12. IsActiveMember (**¿Es un cliente activo?**).
  * Tipo: **INT**
  * Binario: **1 | 0**
  * Representación: **Booleana**

13. EstimatedSalary (**Sueldo estimado**).
  * Tipo: **FLOAT**
  * Valor minimo: **0**

14. Exited (**¿Se retuvo al cliente?**).
  * Tipo: **INT**
  * Binario: **1 | 0**
  * Representación: **Booleana**


**\[No estoy seguro\]** Pero, para acceder a la base de datos es necesario subirlo a Google Drive.

In [None]:
from google.colab import drive;

drive.mount('/content/drive');

Mounted at /content/drive


---
## 💽 **Implementación**

### 🧵 **Disponibilidad de la base de datos**

Como primer procedimiento es necesario cargar el conjunto de datos.

In [None]:
# Cargando la base de datos.
data_set = pd.read_csv('drive/MyDrive/Churn_Modelling.csv');
print(data_set.head());

   RowNumber  CustomerId   Surname  ...  IsActiveMember EstimatedSalary Exited
0          1    15634602  Hargrave  ...               1       101348.88      1
1          2    15647311      Hill  ...               1       112542.58      0
2          3    15619304      Onio  ...               0       113931.57      1
3          4    15701354      Boni  ...               0        93826.63      0
4          5    15737888  Mitchell  ...               1        79084.10      0

[5 rows x 14 columns]


Filtración de caracteristicas socioeconomicas de cada uno de los clientes.

In [None]:
# Filtración de datos.
eje_x = data_set.iloc[:, 3:13].values;
eje_y = data_set.iloc[:, 13]. values;

print(eje_x); # Columnas [CreditScore hasta EstimatedSalary].
print(eje_y); # Columna [Exited].

print(eje_x.shape) # 10.000 Filas x 10 columnas.

[[619 'France' 'Female' ... 1 1 101348.88]
 [608 'Spain' 'Female' ... 0 1 112542.58]
 [502 'France' 'Female' ... 1 0 113931.57]
 ...
 [709 'France' 'Female' ... 0 1 42085.58]
 [772 'Germany' 'Male' ... 1 0 92888.52]
 [792 'France' 'Female' ... 1 0 38190.78]]
[1 0 1 ... 1 1 0]
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
(10000, 10)


### 🧶 **Codificación de atributos**

Transformación de algunos datos de tipo **String** a **Int**. A traves del uso de LabelEncoder se define un numero identificador a cada uno de los parametros presentes en la columna. Este proceso se realiza para el caso de locación geografica y genero del cliente.

In [None]:
# Dependencias.
from sklearn.preprocessing import LabelEncoder;

# Transformando los datos correspondientes a la locación del cliente.
codificacion_geografica = LabelEncoder();
eje_x[:, 1] = codificacion_geografica.fit_transform(eje_x[:, 1]);

# Transformando los datos correspondientes al genero del cliente.
codificacion_genero = LabelEncoder();
eje_x[:, 2] = codificacion_genero.fit_transform(eje_x[:, 2]);

print(eje_x)
print(eje_x.shape) # Cada uno de los paises se volvio un digito, ocurre lo mismo para los datos de genero.

[[619 0 0 ... 1 1 101348.88]
 [608 2 0 ... 0 1 112542.58]
 [502 0 0 ... 1 0 113931.57]
 ...
 [709 0 0 ... 0 1 42085.58]
 [772 1 1 ... 1 0 92888.52]
 [792 0 0 ... 1 0 38190.78]]
(10000, 10)


### 🪚 **División de la base de datos.**

División de los datos de entrenamiento y testeo. Se asigna un 25% de los datos al enfoque de testeo **(test_size = 0.25)**. Se define el **random_estate** en 0 para que se defina un unico caso de testeo a la hora de ejecutar.


In [None]:
from sklearn.model_selection import train_test_split

# Separando el Data Set en 25% para realizar pruebas y 75% para entrenamiento.
eje_x_entrenamiento, eje_x_prueba, eje_y_entrenamiento, eje_y_prueba = train_test_split(eje_x, eje_y, test_size=0.25, random_state=0) 

# Mostrando los primeros 5 clientes del conjunto de entrenamineto.
print(f"[*] Conjunto de entrenamiento ({eje_x_entrenamiento.shape[0]} filas, {eje_x_entrenamiento.shape[1]} columnas):");

i:int = 1;
for cliente in eje_x_entrenamiento[:5]:
  print(f"[{i}] Cliente: {cliente}");
  i += 1;


# Mostrando los primeros 5 clientes del conjunto de prueba.
print(f"\n[*] Conjunto de prueba ({eje_x_prueba.shape[0]} filas, {eje_x_prueba.shape[1]} columnas):");

i:int = 1;
for cliente in eje_x_prueba[:5]:
  print(f"[{i}] Cliente: {cliente}");
  i += 1;


[*] Conjunto de entrenamiento (7500 filas, 10 columnas):
[1] Cliente: [579 1 0 39 5 117833.3 3 0 0 5831.0]
[2] Cliente: [750 0 0 32 5 0.0 2 1 0 95611.47]
[3] Cliente: [729 2 0 34 9 53299.96 2 1 1 42855.97]
[4] Cliente: [689 2 1 38 5 75075.14 1 1 1 8651.92]
[5] Cliente: [605 0 1 52 7 0.0 2 1 1 173952.5]

[*] Conjunto de prueba (2500 filas, 10 columnas):
[1] Cliente: [597 1 0 35 8 131101.04 1 1 1 192852.67]
[2] Cliente: [523 0 0 40 2 102967.41 1 1 0 128702.1]
[3] Cliente: [706 2 0 42 8 95386.82 1 1 1 75732.25]
[4] Cliente: [788 0 1 32 4 112079.58 1 0 0 89368.59]
[5] Cliente: [706 1 1 38 5 163034.82 2 1 1 135662.17]


### 🧮 **Normalización ℤ**

Se Normalizan cada unos de los valores dentro de los conjuntos de entrenamiento y prueba.

In [None]:
from sklearn.preprocessing import StandardScaler;

escalador_estandar = StandardScaler(); # Normalización.

eje_x_entrenamiento = escalador_estandar.fit_transform(eje_x_entrenamiento);
eje_x_prueba = escalador_estandar.transform(eje_x_prueba);


print(f"[*] Datos de entrenamiento ({eje_x_entrenamiento.shape[0]} filas, {eje_x_entrenamiento.shape[1]} columnas).")
print(eje_x_entrenamiento[:5])

print(f"\n[*] Datos de pruebas ({eje_x_prueba.shape[0]} filas, {eje_x_prueba.shape[1]} columnas).")
print(eje_x_prueba[:5])




[*] Datos de entrenamiento (7500 filas, 10 columnas).
[[-0.73550706  0.31266104 -1.08726059  0.01526571  0.00886037  0.67316003
   2.53503394 -1.55362351 -1.03446007 -1.64080994]
 [ 1.02442719 -0.89235324 -1.08726059 -0.65260917  0.00886037 -1.20772417
   0.80424154  0.64365658 -1.03446007 -0.07927152]
 [ 0.80829492  1.51767532 -1.08726059 -0.46178778  1.39329338 -0.35693706
   0.80424154  0.64365658  0.96668786 -0.99684012]
 [ 0.39661439  1.51767532  0.91974271 -0.08014499  0.00886037 -0.00935627
  -0.92655087  0.64365658  0.96668786 -1.5917461 ]
 [-0.46791471 -0.89235324  0.91974271  1.25560478  0.70107688 -1.20772417
   0.80424154  0.64365658  0.96668786  1.28330241]]

[*] Datos de pruebas (2500 filas, 10 columnas).
[[-0.55025082  0.31266104 -1.08726059 -0.36637708  1.04718513  0.88494297
  -0.92655087  0.64365658  0.96668786  1.61203027]
 [-1.31185979 -0.89235324 -1.08726059  0.11067641 -1.02946438  0.43586703
  -0.92655087  0.64365658 -1.03446007  0.49626891]
 [ 0.57157862  1.5176

---
## 🤓 **Referencias**

Herramientas de Scikit-Learn: 
* [LabelEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html)