In [None]:
#########################################################################
#########------- Machine Learning Inmersion ------------#################
#########################################################################
# Capacitador: André Omar Chávez Panduro
# email: andrecp38@gmail.com
# Introduccion Python - DesarrolloAlgoritmosMachineLearning
# version: 1.0
#########################################################################

![image.png](attachment:image.png)

In [None]:
%matplotlib inline 
import numpy as np # Trabajar con arreglos ( Vectores y matrices)
import pandas as pd # Lectura de datos (Input/Output)
import matplotlib.pyplot as plt # Graficos en Python

np.random.seed(42)

En primer lugar vamos a probar con un ejemplo muy sencillo: ajustar una recta a unos datos. Esto difícilmente se puede llamar _machine learning_, pero nos servirá para ver cómo es la forma de trabajar con `scikit-learn`, cómo se entrenan los modelos y cómo se calculan las predicciones.

In [None]:
# Lectura de datos
data = pd.read_csv("C:/Users/Andre Chavez/Desktop/Data/Churn-arboles.csv")

In [None]:
# Ver los primeros
data.head()

Unnamed: 0,ID,EDAD,SEXO,CIVIL,HIJOS,INGRESO,AUTO,CHURN
0,0,57,Femenino,Casado,2,27535.3,Si,Fuga
1,4,68,Femenino,Casado,2,81000.9,No,Fuga
2,8,34,Masculino,Soltero,0,87467.1,Si,No Fuga
3,10,60,Masculino,Casado,2,83220.6,No,Fuga
4,13,28,Femenino,Casado,2,20850.4,No,Fuga


In [None]:
# Cambiamos los datos string a numeros para que los algoritmos puedan trabajar
columnas_categoricas = ["SEXO","CIVIL","AUTO","CHURN"]

In [None]:
from sklearn.preprocessing import LabelEncoder
for c in columnas_categoricas:
    print(str(c))
    le = LabelEncoder()
    le.fit(data[str(c)])
    data[str(c)]=le.transform(data[str(c)]) 

SEXO
CIVIL
AUTO
CHURN


In [None]:
# Observar el encoding
data.head(10)

Unnamed: 0,ID,EDAD,SEXO,CIVIL,HIJOS,INGRESO,AUTO,CHURN
0,0,57,0,0,2,27535.3,1,0
1,4,68,0,0,2,81000.9,0,0
2,8,34,1,1,0,87467.1,1,1
3,10,60,1,0,2,83220.6,0,0
4,13,28,0,0,2,20850.4,0,0
5,17,52,1,1,0,84112.6,0,1
6,19,87,0,1,2,3776.12,0,0
7,20,88,0,0,2,73865.9,1,0
8,22,76,1,0,2,30933.6,1,1
9,23,76,0,0,1,12309.6,0,0


In [None]:
#data.dtypes

El proceso para usar `scikit-learn` es el siguiente:

1. Separar los datos en matriz de características `features` y variable a predecir `y`
2. Seleccionar el modelo
3. Elegir los hiperparámetros
4. Ajustar o entrenar el modelo (`model.fit`)
5. Predecir con datos nuevos (`model.predict`)

In [None]:
# Paso1: Llamamos un modelo analítco
# Llamamos a la libreria de modelos
from sklearn.linear_model import LogisticRegression

In [None]:
# Paso2: Definimos el modelo
Modelito = LogisticRegression() # Utiliza los parámetros por defecto

In [None]:
# Generamos el frame de drivers o features.
# X - y
drivers=["EDAD","SEXO","CIVIL","HIJOS","INGRESO","AUTO"]
X = data[drivers]

In [None]:
X.head(3)

Unnamed: 0,EDAD,SEXO,CIVIL,HIJOS,INGRESO,AUTO
0,57,0,0,2,27535.3,1
1,68,0,0,2,81000.9,0
2,34,1,1,0,87467.1,1


In [None]:
# Generamos el frame del target o variable objetivo
y=data["CHURN"]

In [None]:
# Paso 03:  Particion muestral
from sklearn.model_selection import train_test_split

In [None]:
# X_train, X_test, Y_train, Y_test =
X_train, X_test, y_train, y_test = train_test_split(X, 
                                                    y, 
                                                    test_size=0.30)

In [None]:
# Paso04: Ajusto un modelo predictivo
Modelito.fit(X_train, y_train) # Ajuste o entrenamiento

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

In [None]:
# Paso05: Predecimos con el algoritmo entrenado
y_hat = Modelito.predict(X_test)

Para calcular el error, en el módulo `sklearn.metrics` tenemos varias funciones útiles:

In [None]:
# Paso06: Validamos el mdodelo predictivo
from sklearn import metrics

In [None]:
precision_global = metrics.accuracy_score(y_true=y_test, y_pred=y_hat)
precision_global

0.6262376237623762

Y ahora predecimos con datos nuevos:

In [None]:
# Paso6: Implementamos un modelo predictivo
data_new = pd.read_csv("C:/Users/Andre Chavez/Desktop/Data/Churn-arboles-nuevos.csv")

In [None]:
data_new.head(2)

Unnamed: 0,ID,EDAD,SEXO,CIVIL,HIJOS,INGRESO,AUTO
0,0,57,Femenino,Casado,2,27535.3,Si
1,4,68,Femenino,Casado,2,81000.9,No


In [None]:
# Le hacemos label encoding tambien
columnas_categoricas = ["SEXO","CIVIL","AUTO"]
for c in columnas_categoricas:
    print(str(c))
    le = LabelEncoder()
    le.fit(data_new[str(c)])
    data_new[str(c)]=le.transform(data_new[str(c)]) 

SEXO
CIVIL
AUTO


In [None]:
# data_new.head(1)

Unnamed: 0,ID,EDAD,SEXO,CIVIL,HIJOS,INGRESO,AUTO
0,0,57,0,0,2,27535.3,1


In [None]:
# Le retiramos el ID o identificador unico
data_new = data_new.drop("ID",axis=1)

In [None]:
# Paso07: Con el modelo entrenado, hago la prediccion para nuevos individuos
y_campanas = Modelito.predict(data_new)

In [None]:
#y_campanas

In [None]:
# Informacion que tenemos que mandar a campanas
import pandas as pd
dataCampanas = pd.DataFrame(np.hstack((data_new['ID'].values.reshape(-1,1), y_campanas.reshape(-1,1))))
dataCampanas.to_csv("DataCampanas.csv")

¡Y ya está! Lo básico de `scikit-learn` está aquí. Lo próximo será usar diferentes tipos de modelos y examinar con rigor su rendimiento para poder seleccionar el que mejor funcione para nuestros datos.

In [None]:
# FIN!!