# Machine Learning - sklearn y grid search 

**Relator: Felipe Mesa Abraham** 

Correo: femesa@udec.cl


En esta actividad se trabajará con la libreria [sklearn](https://scikit-learn.org/stable/), en particular con la funcion Grid Search para encontrar los hyperparametros adecuados para un modelo de Machine Learning. La actividad consiste en un ejemplo sobre el funcionamiento de la función y un ejercicio guiado.

# Ejemplo

In [3]:
# Importamos los modelos
from sklearn import svm
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from xgboost import XGBClassifier
from sklearn.neighbors import KNeighborsClassifier

# Importamos Gridsearch
from sklearn.model_selection import GridSearchCV

# Importamos pandas para guardar los resultados
import pandas as pd

In [1]:
# Cargamos el set de datos
from sklearn import datasets
digits = datasets.load_digits()

In [21]:
# Definimos un diccionario con los modelos y los parametros
model_params = {
    'svm': {
        'model': svm.SVC(gamma='auto'),
        'params' : {
            'C': [1,10,20],
            'kernel': ['rbf','linear']
        }  
    },
    'random_forest': {
        'model': RandomForestClassifier(),
        'params' : {
            'n_estimators': [1,5,10,50,100]
        }
    },
    'logistic_regression' : {
        'model': LogisticRegression(solver='liblinear',multi_class='auto'),
        'params': {
            'C': [1,5,10]
        }
    }
}

In [23]:
# Creamos una lista vacia para guardar la información
scores = []

# Iteramos los modelos y los parametros definidos anteriormente
for model_name, mp in model_params.items():

    # Elegimos uno de los modelos, designamos un kfold de 5 para el CV
    clf =  GridSearchCV(mp['model'], mp['params'], cv=10, return_train_score=False)
    # Entrenamos el modelo
    clf.fit(digits.data, digits.target)

    # Guardamos información del modelo
    scores.append({
        'model': model_name,
        'best_score': clf.best_score_,
        'best_params': clf.best_params_
    })

# Creamos un dataframe con la información guardada de todos los modelos
df_scores = pd.DataFrame(scores,columns=['model','best_score','best_params'])
df_scores

Unnamed: 0,model,best_score,best_params
0,svm,0.960487,"{'C': 1, 'kernel': 'linear'}"
1,random_forest,0.94712,{'n_estimators': 100}
2,logistic_regression,0.925975,{'C': 1}


# Ejercicio

A continuación se le presenta un dataset de datos de fuga de clientes. El objetivo de este ejercicio es poner a prueba la función GridSearchCV con diferentes modelos para encontrar los mejores hyperparametros.
Use la funcion GridsearchCV para entrenar los siguientes modelos y parámetros:

*   XGBoost: número de estimadores
*   Random Forest: número de estimadores
*   KNN: número de vecinos

Finalmente, muestre los resultados en una tabla e indique que modelo obtuvo el mejor score.




In [1]:
!gdown --id 1wSLivtMy1Sokalv9ukeehKpAv3c0SsrH

Downloading...
From: https://drive.google.com/uc?id=1wSLivtMy1Sokalv9ukeehKpAv3c0SsrH
To: /content/ejemplo_churn.csv
  0% 0.00/735k [00:00<?, ?B/s]100% 735k/735k [00:00<00:00, 38.9MB/s]


In [4]:
df = pd.read_csv('/content/ejemplo_churn.csv')
df.head()

Unnamed: 0,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,PaperlessBilling,MonthlyCharges,TotalCharges,Churn,InternetService_DSL,InternetService_Fiber optic,InternetService_No,Contract_Month-to-month,Contract_One year,Contract_Two year,PaymentMethod_Bank transfer (automatic),PaymentMethod_Credit card (automatic),PaymentMethod_Electronic check,PaymentMethod_Mailed check
0,1,0,1,0,0.0,0,0,1,2,1,1,1,1,1,0.115423,0.001275,0,1,0,0,1,0,0,0,0,1,0
1,0,0,0,0,0.464789,1,1,2,1,2,1,1,1,0,0.385075,0.215867,0,1,0,0,0,1,0,0,0,0,1
2,0,0,0,0,0.014085,1,1,2,2,1,1,1,1,1,0.354229,0.01031,1,1,0,0,1,0,0,0,0,0,1
3,0,0,0,0,0.619718,0,0,2,1,2,2,1,1,0,0.239303,0.210241,0,1,0,0,0,1,0,1,0,0,0
4,1,0,0,0,0.014085,1,1,1,1,1,1,1,1,1,0.521891,0.01533,1,0,1,0,1,0,0,0,0,1,0


In [5]:
y = df['Churn']
X = df.drop('Churn', axis=1)

In [6]:
# Definimos un diccionario con los modelos y los parametros
model_params_churn = {
    'svm': {
        'model': svm.SVC(gamma='auto'),
        'params' : {
            'C': [1,10,20],
            'kernel': ['rbf','linear']
        }  
    },
    'random_forest': {
        'model': RandomForestClassifier(),
        'params' : {
            'n_estimators': [1,5,10,50,100]
        }
    },
    'logistic_regression' : {
        'model': LogisticRegression(solver='liblinear',multi_class='auto'),
        'params': {
            'C': [1,5,10]
        }
    },
    'xgboost':{
        'model': XGBClassifier(),
        'params': {
            'n_estimators': [1,5,10,50,100]
        }
    },
    'knn':{
        'model': KNeighborsClassifier(),
        'params':{
            'n_neighbors': [1,3,5,10,15]
        }
    }
}

In [7]:
# Creamos una lista vacia para guardar la información
scores_churn = []

# Iteramos los modelos y los parametros definidos anteriormente
for model_name, mp in model_params_churn.items():

    # Elegimos uno de los modelos, designamos un kfold de 5 para el CV
    clf =  GridSearchCV(mp['model'], mp['params'], cv=10, return_train_score=False)
    # Entrenamos el modelo
    clf.fit(X, y)

    # Guardamos información del modelo
    scores_churn.append({
        'model': model_name,
        'best_score': clf.best_score_,
        'best_params': clf.best_params_
    })

# Creamos un dataframe con la información guardada de todos los modelos
df_scores_churn = pd.DataFrame(scores_churn,columns=['model','best_score','best_params'])
df_scores_churn

Unnamed: 0,model,best_score,best_params
0,svm,0.800196,"{'C': 1, 'kernel': 'linear'}"
1,random_forest,0.793225,{'n_estimators': 100}
2,logistic_regression,0.804323,{'C': 10}
3,xgboost,0.805316,{'n_estimators': 100}
4,knn,0.778014,{'n_neighbors': 15}
