<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/extension/blob/main/taller_g_lideres/pipeline/como_hacer_un_pipeline.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
  <td>
    <a target="_blank" href="https://kaggle.com/kernels/welcome?src=https://github.com/marco-canas/extension/blob/main/taller_g_lideres/pipeline/como_hacer_un_pipeline.ipynb"><img src="https://kaggle.com/static/images/open-in-kaggle.svg" /></a>
  </td>
</table>

[Video de apoyo](https://www.youtube.com/watch?v=kJH_fExC_E4)  



# Modelo de machine learning con pipeline 

In [1]:
# Mapa conceptual para guiar el proceso de constitución del modelo de machine learning 

# 1. obtenemos los datos con pandas 
# 2. Dividimos en predictores X y etiquetas y
# 3. Dividimos en  conjunto de entrenamiento y conjunto de prueba
# 4. Constituimos un pipeline o canalización o composición de operadores que incluya el escalamiento y el entrenamiento del modelo
# 4. mide el desempeño con el método score() que si se puede aplicar a un pipeline  
 



In [2]:
# importacion de librerias 

import pandas as pd 

from sklearn.model_selection import train_test_split

from sklearn.pipeline import Pipeline

from sklearn.preprocessing import  StandardScaler

from sklearn.ensemble import  RandomForestClassifier   





In [3]:
df = pd.read_csv('Telco BigML Churn 5000.csv') 

df.head(3)

Unnamed: 0,state,account_length,area_code,international_plan,voice_mail_plan,number_vmail_messages,total_day_minutes,total_day_calls,total_day_charge,total_eve_minutes,total_eve_calls,total_eve_charge,total_night_minutes,total_night_calls,total_night_charge,total_intl_minutes,total_intl_calls,total_intl_charge,number_customer_service_calls,churn
0,OH,107,area_code_415,no,yes,26,161.6,123,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,no
1,NJ,137,area_code_415,no,no,0,243.4,114,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,no
2,OH,84,area_code_408,yes,no,0,299.4,71,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,no


In [35]:
predictores_categoricos = list(df.select_dtypes(include='object').columns)
predictores_categoricos.remove('churn')



In [36]:
predictores_categoricos

['state', 'area_code', 'international_plan', 'voice_mail_plan']

In [37]:
df.drop(predictores_categoricos, axis = 1, inplace=True)  

In [38]:
X, y = df.drop('churn', axis = 1), df['churn']

In [39]:
X_train, X_test,  y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [40]:
type(X_train)

pandas.core.frame.DataFrame

In [41]:
pipeline = Pipeline([('escalar', StandardScaler()), ('modelar', RandomForestClassifier())])

In [48]:
# Codificar la variable objetivo  
y_train = (y_train == 'yes')*1
y_test = (y_test == 'yes')*1

In [43]:
y_train

4227    0
4676    0
800     0
3671    0
4193    1
       ..
4426    0
466     0
3092    1
3772    0
860     0
Name: churn, Length: 4000, dtype: int64

In [44]:
pipeline.fit(X_train, y_train)

In [50]:
pipeline.score(X_test,  y_test)

0.873

# No podemos incluir la obtención de datos en un pipeline  

La obtención de datos con **pandas** como en tu ejemplo no puede ser realizada directamente con una librería de **scikit-learn**, ya que **scikit-learn** no tiene funciones específicas para la descarga y carga de datasets desde URLs o archivos externos como `.csv`. Sin embargo, una vez que hayas cargado los datos usando **pandas**, puedes integrar el dataframe dentro de un pipeline de **scikit-learn** para preprocesamiento y entrenamiento.

A pesar de que **scikit-learn** no proporciona herramientas para cargar datasets desde URLs, sí ofrece un conjunto de utilidades para manejar datasets comunes como los datasets de prueba de **sklearn.datasets**. Pero para datos personalizados (como los de tu archivo CSV), la solución es cargar los datos con **pandas** y luego usar los transformadores de **scikit-learn** para incluir la parte de preprocesamiento y modelado en el pipeline.

Aquí tienes una forma de integrar el dataset cargado con **pandas** en un pipeline de **scikit-learn** para realizar el preprocesamiento y entrenamiento:

```python
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import Pipeline

# Cargar los datos con pandas
url = 'https://raw.githubusercontent.com/marco-canas/extension/refs/heads/main/taller_g_lideres/6_pactica_ml/Telco%20BigML%20Churn%205000.csv'
df = pd.read_csv(url)

# Dividir los datos en características (X) y objetivo (y)
X = df.drop('Target_column', axis=1)  # Reemplaza 'Target_column' con el nombre de tu columna objetivo
y = df['Target_column']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear el pipeline con preprocesamiento y el modelo
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # Escalado de características
    ('clf', RandomForestClassifier())  # Modelo de clasificación
])

# Entrenar el modelo
pipeline.fit(X_train, y_train)

# Evaluar el modelo
score = pipeline.score(X_test, y_test)
print(f'Accuracy: {score}')
```

En este ejemplo, cargamos los datos con **pandas**, los integramos en un pipeline con preprocesamiento de características usando **StandardScaler**, y entrenamos un modelo de clasificación con **RandomForestClassifier**. El pipeline maneja todo el flujo del preprocesamiento y entrenamiento de manera integrada.

Aunque no puedes usar directamente **sklearn** para cargar datos desde URLs, puedes usar **pandas** para la carga de datos y luego integrar todo en el pipeline de **scikit-learn** para mantener el flujo de trabajo automatizado.a