# Plantilla de desarrollo para primer examen parcial

**Pautas:**
- La presente plantilla es un EJEMPLO de cómo ordenar el código de tu examen
- Tienes la libertad DE AGREGAR todos los métodos y secciones en el examen que consideres necesarias
- Realizar el desarrollo por medio de métodos, por ejemplo, ReadInfo(), TrainModel(), etc 
- Los métodos deberán de estar lo mas claro y modularizados que sea posible
- Realizar la documentación de cada método por medio de comentarios y DocStrings 
- Deberás de utilizar un modelo de ML o algún ensamble de os mismos (SVC, DT, NB, KNN, etc)
- Recuerda que puedes usar un split de los datos para entrenamiento y validación
- Puedes revisar la documentación de Sklearn, o la librría que decidas utilizar para entender los parámetros de entrenamiento de los modelos
- NO está permitido el uso de modelos de Deep Learning (DNN, CNN, LSTM, etc.) NI el uso de embeddings

## Librerías a utilizar

In [117]:
# Librerías para manejo de Dataframes
import pandas as pd
from sklearn.model_selection import train_test_split

# Librerías para trabajar con el texto
from sklearn.feature_extraction.text import CountVectorizer

# Librerías para entrenar una máquina de soporte vectorial (Ejemplo)
from sklearn.svm import LinearSVC

# Librerías para trabajar con métricas
from sklearn.metrics import confusion_matrix, classification_report
from sklearn import metrics

# Additional libraries
import numpy as np
import pandas as pd
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.svm import LinearSVC
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics
from sklearn.metrics import classification_report

nltk.download("punkt")
nltk.download("wordnet")
nltk.download("stopwords")

[nltk_data] Downloading package punkt to /home/eubgo/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /home/eubgo/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to /home/eubgo/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

## Lectura de Dataset

In [118]:
# Aquí cargamos la información del DataSet de entrenamiento
def ReadCorpus(path):
    """Este método lee los de datos del corpus y los pasa a un dataFrame

    Args:
        path (string): Ubicación del archivo de entrada (Corpus)
    """
    df = pd.read_csv(path)
    df.index = np.arange(1, len(df) + 1)
    print("Elementos en el DataSet:", len(df))
    return df

## Feature Engineering

In [119]:
# Agrega lo que consideres necesario aquí

## Preprocesamiento

In [120]:
# Inserta lo que consideres necesario aquí, por ejemplo
def Preprocess(df):
    """Método para preprocesar el texto

    Args:
        df (dataframe): Dataframe a aplicar transformaciones

    Returns:
        dataframe: Dataframe transformado
    """
    
    for column in df.columns:
        df[column] = df[column].str.lower()

    stop_words = stopwords.words("english")
    df["title"] = df["title"].apply(lambda x: " ".join([word for word in x.split() if word not in (stop_words)]))

    df["title"] = df["title"].str.replace("[^\w\s]", "")

    df["title"] = df["title"].apply(nltk.word_tokenize)

    lemmatizer = WordNetLemmatizer()

    df["title"] = df["title"].apply(lambda x: [lemmatizer.lemmatize(word) for word in x if not word.isdigit()])
    
    return df

## Entrenamiento del modelo

In [121]:
# Usando TF-IDF Vectorizer
tfidf_vect = TfidfVectorizer(ngram_range=(1,2))

# Usando Random Forest
model = RandomForestClassifier()


def TrainModel(X, y):
    """Este método realiza el entrenamiento del modelo (Ejemplo)

    Args:
        X (list): Lista con los textos a transformar
        y (list): Lista con los valores de y (Salida)

    Returns:
        model: Modelo entrenado
    """
    # Parámetros para GridSearchCV
    param_grid = {
        'n_estimators': [100, 200, 300],
        'max_depth': [None, 10, 20, 30],
        'min_samples_split': [2, 5, 10]
    }

    grid_search = GridSearchCV(model, param_grid, cv=5, scoring='accuracy')
    grid_search.fit(X, y)

    # Entrenando el modelo con los mejores parámetros
    best_model = grid_search.best_estimator_
    best_model.fit(X, y)
    return best_model

## Validación del modelo

In [122]:
def ValidateModel(Y_test, Predicciones):
    # Impresión de matriz de confusión
    # print("Matriz de confusión:")
    # print(confusion_matrix(Y_test, Predicciones))

    # Impresión de procentaje de Accuracy del modelo
    print("\nAccuracy del modelo: ")
    print(metrics.accuracy_score(Y_test, Predicciones))

    # Impresión de las métricas para el modelo
    print("\nMétricas de evaluación:")
    print(classification_report(Y_test, Predicciones))

## Pipeline de todo el proceso

In [123]:
# Cargamos la información y creamos un DataFrame
path = 'DataSet para entrenamiento del modelo.csv'
df = ReadCorpus(path)

# Preprocesamiento
df_pre = Preprocess(df)

# Lectura y split de los datos
X = df_pre['title'].values.tolist()
X = [' '.join(tokens) for tokens in X]
y = df_pre['label'].values.tolist()

X = count_vect.fit_transform(X)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

model = TrainModel(X_train, y_train)

# Impresión de métricas
Predicciones = model.predict(X_test)
ValidateModel(y_test, Predicciones)

Elementos en el DataSet: 16823


## Guardado de modelo

In [None]:
# Pickle para guardar modelos
import pickle

filename = "model_Nombre_chido.pickle"

# Guardar el modelo
pickle.dump(model, open(filename, "wb"))


## Prueba del modelo (Parte mas importante)

In [None]:
def Pipeline(input_file, model):
    # Cargamos la información y creamos un DataFrame
    df = ReadCorpus(path)

    # Preprocesamiento
    df_pre = Preprocess(df)

    # Lectura y split de los datos
    X = df_pre['title'].values.tolist()
    y = df_pre['label'].values.tolist()

    X = count_vect.fit_transform(X)
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

    model = TrainModel(X_train, y_train)

    # Impresión de métricas
    Predicciones = model.predict(X_test)
    ValidateModel(y_test, Predicciones)


# Prueba para calificación del examen
input_file = 'DataSetClickBait.csv'
Pipeline(input_file)

TypeError: Pipeline() missing 1 required positional argument: 'model'