# Plantilla de desarrollo para primer examen parcial

**Pautas:**
- La presente plantilla es un EJEMPLO de cómo ordenar el código de tu examen
- Tienes la libertad DE AGREGAR todos los métodos y secciones en el examen que consideres necesarias
- Realizar el desarrollo por medio de métodos, por ejemplo, ReadInfo(), TrainModel(), etc 
- Los métodos deberán de estar lo mas claro y modularizados que sea posible
- Realizar la documentación de cada método por medio de comentarios y DocStrings 
- Deberás de utilizar un modelo de ML o algún ensamble de os mismos (SVC, DT, NB, KNN, etc)
- Recuerda que puedes usar un split de los datos para entrenamiento y validación
- Puedes revisar la documentación de Sklearn, o la librría que decidas utilizar para entender los parámetros de entrenamiento de los modelos
- NO está permitido el uso de modelos de Deep Learning (DNN, CNN, LSTM, etc.) NI el uso de embeddings

## Librerías a utilizar

In [59]:
# Librerías para manejo de Dataframes
import pandas as pd
from sklearn.model_selection import train_test_split

# Librerías para trabajar con el texto
from sklearn.feature_extraction.text import CountVectorizer

# Librerías para entrenar una máquina de soporte vectorial (Ejemplo)
from sklearn.svm import LinearSVC

# Librerías para trabajar con métricas
from sklearn.metrics import confusion_matrix, classification_report
from sklearn import metrics

## Lectura de Dataset

In [60]:
# Aquí cargamos la información del DataSet de entrenamiento
def ReadCorpus(path):
    """Este método lee los de datos del corpus y los pasa a un dataFrame

    Args:
        path (string): Ubicación del archivo de entrada (Corpus)
    """
    df = pd.read_csv(path)
    print("Elementos en el DataSet:", len(df))
    return df

## Feature Engineering

In [61]:
# Agrega lo que consideres necesario aquí

## Preprocesamiento

In [62]:
# Inserta lo que consideres necesario aquí, por ejemplo
def Preprocess(df):
    """Método para preprocesar el texto

    Args:
        df (dataframe): Dataframe a aplicar transformaciones

    Returns:
        dataframe: Dataframe transformado
    """
    df['title'] = df['title'].apply(lambda x: x.lower())
    return df 

## Entrenamiento del modelo

In [63]:
# Todo lo que necesites para entrenar tu modelo

count_vect = CountVectorizer()
model = LinearSVC()


def TrainModel(X, y):
    """Este método realiza el entrenamiento del modelo (Ejemplo)

    Args:
        X (list): Lista con los textos a transformar
        y (list): Lista con los valores de y (Salida)

    Returns:
        model: Modelo entrenado
    """
    model.fit(X, y)
    return model

## Validación del modelo

In [64]:
def ValidateModel(Y_test, Predicciones):
    # Impresión de matriz de confusión
    # print("Matriz de confusión:")
    # print(confusion_matrix(Y_test, Predicciones))

    # Impresión de procentaje de Accuracy del modelo
    print("\nAccuracy del modelo: ")
    print(metrics.accuracy_score(Y_test, Predicciones))

    # Impresión de las métricas para el modelo
    print("\nMétricas de evaluación:")
    print(classification_report(Y_test, Predicciones))

## Pipeline de todo el proceso

In [69]:
# Cargamos la información y creamos un DataFrame
path = 'DataSetClickBait.csv'
df = ReadCorpus(path)

# Preprocesamiento
df_pre = Preprocess(df)

# Lectura y split de los datos
X = df_pre['title'].values.tolist()
y = df_pre['label'].values.tolist()

X = count_vect.fit_transform(X)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

model = TrainModel(X_train, y_train)

# Impresión de métricas
Predicciones = model.predict(X_test)
ValidateModel(y_test, Predicciones)



Elementos en el DataSet: 16823





Accuracy del modelo: 
0.7527488855869242

Métricas de evaluación:
              precision    recall  f1-score   support

   clickbait       0.37      0.34      0.35       672
        news       0.84      0.86      0.85      2693

    accuracy                           0.75      3365
   macro avg       0.60      0.60      0.60      3365
weighted avg       0.74      0.75      0.75      3365





## Guardado de modelo

In [70]:
# Pickle para guardar modelos
import pickle

filename = "model_Nombre_chido.pickle"

# Guardar el modelo
pickle.dump(model, open(filename, "wb"))


## Prueba del modelo (Parte mas importante)

In [None]:
def Pipeline(input_file, model):
    # Cargamos la información y creamos un DataFrame
    df = ReadCorpus(path)

    # Preprocesamiento
    df_pre = Preprocess(df)

    # Lectura y split de los datos
    X = df_pre['title'].values.tolist()
    y = df_pre['label'].values.tolist()

    X = count_vect.fit_transform(X)
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

    model = TrainModel(X_train, y_train)

    # Impresión de métricas
    Predicciones = model.predict(X_test)
    ValidateModel(y_test, Predicciones)


# Prueba para calificación del examen
input_file = 'DataSetClickBait.csv'
Pipeline(input_file)