

# Proyecto

### Equipo:

- Sebastian Avendaño
- Felipe Urrutia

- \<Nombre de usuarios en Codalab\>

- \<Nombre del Equipo en Codalab\>

### Link de repositorio de GitHub: https://github.com/furrutiav/lab-mds-2022



## 0. Librerías Utilizadas

In [1]:
# Carga y Preparación de los datos

import pickle
import pandas as pd
import numpy as np
!pip install pyarrow

# EDA
import plotly.express as px

# 3. Preprocess
## Hold out
from sklearn.model_selection import train_test_split
## Preprocess
!pip install nltk
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
from nltk import word_tokenize  
from nltk.stem import PorterStemmer
## ColumnTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import MinMaxScaler, StandardScaler, OneHotEncoder, FunctionTransformer
## FunctionTransformer
from sklearn.preprocessing import FunctionTransformer
# 4. Clasificacion
## Dummy y Baseline
from sklearn.dummy import DummyClassifier
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
## Modelos
from sklearn.svm import LinearSVC, SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectPercentile, f_classif, chi2, SelectKBest
from sklearn.tree import DecisionTreeClassifier
from sklearn.neural_network import MLPClassifier
## Gridsearch
from sklearn.experimental import enable_halving_search_cv
from sklearn.model_selection import HalvingGridSearchCV, GridSearchCV
# Prediccion
from zipfile import ZipFile
import os



---
## 2. Preparación de los datos

#### Carga y Preparación de los Datos

<!-- - Cargar los datos con Pandas y fusionar por `id`.
- Eliminar columnas `'poster_path'`, `'backdrop_path'`, `'recommendations'`.
- Filtrar ejemplos con `revenue` igual a 0.
- Filtrar ejemplos con `release_date` y `runtime` nulos.
- Convertir fechas de release_date a `pd.DateTime`.
- Conservar solo los ejemplos con `status` `"Released"`.
- Rellenar valores nulos categóricos y de texto con `''`.
- Discretizar `vote_average` a los siguientes bins y guardar los resultados en la columna `label`: 
  - (0, 5]: `'Negative'`
  - (5, 6]: `'Mixed'`
  - (6, 7]: `'Mostly Positive'`
  - (7, 8]: `'Positive'`
  - (8, 10]: `'Very Positive'`
- Eliminar la columna `vote_average` e `id`
- Renombrar la columna `revenue` por `target`. -->
En esta subseccion realizaremos la carga y preparacion de los datos:

**Cargar los datos con Pandas**

In [None]:
# Atributos numericos
train_numerical_features = pd.read_parquet(
    'train_numerical_features.parquet'
).set_index("id")
# Atributos textuales
train_text_features = pd.read_parquet(
    'train_text_features.parquet'
).set_index("id")

**Fusionar por id:** Fusionamos ambos conjuntos de datos sobre la llave $\texttt{id}$

In [3]:
df = pd.concat([train_numerical_features, train_text_features], axis=1)

**Eliminar columnas duplicadas**

In [4]:
df = df.T.drop_duplicates().T

**Eliminar columnas $\texttt{poster_path}$, $\texttt{backdrop_path}$, $\texttt{recommendations}$:** Columnas que no son utiles para nuestro problema.

In [5]:
df = df.drop(columns=['poster_path', 'backdrop_path', 'recommendations'])

**Filtrar ejemplos con valor de la variable $\texttt{revenue}$ igual a 0**

In [6]:
df = df[df["revenue"]>0]

**Filtrar ejemplos con $\texttt{release_date}$ y $\texttt{runtime}$ nulos** (Nan)

$\texttt{release_date}$

In [7]:
df["release_date"].isna().sum()

0

$\texttt{runtime}$

In [8]:
df["runtime"].isna().sum()

0

**Convertir fechas de $\texttt{release_date}$ a $\texttt{pd.DateTime}$**

In [9]:
df["release_date"] = df["release_date"].apply(pd.to_datetime)

**Conservar solo los ejemplos con valor de $\texttt{status}$ igual a $\texttt{Released}$**

In [10]:
df = df[df["status"] == "Released"]

**Rellenar valores nulos categóricos y de texto con ' '**

In [11]:
df[train_text_features.columns.tolist()] = df[train_text_features.columns.tolist()].fillna("")

**Discretizar vote_average a los siguientes bins y guardar los resultados en la columna label:**

    (0, 5]: 'Negative'
    (5, 6]: 'Mixed'
    (6, 7]: 'Mostly Positive'
    (7, 8]: 'Positive'
    (8, 10]: 'Very Positive'


In [12]:
df["label"] = pd.cut(df['vote_average'], 
       bins=[0,5,6,7,8,10], 
       labels=["Negative", "Mixed", "Mostly Positive", "Positive", "Very Positive"])

**Eliminar la columna $\texttt{vote_average}$ e $\texttt{id}$**

In [13]:
df = df.drop(columns="vote_average")
df = df.reset_index(drop=True)

**Renombrar la columna $\texttt{revenue}$ por $\texttt{target}$**

In [14]:
df = df.rename(columns={"revenue": "target"})

**Cargamos los clusters obtenidos con KMeans y BERT**

Estos datos son un conjunto de las siguientes tres variables:
* $\texttt{clusters_keywords}$
* $\texttt{clusters_overview}$
* $\texttt{clusters_tagline}$

Cada una identifica el cluster al que pertenece la pelicula cuando se obtiene el sentence embedding usando BERT del texto de $\texttt{keywords}$, $\texttt{overview}$ y $\texttt{tagline}$, según corresponda.

In [None]:
clusters_BERT = pickle.load(open("clusters_BERT.pickle", "rb"))

Unimos estas nuevas variables con el dataframe principal

In [None]:
df = df.merge(clusters_BERT, how="left", on="title")
df["clusters_keywords clusters_overview clusters_tagline".split()]

---

## 3. Preprocesamiento, Holdout y Feature Engineering

#### ColumnTransformer y Holdout

<!-- *Esta sección consiste en generar los distintos pasos para preparar sus datos con el fin de luego poder crear su modelo.*

Generar un ColumnTransformer que:

- Preprocese datos categóricos y ordinales.
- Escale/estandarice datos numéricos.
- Codifique texto.

Luego, pruebe las transformaciones utilizando `fit_transform` y `get_feature_names out`.

Posteriormente, ejecute un Holdout que le permita más adelante evaluar los modelos. **Recuerde eliminar los target y las labels del dataset antes de dividirlo**. -->

**Holdout train/test para cada problema de predicción**

Separamos los conjuntos de datos para cada problema, con sus respectivas variables a predecir y omitiendo en cada conjunto ambas variables a predecir

In [18]:
X_clf, y_clf = df.drop(columns=["target", "label"]), df["label"]
X_reg, y_reg = df.drop(columns=["target", "label"]), df["target"]

Split de los datos para cada problema

In [19]:
# Clasificacion
X_clf_train, X_clf_test, y_clf_train, y_clf_test = train_test_split(
    X_clf, 
    y_clf, 
    test_size=0.20, 
    random_state=23
)
# Regresion
X_reg_train, X_reg_test, y_reg_train, y_reg_test = train_test_split(
    X_reg, 
    y_reg, 
    test_size=0.20,
    random_state=23
)

**ColumnTransformer**

Codigo de ColumnTransformer

En la celda que sigue se mencionan aquellas variables numericas que pasaran por una transformación minmax:

In [None]:
atributos_minmax = [
    "budget",
    "release_date_month",
    "release_date_day",
    "num_top_production_companies",
    "num_top_artists",
    "ratio(runtime, budget)",
    "num_artists",
    "num_genres",
    "num_production_companies",
    "prop(num_top_production_companies)",
    "prop(num_top_artists)"
]

En la celda que sigue se mencionan aquellas variables numericas que pasaran por una transformación *standard*:

In [None]:
atributos_st = [
    "runtime",
    "release_date_timestamp",
]

En la celda que sigue se mencionan aquellas variables categoricas que pasaran por una vectorizacion OneHot

In [None]:
atributos_onehot = [
    "original_language",
    "clusters_keywords",
    "clusters_overview",
    "clusters_tagline"
]

Consideramos dos tipos de tokenizadores. El primero, *StemmerTokenizer*, para preprocesar el texto que luego sera vectorizados con bag-of-words. Y el segundo, *SplitTokenizer*, para preprocesar el texto catergorico separado por guiones para luego vectorizar

In [22]:
stop_words = stopwords.words('english')

class StemmerTokenizer:
    def __init__(self):
        self.ps = PorterStemmer()
    def __call__(self, doc):
        doc_tok = word_tokenize(doc.lower())
        doc_tok = [t for t in doc_tok if t not in stop_words]
        return [self.ps.stem(t) for t in doc_tok]
    
class SplitTokenizer:
    def __init__(self, char="-", col=""):
        self.char = char
        self.col = col
    def __call__(self, doc):
        if self.col == "production_companies":
            return doc.replace(" ", "_").replace("Metro-Goldwyn-Mayer", "MGM").split(self.char)
        elif self.col == "credits":
            tokens = doc.split("-")
            real_tokens = []
            for i, tk in enumerate(tokens[:-1]):
                if len(tokens[i+1].split()) == 1: tk = f"{tk} {tokens[i+1]}"
                if len(tk.split())>1: real_tokens.append(tk)
            return real_tokens
        else:
            return doc.replace(" ", "_").split(self.char)

En este trabajo estudiamos dos *ColumnTransformer*. Uno de ellos es una version sin bag-of-words del otro, denotando por *ct_wo_bow* al primero, y *ct* al segundo.

ColumnTransformer *ct*:

* MinMaxScaler: atributos_minmax
* StandardScaler: atributos_st
* BOW: overview, tagline
* OneHot: atributos_onehot
* OneHot(split): genres, credits, production_companies, keywords

In [None]:
ct = ColumnTransformer([
    ("OneHot", 
     OneHotEncoder(handle_unknown="ignore"), 
     atributos_onehot
    ),
    ("MinMax", 
     MinMaxScaler(), 
     atributos_minmax
    ),
    ("Standard", 
     StandardScaler(), 
     atributos_st
    ),
    ("BOW1", 
     CountVectorizer(tokenizer= StemmerTokenizer()), 
     "overview"
    ),
    ("OneHot_split_genres", 
     CountVectorizer(tokenizer= SplitTokenizer()), 
     "genres"
    ),
    ("BOW2", 
     CountVectorizer(tokenizer= StemmerTokenizer()), 
     "tagline"
    ),
    ("OneHot_split_credits", 
     CountVectorizer(tokenizer= SplitTokenizer(col="credits")), 
     "credits"
    ),
    ("OneHot_split_production_companies", 
     CountVectorizer(tokenizer= SplitTokenizer(col="production_companies")), 
     "production_companies"
    ),
    ("OneHot_split_keywords", 
     CountVectorizer(tokenizer= SplitTokenizer()), 
     "keywords"
    ),
])

ColumnTransformer *ct_wo_bow*:

In [None]:
ct_wo_bow = ColumnTransformer([
    ("OneHot", 
     OneHotEncoder(handle_unknown="ignore"), 
     atributos_onehot
    ),
    ("MinMax", 
     MinMaxScaler(), 
     atributos_minmax
    ),
    ("Standard", 
     StandardScaler(), 
     atributos_st
    ),
    ("OneHot_split_genres", 
     CountVectorizer(tokenizer= SplitTokenizer()), 
     "genres"
    ),
    ("OneHot_split_credits", 
     CountVectorizer(tokenizer= SplitTokenizer(col="credits")), 
     "credits"
    ),
    ("OneHot_split_production_companies", 
     CountVectorizer(tokenizer= SplitTokenizer(col="production_companies")), 
     "production_companies"
    ),
    ("OneHot_split_keywords", 
     CountVectorizer(tokenizer= SplitTokenizer()), 
     "keywords"
    ),
])

#### Feature Engineering

<!-- Adicionalmente puede generar una nueva transformación que genere nuevas features y que se aplique antes del ColumnTransformer dentro del pipeline de los modelos. Investigar [`FunctionTransformer`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.FunctionTransformer.html) para ver como implementar una transformación a partir de una función que tome un dataframe y entregue uno distinto en la salida.

- Encodear ciclicamente los meses/días de las fechas de lanzamiento.
- Contar cuantas veces aparecen en las peliculas ciertos personajes célebres.
- Indicar si la pelicula es de una productora famosa o no.
- Agrupar distintas keywords en categorías más generales.
- Generar ratios con las variables numericas del dataset (como duración de la película/presupuesto).
- Contar los diferentes generos similares que posee una pelicula.
- Extraer vectores desde los overviews de las peliculas.
- Contar el número de actores/productoras/géneros.
- Etc... Usen su creatividad!

Nuevamente, recuerde no utilizar ni los targets ni las labels para generar nuevas features.

Nota: Este último paso no es requisito pero puede catapultarlos a la cima del tablero de las competencias. -->

Consideramos once variables, diseñadas manualmente a partir de los datos. Estas son:
* *release_date_timestamp.* Variable continua del tiempo de estreno
* *release_date_month.* Variable entera que identifica el mes de estreno
* *release_date_day.* Variable entera que identifica el dia de estreno
* *num_top_production_companies.* Numero de productoras que son populares
* *num_top_artists.* Numero de artistas que son populares
* *ratio(runtime, budget).* Proporcion entre la duracion de la pelicula y el presupuesto
* *num_artists.* Numero de artistas
* *num_genres.* Numero de generos
* *num_production_companies.* Numero de productoras 
* *prop(num_top_production_companies).* Proporcion de productoras que son populares
* *prop(num_top_artists).* Proporcion de artistas que son populares

In [24]:
def feature_extractor(X):
    movies = X.copy()
    movies["release_date_timestamp"] = movies['release_date'].apply(lambda x: x.timestamp())
    movies["release_date_month"] = movies['release_date'].dt.month
    movies["release_date_day"] = movies['release_date'].dt.day
    
    top_companies = ['Warner Bros. Pictures', 'Universal Pictures', 'Columbia Pictures',
       'Paramount', '20th Century Fox', 'Canal+', 'New Line Cinema',
       'Metro-Goldwyn-Mayer', 'Lionsgate', 'Relativity Media',
       'StudioCanal', 'Touchstone Pictures', 'Walt Disney Pictures',
       'DreamWorks Pictures', 'Miramax']
    
    movies["num_top_production_companies"] = movies["production_companies"].apply(
        lambda x: 
        sum(
            [int(comp in str(x)) for comp in top_companies]
        )
    )
    
    top_artists = ['Samuel L. Jackson', 'Frank Welker', 'Nicolas Cage',
       'Bruce Willis', 'Robert De Niro', 'Matt Damon', 'Liam Neeson',
       'Willem Dafoe', 'Morgan Freeman', 'J.K. Simmons', 'Steve Buscemi',
       'Johnny Depp', 'John Goodman', 'Paul Giamatti', 'Stanley Tucci',
       'Woody Harrelson', 'Brad Pitt', 'Mickie McGowan', 'John Leguizamo',
       'Robin Williams', 'Sylvester Stallone', 'Tom Hanks',
       'Michael Papajohn', 'Nicole Kidman', 'Thomas Rosales Jr.',
       'James Franco', 'Harrison Ford', 'Ben Affleck', 'Owen Wilson',
       'Stephen Root', 'Julianne Moore', 'Ben Kingsley',
       'Antonio Banderas', 'Anthony Hopkins', 'Alec Baldwin',
       'Joe Chrest', 'Bill Hader', 'Richard Jenkins', 'John C. Reilly',
       'Bill Murray', 'John Hurt', 'Elizabeth Banks', 'Michael Caine',
       'Ewan McGregor', 'Keith David', 'Susan Sarandon',
       'Fred Tatasciore', 'Bob Bergen', 'Scarlett Johansson',
       'Keanu Reeves']
    
    movies["num_top_artists"] = movies["credits"].apply(
        lambda x: 
        sum(
            [int(art in str(x).replace("-", " ")) for art in top_artists]
        )
    )
    movies["ratio(runtime, budget)"] = (movies["runtime"]/(1+movies["budget"]))
    movies["num_artists"] = movies["credits"].apply(
        lambda x:
        sum(
            [len(str(x).split("-"))]
        )
    )
    movies["num_genres"] = movies["genres"].apply(
        lambda x: len(str(x).split("-"))
    )
    movies["num_production_companies"] = movies["production_companies"].apply(
        lambda x: len(str(x).split("-"))
    )
    movies["prop(num_top_production_companies)"] = movies["num_top_production_companies"]/(1+movies["num_production_companies"])
    movies["prop(num_top_artists)"] = movies["num_top_artists"]/(1+movies["num_artists"])
    
    return movies

feature_tranformer = FunctionTransformer(feature_extractor)
feature_tranformer

FunctionTransformer(func=<function feature_extractor at 0x000001D2D39AEC10>)

En esta subseccion de realizo una separacion de los datos, para entrenamiento y evaluacion. Adicionalmente, se contruyeron dos column transformers a partir de los datos, con el objetivo de preprocesar los datos vectorialmente. Finalmente, se añadieron once variables diseñadas manualmente con un FunctionTransformer.

---

## 4. Clasificación

### 4.1 Dummy y Baseline

Esta seccion consiste en contruir dos tipos de clasificadores simples para poder comparar en un futuro otros clasificadores candidatos para poder resolver nuestra tarea de clasifiacion.

El primero de ellos es un modelo Dummy (azaroso) y el otro un Baseline (mejor que el primero).

<!-- *En esta sección crearán el modelo más básico posible que resuelva el problema. La idea de este modelo usarlo como comparación para que en el siguiente paso lo puedan mejorar.*

- Generar un modelo Dummy con estrategia estratificada que les permita comparar más adelante si su baseline de clasificación es mejor que el azar.
- Generar un pipeline para la clasificación con un clasificador relativamente sencillo a la salida (a su elección, recomendado: arbol de decisión).
- Evaluar ambos modelos según las métricas de evaluación y reportar. -->

**Dummy**

Modelo de clasificación azaroza proporcional al número de datos por clase

In [26]:
dummy_clf = DummyClassifier(strategy="stratified", random_state=0)
dummy_clf.fit(X_clf_train, y_clf_train)

y_pred_dummy = dummy_clf.predict(X_clf_test)

**Baseline**

Modelo baseline: Random forest (max_depth = 8, class_weight="balanced")

In [29]:
pipe_clf_baseline = Pipeline(
    steps=[
        ("FunctionTransformer", feature_tranformer),
        ("ColumnTransformer", ct),
        ("clf", RandomForestClassifier(class_weight="balanced", max_depth=8, random_state=0))
    ]
)

In [30]:
%%time
pipe_clf_baseline.fit(X_clf_train, y_clf_train)

Wall time: 12.9 s


Pipeline(steps=[('FunctionTransformer',
                 FunctionTransformer(func=<function feature_extractor at 0x000001D2D39AEC10>)),
                ('ColumnTransformer',
                 ColumnTransformer(transformers=[('OneHot',
                                                  OneHotEncoder(handle_unknown='ignore'),
                                                  ['original_language',
                                                   'clusters_keywords',
                                                   'clusters_overview',
                                                   'clusters_tagline']),
                                                 ('MinMax', MinMaxScaler(),
                                                  ['budget',
                                                   'release_date_mon...
                                                  'credits'),
                                                 ('OneHot_split_production_companies',
                             

In [31]:
%%time 
y_pred_baseline = pipe_clf_baseline.predict(X_clf_test)

Wall time: 2.84 s


**Resultados**

Clasificador Dummy

In [33]:
print(
    "Clasificador Dummy\n"+classification_report(y_clf_test, y_pred_dummy, zero_division=True)
)

Clasificador Dummy
                 precision    recall  f1-score   support

          Mixed       0.20      0.23      0.21       252
Mostly Positive       0.47      0.43      0.45       621
       Negative       0.05      0.05      0.05        37
       Positive       0.25      0.25      0.25       343
  Very Positive       0.04      0.05      0.05        38

       accuracy                           0.32      1291
      macro avg       0.20      0.20      0.20      1291
   weighted avg       0.33      0.32      0.33      1291



Clasificador baseline: RF

In [34]:
print(
    "Clasificador baseline: RF\n"+classification_report(y_clf_test, y_pred_baseline, zero_division=True)
)

Clasificador baseline: RF
                 precision    recall  f1-score   support

          Mixed       0.31      0.69      0.43       252
Mostly Positive       0.56      0.18      0.27       621
       Negative       0.17      0.03      0.05        37
       Positive       0.44      0.66      0.53       343
  Very Positive       0.29      0.11      0.15        38

       accuracy                           0.40      1291
      macro avg       0.35      0.33      0.28      1291
   weighted avg       0.46      0.40      0.36      1291



Reporte de resultados:

```
Dummy: 0.20 f1_macro
Baseline: 0.28 f1_macro
```

El modelo Dummy obtiene un F1-macro del 20%. Mientras que el modelo Baseline un F1-macro del 28%.

---

### 4.2 Búsqueda del mejor modelo de Clasificación


En esta seccion nuestro objetivo es encontrar un modelo mejor que el Baseline. Para esto se realizara una busqueda del mejor modelo de clasifiacion con la tecnica de GridSearch.

<!-- *Aquí deberán mejorar del modelo de clasificación al variar los algoritmos/hiperparámetros que están ocupando.*

- Generar una nueva `Pipeline` enfocada en buscar el mejor modelo usando GridSearch.
- Usar **`GridSearchCV`** o **`HalvingGridSearchCV`** para tunear hiperparámetros. La primera demorará más que la segunda pero les traerá potencialmente mejores resultados. Pueden probar también [`OptunaSearchCV`](https://optuna.readthedocs.io/en/stable/reference/generated/optuna.integration.OptunaSearchCV.html) de la librería [`Optuna`](https://optuna.org/) , la cuál es bastante popular para buscar modelos de redes neuronales.
- Agregar técnicas de seleccion de atributos, como también usar mejores clasificadores y explorar sus hiperparámetros. 
- Probar distintos parámetros para las transformaciones de datos, seleccion de atributos, clasificadores, etc...
- Probar modelos basados en gradient boosting/bagging. **Recomendación fuerte:** Probar [`LightGMB`](https://lightgbm.readthedocs.io/en/latest/) o [`xgboost`](https://xgboost.readthedocs.io/en/stable/).
- Probar activando/descativando los procesadores de texto, de categorías, etc...
- Recuerden setear la búsqueda para optimizar la métrica que se evalua en la competencia.

Algunas notas interesantes sobre este proceso: 

- No se les pide rendimientos cercanos al 100% de la métrica para concretar exitosamente el proyecto. Por otra parte, celebren cada progreso que obtengan.
- Hagan grillas computables: Si la grilla se va a demorar 1/3 la edad del universo en explorarse completamente, entonces achíquenla a algo que sepan que va a terminar. 
- Aprovechen el procesamiento paralelo (con `njobs`) para acelerar la búsqueda. Sin embargo, si tienen problemas con la memoria RAM, reduzca la cantidad de jobs a algo que su computador/interprete web pueda procesar.

**Al final de este proceso, seleccione el mejor modelo de clasificación encontrado, prediga las labels del test set de la competencia y envíelos a Codalab.** -->

Antes de elegir que modelos utilizar, estudiaremos los siguientes seis modelos de clasificación:
* MLPClassifier
* LinearSVC
* KNeighborsClassifier
* SVC
* RandomForestClassifier
* DecisionTreeClassifier

De estos modelos, solo se usaran en la busqueda aquellos que (1) por simple inspección obtengan un desempeño razonable y (2) el tiempo de entrenamiento sea apropiado.

In [36]:
def test_pipe_model(model_class, params, params_selector):
    model = model_class(**params)
    pipe = Pipeline(
        steps=[
            ("FunctionTransformer", feature_tranformer),
            ("ColumnTransformer", ct),
            ("selector", SelectPercentile(f_classif, **params_selector)),
            ('clf', model)
        ]
     )
    pipe.fit(X_clf_train, y_clf_train)
    y_pred = pipe.predict(X_clf_test)
    print(
        f"Clasificador: {model_class.__name__}\n"+classification_report(y_clf_test, y_pred, zero_division=True)
    )

MLPClassifier

In [37]:
%%time
test_pipe_model(
    MLPClassifier, 
    params={
        "hidden_layer_sizes": (50,), 
        "activation": "relu", 
        "solver": "adam", 
        "batch_size": 144,
        "learning_rate": "constant",
        "learning_rate_init": 0.001,
        "early_stopping": True,
        "max_iter": 50
    }, 
    params_selector={"percentile": 95}
)

Clasificador: MLPClassifier
                 precision    recall  f1-score   support

          Mixed       0.46      0.21      0.28       252
Mostly Positive       0.53      0.78      0.63       621
       Negative       1.00      0.00      0.00        37
       Positive       0.56      0.44      0.49       343
  Very Positive       1.00      0.00      0.00        38

       accuracy                           0.53      1291
      macro avg       0.71      0.28      0.28      1291
   weighted avg       0.55      0.53      0.49      1291

Wall time: 2min 57s


```
F1-macro: 0.28
Tiempo de entrenamiento: 2min 57s
```

LinearSVC

In [38]:
%%time
test_pipe_model(
    LinearSVC, 
    params={"class_weight": "balanced", "C": 0.001}, 
    params_selector={"percentile": 75}
)

Clasificador: LinearSVC
                 precision    recall  f1-score   support

          Mixed       0.42      0.43      0.43       252
Mostly Positive       0.60      0.57      0.58       621
       Negative       0.12      0.05      0.07        37
       Positive       0.53      0.64      0.58       343
  Very Positive       0.12      0.03      0.04        38

       accuracy                           0.53      1291
      macro avg       0.36      0.35      0.34      1291
   weighted avg       0.52      0.53      0.52      1291

Wall time: 14.5 s


```
F1-macro: 0.34
Tiempo de entrenamiento: 14.5 s
```

KNeighborsClassifier

In [39]:
%%time
test_pipe_model(
    KNeighborsClassifier, 
    params={"n_neighbors": 3}, 
    params_selector={"percentile": 100}
)

Clasificador: KNeighborsClassifier
                 precision    recall  f1-score   support

          Mixed       0.22      0.79      0.35       252
Mostly Positive       0.43      0.15      0.22       621
       Negative       0.03      0.08      0.04        37
       Positive       0.64      0.16      0.25       343
  Very Positive       1.00      0.00      0.00        38

       accuracy                           0.27      1291
      macro avg       0.46      0.24      0.17      1291
   weighted avg       0.45      0.27      0.24      1291

Wall time: 14.9 s


```
F1-macro: 0.17
Tiempo de entrenamiento: 14.9 s
```

SVC

In [40]:
%%time
test_pipe_model(
    SVC, 
    params={"class_weight": "balanced", "gamma": "auto", "kernel": "rbf"}, 
    params_selector={"percentile": 100}
)

Clasificador: SVC
                 precision    recall  f1-score   support

          Mixed       1.00      0.00      0.00       252
Mostly Positive       1.00      0.00      0.00       621
       Negative       0.03      1.00      0.06        37
       Positive       1.00      0.00      0.00       343
  Very Positive       1.00      0.00      0.00        38

       accuracy                           0.03      1291
      macro avg       0.81      0.20      0.01      1291
   weighted avg       0.97      0.03      0.00      1291

Wall time: 1min 23s


```
F1-macro: 0.01
Tiempo de entrenamiento: 1min 23s
```

RandomForestClassifier

In [41]:
%%time
test_pipe_model(
    RandomForestClassifier, 
    params={"class_weight": "balanced", "max_depth": 15, "n_estimators": 150, "random_state": 0}, 
    params_selector={"percentile": 100}
)

Clasificador: RandomForestClassifier
                 precision    recall  f1-score   support

          Mixed       0.32      0.67      0.44       252
Mostly Positive       0.53      0.17      0.26       621
       Negative       1.00      0.00      0.00        37
       Positive       0.44      0.73      0.55       343
  Very Positive       0.43      0.08      0.13        38

       accuracy                           0.41      1291
      macro avg       0.54      0.33      0.28      1291
   weighted avg       0.48      0.41      0.36      1291

Wall time: 16.4 s


```
F1-macro: 0.28
Tiempo de entrenamiento: 16.4 s
```

DecisionTreeClassifier

In [42]:
%%time
test_pipe_model(
    DecisionTreeClassifier, 
    params={"class_weight": None, "max_depth": 15, "random_state": 0}, 
    params_selector={"percentile": 100}
)

Clasificador: DecisionTreeClassifier
                 precision    recall  f1-score   support

          Mixed       0.36      0.25      0.30       252
Mostly Positive       0.52      0.67      0.59       621
       Negative       0.33      0.03      0.05        37
       Positive       0.48      0.41      0.44       343
  Very Positive       0.23      0.13      0.17        38

       accuracy                           0.48      1291
      macro avg       0.39      0.30      0.31      1291
   weighted avg       0.47      0.48      0.46      1291

Wall time: 17.5 s


```
F1-macro: 0.31
Tiempo de entrenamiento: 17.5 s
```

De los resultados preliminares, solo consideramos tres de los seis clasificadores para encontrar cual de ellos es mejor. Estos son: DecisionTreeClassifier, RandomForestClassifier, LinearSVC; con las siguientes grillas de parametros:

1. **DecisionTreeClassifier**:
    * selector percentile: [25, 50, 75, 95, 100]
    * criterion: "gini"
    * random_state: 42
    * class_weight: ["balanced", None]
    * max_depth: [5, 10, 15]
    * ColumnTransformer: [ct, ct_wo_bow]
2. **RandomForestClassifier**:
    * selector percentile: [25, 50, 75, 95, 100]
    * criterion: "gini"
    * class_weight: "balanced"
    * random_state: 42
    * max_depth": [5, 10, 15]
    * n_estimators: [50, 70, 100]
    * ColumnTransformer: [ct, ct_wo_bow]
3. **LinearSVC**:
    * selector percentile: [25, 50, 75, 95, 100]
    * random_state: 42
    * class_weight: ["balanced", None]
    * C: [0.0001, 0.001, 0.01, 0.1, 1]
    * ColumnTransformer: [ct, ct_wo_bow]

**Definición de la grilla**

In [43]:
pipe = Pipeline(
        steps=[
            ("FunctionTransformer", feature_tranformer),
            ("ColumnTransformer", ct),
            ("selector", SelectPercentile(f_classif, percentile=50)),
            ('clf', LinearSVC())
        ]
     )

In [44]:
param_grid = [
    # grilla 1: DecisionTreeClassifier
    {
        "selector__percentile": [25, 50, 75, 95, 100],
        "clf": [DecisionTreeClassifier(criterion="gini", random_state=42)],
        "clf__class_weight": ["balanced", None],
        "clf__max_depth": [5, 10, 15],
        "ColumnTransformer": [ct, ct_wo_bow]
    },
    # grilla 2: RandomForestClassifier
    {
        "selector__percentile": [25, 50, 75, 95, 100],
        "clf": [RandomForestClassifier(criterion="gini", class_weight="balanced", random_state=42)],
        "clf__max_depth": [5, 10, 15],
        "clf__n_estimators": [50, 70, 100],
        "ColumnTransformer": [ct, ct_wo_bow]
    },
    # grilla 3: LinearSVC
    {
        "selector__percentile": [25, 50, 75, 95, 100],
        "clf": [LinearSVC(random_state=42)],
        "clf__class_weight": ["balanced", None],
        "clf__C": [0.0001, 0.001, 0.01, 0.1, 1],
        "ColumnTransformer": [ct, ct_wo_bow]
    },
]

**GridSearchCV**

In [46]:
gs = GridSearchCV(pipe, param_grid, n_jobs=-1, scoring='f1_macro', verbose=10)

In [47]:
gs.fit(X_clf_train, y_clf_train)

Fitting 5 folds for each of 250 candidates, totalling 1250 fits


GridSearchCV(estimator=Pipeline(steps=[('FunctionTransformer',
                                        FunctionTransformer(func=<function feature_extractor at 0x000001D2D39AEC10>)),
                                       ('ColumnTransformer',
                                        ColumnTransformer(transformers=[('OneHot',
                                                                         OneHotEncoder(handle_unknown='ignore'),
                                                                         ['original_language',
                                                                          'clusters_keywords',
                                                                          'clusters_overview',
                                                                          'clusters_tagline']),
                                                                        ('MinMax',
                                                                         MinMaxScaler(),
        

Best score

In [48]:
gs.best_score_

0.3695961508470219

Best pipeline

In [49]:
best_pipe = gs.best_estimator_
best_pipe.get_params()

{'memory': None,
 'steps': [('FunctionTransformer',
   FunctionTransformer(func=<function feature_extractor at 0x000001D2D39AEC10>)),
  ('ColumnTransformer',
   ColumnTransformer(transformers=[('OneHot',
                                    OneHotEncoder(handle_unknown='ignore'),
                                    ['original_language', 'clusters_keywords',
                                     'clusters_overview', 'clusters_tagline']),
                                   ('MinMax', MinMaxScaler(),
                                    ['budget', 'release_date_month',
                                     'release_date_day',
                                     'num_top_production_companies',
                                     'num_top_artists', 'ratio(runtime, budget)',
                                     'num_artists', 'num_genres',
                                     'num_product...
                                   ('OneHot_split_credits',
                                    CountVe

Mejor modelo. *LinearSVC*

    selector percentile: 95
    random_state: 42
    class_weight: "balanced"
    C: 0.001
    ColumnTransformer: ct_wo_bow

Score en testeo

In [50]:
%%time
pipe = best_pipe
pipe.fit(X_clf_train, y_clf_train)
y_pred = pipe.predict(X_clf_test)
print(
    f"Clasificador: best_pipe\n"+classification_report(y_clf_test, y_pred, zero_division=True)
)

Clasificador: best_pipe
                 precision    recall  f1-score   support

          Mixed       0.42      0.42      0.42       252
Mostly Positive       0.59      0.56      0.57       621
       Negative       0.23      0.14      0.17        37
       Positive       0.53      0.65      0.58       343
  Very Positive       0.11      0.03      0.04        38

       accuracy                           0.53      1291
      macro avg       0.37      0.36      0.36      1291
   weighted avg       0.52      0.53      0.52      1291

Wall time: 2.12 s


Analisis de resultados:

F1-macro
```
Dummy: 0.20
Baseline: 0.28
Candidato: 0.36
```

Del gridsearch, se encuentra un mejor modelo con un F1-macro del 36%. Mejor que el modelo Baseline. El modelo encontrado es un SVC con kernel lineal, un modelo simple pero que obtiene mejores resultados que el resto de clasificadores considerados en la grilla.

**Predicción de datos de la competencia**

Cargar los datos de la competencia

In [80]:
def generateFiles(predict_data, clf_pipe):
    """Genera los archivos a subir en CodaLab

    Input
    predict_data: Dataframe con los datos de entrada a predecir
    clf_pipe: pipeline del clf

    Ouput
    archivo de txt
    """
    y_pred_clf = clf_pipe.predict(predict_data)
    
    with open('./predictions_clf.txt', 'w') as f:
        for item in y_pred_clf:
            f.write("%s\n" % item)

    with ZipFile('predictions_clf.zip', 'w') as zipObj2:
        zipObj2.write('predictions_clf.txt')

    os.remove("predictions_clf.txt")

In [78]:
test = pickle.load(open("test.pickle", "rb"))
test["release_date"] = test["release_date"].apply(pd.to_datetime)
test = test.fillna("")
test = test.reset_index(drop=True)
test_clusters_BERT = pickle.load(open("test_clusters_BERT.pickle", "rb"))
test = test.merge(test_clusters_BERT, how="left", on="title")
test["clusters_keywords clusters_overview clusters_tagline".split()]

Unnamed: 0,clusters_keywords,clusters_overview,clusters_tagline
0,11,1,8
1,9,7,11
2,5,5,2
3,14,5,3
4,13,11,3
...,...,...,...
651,9,11,0
652,1,0,0
653,9,1,5
654,14,11,8


Predecir

In [79]:
clf_pipe = pipe
predict_data = test
generateFiles(predict_data, clf_pipe)

---

## 5. Conclusiones Clasificación

En este capitulo, nos enfocamos en resolver el problema de clasifiacion para la prediccion de niveles de calificacion de peliculas. La metodologia utilizada consiste de los siguientes tres pasos: (1) Modelos de referencia, (2) Gridsearh y (3) Predicción.

La etapa (1) consistio en diseñar dos modelos sencillos para el problema de clasifiacion. El primero de ellos es un modelo Dummy, que predice aleatoriamente la variable observada proporcional a numero de ocurrencias de cada etiqueta. El segundo modelo es un Baseline que resuelve la misma tarea pero esta vez sus predicciones dependen del input dado. Las metricas obtenidas por cada modelos son un F1-macro del 20% y 28%, resp.

Ahora bien, dado estos modelos de referencias, la idea es encontrar un mejor modelo. La etapa (2) consiste en completar este objetivo. Para esto, se realiza una busqueda en grilla o gridsearch con distintos modelos de clasificacion, diferentes instancias de hiperparametros y representaciones de los datos. Preliminarmente se eligieron seis modelos de clasificación, de los cuales solo tres de ellos fueron utilizados para encontrar el mejor modelo. El resto de modelos fueron descartados ya que demoraba significativamente más su entrenamiento que el resto, o bien, por inspeccion sus metricas eran deficientes. Los tres modelos utilizados fueron DecisionTreeClassifier, RandomForestClassifier y LinearSVC. Finalmente, el resultado del gridsearch mostro que el ultimo de estos tres, era el mejor. Obteniendo un F1-macro del 36%. Desempeño mayor que ambos modelos de referencia.

Finalmente, este mejor modelo fue utilizado para la prediccion del conjunto de prueba propuesto en la competencia. Etapa denominada como (3). Este mejor modelo obtenido en (2) obtuvo un F1-macro del X%. El cual es un valor ..... Este resultado puede deberse a que ....


Para concluir, consideramos que resolver la tarea de clasificacion posee varios desafios subyacentes. Uno de ellos es que la variable a predecir es desbalanceda, por lo que los modelos encontrados tienden a predecir peor las clases minoritarias en comparacion a las clase que poseen más datos.

Por otro lado, posibles mejoras que consideramos factibles para resolver este problema es probar otro tipo de modelo y un balance de datos. 
