

# Proyecto

### Equipo:

- Sebastian Avendaño
- Felipe Urrutia

- \<Nombre de usuarios en Codalab\>

- \<Nombre del Equipo en Codalab\>

### Link de repositorio de GitHub: https://github.com/furrutiav/lab-mds-2022



## 0. Librerías Utilizadas

In [1]:
# 1. Carga y Preparación de los datos
import pickle
import pandas as pd
import numpy as np
# 2. Preprocess
## Split
from sklearn.model_selection import train_test_split
## Preprocess
import nltk
nltk.download('stopwords')
nltk.download('punkt')
from nltk.corpus import stopwords
from nltk import word_tokenize  
from nltk.stem import PorterStemmer
## ColumnTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import MinMaxScaler, StandardScaler, OneHotEncoder, FunctionTransformer
## FunctionTransfomer
from sklearn.preprocessing import FunctionTransformer
# 3. Regression
## Dummy y Baseline
from sklearn.dummy import DummyRegressor
from sklearn import linear_model
from sklearn.pipeline import Pipeline
from sklearn.metrics import r2_score
## Modelos
from sklearn import svm
from sklearn.ensemble import BaggingRegressor
from sklearn.feature_selection import SelectPercentile, f_classif, chi2, SelectKBest
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.ensemble import RandomForestRegressor
## Gridsearch
from sklearn.experimental import enable_halving_search_cv
from sklearn.model_selection import HalvingGridSearchCV, GridSearchCV
# Prediccion
from zipfile import ZipFile
import os



---
## 1. Preparación de los Datos

#### Carga y Preparación de los Datos

En esta subseccion realizaremos la carga y preparacion de los datos:

**Cargar los datos con Pandas**

In [2]:
# Atributos numericos
train_numerical_features = pd.read_parquet(
    'train_numerical_features.parquet'
).set_index("id")
# Atributos textuales
train_text_features = pd.read_parquet(
    'train_text_features.parquet'
).set_index("id")

**Fusionar por id:** Fusionamos ambos conjuntos de datos sobre la llave $\texttt{id}$

In [3]:
df = pd.concat([train_numerical_features, train_text_features], axis=1)

**Eliminar columnas duplicadas**

In [4]:
df = df.T.drop_duplicates().T

**Eliminar columnas $\texttt{poster_path}$, $\texttt{backdrop_path}$, $\texttt{recommendations}$:** Columnas que no son utiles para nuestro problema.

In [5]:
df = df.drop(columns=['poster_path', 'backdrop_path', 'recommendations'])

**Filtrar ejemplos con valor de la variable $\texttt{revenue}$ igual a 0**

In [6]:
df = df[df["revenue"]>0]

**Filtrar ejemplos con $\texttt{release_date}$ y $\texttt{runtime}$ nulos** (Nan)

$\texttt{release_date}$

In [7]:
df["release_date"].isna().sum()

0

$\texttt{runtime}$

In [8]:
df["runtime"].isna().sum()

0

**Convertir fechas de $\texttt{release_date}$ a $\texttt{pd.DateTime}$**

In [9]:
df["release_date"] = df["release_date"].apply(pd.to_datetime)

**Conservar solo los ejemplos con valor de $\texttt{status}$ igual a $\texttt{Released}$**

In [10]:
df = df[df["status"] == "Released"]

**Rellenar valores nulos categóricos y de texto con ' '**

In [11]:
df[train_text_features.columns.tolist()] = df[train_text_features.columns.tolist()].fillna("")

**Discretizar vote_average a los siguientes bins y guardar los resultados en la columna label:**

    (0, 5]: 'Negative'
    (5, 6]: 'Mixed'
    (6, 7]: 'Mostly Positive'
    (7, 8]: 'Positive'
    (8, 10]: 'Very Positive'


In [12]:
df["label"] = pd.cut(df['vote_average'], 
       bins=[0,5,6,7,8,10], 
       labels=["Negative", "Mixed", "Mostly Positive", "Positive", "Very Positive"])

**Eliminar la columna $\texttt{vote_average}$ e $\texttt{id}$**

In [13]:
df = df.drop(columns="vote_average")
df = df.reset_index(drop=True)

**Renombrar la columna $\texttt{revenue}$ por $\texttt{target}$**

In [14]:
df = df.rename(columns={"revenue": "target"})

**Cargamos los clusters obtenidos con KMeans y BERT**

Estos datos son un conjunto de las siguientes tres variables:
* $\texttt{clusters_keywords}$
* $\texttt{clusters_overview}$
* $\texttt{clusters_tagline}$

Cada una identifica el cluster al que pertenece la pelicula cuando se obtiene el sentence embedding usando BERT del texto de $\texttt{keywords}$, $\texttt{overview}$ y $\texttt{tagline}$, según corresponda.

In [15]:
clusters_BERT = pickle.load(open("clusters_BERT.pickle", "rb"))

Unimos estas nuevas variables con el dataframe principal

In [None]:
df = df.merge(clusters_BERT, how="left", on="title")
df["clusters_keywords clusters_overview clusters_tagline".split()]

---

## 2. Preprocesamiento, Holdout y Feature Engineering

#### ColumnTransformer y Holdout

<!-- *Esta sección consiste en generar los distintos pasos para preparar sus datos con el fin de luego poder crear su modelo.*

Generar un ColumnTransformer que:

- Preprocese datos categóricos y ordinales.
- Escale/estandarice datos numéricos.
- Codifique texto.

Luego, pruebe las transformaciones utilizando `fit_transform` y `get_feature_names out`.

Posteriormente, ejecute un Holdout que le permita más adelante evaluar los modelos. **Recuerde eliminar los target y las labels del dataset antes de dividirlo**. -->

**Holdout train/test para cada problema de predicción**

Separamos los conjuntos de datos para cada problema, con sus respectivas variables a predecir y omitiendo en cada conjunto ambas variables a predecir

In [18]:
## Código Holdout
X_clf, y_clf = df.drop(columns=["target", "label"]), df["label"]
X_reg, y_reg = df.drop(columns=["target", "label"]), df["target"]

Split de los datos para cada problema

In [19]:
X_clf_train, X_clf_test, y_clf_train, y_clf_test = train_test_split(X_clf, y_clf, test_size=0.20, random_state=23)
X_reg_train, X_reg_test, y_reg_train, y_reg_test = train_test_split(X_reg, y_reg, test_size=0.20, random_state=23)

**ColumnTransformer**

Codigo de ColumnTransformer

En la celda que sigue se mencionan aquellas variables numericas que pasaran por una transformación minmax:

In [None]:
atributos_minmax = [
    "budget",
    "release_date_month",
    "release_date_day",
    "num_top_production_companies",
    "num_top_artists",
    "ratio(runtime, budget)",
    "num_artists",
    "num_genres",
    "num_production_companies",
    "prop(num_top_production_companies)",
    "prop(num_top_artists)"
]

En la celda que sigue se mencionan aquellas variables numericas que pasaran por una transformación *standard*:

In [None]:
atributos_st = [
    "runtime",
    "release_date_timestamp",
]

En la celda que sigue se mencionan aquellas variables categoricas que pasaran por una vectorizacion OneHot

In [None]:
atributos_onehot = [
    "original_language",
    "clusters_keywords",
    "clusters_overview",
    "clusters_tagline"
]

Consideramos dos tipos de tokenizadores. El primero, *StemmerTokenizer*, para preprocesar el texto que luego sera vectorizados con bag-of-words. Y el segundo, *SplitTokenizer*, para preprocesar el texto catergorico separado por guiones para luego vectorizar

In [22]:
stop_words = stopwords.words('english')

class StemmerTokenizer:
    def __init__(self):
        self.ps = PorterStemmer()
    def __call__(self, doc):
        doc_tok = word_tokenize(doc.lower())
        doc_tok = [t for t in doc_tok if t not in stop_words]
        return [self.ps.stem(t) for t in doc_tok]
    
class SplitTokenizer:
    def __init__(self, char="-", col=""):
        self.char = char
        self.col = col
    def __call__(self, doc):
        if self.col == "production_companies":
            return doc.replace(" ", "_").replace("Metro-Goldwyn-Mayer", "MGM").split(self.char)
        elif self.col == "credits":
            tokens = doc.split("-")
            real_tokens = []
            for i, tk in enumerate(tokens[:-1]):
                if len(tokens[i+1].split()) == 1: tk = f"{tk} {tokens[i+1]}"
                if len(tk.split())>1: real_tokens.append(tk)
            return real_tokens
        else:
            return doc.replace(" ", "_").split(self.char)

En este trabajo estudiamos dos *ColumnTransformer*. Uno de ellos es una version sin bag-of-words del otro, denotando por *ct_wo_bow* al primero, y *ct* al segundo.

ColumnTransformer *ct*:

* MinMaxScaler: atributos_minmax
* StandardScaler: atributos_st
* BOW: overview, tagline
* OneHot: atributos_onehot
* OneHot(split): genres, credits, production_companies, keywords

In [None]:
ct = ColumnTransformer([
    ("OneHot", 
     OneHotEncoder(handle_unknown="ignore"), 
     atributos_onehot
    ),
    ("MinMax", 
     MinMaxScaler(), 
     atributos_minmax
    ),
    ("Standard", 
     StandardScaler(), 
     atributos_st
    ),
    ("BOW1", 
     CountVectorizer(tokenizer= StemmerTokenizer()), 
     "overview"
    ),
    ("OneHot_split_genres", 
     CountVectorizer(tokenizer= SplitTokenizer()), 
     "genres"
    ),
    ("BOW2", 
     CountVectorizer(tokenizer= StemmerTokenizer()), 
     "tagline"
    ),
    ("OneHot_split_credits", 
     CountVectorizer(tokenizer= SplitTokenizer(col="credits")), 
     "credits"
    ),
    ("OneHot_split_production_companies", 
     CountVectorizer(tokenizer= SplitTokenizer(col="production_companies")), 
     "production_companies"
    ),
    ("OneHot_split_keywords", 
     CountVectorizer(tokenizer= SplitTokenizer()), 
     "keywords"
    ),
])

ColumnTransformer *ct_wo_bow*:

In [None]:
ct_wo_bow = ColumnTransformer([
    ("OneHot", 
     OneHotEncoder(handle_unknown="ignore"), 
     atributos_onehot
    ),
    ("MinMax", 
     MinMaxScaler(), 
     atributos_minmax
    ),
    ("Standard", 
     StandardScaler(), 
     atributos_st
    ),
    ("OneHot_split_genres", 
     CountVectorizer(tokenizer= SplitTokenizer()), 
     "genres"
    ),
    ("OneHot_split_credits", 
     CountVectorizer(tokenizer= SplitTokenizer(col="credits")), 
     "credits"
    ),
    ("OneHot_split_production_companies", 
     CountVectorizer(tokenizer= SplitTokenizer(col="production_companies")), 
     "production_companies"
    ),
    ("OneHot_split_keywords", 
     CountVectorizer(tokenizer= SplitTokenizer()), 
     "keywords"
    ),
])

#### Feature Engineering

<!-- Adicionalmente puede generar una nueva transformación que genere nuevas features y que se aplique antes del ColumnTransformer dentro del pipeline de los modelos. Investigar [`FunctionTransformer`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.FunctionTransformer.html) para ver como implementar una transformación a partir de una función que tome un dataframe y entregue uno distinto en la salida.

- Encodear ciclicamente los meses/días de las fechas de lanzamiento.
- Contar cuantas veces aparecen en las peliculas ciertos personajes célebres.
- Indicar si la pelicula es de una productora famosa o no.
- Agrupar distintas keywords en categorías más generales.
- Generar ratios con las variables numericas del dataset (como duración de la película/presupuesto).
- Contar los diferentes generos similares que posee una pelicula.
- Extraer vectores desde los overviews de las peliculas.
- Contar el número de actores/productoras/géneros.
- Etc... Usen su creatividad!

Nuevamente, recuerde no utilizar ni los targets ni las labels para generar nuevas features.

Nota: Este último paso no es requisito pero puede catapultarlos a la cima del tablero de las competencias. -->

Consideramos once variables, diseñadas manualmente a partir de los datos. Estas son:
* *release_date_timestamp.* Variable continua del tiempo de estreno
* *release_date_month.* Variable entera que identifica el mes de estreno
* *release_date_day.* Variable entera que identifica el dia de estreno
* *num_top_production_companies.* Numero de productoras que son populares
* *num_top_artists.* Numero de artistas que son populares
* *ratio(runtime, budget).* Proporcion entre la duracion de la pelicula y el presupuesto
* *num_artists.* Numero de artistas
* *num_genres.* Numero de generos
* *num_production_companies.* Numero de productoras 
* *prop(num_top_production_companies).* Proporcion de productoras que son populares
* *prop(num_top_artists).* Proporcion de artistas que son populares

In [24]:
def feature_extractor(X):
    movies = X.copy()
    movies["release_date_timestamp"] = movies['release_date'].apply(lambda x: x.timestamp())
    movies["release_date_month"] = movies['release_date'].dt.month
    movies["release_date_day"] = movies['release_date'].dt.day
    
    top_companies = ['Warner Bros. Pictures', 'Universal Pictures', 'Columbia Pictures',
       'Paramount', '20th Century Fox', 'Canal+', 'New Line Cinema',
       'Metro-Goldwyn-Mayer', 'Lionsgate', 'Relativity Media',
       'StudioCanal', 'Touchstone Pictures', 'Walt Disney Pictures',
       'DreamWorks Pictures', 'Miramax']
    
    movies["num_top_production_companies"] = movies["production_companies"].apply(
        lambda x: 
        sum(
            [int(comp in str(x)) for comp in top_companies]
        )
    )
    
    top_artists = ['Samuel L. Jackson', 'Frank Welker', 'Nicolas Cage',
       'Bruce Willis', 'Robert De Niro', 'Matt Damon', 'Liam Neeson',
       'Willem Dafoe', 'Morgan Freeman', 'J.K. Simmons', 'Steve Buscemi',
       'Johnny Depp', 'John Goodman', 'Paul Giamatti', 'Stanley Tucci',
       'Woody Harrelson', 'Brad Pitt', 'Mickie McGowan', 'John Leguizamo',
       'Robin Williams', 'Sylvester Stallone', 'Tom Hanks',
       'Michael Papajohn', 'Nicole Kidman', 'Thomas Rosales Jr.',
       'James Franco', 'Harrison Ford', 'Ben Affleck', 'Owen Wilson',
       'Stephen Root', 'Julianne Moore', 'Ben Kingsley',
       'Antonio Banderas', 'Anthony Hopkins', 'Alec Baldwin',
       'Joe Chrest', 'Bill Hader', 'Richard Jenkins', 'John C. Reilly',
       'Bill Murray', 'John Hurt', 'Elizabeth Banks', 'Michael Caine',
       'Ewan McGregor', 'Keith David', 'Susan Sarandon',
       'Fred Tatasciore', 'Bob Bergen', 'Scarlett Johansson',
       'Keanu Reeves']
    movies["num_top_artists"] = movies["credits"].apply(
        lambda x: 
        sum(
            [int(art in str(x).replace("-", " ")) for art in top_artists]
        )
    )
    movies["ratio(runtime, budget)"] = (movies["runtime"]/(1+movies["budget"]))
    # Contar el número de actores/productoras/géneros.
    movies["num_artists"] = movies["credits"].apply(
        lambda x:
        sum(
            [len(str(x).split("-"))]
        )
    )
    movies["num_genres"] = movies["genres"].apply(
        lambda x: len(str(x).split("-"))
    )
    movies["num_production_companies"] = movies["production_companies"].apply(
        lambda x: len(str(x).split("-"))
    )
    movies["prop(num_top_production_companies)"] = movies["num_top_production_companies"]/(1+movies["num_production_companies"])
    movies["prop(num_top_artists)"] = movies["num_top_artists"]/(1+movies["num_artists"])
    return movies

feature_tranformer = FunctionTransformer(feature_extractor)
feature_tranformer

FunctionTransformer(func=<function feature_extractor at 0x000001E0240384C0>)

En esta subseccion se realizó una separacion de los datos, para entrenamiento y evaluacion. Adicionalmente, se contruyeron dos column transformers a partir de los datos, con el objetivo de preprocesar los datos vectorialmente. Finalmente, se añadieron once variables diseñadas manualmente con un FunctionTransformer.

---

## 3. Regresión

### 3.1 Dummy y Baseline

A continuación, al igual que en la clasificación, se construyen los modelos "Dummy" y "Baseline" para la regresión. Estos servirán como referencia para verificar que el modelo encontrado predice mejor que un método que predice un valor contante (dummy) y un modelo simple (baseline).

**Dummy**

In [26]:
dummy_reg = DummyRegressor(strategy="mean")
dummy_reg.fit(X_reg_train, y_reg_train)

y_pred_dummy = dummy_reg.predict(X_reg_test)

**Baseline:** Regresor Lasso

In [28]:
pipe_reg_baseline = Pipeline(
    steps=[
        ("FunctionTransformer", feature_tranformer),
        ("ColumnTransformer", ct),
        ("reg", linear_model.Lasso(alpha=0.1))
    ]
)

In [29]:
%%time
pipe_reg_baseline.fit(X_reg_train, y_reg_train)

Wall time: 11 s


Pipeline(steps=[('FunctionTransformer',
                 FunctionTransformer(func=<function feature_extractor at 0x000001E0240384C0>)),
                ('ColumnTransformer',
                 ColumnTransformer(transformers=[('OneHot',
                                                  OneHotEncoder(handle_unknown='ignore'),
                                                  ['original_language',
                                                   'clusters_keywords',
                                                   'clusters_overview',
                                                   'clusters_tagline']),
                                                 ('MinMax', MinMaxScaler(),
                                                  ['budget',
                                                   'release_date_mon...
                                                  CountVectorizer(tokenizer=<__main__.SplitTokenizer object at 0x000001E026235C70>),
                                             

In [30]:
%%time 
y_reg_baseline = pipe_reg_baseline.predict(X_reg_test)

Wall time: 1.34 s


**Resultados**

Clasificador Dummy

In [32]:
print(
    "Regresor Dummy\n"+str(r2_score(y_reg_test, y_pred_dummy))
)

Regresor Dummy
-0.0003707986340903968


Clasificador Baseline Lasso

In [33]:
print(
    "Regresor baseline: Lasso\n"+str(r2_score(y_reg_test, y_reg_baseline))
)

Regresor baseline: Lasso
0.11560134261108834


Los resultados obtenidos fueron:
```
Dummy: -0.00037 r2
Baseline (Lasso): 0.1156 r2
```
El modelo dummy predijo con un puntaje cercano a 0, esperable para un modelo aleatoreo; mientras que el baseline (regresor Lasso) obtuvo un puntaje de 0.11 de r2

---

### 3.2 Búsqueda del mejor modelo de Regresión


En esta sección el objetivo es encontrar un modelo mejor que el Baseline. Para esto se realizará una búsqueda del mejor modelo de regresión con la técnica de GridSearch.

Antes de construir la grilla, de modo preliminar se presenta el comportamiento de los siguientes modelos de regresión:

* Ridge
* ElasticNet
* Bagging (DecisionTree)
* GradientBoosting
* RandomForest

In [35]:
def test_pipe_reg(model_class, params, params_selector):
    model = model_class(**params)
    pipe = Pipeline(
        steps=[
            ("FunctionTransformer", feature_tranformer),
            ("ColumnTransformer", ct),
            ("selector", SelectPercentile(f_classif, **params_selector)),
            ('reg', model)
        ]
     )
    pipe.fit(X_reg_train, y_reg_train)
    y_pred = pipe.predict(X_reg_test)
    print(
    f"Clasificador: {model_class.__name__}\n"+str(r2_score(y_reg_test, y_pred)))

In [153]:
%%time
test_pipe_reg(
    linear_model.Ridge,
    params={
        "alpha":2,
        'tol':1e-5
    },
    params_selector={'percentile': 100}
)

  f = msb / msw


Clasificador: Ridge
0.5370160239536188
CPU times: total: 22.6 s
Wall time: 20.9 s


In [75]:
%%time
#en gridsearch usar este en vez de los dos anteriores, e incluir l1_ratio=1 para Lasso
test_pipe_reg( 
    linear_model.ElasticNet,
    params={
        "alpha":0.5,
        'tol':1e-4,
        'l1_ratio':0.5
    },
    params_selector={'percentile': 95}
)

  f = msb / msw


Clasificador: ElasticNet
0.3247377660809302
CPU times: total: 57 s
Wall time: 47.6 s


In [50]:
%%time
test_pipe_reg( 
    BaggingRegressor,
    params={
        'base_estimator': DecisionTreeRegressor(),
        'n_estimators': 10,
    },
    params_selector={'percentile': 95}
)

  f = msb / msw


Clasificador: BaggingRegressor
0.5338382663146124
CPU times: total: 1min 41s
Wall time: 1min 41s


In [51]:
%%time
test_pipe_reg( 
    GradientBoostingRegressor,
    params={
    },
    params_selector={'percentile': 95}
)

  f = msb / msw


Clasificador: GradientBoostingRegressor
0.5769260305671147
CPU times: total: 35 s
Wall time: 36.6 s


In [None]:
%%time
test_pipe_reg( 
    RandomForestRegressor,
    params={
        'max_depth': None
    },
    params_selector={'percentile': 95}
)

A partir de los regresores presentados, se construye la grilla de búsqueda para encontrar el mejor regresor con los mejores hiperparámetros:

1. **Ridge**:
    * alpha: [1, 1.5, 2]
    * tol: [5e-5, 1e-5, 5e-6]
    * random_state: 42
    * ColumnTransformer: [ct, ct_wo_bow]
2. **ElasticNet**:
    * alpha: [0.45, 0.5, 0.55]
    * l1_ratio: [0.75, 0.9, 0.95]
    * tol: [0.0005, 1e-4, 0.00005]
    * random_state: 42
    * ColumnTransformer: [ct, ct_wo_bow]
3. **Bagging(DecisionTreeRegressor)**:
    * n_estimators: [10, 15, 20]
    * random_state: 42
    * ColumnTransformer: [ct, ct_wo_bow]
4. **GradientBoosting**:
    * learning_rate: [0.05, 0.1, 0.2]
    * n_estimators: [150, 200, 250]
    * random_state: 42
    * ColumnTransformer: [ct, ct_wo_bow]
5. **RandomForest**:
    * n_estimators: [50, 75, 100]
    * max_depth: [8, 10, 12]
    * random_state: 42
    * ColumnTransformer: [ct, ct_wo_bow]

**Definición de la Grilla**

In [35]:
pipe = Pipeline(
        steps=[
            ("FunctionTransformer", feature_tranformer),
            ("ColumnTransformer", ct),
            ("reg", linear_model.Lasso(alpha=0.1))
        ]
     )

In [None]:
### Código GridSearch
param_grid = [
    # grilla 1: Ridge
    {
        "reg": [linear_model.Ridge(random_state=42)],
        "reg__alpha": [1, 1.5, 2],
        "reg__tol": [5e-5, 1e-5, 5e-6],
        "ColumnTransformer": [ct, ct_wo_bow]
    },
    # grilla 2: ElasticNet
    {
        "reg": [linear_model.ElasticNet(random_state=42)],
        "reg__alpha": [0.45, 0.5, 0.55],
        "reg__l1_ratio": [0.75, 0.9, 0.95],
        "reg__tol": [0.0005, 1e-4, 0.00005],
        "ColumnTransformer": [ct, ct_wo_bow]
    },
    # grilla 3: BaggingRegressor
    {
        "reg": [BaggingRegressor(base_estimator=DecisionTreeRegressor(), random_state=42)],
        "reg__n_estimators": [10, 15, 20],
        "ColumnTransformer": [ct, ct_wo_bow]
    },
    # grilla 4: GradientBoosting
    {
        "reg": [GradientBoostingRegressor(random_state=42)],
        "reg__learning_rate": [0.05, 0.1, 0.2],
        "reg__n_estimators": [150, 200, 250],
        "ColumnTransformer": [ct, ct_wo_bow]
    },
    # grilla 5: RandomForest
    {
        "reg": [RandomForestRegressor(random_state=42)],
        "reg__n_estimators": [50, 75, 100],
        "reg__max_depth": [8, 10, 12],
        "ColumnTransformer": [ct, ct_wo_bow]
    }
]

**GridSearchCV**

In [38]:
gs = GridSearchCV(pipe, param_grid, n_jobs=-1, scoring='r2', verbose=10, error_score='raise')

In [None]:
gs.fit(X_reg_train, y_reg_train)

In [162]:
gs.best_score_

0.6193961795515415

In [None]:
best_pipe = gs.best_estimator_
#best_pipe.get_params()
print(gs.best_params_)

{'ColumnTransformer': ColumnTransformer(transformers=[('OneHot',
                                 OneHotEncoder(handle_unknown='ignore'),
                                 ['original_language', 'clusters_keywords',
                                  'clusters_overview', 'clusters_tagline']),
                                ('MinMax', MinMaxScaler(),
                                 ['budget', 'release_date_month',
                                  'release_date_day',
                                  'num_top_production_companies',
                                  'num_top_artists', 'ratio(runtime, budget)',
                                  'num_artists', 'num_genres',
                                  'num_product...
                                ('OneHot_split_credits',
                                 CountVectorizer(tokenizer=<__main__.SplitTokenizer object at 0x00000123B09DBF70>),
                                 'credits'),
                                ('OneHot_split_product

### Mejor modelo

Regresor: *GradientBoostingRegressor*

Hiperparámetros:

    random_state: 42
    learning_rate: 0.1
    n_estimators: 250
    ColumnTransformer: ct_wo_bow

**Puntaje $R^2$ en conjunto test**

In [59]:
rgr_pipe = Pipeline(
    steps=[
            ("FunctionTransformer", feature_tranformer),
            ("ColumnTransformer", ct_wo_bow),
            ("selector", SelectPercentile(f_classif, percentile=100)),
            ("reg", GradientBoostingRegressor(learning_rate= 0.1, n_estimators=250, random_state=42))
        ]
     )
rgr_pipe.fit(X_reg_train, y_reg_train)
y_pred = rgr_pipe.predict(X_reg_test)
print(f"Regresion: GradientBoostingRegressor\n"+str(r2_score(y_reg_test, y_pred)))

  f = msb / msw


Regresion: GradientBoostingRegressor
0.5921498826735858


**Análisis de Resultados**
```
Dummy: -0.00037 r2
Baseline (Lasso): 0.1156 r2
Candidato (GradientBoosting): 0.59215 r2
```

### Predicción

Cargar los datos de la competencia

In [60]:
def generateFiles(predict_data, clf_pipe, rgr_pipe):
    """Genera los archivos a subir en CodaLab

    Input
    predict_data: Dataframe con los datos de entrada a predecir
    clf_pipe: pipeline del clf
    rgr_pipe: pipeline del rgr

    Ouput
    archivo de txt
    """
    y_pred_clf = clf_pipe.predict(predict_data)
    y_pred_rgr = rgr_pipe.predict(predict_data)
    
    with open('./predictions_clf.txt', 'w') as f:
        for item in y_pred_clf:
            f.write("%s\n" % item)

    with open('./predictions_rgr.txt', 'w') as f:
        for item in y_pred_rgr:
            f.write("%s\n" % item)

    with ZipFile('predictions.zip', 'w') as zipObj2:
        zipObj2.write('predictions_rgr.txt')
        zipObj2.write('predictions_clf.txt')

    os.remove("predictions_rgr.txt")
    os.remove("predictions_clf.txt")

In [61]:
test = pickle.load(open("test.pickle", "rb"))
test["release_date"] = test["release_date"].apply(pd.to_datetime)
test = test.fillna("")
test = test.reset_index(drop=True)
test_clusters_BERT = pickle.load(open("test_clusters_BERT.pickle", "rb"))
test = test.merge(test_clusters_BERT, how="left", on="title")
test["clusters_keywords clusters_overview clusters_tagline".split()]

Unnamed: 0,clusters_keywords,clusters_overview,clusters_tagline
0,11,1,8
1,9,7,11
2,5,5,2
3,14,5,3
4,13,11,3
...,...,...,...
651,9,11,0
652,1,0,0
653,9,1,5
654,14,11,8


Predecir

In [62]:
predict_data = test
generateFiles(predict_data, rgr_pipe)

---

## 4. Conclusiones Regresión

En la presente parte del proyecto se procedió con resolver el problema de regresión de las ganancias esperadas de las películas. Para esto, una vez preparados los datos, se siguieron los siguientes 3 pasos: (1) Modelos de referencia, (2) Gridsearch y (3) Predicción.

En la etapa (1) se procedió a definir dos modelos básicos de referencia, estos son el *Dummy* y *Baseline*. Esos modelos fueron generados para tener un punto de referencia sobre qué esperar cuando se busque un modelo adecuado, con hiperparámetros ajustados mediante GridSearch. El modelo dummy genera una predicción igual a la media para todos los valores, mientras que el regresor baseline es Lasso, un modelo lineal. Los regresores obtuvieron un puntaje $R^2$ de -0.00037 y 0.1156, para el dummy y el baseline, respectivamente.

En el paso (2) se construyó la grilla de búsqueda de regresores, que se utilizó para encontrar el mejor regresor mediante el mejor puntaje $R^2$. Despues de probar variados modelos de forma individua, los métodos escogidos para ejecutar el GridSearch fueron: Ridge, ElasticNet, Bagging(DecisionTree), GradientBoosting y RandomForest. Luego de realizada la búsqueda, el módelo con mejor desempeño fue GradientBoosting, obteniendo un puntaje $R^2$ de 0.59 en el conjunto de testeo, superando en gran medida los modelos Dummy y Baseline.

Posteriormente, en la etapa (3) se predicen datos nuevos a los que no se tienen acceso al momento de generar los modelos. Esto se hace subiendo el código a CodaLab donde distintos equipos compiten para obtener el mejor puntaje prediciendo datos nuevos. Para esto, se utiliza el modelo que reportó GridSearch para predecir el conjunto de la competencia, donde se obtuvo un puntaje $R^2$ de 0.88. 

A modo de conclusión, se pudo encontrar un modelo acorde con sus hiperparámetros ajustados mediante GridSearch, con el objetivo de generar una herramienta que permita precedir las ganancias de una película, según distintas características de esta. El resultado es aceptable, considerando que no se entrenó con las valoraciones de las películas en esta parte, por lo que se puede concluir que sí hay características en las películas que permiten una regresión adecuada. Por otro lado, el método ganador resulto un regresor de ensamblaje, el cual utiliza múltiples ejecuciones de modelos simples (como árboles de decisión), que se vió en cátedra que era una alternativa poderosa para predecir.

El resultado podría mejorar con una búsqueda más fina respecto a los hiperparámetros del modelo seleccionado, lo que podría realizarse con un GridSearch con mayores recursos computacionales y de tiempo. Otro espacio de mejora es realizar acciones adicionales de FeatureEngineering con respecto a los datos de entrenamiento.