## Modelagem IMDB

Explique como você faria a previsão da nota do imdb a partir dos dados. Quais variáveis e/ou suas transformações você utilizou e por quê? Qual tipo de problema estamos resolvendo (regressão, classificação)? Qual modelo melhor se aproxima dos dados e quais seus prós e contras? Qual medida de performance do modelo foi escolhida e por quê?


##### Previsão da Nota IMDb
Para prever a nota do IMDb, vamos usar um modelo de regressão. A tarefa é um problema de regressão porque estamos prevendo um valor contínuo.

##### Seleção de Variáveis e Transformações
Variáveis utilizadas:

- Released_Year
- Runtime
- Meta_score
- No_of_Votes
- Gross

Transformações:

Conversão de Gross para valores numéricos
Codificação de variáveis categóricas (por exemplo, Genre)

##### Modelo de Regressão
Vamos usar um modelo de regressão linear para prever a nota do IMDb.

In [15]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [16]:
# Carregar o DataFrame a partir de um arquivo pickle
df = pd.read_pickle('df.pkl')
df.head(3)

Unnamed: 0,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross,Primary_Genre
1,The Godfather,1972.0,A,175,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411.0,Crime
2,The Dark Knight,2008.0,UA,152,"Action, Crime, Drama",9.0,When the menace known as the Joker wreaks havo...,84.0,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,2303232,534858444.0,Action
3,The Godfather: Part II,1974.0,A,202,"Crime, Drama",9.0,The early life and career of Vito Corleone in ...,90.0,Francis Ford Coppola,Al Pacino,Robert De Niro,Robert Duvall,Diane Keaton,1129952,57300000.0,Crime


In [17]:
# Seleção de variáveis
X = df[['Released_Year', 'Runtime', 'Meta_score', 'No_of_Votes', 'Gross']]
y = df['IMDB_Rating']

# Dividir os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinar o modelo
model = LinearRegression()
model.fit(X_train, y_train)

# Fazer previsões
y_pred = model.predict(X_test)

# Avaliar o modelo
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
print(f'Root Mean Squared Error: {rmse}')

# Salvar o modelo
#import joblib
#joblib.dump(model, 'imdb_rating_model.pkl')


Root Mean Squared Error: 0.2107539823610246


In [18]:
# Características do filme
new_movie = {'Released_Year': 1994, 'Runtime': 142, 'Meta_score': 80.0, 'No_of_Votes': 2343110, 'Gross': 28341469}

# Criar um DataFrame
new_movie_df = pd.DataFrame([new_movie])

# Previsão da nota IMDb
predicted_rating = model.predict(new_movie_df)
print(f'Nota IMDb prevista: {round(predicted_rating[0],2)}')

Nota IMDb prevista: 9.21


In [19]:
df.head(1)

Unnamed: 0,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross,Primary_Genre
1,The Godfather,1972.0,A,175,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411.0,Crime
