In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import warnings
warnings.filterwarnings('ignore')

In [2]:
df = pd.read_csv("desafio_indicium_imdb.csv")

features=['Runtime','Meta_score','No_of_Votes','Gross']
target=['IMDB_Rating']

X = df[features]
y = df[target]

data=df.loc[:,features+target]


if data['Gross'].dtype != 'object':
    data['Gross'] = data['Gross'].astype(str)


data['Gross']=data['Gross'].str.replace(',','')
data['Runtime']=data['Runtime'].str.replace(' min','')
data['Gross']=data['Gross'].astype('float')
data['Runtime']=data['Runtime'].astype('float64')

data['Gross']=data['Gross'].replace(np.nan,0)
data['Runtime']=data['Runtime'].replace(np.nan,0)
data['Meta_score']=data['Meta_score'].replace(np.nan,0)

data['Gross']=data['Gross'].astype(int)
data['Runtime']=data['Runtime'].astype(int)
data['Meta_score']=data['Meta_score'].astype(int)



In [3]:
train, tests = train_test_split(data.loc[:,:].to_numpy(),test_size=0.40)
x_train=train[:,:4]
y_train=train[:,4]
cv, test=train_test_split(tests,test_size=0.5)
x_cv=cv[:,:4]
y_cv=cv[:,4]
x_test=test[:,:4]
y_test=test[:,4]


In [4]:
# Criar o modelo de regressão linear
model = LinearRegression()

# Treinar o modelo nos dados de treino
model.fit(x_train, y_train)

# Fazer previsões usando o conjunto de validação cruzada (CV)
y_pred_cv = model.predict(x_cv)

# Fazer previsões usando o conjunto de teste
y_pred_test = model.predict(x_test)


In [5]:
movie_data = {
    'Series_Title': 'The Shawshank Redemption',
    'Released_Year': '1994',
    'Certificate': 'A',
    'Runtime': '142 min',
    'Genre': 'Drama',
    'Overview': 'Two imprisoned men bond over a number of years, finding solace and eventual redemption through acts of common decency.',
    'Meta_score': 80.0,
    'Director': 'Frank Darabont',
    'Star1': 'Tim Robbins',
    'Star2': 'Morgan Freeman',
    'Star3': 'Bob Gunton',
    'Star4': 'William Sadler',
    'No_of_Votes': 2343110,
    'Gross': '28,341,469'
}

# Converter o dicionário em DataFrame
movie_df = pd.DataFrame([movie_data])

# Pré-processamento dos dados
movie_df['Runtime'] = movie_df['Runtime'].str.replace(' min', '').astype(float)  # Remover ' min' e converter para float
movie_df['Gross'] = movie_df['Gross'].str.replace(',', '').astype(float)  # Remover vírgulas e converter para float

# Selecionar apenas as features necessárias
features = ['Runtime', 'Meta_score', 'No_of_Votes', 'Gross']
X_new = movie_df[features]

# Usar o modelo treinado para fazer a previsão
predicted_rating = model.predict(X_new)
predicted_rating = predicted_rating.round(2)

print(f"A nota prevista no IMDB para o filme 'The Shawshank Redemption' é: {predicted_rating[0]}")


A nota prevista no IMDB para o filme 'The Shawshank Redemption' é: 9.18


In [6]:
import joblib

# Supondo que o modelo foi treinado e está na variável `model`
# Salvar o modelo no formato .pkl
joblib.dump(model, 'modelo.pkl')

print("Modelo salvo com sucesso no arquivo 'modelo_imdb.pkl'.")


Modelo salvo com sucesso no arquivo 'modelo_imdb.pkl'.
