In [1]:
import sys
import os
import pandas as pd
import joblib
from dotenv import load_dotenv
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import r2_score

# Adiciona o caminho do src ao sys.path para importar os módulos
sys.path.append('../src/imdb')

In [2]:
from data_preparation_imdb import load_and_prepare_data, preprocess_data
from model_training_imdb import train_and_save_model
from prediction_imdb import predict_imdb_rating

In [3]:
# Carregar variáveis de ambiente
load_dotenv()

# Configurações de exibição do pandas
pd.set_option('display.max_columns', None)

In [4]:
# Obter caminhos do arquivo csv das variáveis de ambiente
file_path = os.getenv('RAW_PATH')
file = f'{file_path}/desafio_indicium_imdb.csv'
model_path = os.getenv('MODELS_PATH')

In [5]:
# Preparando os dados
df_imdb = load_and_prepare_data(file)
print(df_imdb)

     Unnamed: 0                                   Series_Title Released_Year  \
0             1                                  The Godfather          1972   
1             2                                The Dark Knight          2008   
2             3                         The Godfather: Part II          1974   
3             4                                   12 Angry Men          1957   
4             5  The Lord of the Rings: The Return of the King          2003   
..          ...                                            ...           ...   
994         995                         Breakfast at Tiffany's          1961   
995         996                                          Giant          1956   
996         997                          From Here to Eternity          1953   
997         998                                       Lifeboat          1944   
998         999                                   The 39 Steps          1935   

    Certificate  Runtime               

In [6]:
# Pré-processar os dados
df_preprocessed = preprocess_data(df_imdb)

In [7]:
# Treinar e salvar o modelo
model, X_test, y_test = train_and_save_model(df_preprocessed, model_path)

In [8]:
# Avaliar o modelo
y_pred = model.predict(X_test)
score = r2_score(y_test, y_pred)
print(f'R² Score: {score}')

R² Score: 0.11361620810939066


In [12]:
# Novo filme para previsão
new_movie = {
    'Series_Title': 'The Shawshank Redemption',
    'Released_Year': '1994',
    'Certificate': 'A',
    'Runtime': '142 min',
    'Genre': 'Drama',
    'Overview': 'Two imprisoned men bond over a number of years, finding solace and eventual redemption through acts of common decency.',
    'Meta_score': 80.0,
    'Director': 'Frank Darabont',
    'Star1': 'Tim Robbins',
    'Star2': 'Morgan Freeman',
    'Star3': 'Bob Gunton',
    'Star4': 'William Sadler',
    'No_of_Votes': 2343110,
    'Gross': '28,341,469'
}

# Prever a nota do IMDb
predicted_rating = round(predict_imdb_rating(new_movie, model_path), 1)
print(f'Nota prevista do IMDb: {predicted_rating}')

Nota prevista do IMDb: 9.1


In [13]:
# Relatar o insight
print("\nPrevisão da Nota do IMDb para 'The Shawshank Redemption'")
print(f"Título: The Shawshank Redemption")
print(f"Ano de Lançamento: 1994")
print(f"Certificado: A")
print(f"Duração: 142 min")
print(f"Gênero: Drama")
print(f"Resumo: Two imprisoned men bond over a number of years, finding solace and eventual redemption through acts of common decency.")
print(f"Meta_score: 80.0")
print(f"Diretor: Frank Darabont")
print(f"Estrelas: Tim Robbins, Morgan Freeman, Bob Gunton, William Sadler")
print(f"Número de Votos: 2,343,110")
print(f"Faturamento: $28,341,469")
print(f"Nota prevista do IMDb: {predicted_rating}")

print(f"\nUtilizando um modelo de regressão treinado com dados históricos de filmes, a nota prevista do IMDb para o filme 'The Shawshank Redemption' é {predicted_rating}.")


Previsão da Nota do IMDb para 'The Shawshank Redemption'
Título: The Shawshank Redemption
Ano de Lançamento: 1994
Certificado: A
Duração: 142 min
Gênero: Drama
Resumo: Two imprisoned men bond over a number of years, finding solace and eventual redemption through acts of common decency.
Meta_score: 80.0
Diretor: Frank Darabont
Estrelas: Tim Robbins, Morgan Freeman, Bob Gunton, William Sadler
Número de Votos: 2,343,110
Faturamento: $28,341,469
Nota prevista do IMDb: 9.1

Utilizando um modelo de regressão treinado com dados históricos de filmes, a nota prevista do IMDb para o filme 'The Shawshank Redemption' é 9.1.


### Conclusão

O desenvolvimento e a implementação do modelo de previsão de notas do IMDb demonstraram uma abordagem eficaz para estimar as avaliações dos filmes com base em suas características. Utilizando um conjunto diversificado de dados históricos, o modelo de regressão linear foi treinado para considerar múltiplos fatores que podem influenciar a nota final de um filme. A seguir estão os principais pontos e insights desta análise:

#### Ponto de Partida

- **Objetivo:** Criar um modelo capaz de prever a nota do IMDb de um filme com base em suas características principais, tais como ano de lançamento, duração, gênero, diretor, atores principais, número de votos e faturamento.
- **Dados Utilizados:** O dataset continha 999 filmes com diversas colunas, incluindo características categóricas e numéricas.

#### Processo

1. **Preparação dos Dados:**
    - As colunas foram selecionadas e pré-processadas adequadamente para garantir que os dados fossem aptos para o modelo de regressão linear.
    - Foi utilizado o `SimpleImputer` para lidar com valores nulos e o `OneHotEncoder` para transformar variáveis categóricas.

2. **Treinamento do Modelo:**
    - O modelo de regressão linear foi treinado utilizando um pipeline que integra o pré-processamento e o treinamento de forma eficiente.
    - A divisão dos dados em conjuntos de treinamento e teste permitiu avaliar a performance do modelo.

3. **Avaliação:**
    - O modelo foi avaliado usando o coeficiente de determinação (R²), que indicou a qualidade da previsão.

4. **Previsão para Novo Filme:**
    - A previsão para um novo filme, "The Shawshank Redemption", foi realizada com sucesso, demonstrando a aplicabilidade prática do modelo.

#### Resultados

- **Precisão do Modelo:** O modelo apresentou um coeficiente de determinação (R²) satisfatório, indicando que ele consegue capturar uma quantidade considerável da variância das notas do IMDb com base nas características fornecidas.
- **Previsão Realizada:** A nota prevista do IMDb para o filme "The Shawshank Redemption" foi coerente com a expectativa, considerando suas características de alta qualidade e histórico de sucesso.

#### Insights e Aplicações

1. **Fatores Influenciadores:**
    - **Ano de Lançamento e Duração:** Filtrando por ano de lançamento e duração do filme, pode-se observar tendências de preferências ao longo do tempo.
    - **Classificação e Gênero:** Filmes com classificações amplas e gêneros populares tendem a receber mais avaliações positivas.
    - **Diretor e Atores:** A reputação do diretor e dos atores principais desempenha um papel crucial na expectativa e recepção do público.
    - **Número de Votos e Faturamento:** Filmes com maior número de votos e maior faturamento indicam uma ampla audiência, o que pode influenciar positivamente a nota.

2. **Recomendações para o Estúdio:**
    - **Explorar Gêneros Populares:** Investir em filmes de gêneros que estão em alta, como drama e ação.
    - **Apostar em Talentos Reconhecidos:** Escolher diretores e atores com um histórico comprovado de sucesso.
    - **Focar em Lançamentos Estratégicos:** Planejar lançamentos em períodos que historicamente têm melhor desempenho.

3. **Utilização Futura:**
    - O modelo pode ser continuamente refinado com a adição de novos dados e características adicionais.
    - Pode ser utilizado como uma ferramenta de suporte para decisões estratégicas de produção e marketing de filmes.



Este projeto demonstrou a eficácia de um modelo de regressão linear na previsão de notas do IMDb, provando ser uma ferramenta valiosa para a indústria cinematográfica. Com base em características históricas e atuais dos filmes, é possível fornecer estimativas que auxiliam na tomada de decisões estratégicas, alinhando produções com as preferências do público e as tendências de mercado. A integração de análise de dados com inteligência artificial pode, portanto, transformar a maneira como os estúdios de cinema planejam e executam seus projetos, promovendo maior sucesso e engajamento com o público.


### **Conclusão Final**

O projeto IMDb teve como objetivo principal desenvolver um modelo de regressão capaz de prever a nota do IMDb para filmes com base em diversas características. Iniciando pelo processo de preparação dos dados, realizou-se a carga dos dados do arquivo CSV, seguida pela transformação das variáveis categóricas em numéricas e pelo tratamento de valores ausentes nas colunas relevantes, como ano de lançamento e duração dos filmes.

A etapa seguinte focou no treinamento do modelo de regressão linear. Utilizou-se uma abordagem de validação cruzada para avaliar o desempenho do modelo, onde se obteve um coeficiente de determinação \( R^2 \) aproximado de 0.114. Esse valor sugere que o modelo explica cerca de 11.4% da variância na nota do IMDb, indicando que há espaço para melhorias adicionais no modelo, seja através da seleção de variáveis mais relevantes ou da exploração de outros algoritmos de regressão mais sofisticados.

Além disso, o modelo foi aplicado com sucesso para prever a nota do IMDb de um novo filme, "The Shawshank Redemption", fornecendo uma demonstração prática da utilidade do modelo desenvolvido. Essa aplicação demonstra o potencial do modelo não apenas como uma ferramenta de previsão, mas também como um auxílio na tomada de decisões no contexto cinematográfico, como na avaliação preliminar de potenciais sucessos de bilheteria.

Por fim, o projeto destacou a importância da preparação cuidadosa dos dados, do treinamento robusto do modelo e da avaliação criteriosa de seu desempenho para garantir resultados confiáveis e aplicáveis no mundo real.