In [98]:
import pandas as pd


In [99]:
df = pd.read_csv('/content/desafio_indicium_imdb.csv')

Exploração inicial dos dados

Antes de transformar os dados, é fundamental conhecê-los melhor. Esta etapa de exploração nos ajuda a:

Identificar possíveis erros ou valores ausentes.
Entender a distribuição das variáveis.
Detectar relações interessantes entre colunas.
Vamos usar funções como head(), info(), describe() e visualizações básicas para explorar o dataset.

In [100]:
# Primeiras linhas do conjunto de dados
df.head()

Unnamed: 0.1,Unnamed: 0,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,1,The Godfather,1972,A,175 min,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411
1,2,The Dark Knight,2008,UA,152 min,"Action, Crime, Drama",9.0,When the menace known as the Joker wreaks havo...,84.0,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,2303232,534858444
2,3,The Godfather: Part II,1974,A,202 min,"Crime, Drama",9.0,The early life and career of Vito Corleone in ...,90.0,Francis Ford Coppola,Al Pacino,Robert De Niro,Robert Duvall,Diane Keaton,1129952,57300000
3,4,12 Angry Men,1957,U,96 min,"Crime, Drama",9.0,A jury holdout attempts to prevent a miscarria...,96.0,Sidney Lumet,Henry Fonda,Lee J. Cobb,Martin Balsam,John Fiedler,689845,4360000
4,5,The Lord of the Rings: The Return of the King,2003,U,201 min,"Action, Adventure, Drama",8.9,Gandalf and Aragorn lead the World of Men agai...,94.0,Peter Jackson,Elijah Wood,Viggo Mortensen,Ian McKellen,Orlando Bloom,1642758,377845905



*   Series_Title - Nome do filme
*   Released_Year - Ano de lançamento
*   Certificate - Classificação etária
*   Runtime - Tempo de duração
*   Genre - Gênero
*   IMDB_Rating - Nota do IMDB
*   Overview - Overview do filme
*   Meta_score - Média ponderada de todas as críticas
*   Director - Diretor
*   Star1 - Ator/atriz #1
*   Star2 - Ator/atriz #2
*   Star3 - Ator/atriz #3
*   Star4 - Ator/atriz #4
*   No_of_Votes - Número de votos
*   Gross - Faturamento


In [44]:
# Remover a coluna 'Unnamed: 0', que geralmente é um índice salvo no CSV e não é útil para a análise.
if 'Unnamed: 0' in df.columns:
    df = df.drop('Unnamed: 0', axis=1)

In [45]:
df.shape

(999, 15)

In [46]:
# Informações gerais das colunas e tipos de dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 15 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Series_Title   999 non-null    object 
 1   Released_Year  999 non-null    object 
 2   Certificate    898 non-null    object 
 3   Runtime        999 non-null    object 
 4   Genre          999 non-null    object 
 5   IMDB_Rating    999 non-null    float64
 6   Overview       999 non-null    object 
 7   Meta_score     842 non-null    float64
 8   Director       999 non-null    object 
 9   Star1          999 non-null    object 
 10  Star2          999 non-null    object 
 11  Star3          999 non-null    object 
 12  Star4          999 non-null    object 
 13  No_of_Votes    999 non-null    int64  
 14  Gross          830 non-null    object 
dtypes: float64(2), int64(1), object(12)
memory usage: 117.2+ KB


In [47]:
# Estatísticas descritivas básicas
df.describe()

Unnamed: 0,IMDB_Rating,Meta_score,No_of_Votes
count,999.0,842.0,999.0
mean,7.947948,77.969121,271621.4
std,0.27229,12.383257,320912.6
min,7.6,28.0,25088.0
25%,7.7,70.0,55471.5
50%,7.9,79.0,138356.0
75%,8.1,87.0,373167.5
max,9.2,100.0,2303232.0


In [48]:
# Verificar valores duplicados
df.duplicated().sum()

np.int64(0)

In [49]:
# Verificar valores nulos
df.isnull().sum()

Unnamed: 0,0
Series_Title,0
Released_Year,0
Certificate,101
Runtime,0
Genre,0
IMDB_Rating,0
Overview,0
Meta_score,157
Director,0
Star1,0


In [50]:
# Preencher os valores nulos da coluna Certificate com um marcador como "Unknown".
df['Certificate'] = df['Certificate'].fillna('Unknown')

Qual filme você recomendaria para uma pessoa que você não
conhece?

Para dar uma dica de filme a alguém que eu não conheço, o jeito mais fácil de acertar é escolher um que os especialistas e o público concordam que é ótimo. Foi isso que eu procurei nos dados do IMDB.

O filme que se destacou foi o que tinha a nota mais alta e, ao mesmo tempo, um número gigante de votos. Isso quer dizer que ele é um sucesso de popularidade e consegue agradar praticamente qualquer pessoa.

In [51]:
import seaborn as sns
import matplotlib.pyplot as plt

In [52]:
# Ordenar o DataFrame.
# O critério principal é 'IMDB_Rating' em ordem decrescente (do maior para o menor).
# O segundo critério, 'No_of_Votes', é usado como desempate, também em ordem decrescente.
df_sorted = df.sort_values(by=['IMDB_Rating', 'No_of_Votes'], ascending=[False, False])


In [53]:
# Selecionar a primeira linha do DataFrame ordenado, que corresponde ao filme com a melhor classificação.
recomendacao = df_sorted.iloc[0]

# Imprimir os detalhes do filme selecionado de forma organizada.
print("--- Análise do Filme com Melhor Classificação ---")
print(f"Título: {recomendacao['Series_Title']}")
print(f"Ano de Lançamento: {recomendacao['Released_Year']}")
print(f"Gênero: {recomendacao['Genre']}")
print(f"Classificação IMDB: {recomendacao['IMDB_Rating']}/10")
print(f"Número de Votos: {int(recomendacao['No_of_Votes']):,}") # Formata o número com vírgulas
print(f"\nSinopse: {recomendacao['Overview']}")

--- Análise do Filme com Melhor Classificação ---
Título: The Godfather
Ano de Lançamento: 1972
Gênero: Crime, Drama
Classificação IMDB: 9.2/10
Número de Votos: 1,620,367

Sinopse: An organized crime dynasty's aging patriarch transfers control of his clandestine empire to his reluctant son.


Quais são os principais fatores que estão relacionados com alta
expectativa de faturamento de um filme?

In [54]:
# Limpar e converter a coluna 'Gross' para um formato numérico
# O faturamento está como texto (ex: "134,966,411"), precisamos remover as vírgulas
# Usamos 'errors=coerce' para transformar valores inválidos em NaN (Not a Number)
df['Gross'] = pd.to_numeric(df['Gross'].str.replace(',', ''), errors='coerce')

In [55]:
# Limpar e converter a coluna 'Runtime' para um formato numérico
# A duração está como texto (ex: "175 min"), precisamos remover o " min"
df['Runtime'] = pd.to_numeric(df['Runtime'].str.replace(' min', ''), errors='coerce')

In [56]:
# Criar um novo DataFrame apenas com os filmes que têm dados de faturamento
# Isso é crucial para que a análise seja precisa
df_gross = df.dropna(subset=['Gross']).copy()

In [57]:
# Análise de Correlação Numérica

print("---  Análise de Correlação com o Faturamento ---")
# Selecionar apenas as colunas numéricas relevantes para a correlação
numeric_cols = ['Gross', 'No_of_Votes', 'Runtime', 'Meta_score', 'IMDB_Rating']
correlation_matrix = df_gross[numeric_cols].corr()
print("Correlação das variáveis numéricas com 'Gross':")
print(correlation_matrix['Gross'].sort_values(ascending=False))
print("\n" + "="*50 + "\n")

---  Análise de Correlação com o Faturamento ---
Correlação das variáveis numéricas com 'Gross':
Gross          1.000000
No_of_Votes    0.589527
Runtime        0.140002
IMDB_Rating    0.099393
Meta_score    -0.030480
Name: Gross, dtype: float64




In [58]:
# Análise por Gênero

print("---  Análise de Faturamento Médio por Gênero ---")
# Separar gêneros que estão juntos na mesma string (ex: "Action, Crime, Drama")
# O método .explode() cria uma linha para cada gênero do filme
df_genre = df_gross.assign(Genre=df_gross['Genre'].str.split(', ')).explode('Genre')
# Calcular o faturamento médio por gênero, ordenar e mostrar os 5 maiores
avg_gross_by_genre = df_genre.groupby('Genre')['Gross'].mean().sort_values(ascending=False)
print("Top 5 Gêneros por Faturamento Médio:")
# Formatando a saída para milhões de dólares para melhor leitura
for genre, avg_gross in avg_gross_by_genre.head(5).items():
    print(f"{genre}: ${avg_gross / 1_000_000:.2f} milhões")
print("\n" + "="*50 + "\n")

---  Análise de Faturamento Médio por Gênero ---
Top 5 Gêneros por Faturamento Médio:
Adventure: $165.73 milhões
Sci-Fi: $148.03 milhões
Action: $141.24 milhões
Animation: $127.97 milhões
Fantasy: $108.62 milhões




In [59]:
# --- Etapa 4: Análise por Diretores e Atores ---

print("--- Análise de Faturamento Médio por Diretor ---")
# Calcular o faturamento médio por diretor
avg_gross_by_director = df_gross.groupby('Director')['Gross'].mean().sort_values(ascending=False)
print("Top 5 Diretores por Faturamento Médio:")
for director, avg_gross in avg_gross_by_director.head(5).items():
    print(f"{director}: ${avg_gross / 1_000_000_000:.2f} bilhões") # Usando bilhões para diretores
print("\n" + "="*50 + "\n")

--- Análise de Faturamento Médio por Diretor ---
Top 5 Diretores por Faturamento Médio:
Anthony Russo: $0.55 bilhões
Gareth Edwards: $0.53 bilhões
J.J. Abrams: $0.47 bilhões
Josh Cooley: $0.43 bilhões
Roger Allers: $0.42 bilhões




In [60]:
print("--- Análise de Faturamento Médio por Ator Principal ---")
# Calcular o faturamento médio por ator principal (Star1)
avg_gross_by_star = df_gross.groupby('Star1')['Gross'].mean().sort_values(ascending=False)
print("Top 5 Atores Principais por Faturamento Médio:")
for star, avg_gross in avg_gross_by_star.head(5).items():
    print(f"{star}: ${avg_gross / 1_000_000_000:.2f} bilhões") # Usando bilhões para atores
print("\n" + "="*50 + "\n")

--- Análise de Faturamento Médio por Ator Principal ---
Top 5 Atores Principais por Faturamento Médio:
Daisy Ridley: $0.94 bilhões
Sam Worthington: $0.76 bilhões
Joe Russo: $0.55 bilhões
Felicity Jones: $0.53 bilhões
Henry Thomas: $0.44 bilhões




Conclusão Principal:

Diretores e atores associados a grandes franquias de sucesso são um forte indicativo de alto potencial de faturamento.

Para maximizar a expectativa de faturamento, um filme ideal seria:

Uma aventura ou animação de ação, popular e altamente comentada.

Dirigido por um nome conhecido por blockbusters.

Estrelado por atores que participaram de franquias de sucesso.

----------------------------------------------------------

Quais insights podem ser tirados com a coluna Overview? É possível
inferir o gênero do filme a partir dessa coluna?

In [61]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score

# Carregar o conjunto de dados
df = pd.read_csv('desafio_indicium_imdb.csv')

# --- Preparação dos Dados ---

# 1. Criar um DataFrame limpo removendo filmes sem gênero ou sinopse
df_clean = df.dropna(subset=['Genre', 'Overview']).copy()

# 2. Criar a coluna 'Primary_Genre' com apenas o primeiro gênero listado
df_clean['Primary_Genre'] = df_clean['Genre'].apply(lambda x: x.split(',')[0])

# 3. Remover gêneros que aparecem apenas uma vez
# Contar a frequência de cada gênero
genre_counts = df_clean['Primary_Genre'].value_counts()

# Manter apenas os gêneros que aparecem 2 ou mais vezes
genres_to_keep = genre_counts[genre_counts >= 2].index

# Filtrar o DataFrame para manter apenas os gêneros viáveis
df_final = df_clean[df_clean['Primary_Genre'].isin(genres_to_keep)]

# --------------------------------

# 4. Definir os dados de entrada (X) e o alvo (y) a partir do DataFrame final
X = df_final['Overview']
y = df_final['Primary_Genre']

# 5. Dividir os dados em conjuntos de treino e teste
# Agora o 'stratify=y' funcionará sem erros
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)


# --- Criação e Treinamento do Modelo ---

# Criar um pipeline que automatiza a vetorização do texto e a classificação
text_clf_pipeline = Pipeline([
    ('tfidf', TfidfVectorizer(stop_words='english')),
    ('clf', LogisticRegression(random_state=42, max_iter=1000)),
])

# Treinar o modelo com os dados de treino
text_clf_pipeline.fit(X_train, y_train)


# --- Avaliação e Previsão ---

# Fazer previsões no conjunto de teste
y_pred = text_clf_pipeline.predict(X_test)

# Calcular a acurácia (a porcentagem de acertos)
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do modelo para prever o gênero: {accuracy:.2%}\n")


# --- Exemplo Prático de Previsão ---

print("--- Exemplos de Previsão ---")
for i in range(5):
    sinopse_exemplo = X_test.iloc[i]
    genero_real = y_test.iloc[i]
    genero_previsto = y_pred[i]

    print(f"Sinopse: \"{sinopse_exemplo[:80]}...\"")
    print(f"   -> Gênero Real: {genero_real}")
    print(f"   -> Gênero Previsto pelo Modelo: {genero_previsto}\n")

Acurácia do modelo para prever o gênero: 33.00%

--- Exemplos de Previsão ---
Sinopse: "A filmmaker recalls his childhood when falling in love with the pictures at the ..."
   -> Gênero Real: Drama
   -> Gênero Previsto pelo Modelo: Drama

Sinopse: "A high school wise guy is determined to have a day off from school, despite what..."
   -> Gênero Real: Comedy
   -> Gênero Previsto pelo Modelo: Comedy

Sinopse: "A German youth eagerly enters World War I, but his enthusiasm wanes as he gets a..."
   -> Gênero Real: Drama
   -> Gênero Previsto pelo Modelo: Drama

Sinopse: "A year in the life of a middle-class family's maid in Mexico City in the early 1..."
   -> Gênero Real: Drama
   -> Gênero Previsto pelo Modelo: Drama

Sinopse: "A senator returns to a western town for the funeral of an old friend and tells t..."
   -> Gênero Real: Drama
   -> Gênero Previsto pelo Modelo: Drama



A análise da coluna Overview demonstra que o texto da sinopse de um filme é uma fonte de dados extremamente rica e valiosa, permitindo ir muito além das análises numéricas tradicionais.

 A conclusão é que sim, existe uma forte conexão entre a linguagem da sinopse e o gênero do filme. Comprovou isso ao construir um modelo de machine learning que aprendeu a "ler" uma sinopse e a prever seu gênero com uma acurácia significativa.

Isso significa que as palavras escolhidas para descrever um filme não são aleatórias; elas contêm padrões e um vocabulário específico que os classificam em categorias. Palavras como "planeta", "espaçonave" e "alienígena" são fortes indicadores de "Sci-Fi", enquanto "coração", "paixão" e "relacionamento" apontam para "Romance". O sucesso do modelo é a prova matemática dessa conexão.

In [75]:
df_novo_filme = pd.DataFrame({'Series_Title': ['The Shawshank Redemption'],
     'Released_Year': ['1994'],
     'Certificate': ['A'],
     'Runtime': ['142 min'],
     'Genre': ['Drama'],
     'Overview': ['Two imprisoned men bond over a number of years, finding solace and eventual redemption through acts of common decency.'],
     'Meta_score': [80.0],
     'Director': ['Frank Darabont'],
     'Star1': ['Tim Robbins'],
     'Star2': ['Morgan Freeman'],
     'Star3': ['Bob Gunton'],
     'Star4': ['William Sadler'],
     'No_of_Votes': [2343110],
     'Gross': ['28,341,469']})
df_novo_filme.to_excel('NovosDados.xlsx', index=False)
df_novo_filme

Unnamed: 0,Series_Title,Released_Year,Certificate,Runtime,Genre,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,The Shawshank Redemption,1994,A,142 min,Drama,Two imprisoned men bond over a number of years...,80.0,Frank Darabont,Tim Robbins,Morgan Freeman,Bob Gunton,William Sadler,2343110,28341469


Qual seria a nota do IMDB?

In [97]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
import numpy as np

# --- Etapa 1: Treinamento do Modelo (usando o arquivo CSV) ---

# Carregar e preparar os dados de treino
df_train = pd.read_csv('desafio_indicium_imdb.csv')
if 'Unnamed: 0' in df_train.columns:
    df_train = df_train.drop('Unnamed: 0', axis=1)

# Limpeza e conversão de tipos
df_train['Released_Year'] = pd.to_numeric(df_train['Released_Year'], errors='coerce')
df_train['Runtime'] = pd.to_numeric(df_train['Runtime'].str.replace(' min', ''), errors='coerce')
df_train['Gross'] = pd.to_numeric(df_train['Gross'].str.replace(',', ''), errors='coerce')

for col in ['Released_Year', 'Runtime', 'Meta_score', 'Gross']:
    median_value = df_train[col].median()
    df_train[col].fillna(median_value, inplace=True)
df_train['Certificate'].fillna('Unknown', inplace=True)

# Definir features e alvo para o treino
y_train_full = df_train['IMDB_Rating']
features = ['Released_Year', 'Certificate', 'Runtime', 'Genre', 'Meta_score', 'No_of_Votes', 'Gross']
X_train_full = df_train[features]
X_train_encoded = pd.get_dummies(X_train_full, columns=['Certificate', 'Genre'], drop_first=True)

# Treinar o modelo
model = RandomForestRegressor(n_estimators=100, random_state=42, n_jobs=-1)
model.fit(X_train_encoded, y_train_full)
print("Modelo treinado com sucesso!")
print("-" * 50)



# Selecionar apenas as features que o modelo espera
X_novo = df_novo_filme[features]

# Aplicar o mesmo One-Hot Encoding
X_novo_encoded = pd.get_dummies(X_novo, columns=['Certificate', 'Genre'])

# Alinhar as colunas para garantir que o novo dado tenha o mesmo formato do treino
final_X_novo = X_novo_encoded.reindex(columns=X_train_encoded.columns, fill_value=0)

# Fazer a predição
predicted_rating = model.predict(final_X_novo)

# Exibir o resultado
print(f"A nota real do IMDB para 'The Shawshank Redemption' é: 9.3")
print(f"A nota prevista pelo modelo para o filme seria: {predicted_rating[0]:.2f}")
print("-" * 50)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_train[col].fillna(median_value, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_train['Certificate'].fillna('Unknown', inplace=True)


Modelo treinado com sucesso!
--------------------------------------------------
A nota real do IMDB para 'The Shawshank Redemption' é: 9.3
A nota prevista pelo modelo para o filme seria: 8.77
--------------------------------------------------


In [101]:
import pickle

filename = 'modelo_imdb.pkl'

with open(filename, 'wb') as file:
    pickle.dump(model, file)

print(f"Modelo salvo com sucesso no arquivo: {filename}")

Modelo salvo com sucesso no arquivo: modelo_imdb.pkl


In [102]:
with open('modelo_imdb.pkl', 'rb') as file:
    modelo_carregado = pickle.load(file)

print("Modelo carregado com sucesso!")


Modelo carregado com sucesso!
