In [1]:
#importando o pandas
import pandas as pd

In [4]:
# Carregar o arquivo CSV
file_path = 'desafio_indicium_imdb.csv'
df = pd.read_csv(file_path)

In [5]:
# Exibir as primeiras linhas do dataframe e informações gerais
df.head(), df.info(), df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 16 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Unnamed: 0     999 non-null    int64  
 1   Series_Title   999 non-null    object 
 2   Released_Year  999 non-null    object 
 3   Certificate    898 non-null    object 
 4   Runtime        999 non-null    object 
 5   Genre          999 non-null    object 
 6   IMDB_Rating    999 non-null    float64
 7   Overview       999 non-null    object 
 8   Meta_score     842 non-null    float64
 9   Director       999 non-null    object 
 10  Star1          999 non-null    object 
 11  Star2          999 non-null    object 
 12  Star3          999 non-null    object 
 13  Star4          999 non-null    object 
 14  No_of_Votes    999 non-null    int64  
 15  Gross          830 non-null    object 
dtypes: float64(2), int64(2), object(12)
memory usage: 125.0+ KB


(   Unnamed: 0                                   Series_Title Released_Year  \
 0           1                                  The Godfather          1972   
 1           2                                The Dark Knight          2008   
 2           3                         The Godfather: Part II          1974   
 3           4                                   12 Angry Men          1957   
 4           5  The Lord of the Rings: The Return of the King          2003   
 
   Certificate  Runtime                     Genre  IMDB_Rating  \
 0           A  175 min              Crime, Drama          9.2   
 1          UA  152 min      Action, Crime, Drama          9.0   
 2           A  202 min              Crime, Drama          9.0   
 3           U   96 min              Crime, Drama          9.0   
 4           U  201 min  Action, Adventure, Drama          8.9   
 
                                             Overview  Meta_score  \
 0  An organized crime dynasty's aging patriarch t...    

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Configurar estilo de visualização
sns.set(style="whitegrid")

In [None]:
# Gráficos das distribuições das principais variáveis numéricas
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

In [None]:
# Distribuição da nota do IMDB
sns.histplot(df['IMDB_Rating'], bins=20, kde=True, ax=axes[0, 0])
axes[0, 0].set_title('Distribuição da Nota do IMDB')

In [None]:
# Distribuição do número de votos
sns.histplot(df['No_of_Votes'], bins=20, kde=True, ax=axes[0, 1])
axes[0, 1].set_title('Distribuição do Número de Votos')

In [None]:
# Distribuição do Meta Score
sns.histplot(df['Meta_score'].dropna(), bins=20, kde=True, ax=axes[1, 0])
axes[1, 0].set_title('Distribuição do Meta Score')

In [None]:
# Distribuição do Faturamento (Gross) - primeiro remover caracteres indesejados e converter para numérico
df['Gross'] = df['Gross'].replace('[\$,]', '', regex=True).astype(float)
sns.histplot(df['Gross'].dropna(), bins=20, kde=True, ax=axes[1, 1])
axes[1, 1].set_title('Distribuição do Faturamento')
plt.tight_layout()
plt.show()

In [None]:
# Análise de correlação entre as variáveis numéricas
correlation_matrix = df.corr()
plt.figure(figsize=(12, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', linewidths=0.5)
plt.title('Matriz de Correlação')
plt.show()

In [None]:
# Contagem de filmes por ano de lançamento
plt.figure(figsize=(15, 6))
sns.countplot(data=df, x='Released_Year', order=df['Released_Year'].value_counts().index)
plt.title('Contagem de Filmes por Ano de Lançamento')
plt.xticks(rotation=90)
plt.show()

In [None]:
# Contagem de filmes por gênero
plt.figure(figsize=(15, 6))
sns.countplot(data=df, y='Genre', order=df['Genre'].value_counts().index)
plt.title('Contagem de Filmes por Gênero')
plt.show()

In [None]:
#Distribuições

#Distribuição da Nota do IMDB:
#A maioria dos filmes tem notas entre 7.6 e 9.2, com uma média próxima de 7.95.

#Distribuição do Número de Votos:
#A maioria dos filmes tem menos de 400 mil votos, com uma distribuição altamente assimétrica.

#Distribuição do Meta Score:
#A pontuação média dos filmes está entre 70 e 80.

#Distribuição do Faturamento:
#O faturamento dos filmes varia amplamente, com muitos filmes arrecadando menos de 100 milhões de dólares e alguns ultrapassando os 500 milhões.

#Correlações
#A matriz de correlação indica uma correlação positiva moderada entre No_of_Votes e IMDB_Rating e uma correlação negativa entre IMDB_Rating e Runtime.
#Contagens

##Filmes por Ano de Lançamento:
#Os anos com mais lançamentos são principalmente dos anos 2000 e 2010.

#Filmes por Gênero:
#Drama, ação e comédia são os gêneros mais comuns.

#Respostas às Perguntas

#2a - Qual filme você recomendaria para uma pessoa que você não conhece?

V#ou considerar um filme bem avaliado e com um gênero popular. Filmes como "The Dark Knight" (2008) ou "The Shawshank Redemption" (1994) são boas escolhas, pois têm alta pontuação no IMDB e são amplamente apreciados.

#2b- Quais são os principais fatores que estão relacionados com alta expectativa de faturamento de um filme?

#Baseado na correlação observada, o número de votos (No_of_Votes) e o Meta_score parecem ser bons indicativos de sucesso financeiro. Filmes com altos valores nesses atributos tendem a ter um faturamento maior.

#2c- Quais insights podem ser tirados com a coluna Overview? É possível inferir o gênero do filme a partir dessa coluna?

#A coluna Overview pode ser analisada usando técnicas de NLP para extrair temas e padrões de texto. Com a análise de sentimentos e clustering, podemos tentar inferir o gênero do filme.

#3- Explique como você faria a previsão da nota do IMDB a partir dos dados.

#Variáveis Utilizadas: Released_Year, Certificate, Runtime, Genre, Meta_score, No_of_Votes, Gross.

#Transformações:
#Conversão de Runtime para minutos.
#Codificação das variáveis categóricas (Genre, Certificate).
#Tratamento de valores nulos.

#Tipo de Problema: Regressão.

#Modelos: Regressão Linear, Random Forest, XGBoost.

#Medida de Performance: Mean Absolute Error (MAE), por ser intuitiva e facilmente interpretável.

In [None]:
# 4: Dados do filme
film_data = {
    'Released_Year': 1994,
    'Certificate': 'A',
    'Runtime': 142,  # convertido para minutos
    'Genre': 'Drama',
    'Meta_score': 80.0,
    'No_of_Votes': 2343110,
    'Gross': '28,341,469'  # será convertido para numérico
}

# Preparar os dados do filme
film_data['Gross'] = film_data['Gross'].replace('[\$,]', '', regex=True).astype(float)

# Encoder para 'Genre' e 'Certificate'
label_encoder_genre = LabelEncoder()
label_encoder_certificate = LabelEncoder()

# Treinar os encoders com os dados completos
df = pd.read_csv('/mnt/data/desafio_indicium_imdb.csv')
df['Runtime'] = df['Runtime'].str.replace(' min', '').astype(int)
df['Gross'] = df['Gross'].replace('[\$,]', '', regex=True).astype(float).fillna(df['Gross'].median())
df['Meta_score'] = df['Meta_score'].fillna(df['Meta_score'].median())
df['Certificate'] = df['Certificate'].fillna('Not Rated')
df['Genre'] = label_encoder_genre.fit_transform(df['Genre'])
df['Certificate'] = label_encoder_certificate.fit_transform(df['Certificate'])

# Codificar os valores do novo filme
film_data['Genre'] = label_encoder_genre.transform([film_data['Genre']])[0]
film_data['Certificate'] = label_encoder_certificate.transform([film_data['Certificate']])[0]

# Modelo treinado (simulado aqui)
model = RandomForestRegressor(n_estimators=100, random_state=42)
X = df[['Released_Year', 'Certificate', 'Runtime', 'Genre', 'Meta_score', 'No_of_Votes', 'Gross']]
y = df['IMDB_Rating']
model.fit(X, y)

# Previsão
film_df = pd.DataFrame([film_data])
predicted_rating = model.predict(film_df)[0]
predicted_rating

In [None]:
# Vamos continuar com a análise da coluna Overview e a criação do modelo para previsão da nota do IMDB. ​
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD
from wordcloud import WordCloud

In [None]:
# Análise de texto da coluna Overview
vectorizer = TfidfVectorizer(stop_words='english', max_features=1000)
X_overview = vectorizer.fit_transform(df['Overview'])

In [None]:
# Reduzir a dimensionalidade para 2 componentes para visualização
svd = TruncatedSVD(n_components=2, random_state=42)
X_reduced = svd.fit_transform(X_overview)

In [None]:
# Criação de um WordCloud para visualizar as palavras mais comuns
wordcloud = WordCloud(width=800, height=400, max_words=100, background_color='white').generate(' '.join(df['Overview']))

In [None]:
# Plotar o WordCloud
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('Palavras mais comuns nos Overviews dos Filmes')
plt.show()


In [None]:
#Previsão da Nota do IMDB
#Vamos agora preparar os dados e criar um modelo para prever a nota do IMDB.

#Preparação dos Dados
#Conversão de Runtime para minutos.
#Codificação das variáveis categóricas (Genre, Certificate).
#Tratamento de valores nulos.
#Divisão dos dados em treino e teste.
#Vamos realizar essas etapas e, em seguida, criar e treinar um modelo de regressão. 
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error
import numpy as np


In [None]:
# Tratar a coluna Runtime para converter para minutos
df['Runtime'] = df['Runtime'].str.replace(' min', '').astype(int)

In [None]:
# Tratar valores nulos na coluna Gross
df['Gross'] = df['Gross'].fillna(df['Gross'].median())

In [None]:
# Tratar valores nulos na coluna Meta_score
df['Meta_score'] = df['Meta_score'].fillna(df['Meta_score'].median())

In [None]:
# Tratar valores nulos na coluna Certificate
df['Certificate'] = df['Certificate'].fillna('Not Rated')

In [None]:
# Codificação das variáveis categóricas
label_encoder = LabelEncoder()
df['Genre'] = label_encoder.fit_transform(df['Genre'])
df['Certificate'] = label_encoder.fit_transform(df['Certificate'])

In [None]:
# Selecionar as colunas para treinamento
features = ['Released_Year', 'Certificate', 'Runtime', 'Genre', 'Meta_score', 'No_of_Votes', 'Gross']
target = 'IMDB_Rating'

In [None]:
# Conversão da coluna Released_Year para numérico
df['Released_Year'] = pd.to_numeric(df['Released_Year'], errors='coerce')
df['Released_Year'] = df['Released_Year'].fillna(df['Released_Year'].median())

In [None]:
# Divisão dos dados em treino e teste
X = df[features]
y = df[target]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [None]:
# Treinamento do modelo Random Forest
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

In [None]:
# Previsão e avaliação do modelo
y_pred = model.predict(X_test)
mae = mean_absolute_error(y_test, y_pred)