In [1]:
#!pip install scikit-learn
#!pip install pandas
#!pip install numpy

In [None]:
import pandas as pd  

# Divisão de dados
from sklearn.model_selection import train_test_split

## Carregando o DataSet e tratando as colunas para melhor uso nos modelos
- **Conversão da coluna `genres` em lista:** Separou os gêneros em uma lista para permitir a análise individual de cada gênero, facilitando a aplicação de técnicas como one-hot encoding.
- **Conversão da data de lançamento:** A coluna `release_date` foi convertida para o formato datetime, permitindo a extração de informações temporais relevantes como ano e mês de lançamento, que podem influenciar o desempenho do filme.
- **Explosão da coluna de gêneros:** Cada filme passou a ocupar uma linha para cada gênero associado, enriquecendo a granularidade dos dados e permitindo que modelos captem relações entre gêneros e receita.
- **Remoção de colunas desnecessárias:** Foram excluídas colunas como `id`, `title`, `status`, `release_date` e `genres` para evitar ruído e focar apenas nas variáveis relevantes para a modelagem.
- **Criação de novas features:** Foram criadas as colunas `release_year` e `release_month`, que podem capturar padrões sazonais ou tendências ao longo do tempo.

Essas transformações tornam o dataset mais adequado para algoritmos de ML, facilitando a codificação de variáveis categóricas, normalização de dados e extração de padrões relevantes para previsão de receita.

In [3]:
# Carregar o dataset
df = pd.read_csv('filmes_filtrados_sem_nulos.csv')

# Converter a coluna 'genres' para uma lista de gêneros
df['genres_names'] = df['genres'].apply(lambda x: x.split('-'))

# Tratando a data
df['release_date'] = pd.to_datetime(df['release_date'], errors='coerce')
df['release_year'] = df['release_date'].dt.year
df['release_month'] = df['release_date'].dt.month

# Explodindo a coluna 'genres_names' para que cada gênero fique em uma linha separada
df = df.explode('genres_names').reset_index(drop=True)

# Retirando colunas desnecessárias para a análise
df = df.drop(columns=['id', 'title', 'status', 'release_date', 'genres'])
df.head()


Unnamed: 0,original_language,popularity,budget,revenue,runtime,vote_average,vote_count,genres_names,release_year,release_month
0,en,8763.998,129000000.0,352056482.0,116.0,7.079,1365.0,Action,2023,8
1,en,8763.998,129000000.0,352056482.0,116.0,7.079,1365.0,Science Fiction,2023,8
2,en,8763.998,129000000.0,352056482.0,116.0,7.079,1365.0,Horror,2023,8
3,en,5953.227,18000000.0,65675816.0,103.0,7.433,545.0,Horror,2023,4
4,en,5953.227,18000000.0,65675816.0,103.0,7.433,545.0,Mystery,2023,4


In [4]:
# Definindo as colunas de features e o target
features = ['original_language', 'popularity', 'budget', 'runtime', 'vote_average', 'vote_count', 'genres_names','release_year', 'release_month']
features_nominais = ['genres_names', 'original_language']
X = df[features]
y = df['revenue']
# Dividindo o dataset em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=87)

NameError: name 'train_test_split' is not defined