# 0.0 - Setup e Contexto

Este notebook prepara o ambiente inicial do projeto **Lighthouse**.
 
O objetivo deste desafio é apoiar a tomada de decisão de um estúdio de Hollywood na escolha de novos filmes a serem produzidos, explorando dados históricos de filmes para responder perguntas estratégicas como:
- Quais fatores influenciam o sucesso de um filme?
- É possível prever a nota do IMDb de forma confiável?
- Como enriquecer a base original com fontes externas?
- É viável inferir gêneros de filmes pela sua sinopse?
- Que tipo de recomendação simples pode ser oferecida?

Aqui, definimos **setup inicial, pacotes, pastas e contexto** que serão usados em todo o pipeline.

In [1]:
# =====================================================
# Imports
# =====================================================

# Manipulação de dados
import numpy as np
import pandas as pd

# Visualização
import seaborn as sns
import matplotlib.pyplot as plt

# Sistema e paths
import os
from pathlib import Path

# Configuração notebook
from IPython.display import display

In [2]:
# =====================================================
# Estrutura de Pastas
# =====================================================

RAW = Path("../data/raw")
PROC = Path("../data/processed")
INTER = Path("../data/intermediary")
REPORTS = Path("../reports")
FIGURES = Path("../reports/figures")

# Garante que as pastas existam
for p in [RAW, PROC, REPORTS, FIGURES]:
    p.mkdir(parents=True, exist_ok=True)

print("Estrutura de pastas configurada:")
print(f"Raw:       {RAW}")
print(f"Processed: {PROC}")
print(f"Intermediary: {INTER}")
print(f"Reports:   {REPORTS}")
print(f"Figures:   {FIGURES}")

Estrutura de pastas configurada:
Raw:       ../data/raw
Processed: ../data/processed
Intermediary: ../data/intermediary
Reports:   ../reports
Figures:   ../reports/figures


In [3]:
# =====================================================
# Configurações Globais
# =====================================================

#### Pandas
# Aumenta o número de colunas exibidas
pd.options.display.max_columns = 100
# Mostra números decimais sempre com 2 casas
pd.options.display.float_format = "{:.2f}".format

#### Seaborn/Matplotlib
## Configura o tema padrão do Seaborn
sns.set(style="whitegrid", palette="muted", font_scale=1.1)

As configurações globais foram definidas para garantir uma visualização mais clara e eficiente dos dados, em linha com os princípios defendidos por Cole Nussbaumer Knaflic. 

A ideia é padronizar o estilo de exibição, reduzindo distrações visuais e destacando apenas as informações relevantes. 

Dessa forma, o analista consegue enxergar rapidamente padrões, anomalias e insights, sem perder tempo ajustando parâmetros de exibição a cada novo notebook ou conjunto de dados.

# 0.1 - Próximos Passos

- **Notebook 01_data_overview_lighthouse.ipynb**  
Leitura e inspeção da base original (Lighthouse/Indicium), com checagem de tipos, valores nulos e  pré-limpeza dos dados.  

- **Notebook 02_data_overview_kaggle.ipynb**  
Leitura da base complementar do Kaggle (movies_metadata), análise de colunas úteis e tratamento inicial com pré-limpeza dos dados.  

- **Notebook 03_matching_lh_kaggle.ipynb**  
Integração das duas bases para enriquecer os dados originais e assim produzirmos modelos mais robustos. 
