<a href="https://colab.research.google.com/github/moura07/netflix-content-analytics/blob/main/01_bronze/raw/01_eda_tratamento_conteudo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üé¨ An√°lise Explorat√≥ria e Prepara√ß√£o de Dados ‚Äî Cat√°logo Netflix

---

## Contexto

Este notebook integra um projeto de **An√°lise de Dados de ponta a ponta**, utilizando um dataset p√∫blico do **cat√°logo de t√≠tulos da Netflix**, disponibilizado no Kaggle. O foco desta etapa √© realizar a **An√°lise Explorat√≥ria de Dados (EDA)** e o **tratamento dos dados brutos**, preparando uma base confi√°vel para an√°lises anal√≠ticas posteriores em **SQL** e visualiza√ß√µes em **Power BI**.

O conjunto de dados cont√©m informa√ß√µes no **n√≠vel de granularidade de t√≠tulo** (filmes e s√©ries), incluindo atributos como tipo de conte√∫do, pa√≠s de produ√ß√£o, data de lan√ßamento, data de adi√ß√£o √† plataforma, classifica√ß√£o indicativa, dura√ß√£o, elenco e g√™neros. Esses campos permitem an√°lises **temporais, categ√≥ricas e comparativas** sobre a evolu√ß√£o e composi√ß√£o do cat√°logo.

---

## Objetivo da Etapa

O objetivo principal deste notebook √© **estruturar e padronizar os dados**, garantindo qualidade, consist√™ncia e ader√™ncia a boas pr√°ticas de an√°lise, de forma que a base possa ser utilizada com seguran√ßa em **consultas anal√≠ticas** e **constru√ß√£o de indicadores**.

Os objetivos espec√≠ficos incluem:

- Avaliar a estrutura do dataset e os tipos de dados das vari√°veis  
- Identificar e tratar valores ausentes, inconsist√™ncias e duplicidades  
- Padronizar colunas categ√≥ricas e campos textuais  
- Converter e tratar colunas temporais para an√°lises de s√©rie hist√≥rica  
- Criar atributos derivados relevantes para an√°lises anal√≠ticas  
  (ex.: ano de lan√ßamento, tempo desde adi√ß√£o ao cat√°logo)  
- Validar a granularidade e o relacionamento l√≥gico entre os atributos  

---

## Metodologia

A abordagem adotada segue princ√≠pios comuns em projetos de **Data Analytics** e **Data Engineering em pequena escala**, contemplando:

- Leitura controlada dos dados brutos (**camada Bronze**)  
- Limpeza, padroniza√ß√£o e enriquecimento dos dados (**camada Silver**)  
- Documenta√ß√£o das decis√µes anal√≠ticas e de tratamento  
- C√≥digo organizado, comentado e reprodut√≠vel em **Python**  

As transforma√ß√µes realizadas nesta etapa visam **reduzir ambiguidades nos dados**, facilitar agrega√ß√µes futuras em **SQL** e assegurar consist√™ncia na gera√ß√£o de **KPIs**.

---

## Papel desta Etapa no Pipeline de Dados

Este notebook representa a **camada Silver do pipeline**, respons√°vel por transformar dados brutos em dados **analiticamente confi√°veis**.

A partir desta base tratada, o projeto evolui para:

- Consultas anal√≠ticas em **SQL** (**camada Gold**)  
- Cria√ß√£o de m√©tricas e **KPIs estrat√©gicos**  
- Desenvolvimento de **dashboards interativos no Power BI**


In [None]:
# ============================================================
# Projeto: An√°lise Estrat√©gica de Conte√∫do da Netflix
# Etapa: Silver (EDA + Tratamento de Dados)
# Objetivo: Preparar dados brutos para an√°lises em SQL e BI
# ============================================================

#Bibliotecas principais
import pandas as pd
import numpy as np
import os

# Integra√ß√£o com Google Drive
from google.colab import drive



In [None]:
# ------------------------------------------------------------
# 1. Montar o Google Drive
# ------------------------------------------------------------
drive.mout("/content/drive")

# ------------------------------------------------------------
# 2. Definir diret√≥rio base do projeto no Drive
# ------------------------------------------------------------
BASE_DIR = "/content/drive/MyDrive/netflix-content-analytics"

# ------------------------------------------------------------
# 3. Definir diret√≥rios por camada (Medallion)
# ------------------------------------------------------------
BRONZE_DIR = os.path.join(BASE_DIR, "01_bronze", "raw")
SILVER_DIR = os.path.join(BASE_DIR, "02_silver", "processed")

# ------------------------------------------------------------
# 4. Criar as pastas (caso n√£o existam)
# ------------------------------------------------------------
os.makedirs(BRONZE_DIR, exist_ok=True)
os.makedirs(SILVER_DIR, exist_ok=True)

# ------------------------------------------------------------
# 5. Valida√ß√£o visual
# ------------------------------------------------------------
print("Estrutura do projeto criada com sucesso:")
print("BASE_DIR   :", BASE_DIR)
print("BRONZE_DIR : ", BRONZE_DIR)
print("SILVER_DIR :", SILVER_DIR)