# EDA 1 | Parte 2 - Análise dos Títulos dos Hinos da ICM
Este notebook explora os títulos dos hinos presentes na coletânea principal da Igreja Cristã Maranata.

O objetivo é analisar padrões, tamanhos, e variações nos títulos e subtítulos, facilitando estudos sobre organização e identificação dos louvores.

---
**Conteúdo do notebook:**
- Carregamento dos dados tratados na etapa anterior
- Extração e limpeza dos títulos e subtítulos
- Análise dos tamanhos dos títulos
- Criação de DataFrame para títulos e subtítulos
- Visualização dos maiores e menores títulos

---

**A seguir:** Carregamento do DataFrame com os dados dos hinos, previamente tratados e salvos na etapa anterior.

In [None]:
# --- Carregamento dos dados dos hinos tratados ---
import pandas as pd
from pathlib import Path

# Define a pasta de assets e carrega o DataFrame dos hinos
assets_folder = Path("../assets")
hinos_analise: pd.DataFrame = pd.read_pickle(assets_folder / "hinos_analise.pkl")

# Exibe os primeiros registros para conferência
hinos_analise.head()

---

**A seguir:** Seleção das colunas relevantes (número, nome, categoria) e definição do índice para facilitar a análise dos títulos.

In [None]:
# --- Seleção das colunas relevantes e definição do índice ---
# Mantém apenas número, nome e categoria para análise dos títulos
hinos_analise = hinos_analise[["numero", "nome", "categoria"]].set_index("numero")

# Exibe os dados filtrados
hinos_analise.head()

---

**A seguir:** Extração dos subtítulos presentes entre parênteses e limpeza dos títulos, separando o nome principal do subtítulo para análise detalhada.

In [None]:
# --- Extração e limpeza dos subtítulos dos hinos ---
# Extrai subtítulos entre parênteses e limpa a coluna "nome"
hinos_analise["subtitulo"] = (
    hinos_analise["nome"].str.extract(r"\((.*?)\)").squeeze().str.strip()
)
hinos_analise["nome"] = hinos_analise["nome"].str.replace(
    r"\s*\(.*?\)\s*", "", regex=True
)

# Exibe hinos que possuem subtítulo
hinos_analise[~hinos_analise["subtitulo"].isna()].head()

---

**A seguir:** Cálculo do tamanho dos títulos (sem subtítulo) e exibição dos 10 maiores e 10 menores títulos para identificar padrões e curiosidades.

In [None]:
# --- Análise dos tamanhos dos títulos (sem subtítulo) ---
# Calcula o tamanho real dos títulos
hinos_analise["titulo_tam_real"] = hinos_analise["nome"].str.len()

# Exibe os 10 maiores e 10 menores títulos
print("Top 10 maiores títulos")
display(hinos_analise.sort_values(by="titulo_tam_real", ascending=False).head(10))
print("Top 10 menores títulos")
display(hinos_analise.sort_values(by="titulo_tam_real").head(10))

---

**A seguir:** Criação de um novo DataFrame que reúne títulos e subtítulos em uma única coluna, permitindo análises comparativas entre ambos.

In [None]:
# --- Criação de DataFrame para títulos e subtítulos ---
# Junta títulos e subtítulos em uma única coluna para análise comparativa
hinos_titulos = pd.concat(
    [
        hinos_analise[["subtitulo", "categoria"]].rename(columns={"subtitulo": "nome"}),
        hinos_analise[["nome", "categoria"]],
    ]
).dropna()

# Exibe amostra do novo DataFrame
hinos_titulos.head()

---

**A seguir:** Análise dos tamanhos dos títulos considerando também os subtítulos, exibindo os maiores e menores para comparação.

In [None]:
# --- Análise dos tamanhos dos títulos e subtítulos ---
# Calcula o tamanho real considerando também os subtítulos
hinos_titulos["titulo_tam_real"] = hinos_titulos["nome"].str.len()

# Exibe os 10 maiores e 10 menores títulos/subtítulos
print("Top 10 maiores títulos/subtítulos")
display(hinos_titulos.sort_values(by="titulo_tam_real", ascending=False).head(10))
print("Top 10 menores títulos/subtítulos")
display(hinos_titulos.sort_values(by="titulo_tam_real").head(10))

---

**Fim do notebook:** Finalizamos a análise dos títulos e subtítulos dos hinos. Os dados estão prontos para visualização, exportação ou estudos complementares.