# Configura√ß√£o

## Importa√ß√£o

In [25]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns
import gradio as gr

## Defini√ß√£o do Dataframe

In [26]:
df = pd.read_csv("../datasets/data_clean.csv")

## Estiliza√ß√£o

In [27]:
spotify_colors = {
    "primary": "#38E07B",
    "background_seg": "#122017",
    "background_primary": "#173422",
    "light": "#FFFFFF",
    "text": "#B3B3B3",
    "charts": "#1DB954",
    "select": "#10B981",
}

In [28]:
css_styles = f"""
    .gradio-container {{
        background: linear-gradient(135deg, {spotify_colors["background_primary"]} 0%, {spotify_colors["background_seg"]} 100%) !important;
    }}
    
    .block {{
        background-color: {spotify_colors["background_seg"]} !important;
        border-color: {spotify_colors["primary"]} !important;
    }}
    
    .container > div {{
        background-color: {spotify_colors["charts"]} !important;
        
        ul {{
            li {{
                background-color: {spotify_colors["select"]} !important;
            }}
            
            li:hover, li:active {{
                background-color: {spotify_colors["charts"]} !important;
            }}
        }}
    }}
    """

# An√°lise Explorat√≥ria

## Correla√ß√£o

### Gr√°fico

In [29]:
correlation_matrix = df.corr(numeric_only=True)

mask = np.triu(np.ones_like(correlation_matrix, dtype=bool), k=0)

filtered_matrix = correlation_matrix.copy()

plt.figure(figsize=(14, 12))
sns.heatmap(
    filtered_matrix,
    annot=True,
    cmap="RdYlGn",
    center=0,
    fmt=".2f",
    square=True,
    linewidths=1,
    linecolor="white",
    cbar_kws={"shrink": 0.8, "label": "Correla√ß√£o"},
    annot_kws={"size": 10},
    vmin=-1,
    vmax=1,
    mask=mask,
)
plt.title(
    "Matriz de Correla√ß√£o - Correla√ß√µes Altas (‚â• |0.70|)",
    fontsize=18,
    fontweight="bold",
    pad=20,
)
plt.xlabel("")
plt.ylabel("")
plt.xticks(rotation=45, ha="right")
plt.yticks(rotation=0)
plt.tight_layout()
plt.show()

  plt.show()


### Resumo

In [30]:
corr_summary = pd.DataFrame(
    {
        "M√©trica": [
            "Total de Features",
            "Correla√ß√µes Positivas Altas (>0.7)",
            "Correla√ß√µes Negativas Altas (<-0.7)",
            "Correla√ß√µes Moderadas (0.5-0.7)",
            "Correla√ß√µes Fracas (<0.3)",
            "Valor M√°ximo de Correla√ß√£o",
            "Valor M√≠nimo de Correla√ß√£o",
        ],
        "Valor": [
            correlation_matrix.shape[0],
            len(
                correlation_matrix[
                    (correlation_matrix > 0.7) & (correlation_matrix < 1)
                ]
                .stack()
                .dropna()
            ),
            len(correlation_matrix[(correlation_matrix < -0.7)].stack().dropna()),
            len(
                correlation_matrix[
                    ((correlation_matrix >= 0.5) & (correlation_matrix < 0.7))
                    | ((correlation_matrix <= -0.5) & (correlation_matrix > -0.7))
                ]
                .stack()
                .dropna()
            ),
            len(
                correlation_matrix[
                    (correlation_matrix.abs() < 0.3) & (correlation_matrix != 0)
                ]
                .stack()
                .dropna()
            ),
            correlation_matrix.values[correlation_matrix.values < 1].max(),
            correlation_matrix.values.min(),
        ],
    }
)

display(corr_summary)

Unnamed: 0,M√©trica,Valor
0,Total de Features,10.0
1,Correla√ß√µes Positivas Altas (>0.7),2.0
2,Correla√ß√µes Negativas Altas (<-0.7),2.0
3,Correla√ß√µes Moderadas (0.5-0.7),8.0
4,Correla√ß√µes Fracas (<0.3),70.0
5,Valor M√°ximo de Correla√ß√£o,0.880725
6,Valor M√≠nimo de Correla√ß√£o,-0.750282


## An√°lise Descritiva das Features

### Setup

In [31]:
df.columns

Index(['id', 'name', 'artists', 'duration_ms', 'year', 'acousticness',
       'danceability', 'energy', 'instrumentalness', 'speechiness', 'valence',
       'popularity', 'explicit'],
      dtype='object')

In [32]:
features = [
    "year",
    "popularity",
    "acousticness",
    "danceability",
    "energy",
    "instrumentalness",
    "speechiness",
    "valence",
    "explicit",
]

In [33]:
print(f"\nüìã Features a analisar ({len(features)}):")
for i, feat in enumerate(features, 1):
    print(f"   {i}. {feat}")


üìã Features a analisar (9):
   1. year
   2. popularity
   3. acousticness
   4. danceability
   5. energy
   6. instrumentalness
   7. speechiness
   8. valence
   9. explicit


In [34]:
def calcular_stats(feature_nome):
    return {
        "min": df[feature_nome].min(),
        "max": df[feature_nome].max(),
        "mean": df[feature_nome].mean(),
        "median": df[feature_nome].median(),
        "std": df[feature_nome].std(),
    }


def criar_grafico_stats(feature_selecionada):
    if feature_selecionada is None:
        feature_selecionada = features[0]

    stats = calcular_stats(feature_selecionada)

    stats_data = pd.DataFrame(
        {
            "Estat√≠stica": ["M√≠nimo", "M√©dia", "Mediana", "M√°ximo"],
            "Valor": [stats["min"], stats["mean"], stats["median"], stats["max"]],
        }
    )

    return {
        "value": stats_data,
        "title": f"Min, M√©dia, Mediana, M√°x - {feature_selecionada.capitalize()}",
    }


def criar_grafico_distribuicao(feature_selecionada):
    if feature_selecionada is None:
        feature_selecionada = features[0]

    counts, bins = np.histogram(df[feature_selecionada], bins=40)
    bin_centers = (bins[:-1] + bins[1:]) / 2

    distribuicao_data = pd.DataFrame({"Valor": bin_centers, "Frequ√™ncia": counts})

    return {
        "value": distribuicao_data,
        "title": f"Histograma de Distribui√ß√£o - {feature_selecionada.capitalize()}",
    }

### Gr√°ficos

In [35]:
with gr.Blocks() as demo:
    gr.Markdown("## An√°lise Descritiva de Features")

    with gr.Row():
        feature_select = gr.Dropdown(
            choices=features,
            value=features[0],
            label="Selecione uma Feature",
            scale=1,
        )

    with gr.Row():
        with gr.Column(scale=1):
            stats_plot = gr.BarPlot(
                x="Estat√≠stica",
                y="Valor",
                title="Min, M√©dia, Mediana, M√°x - Year",
                height=400,
                tooltip=["Estat√≠stica", "Valor"],
                x_title="Estat√≠sticas",
                y_title="Valores",
            )
        with gr.Column(scale=1):
            dist_plot = gr.BarPlot(
                x="Valor",
                y="Frequ√™ncia",
                title="Histograma de Distribui√ß√£o - Year",
                height=400,
                tooltip=["Valor", "Frequ√™ncia"],
                x_title="Faixas de Valor",
                y_title="Frequ√™ncia",
            )

            def select_region(selection: gr.SelectData):
                min_w, max_w = selection.index
                return gr.LinePlot(x_lim=(min_w, max_w))

            dist_plot.select(select_region, None, dist_plot)
            dist_plot.double_click(lambda: gr.BarPlot(x_lim=None), None, dist_plot)

    def update_stats(feature):
        result = criar_grafico_stats(feature)
        return gr.BarPlot(value=result["value"], title=result["title"])

    def update_dist(feature):
        result = criar_grafico_distribuicao(feature)
        return gr.BarPlot(value=result["value"], title=result["title"])

    feature_select.change(fn=update_stats, inputs=feature_select, outputs=stats_plot)
    feature_select.change(fn=update_dist, inputs=feature_select, outputs=dist_plot)

    demo.load(fn=update_stats, inputs=feature_select, outputs=stats_plot)
    demo.load(fn=update_dist, inputs=feature_select, outputs=dist_plot)

demo.launch(share=False, theme=gr.themes.Soft(primary_hue="emerald", secondary_hue="slate"), css=css_styles)

* Running on local URL:  http://127.0.0.1:7861
* To create a public link, set `share=True` in `launch()`.




### Resumo

In [36]:
descriptive_summary = pd.DataFrame(
    {
        "Feature": features,
        "Min": [df[feat].min() for feat in features],
        "Max": [df[feat].max() for feat in features],
        "M√©dia": [df[feat].mean() for feat in features],
        "Mediana": [df[feat].median() for feat in features],
        "Std Dev": [df[feat].std() for feat in features],
        "Skewness": [df[feat].skew() for feat in features],
        "Contagem": [df[feat].count() for feat in features],
    }
)

display(descriptive_summary.round(4))

Unnamed: 0,Feature,Min,Max,M√©dia,Mediana,Std Dev,Skewness,Contagem
0,year,1921.0,2020.0,1977.2232,1978.0,25.5933,-0.1327,169907
1,popularity,0.0,100.0,31.5567,33.0,21.5827,-0.0215,169907
2,acousticness,0.0,0.996,0.4932,0.492,0.3766,0.0087,169907
3,danceability,0.0,0.988,0.5381,0.548,0.1753,-0.2129,169907
4,energy,0.0,1.0,0.4886,0.481,0.2674,0.0774,169907
5,instrumentalness,0.0,1.0,0.1619,0.0002,0.3093,1.6815,169907
6,speechiness,0.0,0.969,0.0941,0.045,0.1499,4.2358,169907
7,valence,0.0,1.0,0.5321,0.544,0.2624,-0.124,169907
8,explicit,0.0,1.0,0.0849,0.0,0.2787,2.9793,169907


## M√∫sicas por d√©cada

### Setup

In [37]:
df["decade"] = (df["year"] // 10 * 10).astype(int)

decades_data = df.groupby("decade")[features].mean()
decades_data["count"] = df.groupby("decade").size()
decades_data = decades_data.reset_index()

decades_data["decade_str"] = decades_data["decade"].astype(str) + "s"

count_data_initial = pd.DataFrame(
    {"decade_str": decades_data["decade_str"], "count": decades_data["count"]}
)

### Gr√°ficos

In [41]:
with gr.Blocks() as demo_decades:
    gr.Markdown("## An√°lise de Features por D√©cada")

    with gr.Row():
        feature_decade_select = gr.Dropdown(
            choices=features[1:],
            value="energy",
            label="Selecione uma Feature",
            interactive=True,
            scale=1,
        )

    with gr.Row():
        with gr.Column(scale=1):
            feature_plot = gr.BarPlot(
                value=pd.DataFrame(
                    {
                        "decade_str": decades_data["decade_str"],
                        "valor": decades_data["energy"],
                    }
                ),
                x="decade_str",
                y="valor",
                title="M√©dia de Energy por D√©cada",
                height=400,
                tooltip=["decade_str", "valor"],
                x_title="D√©cada",
                y_title="Valor M√©dio",
                x_label_angle=45,
            )

        with gr.Column(scale=1):
            count_plot = gr.BarPlot(
                value=pd.DataFrame(
                    {
                        "decade_str": decades_data["decade_str"],
                        "count": decades_data["count"],
                    }
                ),
                x="decade_str",
                y="count",
                title="Quantidade de M√∫sicas por D√©cada",
                height=400,
                tooltip=["decade_str", "count"],
                x_title="D√©cada",
                y_title="Quantidade de M√∫sicas",
                x_label_angle=45,
            )

    def atualizar_feature_decada(feature_selecionada):
        feature_display = {
            "energy": "Energy",
            "danceability": "Danceability",
            "valence": "Valence",
            "popularity": "Popularity",
            "acousticness": "Acousticness",
        }

        data = pd.DataFrame(
            {
                "decade_str": decades_data["decade_str"],
                "valor": decades_data[feature_selecionada],
            }
        )

        feature_name = feature_display.get(feature_selecionada, feature_selecionada)
        title = f"M√©dia de {feature_name} por D√©cada"

        return gr.BarPlot(value=data, title=title)

    feature_decade_select.change(
        fn=atualizar_feature_decada, inputs=feature_decade_select, outputs=feature_plot
    )

demo_decades.launch(share=False, theme=gr.themes.Soft(primary_hue="emerald", secondary_hue="slate"), css=css_styles)

* Running on local URL:  http://127.0.0.1:7863
* To create a public link, set `share=True` in `launch()`.




### Resumo

In [39]:
decade_summary = pd.DataFrame(
    {
        "D√©cada": decades_data["decade_str"],
        "Quantidade": decades_data["count"].astype(int),
        "Acousticness": decades_data["acousticness"].round(3),
        "Danceability": decades_data["danceability"].round(3),
        "Energy": decades_data["energy"].round(3),
        "Instrumentalness": decades_data["instrumentalness"].round(3),
        "Speechiness": decades_data["speechiness"].round(3),
        "Valence": decades_data["valence"].round(3),
        "Popularity": decades_data["popularity"].round(2),
    }
)

display(decade_summary)

Unnamed: 0,D√©cada,Quantidade,Acousticness,Danceability,Energy,Instrumentalness,Speechiness,Valence,Popularity
0,1920s,4446,0.831,0.577,0.241,0.416,0.232,0.567,1.33
1,1930s,8889,0.875,0.536,0.288,0.288,0.168,0.576,2.51
2,1940s,14968,0.871,0.472,0.253,0.364,0.147,0.485,1.65
3,1950s,19950,0.84,0.477,0.287,0.243,0.097,0.477,9.95
4,1960s,20000,0.621,0.497,0.416,0.155,0.059,0.557,25.63
5,1970s,19998,0.392,0.527,0.539,0.114,0.061,0.588,35.05
6,1980s,20000,0.286,0.55,0.602,0.118,0.063,0.57,37.0
7,1990s,20000,0.292,0.572,0.595,0.102,0.083,0.55,43.63
8,2000s,20000,0.259,0.576,0.659,0.078,0.088,0.533,49.41
9,2010s,19900,0.256,0.599,0.633,0.071,0.101,0.462,59.56


## An√°lise de Thresholds para binariza√ß√£o

In [40]:
def analyze_threshold_for_binarization(column, threshold_range=(20, 71), verbose=True):
    if verbose:
        print("=" * 90)
        print(f"üìä AN√ÅLISE COMPLETA PARA DEFINI√á√ÉO DE THRESHOLD - {column.upper()}")
        print("=" * 90)

        print(f"\nüéØ ESTAT√çSTICAS DESCRITIVAS - {column.upper()}")
        print("-" * 90)
        col_stats = df[column].describe()
        print(col_stats)

        print(f"\nModa (valor mais frequente): {df[column].mode().values}")
        print(f"Assimetria (Skewness): {df[column].skew():.4f}")
        print(f"Curtose (Kurtosis): {df[column].kurtosis():.4f}")

    if verbose:
        print("\n" + "=" * 90)
        print("üìà C√ÅLCULO DE M√âTRICAS PARA TODOS OS THRESHOLDS")
        print("=" * 90)

    thresholds_to_test = range(threshold_range[0], threshold_range[1])
    threshold_metrics = []

    for t in thresholds_to_test:
        neg_class = len(df[df[column] <= t])
        pos_class = len(df[df[column] > t])

        pct_neg = (neg_class / len(df)) * 100
        pct_pos = (pos_class / len(df)) * 100

        imbalance_ratio = (
            max(neg_class, pos_class) / min(neg_class, pos_class)
            if min(neg_class, pos_class) > 0
            else float("inf")
        )

        pct_diff = abs(pct_neg - pct_pos)

        balance_score = pct_diff

        threshold_metrics.append(
            {
                "threshold": t,
                "class_0": neg_class,
                "class_1": pos_class,
                "pct_0": pct_neg,
                "pct_1": pct_pos,
                "imbalance_ratio": imbalance_ratio,
                "pct_diff": pct_diff,
                "balance_score": balance_score,
            }
        )

    metrics_df = pd.DataFrame(threshold_metrics)
    if verbose:
        print(
            f"‚úÖ Dataframe de m√©tricas criado com {len(metrics_df)} thresholds testados"
        )

    if verbose:
        print("\n" + "-" * 90)
        print("üìä CRIT√âRIO 1: BALANCEAMENTO √ìTIMO (50%-50%)")
        print("-" * 90)

    best_balanced_idx = metrics_df["balance_score"].idxmin()
    best_balanced = metrics_df.loc[best_balanced_idx]

    if verbose:
        print(
            f"\nüèÜ Threshold com melhor balanceamento: {int(best_balanced['threshold'])}"
        )
        print(
            f"   ‚Üí Classe 0: {int(best_balanced['class_0'])} ({best_balanced['pct_0']:.1f}%)"
        )
        print(
            f"   ‚Üí Classe 1: {int(best_balanced['class_1'])} ({best_balanced['pct_1']:.1f}%)"
        )
        print(f"   ‚Üí Raz√£o Desbalance: {best_balanced['imbalance_ratio']:.2f}x")

    if verbose:
        print("\n" + "-" * 90)
        print("üìä CRIT√âRIO 2: DISTRIBUI√á√ÉO NATURAL (Baseado em Quartis)")
        print("-" * 90)

    q1 = df[column].quantile(0.25)
    q3 = df[column].quantile(0.75)

    if verbose:
        print("\nüìå Quartis da Distribui√ß√£o:")
        print(f"   ‚Üí Q1 (25%): {q1:.1f}")
        print(f"   ‚Üí Q3 (75%): {q3:.1f}")

    # Encontrar threshold mais pr√≥ximo do Q3
    q3_idx = (metrics_df["threshold"] - q3).abs().idxmin()
    q3_threshold = metrics_df.loc[q3_idx]

    if verbose:
        print(f"\nüèÜ Threshold pr√≥ximo ao Q3: {int(q3_threshold['threshold'])}")
        print(
            f"   ‚Üí Classe 0: {int(q3_threshold['class_0'])} ({q3_threshold['pct_0']:.1f}%)"
        )
        print(
            f"   ‚Üí Classe 1: {int(q3_threshold['class_1'])} ({q3_threshold['pct_1']:.1f}%)"
        )
        print(f"   ‚Üí Raz√£o Desbalance: {q3_threshold['imbalance_ratio']:.2f}x")

    if verbose:
        print("\n" + "-" * 90)
        print("üìä CRIT√âRIO 3: RAZ√ÉO DESBALANCE ‚â§ 2.0x")
        print("-" * 90)

    acceptable = metrics_df[metrics_df["imbalance_ratio"] <= 2.0]

    if len(acceptable) > 0:
        best_acceptable_idx = acceptable["balance_score"].idxmin()
        best_acceptable = metrics_df.loc[best_acceptable_idx]

        if verbose:
            print(
                f"\n‚úÖ Thresholds aceit√°veis (imbalance ‚â§ 2.0x): {len(acceptable)} op√ß√µes"
            )
            print(
                f"\nüèÜ Melhor entre os aceit√°veis: {int(best_acceptable['threshold'])}"
            )
            print(
                f"   ‚Üí Classe 0: {int(best_acceptable['class_0'])} ({best_acceptable['pct_0']:.1f}%)"
            )
            print(
                f"   ‚Üí Classe 1: {int(best_acceptable['class_1'])} ({best_acceptable['pct_1']:.1f}%)"
            )
            print(f"   ‚Üí Raz√£o Desbalance: {best_acceptable['imbalance_ratio']:.2f}x")

        acceptable_range_min = int(acceptable["threshold"].min())
        acceptable_range_max = int(acceptable["threshold"].max())
    else:
        if verbose:
            print("\n‚ö†Ô∏è  Nenhum threshold com imbalance ‚â§ 2.0x encontrado")

        acceptable = metrics_df[metrics_df["imbalance_ratio"] <= 2.5]

        if len(acceptable) > 0:
            if verbose:
                print("   Tentando com limiar relaxado (‚â§ 2.5x)...")
            best_acceptable_idx = acceptable["balance_score"].idxmin()
            best_acceptable = metrics_df.loc[best_acceptable_idx]

            if verbose:
                print(
                    f"\n‚úÖ Thresholds aceit√°veis (imbalance ‚â§ 2.5x): {len(acceptable)} op√ß√µes"
                )
                print(
                    f"\nüèÜ Melhor entre os aceit√°veis: {int(best_acceptable['threshold'])}"
                )
                print(
                    f"   ‚Üí Classe 0: {int(best_acceptable['class_0'])} ({best_acceptable['pct_0']:.1f}%)"
                )
                print(
                    f"   ‚Üí Classe 1: {int(best_acceptable['class_1'])} ({best_acceptable['pct_1']:.1f}%)"
                )
                print(
                    f"   ‚Üí Raz√£o Desbalance: {best_acceptable['imbalance_ratio']:.2f}x"
                )

            acceptable_range_min = int(acceptable["threshold"].min())
            acceptable_range_max = int(acceptable["threshold"].max())
        else:
            if verbose:
                print("   Nenhum threshold com imbalance ‚â§ 2.5x encontrado")
                print("   Usando o melhor balanceamento dispon√≠vel (crit√©rio 1)")

            best_acceptable = metrics_df.loc[metrics_df["balance_score"].idxmin()]

            acceptable_range_min = int(metrics_df["threshold"].min())
            acceptable_range_max = int(metrics_df["threshold"].max())

    if verbose:
        print("\n" + "=" * 90)
        print("üìä COMPARA√á√ÉO DOS TR√äS CRIT√âRIOS")
        print("=" * 90)

    comparison_df = pd.DataFrame(
        {
            "Crit√©rio": [
                "Crit√©rio 1: Melhor Balanceamento",
                "Crit√©rio 2: Distribui√ß√£o Natural (Q3)",
                "Crit√©rio 3: Raz√£o Desbalance ‚â§ 2.0x",
            ],
            "Threshold": [
                int(best_balanced["threshold"]),
                int(q3_threshold["threshold"]),
                int(best_acceptable["threshold"]),
            ],
            "Classe 0 (%)": [
                f"{best_balanced['pct_0']:.1f}%",
                f"{q3_threshold['pct_0']:.1f}%",
                f"{best_acceptable['pct_0']:.1f}%",
            ],
            "Classe 1 (%)": [
                f"{best_balanced['pct_1']:.1f}%",
                f"{q3_threshold['pct_1']:.1f}%",
                f"{best_acceptable['pct_1']:.1f}%",
            ],
            "Raz√£o Desbalance": [
                f"{best_balanced['imbalance_ratio']:.2f}x",
                f"{q3_threshold['imbalance_ratio']:.2f}x",
                f"{best_acceptable['imbalance_ratio']:.2f}x",
            ],
        }
    )

    if verbose:
        print("\n" + comparison_df.to_string(index=False))

    if verbose:
        print("\n" + "=" * 90)
        print("‚ú® RECOMENDA√á√ÉO FINAL")
        print("=" * 90)

    recommended_threshold = int(best_acceptable["threshold"])

    if verbose:
        print(f"\nüéØ THRESHOLD RECOMENDADO: {recommended_threshold}")
        print("\nüìä Justificativa:")
        print(
            f"   ‚Ä¢ Balanceamento: {best_acceptable['pct_0']:.1f}% vs {best_acceptable['pct_1']:.1f}%"
        )
        print(
            f"   ‚Ä¢ Raz√£o de desbalance: {best_acceptable['imbalance_ratio']:.2f}x (aceit√°vel para ML)"
        )
        print(f"   ‚Ä¢ Diferen√ßa entre classes: {best_acceptable['pct_diff']:.1f}%")

        print("\nüìà Intervalo de confian√ßa:")
        print(
            f"   ‚Ä¢ Zona recomendada: {recommended_threshold - 5} a {recommended_threshold + 5}"
        )
        print(
            f"   ‚Ä¢ Intervalo expandido: {acceptable_range_min} a {acceptable_range_max}"
        )

        print("\n" + "=" * 90)

    return {
        "recommended_threshold": recommended_threshold,
        "metrics_df": metrics_df,
        "best_balanced": best_balanced,
        "q3_threshold": q3_threshold,
        "best_acceptable": best_acceptable,
        "comparison_df": comparison_df,
        "acceptable_range": (acceptable_range_min, acceptable_range_max),
    }


resultado_popularity = analyze_threshold_for_binarization(
    column="popularity", threshold_range=(20, 71), verbose=True
)

resultado_speechiness = analyze_threshold_for_binarization(
    column="speechiness", threshold_range=(0, 20), verbose=True
)

resultado_instrumentalness = analyze_threshold_for_binarization(
    column="instrumentalness", threshold_range=(0, 20), verbose=True
)

POPULARITY_THRESHOLD = resultado_popularity["recommended_threshold"]
print(f"\n‚úÖ Threshold recomendado para 'popularity': {POPULARITY_THRESHOLD}")

SPEECHINESS_THRESHOLD = resultado_speechiness["recommended_threshold"]
print(f"\n‚úÖ Threshold recomendado para 'speechiness': {SPEECHINESS_THRESHOLD}")

INSTRUMENTALNESS_THRESHOLD = resultado_instrumentalness["recommended_threshold"]
print(
    f"\n‚úÖ Threshold recomendado para 'instrumentalness': {INSTRUMENTALNESS_THRESHOLD}"
)

üìä AN√ÅLISE COMPLETA PARA DEFINI√á√ÉO DE THRESHOLD - POPULARITY

üéØ ESTAT√çSTICAS DESCRITIVAS - POPULARITY
------------------------------------------------------------------------------------------
count    169907.000000
mean         31.556681
std          21.582730
min           0.000000
25%          12.000000
50%          33.000000
75%          48.000000
max         100.000000
Name: popularity, dtype: float64

Moda (valor mais frequente): [0]
Assimetria (Skewness): -0.0215
Curtose (Kurtosis): -1.0150

üìà C√ÅLCULO DE M√âTRICAS PARA TODOS OS THRESHOLDS
‚úÖ Dataframe de m√©tricas criado com 51 thresholds testados

------------------------------------------------------------------------------------------
üìä CRIT√âRIO 1: BALANCEAMENTO √ìTIMO (50%-50%)
------------------------------------------------------------------------------------------

üèÜ Threshold com melhor balanceamento: 33
   ‚Üí Classe 0: 84964 (50.0%)
   ‚Üí Classe 1: 84943 (50.0%)
   ‚Üí Raz√£o Desbalance: 1.00x

--

# Insights

#### **1. Year (Ano)**

* **Min**: 1921 (aproximadamente) | **M√©dia**: ~1977 | **Max**: 2020
* **Amplitude**: 99 anos (1921 a 2020)
* **Distribui√ß√£o**: Pr√≥xima do uniforme/retangular na fase madura.

**üìà Insights do Gr√°fico de Distribui√ß√£o (Histograma):**
* Pico(s): A frequ√™ncia de m√∫sicas por ano √© baixa nas d√©cadas iniciais (1920s-1940s), mas atinge um **volume alto e est√°vel** (cerca de 6.000 m√∫sicas por faixa) a partir de 1950.
* Forma: Exponencial inicial, estabilizando para um formato retangular.
* Observa√ß√µes: O volume de dados √© bem representado nas d√©cadas mais recentes (1950-2010s).

**‚ö†Ô∏è Problemas Identificados:**
* Vi√©s temporal: Distribui√ß√£o de frequ√™ncia significativamente menor (enviesada) nas primeiras d√©cadas (1920s-1940s).

**üìÖ Tend√™ncia Temporal:**
* Resumo Temporal: A vari√°vel *Year* (Ano) √© a dimens√£o temporal prim√°ria, indicando a distribui√ß√£o de volume de dados, que √© alta e est√°vel a partir de 1950.

**Status**: üü¢ **MANTER**
* **A√ß√£o recomendada**: Manter, pois √© a vari√°vel de tempo fundamental.

---

#### **2. Popularity (Popularidade)**

* **Min**: 0 | **M√©dia**: ~32 | **Max**: 100
* **Amplitude**: 100
* **Distribui√ß√£o**: Altamente assim√©trica (positivamente/√† direita), com forte concentra√ß√£o em valores baixos.

**üìà Insights do Gr√°fico de Distribui√ß√£o (Histograma):**
* Pico(s): O pico de frequ√™ncia principal est√° concentrado na primeira faixa (0-5), com mais de 30.000 ocorr√™ncias. Isso indica que a maioria das m√∫sicas no dataset tem baixa popularidade.
* Densidade: A distribui√ß√£o se espalha mais uniformemente apenas entre 30 e 60.

**üìÖ Tend√™ncia Temporal:**
* Interpreta√ß√£o: Tend√™ncia de **aumento progressivo e consistente** da Popularidade M√©dia ao longo das d√©cadas. O valor m√©dio era muito baixo nos anos 1920s a 1940s (~2), mas cresceu continuamente, atingindo o valor mais alto nos anos 2020s (acima de 60).

**Status**: üü¢ **MANTER**
* **A√ß√£o recomendada**: Manter devido √† forte e clara tend√™ncia temporal observada.

---

#### **3. Speechiness (Conte√∫do de Fala)**

* **Min**: 0.0 | **M√©dia**: ~0.1 | **Max**: 1.0
* **Distribui√ß√£o**: Altamente assim√©trica (positivamente/√† direita), com concentra√ß√£o extrema pr√≥xima de zero.

**üìà Insights do Gr√°fico de Distribui√ß√£o (Histograma):**
* Pico(s): Concentra√ß√£o maci√ßa (acima de 90.000 ocorr√™ncias) na primeira faixa (0.00-0.05), indicando que a **grande maioria das m√∫sicas possui baix√≠ssimo teor de fala**.
* Forma: Exponencial/Power Law, concentrada no limite inferior.

**‚ö†Ô∏è Problemas Identificados:**
* Concentra√ß√£o extrema (quase Delta-like), resultando em baixa vari√¢ncia na maioria dos dados, o que pode impactar o aprendizado do modelo.

**üìÖ Tend√™ncia Temporal:**
* Interpreta√ß√£o: A m√©dia de *Speechiness* era alta nos anos 1920s (~0.23), caiu drasticamente at√© os anos 1960s (~0.06), e tem mostrado um leve aumento recente, atingindo ~0.14 na d√©cada de 2020s.

**Status**: üü° **TRANSFORMAR**
* **A√ß√£o recomendada**: Log-transforma√ß√£o ou binariza√ß√£o, para mitigar o pico em zero.

---

#### **4. Valence (Val√™ncia / Positividade)**

* **Min**: 0.0 | **M√©dia**: ~0.53 | **Max**: 1.0
* **Amplitude**: 1.0
* **Distribui√ß√£o**: Pr√≥xima da uniforme, ligeiramente assim√©trica, com leve pico central (entre 0.50 e 0.60) e concentra√ß√£o percept√≠vel na cauda superior (perto de 1.0).

**üìà Insights do Gr√°fico de Distribui√ß√£o (Histograma):**
* Pico(s): Frequ√™ncia relativamente est√°vel em todas as faixas (entre 3.500 e 5.500 ocorr√™ncias por bin), com alta frequ√™ncia na √∫ltima faixa de valor (pr√≥ximo a 1.0).

**üìÖ Tend√™ncia Temporal:**
* Interpreta√ß√£o: A Val√™ncia m√©dia √© **altamente vol√°til**. Apresentou picos nos anos 1930s e 1970s (ambos acima de 0.58) e quedas nos anos 1950s e 2010s (perto de 0.46).

**Status**: üü¢ **MANTER**
* **A√ß√£o recomendada**: Manter, pois a distribui√ß√£o √© aceit√°vel e a volatilidade temporal √© um dado relevante.

---

#### **5. Instrumentalness (Conte√∫do Instrumental)**

* **Min**: 0.0 | **M√©dia**: ~0.17 | **Max**: 1.0
* **Distribui√ß√£o**: Altamente assim√©trica, com **concentra√ß√£o extrema em 0.0**. A Mediana √© 0.0.

**üìà Insights do Gr√°fico de Distribui√ß√£o (Histograma):**
* Pico(s): O gr√°fico mostra uma concentra√ß√£o maci√ßa na faixa 0.00, com frequ√™ncia pr√≥xima a 120.000, indicando que a grande maioria das m√∫sicas cont√©m vocais ou fala e n√£o √© instrumental.

**‚ö†Ô∏è Problemas Identificados:**
* Concentra√ß√£o extrema em 0.0, tornando a vari√°vel praticamente dicot√¥mica, o que pode impactar a relev√¢ncia do valor cont√≠nuo.

**üìÖ Tend√™ncia Temporal:**
* Interpreta√ß√£o: Tend√™ncia clara e forte de **decr√©scimo**. A m√©dia era muito alta nos anos 1920s (~0.42) e 1940s (~0.36), diminuindo consistentemente para valores muito baixos (~0.05) a partir dos anos 2000s.

**Status**: üü° **TRANSFORMAR**
* **A√ß√£o recomendada**: Tratar como **bin√°ria** (0/1) ou aplicar Log-transforma√ß√£o para real√ßar a diferen√ßa entre valores instrumentais > 0.

---

#### **6. Energy (Energia)**

* **Min**: 0.0 | **M√©dia**: ~0.50 | **Max**: 1.0
* **Distribui√ß√£o**: Levemente assim√©trica √† esquerda (enviesada negativamente), com formato montanhoso.

**üìà Insights do Gr√°fico de Distribui√ß√£o (Histograma):**
* Pico(s): O pico principal est√° na faixa 0.20-0.30. A frequ√™ncia varia, mas n√£o h√° concentra√ß√µes extremas.

**üìÖ Tend√™ncia Temporal:**
* Interpreta√ß√£o: Forte e cont√≠nua tend√™ncia de **aumento**. A energia m√©dia come√ßa baixa nos anos 1920s (~0.24) e cresce consistentemente, atingindo o pico mais alto nos anos 2000s (cerca de 0.67).

**Status**: üü¢ **MANTER**
* **A√ß√£o recomendada**: Manter, possui boa distribui√ß√£o e tend√™ncia temporal clara.

---

#### **7. Danceability (Dan√ßabilidade)**

* **Min**: 0.0 | **M√©dia**: ~0.55 | **Max**: 1.0
* **Distribui√ß√£o**: **Sim√©trica (Formato de Sino / Normal)**.

**üìà Insights do Gr√°fico de Distribui√ß√£o (Histograma):**
* Pico(s): O pico de frequ√™ncia (quase 10.000) est√° centralizado entre 0.50 e 0.60, sugerindo que a maioria das m√∫sicas tem dan√ßabilidade moderada.

**üìÖ Tend√™ncia Temporal:**
* Interpreta√ß√£o: Padr√£o de "U" invertido. Queda acentuada atingindo o m√≠nimo nos 1940s/1950s (~0.47), seguida por uma **recupera√ß√£o e aumento cont√≠nuo** at√© o pico na d√©cada de 2020s (quase 0.68).

**Status**: üü¢ **MANTER**
* **A√ß√£o recomendada**: Manter. A distribui√ß√£o normal √© ideal para modelagem.

---

#### **8. Acousticness (Ac√∫stica)**

* **Min**: 0.0 | **M√©dia**: ~0.49 | **Max**: 1.0
* **Distribui√ß√£o**: **Bimodal (U-Shaped)**, com alta concentra√ß√£o nas caudas e baixa frequ√™ncia no centro.

**üìà Insights do Gr√°fico de Distribui√ß√£o (Histograma):**
* Pico(s): Dois picos muito altos em 0.00 (n√£o-ac√∫stica) e 1.00 (totalmente ac√∫stica), ambos acima de 23.000 ocorr√™ncias.
* Observa√ß√µes: A forma bimodal sugere que a feature polariza as m√∫sicas em categorias extremas.

**üìÖ Tend√™ncia Temporal:**
* Interpreta√ß√£o: Forte e cont√≠nua tend√™ncia de **decr√©scimo**. A m√©dia era extremamente alta (~0.9) nos anos 1930s e 1940s, despencando para valores baixos (~0.25) a partir dos anos 1970s.

**Status**: üü¢ **MANTER**
* **A√ß√£o recomendada**: Manter, pois a forte tend√™ncia hist√≥rica √© crucial para a an√°lise.

---

#### **9. Explicit (Conte√∫do Expl√≠cito)**

* **Min**: 0.0 | **M√©dia**: ~0.08 | **Max**: 1.0
* **Distribui√ß√£o**: Fortemente concentrada em 0.0 e 1.0, sendo praticamente bin√°ria. A Mediana √© 0.0.

**üìà Insights do Gr√°fico de Distribui√ß√£o (Histograma):**
* Pico(s): Pico maci√ßo em 0.0 (quase 160.000 ocorr√™ncias) e pico secund√°rio em 1.0 (cerca de 15.000 ocorr√™ncias).

**‚ö†Ô∏è Problemas Identificados:**
* Vari√°vel essencialmente dicot√¥mica, n√£o cont√≠nua.

**üìÖ Tend√™ncia Temporal:**
* Interpreta√ß√£o: A m√©dia de *Explicit* demonstra um **aumento dram√°tico** nas d√©cadas mais recentes. Foi pr√≥xima de zero at√© os anos 1980s, mas cresceu exponencialmente, atingindo o pico na d√©cada de 2020s (quase 0.50).

**Status**: üü° **TRANSFORMAR/TRATAR COMO BIN√ÅRIA**
* **A√ß√£o recomendada**: Converter para vari√°vel categ√≥rica/bin√°ria (0 ou 1).

---

### üéØ **Resumo Comparativo das Features**

| Feature | Min | M√©dia | Mediana | Max | Distribui√ß√£o | Status | A√ß√£o |
| :------------- | :------- | :------- | :------- | :------- | :------------- | :--------- | :-------- |
| **Year** | 1921 | ~1977 | ~1977 | 2020 | Retangular (ap√≥s 1950) | üü¢ | Manter |
| **Popularity** | 0 | ~32 | ~33 | 100 | Assim√©trica (Pico em 0) | üü¢ | Manter |
| **Valence** | 0.0 | ~0.53 | ~0.54 | 1.0 | Quase Uniforme | üü¢ | Manter |
| **Energy** | 0.0 | ~0.50 | ~0.50 | 1.0 | Levemente Assim√©trica | üü¢ | Manter |
| **Danceability** | 0.0 | ~0.55 | ~0.55 | 1.0 | Normal (Sino) | üü¢ | Manter |
| **Acousticness** | 0.0 | ~0.49 | ~0.50 | 1.0 | Bimodal (U-Shaped) | üü¢ | Manter |
| **Speechiness** | 0.0 | ~0.1 | ~0.05 | 1.0 | Altamente Assim√©trica (Pico em 0) | üü° | Log/Binarizar |
| **Instrumentalness** | 0.0 | ~0.17 | 0.0 | 1.0 | Extrema Concentra√ß√£o em 0.0 | üü° | Binarizar |
| **Explicit** | 0.0 | ~0.08 | 0.0 | 1.0 | Quase Bin√°ria (Picos 0 e 1) | üü° | Binarizar |

---

### üí° **Plano de A√ß√£o Final**

‚úÖ **Manter sem mudan√ßas (6 Features)**
* **Year, Popularity, Valence, Energy, Danceability, Acousticness**: Possuem distribui√ß√µes ou tend√™ncias temporais cruciais para a an√°lise, e sua natureza cont√≠nua √© relevante, mesmo com assimetrias (como em *Popularity* e *Acousticness*).

üü° **Transformar (3 Features)**
* **Instrumentalness**: Recomenda-se **binariza√ß√£o (0/1)** devido √† extrema concentra√ß√£o em 0.0.
* **Explicit**: Deve ser tratado como **vari√°vel bin√°ria** (0/1) para refletir sua natureza dicot√¥mica.
* **Speechiness**: Requer **Log-transforma√ß√£o ou binariza√ß√£o** para mitigar o vi√©s pr√≥ximo de zero.

### üìà **Recomenda√ß√£o Estrat√©gica Final**

**Principais Caracter√≠sticas Observadas:**
* **Vi√©s Temporal Forte**: O conjunto de dados revela uma mudan√ßa radical na produ√ß√£o musical ao longo do tempo.
* **Tend√™ncias Antag√¥nicas**: H√° uma forte tend√™ncia de **aumento** em *Energy*, *Danceability* e *Popularity*, contrastando com um **decr√©scimo** acentuado em *Acousticness* e *Instrumentalness*.

O pr√≥ximo passo l√≥gico seria a implementa√ß√£o das transforma√ß√µes nas features enviesadas para garantir que o modelo n√£o seja dominado pelos valores zero concentrados.