# Programación avanzada- UNICABA

## Ejercicio de cierre de unidad 2

### Analisis de trends musicales en streaming segun Billboard

Tipo: Texto (string)

In [1]:
######################-DICCIONARIO DE DATOS DEL DATASET-###########

# 1-Date: Tipo: Fecha (formato yyyy/mm/dd) #    Descripción: Fecha en la que se registró el ranking de la canción.
# 2-Song: Tipo: Texto (string) #    Descripción: Nombre de la canción en el ranking.
# 3-Artist: Tipo: Texto (string) #    Descripción: Nombre del artista o grupo musical (puede incluir “Featuring” si hay colaboraciones).
# 4-Rank: Tipo: Numérico entero #    Descripción: Posición actual de la canción en el ranking (1 = primer lugar).
# 5-Last_Week:Tipo: Numérico entero #    Descripción: Posición que ocupaba la canción en la semana anterior.
# 6-Peak_Position:Tipo: Numérico entero #    Descripción: Mejor posición alcanzada por la canción en el ranking hasta la fecha.
# 7-Weeks_in_Charts:Tipo: Numérico entero #    Descripción: Número de semanas que la canción lleva en el ranking.

In [2]:
import os
from supabase import create_client, Client
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

In [3]:
# Configuración
SUPABASE_URL = os.environ.get("SUPABASE_URL")
SUPABASE_KEY = os.environ.get("SUPABASE_KEY")
TABLE_NAME = "Dataset_Ranking"
PAGE_SIZE = 1000  # Límite por defecto de Supabase
# ---------------------------------------------
# Inicialización
supabase: Client = create_client(SUPABASE_URL, SUPABASE_KEY)
all_records = []
offset = 0

print(f"Iniciando descarga paginada de la tabla '{TABLE_NAME}'...")

while True:
    #  Definir el rango de filas a solicitar (paginación)
    start_row = offset
    end_row = offset + PAGE_SIZE - 1

    # print(f" -> Fetching filas {start_row} a {end_row}...")

    #  Ejecutar la consulta con el rango
    response = (
        supabase.table(TABLE_NAME)
        .select("*")
        .order("Date", desc=True)
        .range(start_row, end_row)  #  La clave de la paginación
        .execute()
    )

    data = response.data

    #  Romper el bucle si no hay más datos
    if not data:
        print("Descarga completa: No se encontraron más registros.")
        break

    #  Acumular los registros
    all_records.extend(data)

    #  Aumentar el desplazamiento para la siguiente página
    offset += PAGE_SIZE

#  Crear el DataFrame ÚNICO
if all_records:
    df = pd.DataFrame(all_records)
    print(f"\n  {len(df)} registros totales cargados en un solo DataFrame.")

else:
    print("La tabla está vacía.")

SupabaseException: supabase_url is required

In [None]:
# dataframe
# df = pd.read_csv("/work/streaming_songs.csv")
df.head(10)

In [None]:
# encontrar vacios
df.isnull().sum()
df.info()
print(f"Filas: {df.shape[0]}, Columnas: {df.shape[1]}")

In [None]:
df.describe()

Los datos fueron recolectados desde el 23/01/2013 hasta el 24/09/2025, contiene 33050 registros de canciones de streaming calculadas por Billboard

In [None]:
# columna Date a datetime
df["Date"] = pd.to_datetime(df["Date"], format="%Y-%m-%d", errors="coerce")

# Extraer el año
df["Year"] = df["Date"].dt.year

# canciones por año

songs_per_year = df.groupby("Year")["Song"].nunique().reset_index()
songs_per_year.columns = ["Year", "UniqueSongCount"]

average_unique_songs_per_year = songs_per_year["UniqueSongCount"].mean()
print(f"Promedio de canciones únicas por año: {average_unique_songs_per_year:.2f}")

In [None]:
# Graficar
fig = px.line(
    songs_per_year,
    x="Year",
    y="UniqueSongCount",
    markers=True,
    title="Evolución de canciones por año",
    labels={"Year": "Año", "UniqueSongCount": "Cantidad de canciones"},
)

fig.update_layout(template="plotly_white")
fig.show()

Hay una media de 343 canciones por año, se evidencia una mayor cantidad de canciones en streaming a medida que pasa el tiempo. Nota: la cantidad en el 2025 se debe a que solo se incluye hasta septiembre

In [None]:
# canciones únicas
unique_songs = df["Song"].nunique()

#  card
fig = go.Figure(
    go.Indicator(
        mode="number",
        value=unique_songs,
        title={"text": " Canciones únicas en streaming"},
        number={"valueformat": ","},
    )
)

fig.update_layout(height=200, margin=dict(t=30, b=0, l=0, r=0), template="plotly_white")

fig.show()

In [None]:
#  artistas únicos
unique_artists = df["Artist"].nunique()

#  card
fig = go.Figure(
    go.Indicator(
        mode="number",
        value=unique_artists,
        title={"text": " Artistas únicos"},
        number={"valueformat": ","},
    )
)

fig.update_layout(height=200, margin=dict(t=30, b=0, l=0, r=0), template="plotly_white")

fig.show()

In [None]:
# Filtrar solo las filas donde Peak Position es 1
top_hits = df[df["Peak_Position"] == 1]

#  #1 de cada artista
artist_counts = top_hits["Artist"].value_counts()

# artista con más #1
top_artist = artist_counts.idxmax()
top_count = artist_counts.max()
print(f"El artista con más semanas en el puesto #1 es: {top_artist} ({top_count})")
print(artist_counts.head(10))

In [None]:
# top 10 artistas
top_10_artists = artist_counts.head(10).index.tolist()

# Filtrar los datos de esos artistas
top_10_data = top_hits[top_hits["Artist"].isin(top_10_artists)]

# Agrupar por año y artista
artist_year_counts = (
    top_10_data.groupby(["Year", "Artist"]).size().reset_index(name="NumberOneHits")
)
fig = px.bar(
    artist_year_counts,
    x="Year",
    y="NumberOneHits",
    color="Artist",
    barmode="group",
    title=" Evolución anual de los top 10 artistas con canciones en el puesto #1",
    labels={"Year": "Año", "NumberOneHits": "#1 por año"},
)

fig.update_layout(
    legend=dict(orientation="h", yanchor="bottom", y=-0.3, xanchor="center", x=0.5),
    template="plotly_white",
    height=600,
)

fig.show()

In [None]:
#  top 10 artistas
top_10_artists = artist_counts.head(5).index.tolist()

# Filtrar solo los datos de esos artistas
top_10_data = top_hits[top_hits["Artist"].isin(top_10_artists)]

# Agrupar por año y artista
artist_year_counts = (
    top_10_data.groupby(["Year", "Artist"]).size().reset_index(name="NumberOneHits")
)
import plotly.express as px

fig = px.line(
    artist_year_counts,
    x="Year",
    y="NumberOneHits",
    color="Artist",
    markers=True,
    title=" Evolución temporal de los top 10 artistas con canciones en el puesto #1",
    labels={"Year": "Año", "NumberOneHits": "#1 por año"},
)

fig.update_layout(
    legend=dict(orientation="h", yanchor="bottom", y=-0.3, xanchor="center", x=0.5),
    template="plotly_white",
    height=600,
)

fig.show()

In [None]:
top_1 = df[df["Peak_Position"] == 1].copy()
# Extraer el año
top_1["year"] = top_1["Date"].dt.year

# Contar artistas únicos por año
artistas_por_anio = top_1.groupby("Year")["Artist"].nunique().reset_index()
artistas_por_anio.columns = ["año", "artistas_unicos_en_posicion_1"]

print(artistas_por_anio)

fig = px.line(
    artistas_por_anio,
    x="año",
    y="artistas_unicos_en_posicion_1",
    markers=True,
    title="Artistas únicos en la posición #1 por año",
    labels={"anio": "Año", "artistas_unicos_en_posicion_1": "Artistas únicos en #1"},
)

fig.update_layout(
    xaxis=dict(dtick=1), yaxis=dict(title="Cantidad de artistas"), hovermode="x unified"
)

fig.show()

In [None]:
# mejor posición que alcanzó cada canción
best_positions = df.groupby("Song", as_index=False)["Peak_Position"].min()

# Unir con los artistas
song_artist = df.groupby("Song", as_index=False)["Artist"].first()

# Merge para tener artista + mejor posición
merged = pd.merge(best_positions, song_artist, on="Song")

# Filtrar canciones que llegaron al top 10
top_10_songs = merged[merged["Peak_Position"] <= 10]

#  artistas únicos que llegaron al top 10
top_10_artists = top_10_songs["Artist"].unique()

# Contar cuántos artistas son
num_top_10_artists = len(top_10_artists)

print(f" Total de artistas que llegaron alguna vez al top 10: {num_top_10_artists}")

In [None]:
# Revisar el error y corregir el código
# Parece que hay un error en la creación del DataFrame, ya que se está utilizando el índice en lugar de los valores de la columna "Artist".

# Corregir el código
# Crear un DataFrame con los 10 artistas con más semanas en la última posición
last_position_hits = df[df["Rank"] == 50]

# Contar el número de semanas que cada artista ha estado en la última posición
last_position_counts = last_position_hits["Artist"].value_counts().head(10)

# Crear un DataFrame para los 10 artistas con más semanas en la última posición
top_10_last_position = last_position_counts.reset_index()
top_10_last_position.columns = ["Artist", "Weeks in Last Position"]

# Graficar
fig = px.bar(
    top_10_last_position,
    x="Weeks in Last Position",
    y="Artist",
    orientation="h",
    title="Top 10 Artistas con más semanas en la última posición",
    text="Weeks in Last Position",
)

fig.update_traces(texttemplate="%{text}", textposition="inside")
fig.update_layout(
    xaxis_title="Semanas en la última posición",
    yaxis_title="Artista",
    template="plotly_white",
    height=600,
)

fig.show()

### Tendencia de cantidad de artistas nuevos por año

In [None]:
# Tendencia de cantidad de artistas nuevos por año
import plotly.express as px
df["Año"] = df["Date"].dt.year
# Encontrar el primer año en que cada artista aparece
primer_anio_artista = df.groupby("Artist")["Año"].min().reset_index()
artistas_nuevos_por_anio = primer_anio_artista.groupby("Año").size().reset_index(name="Artistas nuevos")
fig = px.line(artistas_nuevos_por_anio, x="Año", y="Artistas nuevos", title="Tendencia de artistas nuevos por año", labels={"Año": "Año", "Artistas nuevos": "Cantidad de artistas"})
fig.update_layout(template="plotly_white", xaxis_title="Año", yaxis_title="Cantidad de artistas nuevos")
fig.show()

La tendencia revela ciclos de auge y caída en la incorporación de artistas nuevos, con un crecimiento importante de artistas entre 2016 y 2020, pero una disminución notoria en los años más recientes.

### Mapa de calor: Top 10 artistas con más semanas en el ranking mostrando cuántas veces alcanzaron el puesto #1 por año

In [None]:
# Mapa de calor: Top 10 artistas con más semanas en el ranking mostrando cuántas veces alcanzaron el puesto #1 por año
import plotly.express as px

# Filtrar solo las filas donde Peak_Position es 1 (puesto #1)
top_hits = df[df["Peak_Position"] == 1].copy()

# Contar semanas en el ranking por artista
artist_weeks = df.groupby("Artist")["Weeks_in_Charts"].sum().sort_values(ascending=False)

# Seleccionar los 10 artistas con más semanas en el ranking
top_10_artists = artist_weeks.head(10).index.tolist()

# Filtrar los datos de esos artistas en el puesto #1
top_10_data = top_hits[top_hits["Artist"].isin(top_10_artists)]

# Extraer el año
top_10_data["Año"] = top_10_data["Date"].dt.year

# Agrupar por año y artista, contar cuántas veces alcanzaron el puesto #1
heatmap_data = top_10_data.groupby(["Año", "Artist"]).size().reset_index(name="Veces_en_posicion_1")

# Crear el mapa de calor
fig = px.density_heatmap(
    heatmap_data,
    x="Año",
    y="Artist",
    z="Veces_en_posicion_1",
    color_continuous_scale="Viridis",
    title="Mapa de calor: Top 10 artistas con más semanas en el ranking en el puesto #1 por año",
    labels={"Año": "Año", "Artist": "Artista", "Veces_en_posicion_1": "#1 por año"}
)
fig.update_layout(height=600, template="plotly_white")
fig.show()

El mapa refleja cómo distintos artistas han dominado en años específicos, sin una continuidad prolongada en el tiempo, lo que sugiere que el liderazgo en el ranking cambia de forma constante entre diferentes géneros y colaboraciones.

### TASA de éxito por cantidad de canciones que llegaron al top 10 (2013-2025)

In [None]:
import pandas as pd
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# df ya está cargado previamente


# --- 2. CÁLCULO DEL KPI DE TASA DE ÉXITO ---

# Tasa de Éxito (Top 10)
total_entries = len(df)
top_10_entries = df[df['Peak_Position'] <= 10]
conversion_rate_top10 = (len(top_10_entries) / total_entries) * 100
conversion_rate_rounded = round(conversion_rate_top10)

# El porcentaje de "No Éxito" para el medidor
failure_rate = 100 - conversion_rate_rounded


# --- 3. Generación del Dashboard con Plotly Gauge (DETALLADO) ---

# Creamos una figura simple para el indicador de medidor
fig_kpi = go.Figure()

# Indicador 3: Tasa de Éxito como un Gauge/Medidor
fig_kpi.add_trace(go.Indicator(
    mode="gauge+number+delta",
    value=conversion_rate_rounded,
    delta={'reference': 50, 'relative': False, 'valueformat': "d%"}, # Usamos 50% como referencia base
    domain={'x': [0, 1], 'y': [0, 1]},
    title={'text': "Tasa de Éxito de Canciones<br><sub>% que Alcanzó el Top 10 desde 2013 a 2025</sub>", 'font': {'size': 18}},
    number={'valueformat': "d%", 'font': {'size': 48}},
    gauge={
        'shape': "angular",
        'axis': {'range': [None, 100], 'tickwidth': 1, 'tickcolor': "darkblue"},
        'bar': {'color': "#333"},
        # Estilos visuales del medidor (los colores)
        'steps': [
            # Color para el 0% al 50% (Rendimiento Bajo/Medio)
            {'range': [0, 50], 'color': "lightgray"},
            # Color para el 50% al 100% (Rendimiento Alto)
            {'range': [50, 100], 'color': "rgba(26, 115, 232, 0.4)"} # Azul más claro
        ],
        # Color que cubre el valor final (el 65% en tu caso)
        'threshold': {
            'line': {'color': "red", 'width': 4},
            'thickness': 0.75,
            'value': conversion_rate_rounded
        }
    }
))

# Añadimos anotaciones para el valor que no llego al top 10
fig_kpi.add_annotation(
    x=0.5,
    y=0.25, # Posición justo debajo del valor
    text=f"**{failure_rate}%** no llegó al Top 10",
    showarrow=False,
    font=dict(
        family="Arial",
        size=16,
        color="gray"
    )
)

# Ajustes de Layout
fig_kpi.update_layout(
    title_text="KPI: Conversión a Éxito (Top 10)",
    height=400, 
    margin=dict(t=80, b=10, l=10, r=10),
    template='plotly_white'
)

fig_kpi.show()

### Top 10 canciones de Taylor Swift que alcanzaron más veces la posición #1

In [None]:
# Top 10 canciones de Taylor Swift que alcanzaron más veces la posición #1
import plotly.express as px

# Filtrar canciones de Taylor Swift
taylor_df = df[df["Artist"].fillna("").str.contains("Taylor Swift", case=False, na=False)]

# Filtrar solo las filas donde Peak_Position es 1
taylor_top1 = taylor_df[taylor_df["Peak_Position"] == 1]

# Contar cuántas veces cada canción alcanzó la posición 1
canciones_top1 = taylor_top1["Song"].value_counts().reset_index()
canciones_top1.columns = ["Song", "Veces_en_posicion_1"]

# Seleccionar el top 10
top_10_canciones = canciones_top1.head(10)

if top_10_canciones.empty:
    print("No hay suficientes datos para mostrar el top 10 de canciones de Taylor Swift en la posición #1.")
else:
    fig = px.bar(
        top_10_canciones,
        x="Song",
        y="Veces_en_posicion_1",
        color="Song",
        title="Top 10 canciones de Taylor Swift que alcanzaron más veces la posición #1",
        labels={"Veces_en_posicion_1": "Veces en posición #1", "Song": "Canción"}
    )
    fig.update_traces(texttemplate="%{y}", textposition="outside", showlegend=False)
    fig.update_layout(template="plotly_white", xaxis_title="Canción", yaxis_title="Veces en posición #1", height=700, margin=dict(t=60, b=60, l=80, r=80), showlegend=False)
    fig.show()

El gráfico muestra que Taylor Swift ha logrado consolidar múltiples éxitos en el puesto #1, destacando “Anti-Hero” y “Shake It Off” como sus mayores hits. Aunque algunas canciones tienen menor presencia, la tendencia refleja su capacidad constante para dominar los rankings a lo largo de distintas etapas de su carrera.

### TASA de éxito por cantidad de canciones que llegaron al top 10 de Taylor Swift (2013-2025)

In [None]:

import pandas as pd
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# 1. ORÍGEN DE DATOS Y FILTRADO
# df ya está cargado con pd.DataFrame(all_records).

ARTISTA_ANALIZADO = "Taylor Swift"
df_artist = df[df['Artist'] == ARTISTA_ANALIZADO].copy()

# --- CÁLCULO DE LA CANTIDAD DE ENTRADAS/CANCIONES CONSIDERADAS ---
cantidad_entradas_totales = len(df_artist)
# --- FIN DEL CÁLCULO DE CANTIDAD ---

# --- 2. CÁLCULO DEL KPI DE TASA DE ÉXITO (Solo para Taylor Swift) ---

if df_artist.empty:
    conversion_rate_rounded = 0
    failure_rate = 100
    print(f"Advertencia: No se encontraron registros para el artista '{ARTISTA_ANALIZADO}'. Mostrando 0% de éxito.")
else:
    # Tasa de Éxito (Top 10)
    total_entries = len(df_artist)
    top_10_entries = df_artist[df_artist['Peak_Position'] <= 10]
    conversion_rate_top10 = (len(top_10_entries) / total_entries) * 100
    conversion_rate_rounded = round(conversion_rate_top10)

    # El porcentaje de "No Éxito" para el medidor
    failure_rate = 100 - conversion_rate_rounded
    
# --- IMPRESIÓN DEL RESULTADO ---
print(f"El análisis de Taylor Swift se basa en {cantidad_entradas_totales:,} entradas en el ranking.")
print(f"De estas, {len(top_10_entries):,} son entradas que alcanzaron el Top 10.")
print("-" * 40)


# --- 3. Generación del Dashboard con Plotly Gauge ---

fig_kpi = go.Figure()

delta_value = conversion_rate_rounded - 50

fig_kpi.add_trace(go.Indicator(
    mode="gauge+number+delta", 
    value=conversion_rate_rounded,
    
    delta={
        'reference': 50, 
        'relative': False, 
        'valueformat': "d%",
        'increasing': {'color': "#28a745"}, 
        'decreasing': {'color': "#dc3545"} 
    }, 
    
    domain={'x': [0, 1], 'y': [0, 1]},
    title={
        # Se añade el total de entradas al título para hacerlo más informativo
        'text': f"Tasa de Éxito de Canciones<br><sub>{ARTISTA_ANALIZADO} ({cantidad_entradas_totales:,} entradas)</sub>", 
        'font': {'size': 16}
    },
    number={'valueformat': "d%", 'font': {'size': 48}}, 
    gauge={
        'shape': "angular",
        'axis': {'range': [None, 100], 'tickwidth': 1, 'tickcolor': "darkblue"},
        'bar': {'color': "#333"},
        'steps': [
            {'range': [0, 50], 'color': "lightgray"},
            {'range': [50, 100], 'color': "rgba(25, 135, 84, 0.4)"}
        ],
        'threshold': {
            'line': {'color': "red", 'width': 4},
            'thickness': 0.75,
            'value': conversion_rate_rounded
        }
    }
))

fig_kpi.add_annotation(
    x=0.5,
    y=0.25, 
    text=f"**{failure_rate}%** no llegó al Top 10",
    showarrow=False,
    font=dict(
        family="Arial",
        size=16,
        color="gray"
    )
)

# Ajustes de Layout
fig_kpi.update_layout(
    title_text=f"⭐ Rendimiento de {ARTISTA_ANALIZADO}: Conversión a Éxito (Top 10)",
    height=420, 
    margin=dict(t=100, b=10, l=10, r=10),
    template='plotly_white'
)

fig_kpi.show()

### Tendencia de cantidad de canciones nuevas por año del artista Drake

In [None]:
# Tendencia de cantidad de canciones nuevas por año del artista Drake
import plotly.express as px

# Filtrar solo las canciones de Drake
drake_df = df[df["Artist"].fillna("").str.contains("Drake", case=False, na=False)].copy()

# Extraer el año de la columna Date
drake_df["Año"] = drake_df["Date"].dt.year

# Encontrar el primer año en que cada canción de Drake aparece
primer_anio_cancion = drake_df.groupby("Song")["Año"].min().reset_index()

# Contar cuántas canciones nuevas lanzó Drake por año
canciones_nuevas_por_anio = primer_anio_cancion.groupby("Año").size().reset_index(name="Canciones nuevas")

fig = px.line(
    canciones_nuevas_por_anio,
    x="Año",
    y="Canciones nuevas",
    markers=True,
    title="Tendencia de cantidad de canciones nuevas por año de Drake",
    labels={"Año": "Año", "Canciones nuevas": "Canciones nuevas"}
)
fig.update_layout(template="plotly_white", xaxis_title="Año", yaxis_title="Canciones nuevas", height=500)
fig.show()

El gráfico refleja la tendencia de nuevas canciones de Drake a lo largo de los años. Se observa una fuerte variabilidad: con picos destacados en 2018 y entre 2021-2022, donde lanzó la mayor cantidad de temas, y caídas notables en 2014 y 2024. En general, la producción musical de Drake muestra ciclos de alta intensidad seguidos de descensos, lo que sugiere etapas de gran actividad creativa alternadas con periodos de menor lanzamiento.