In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline
sns.set(style="whitegrid")

# === RUTA DE TU ARCHIVO (ya ajustada a lo que me pasaste) ===
CSV_PATH = r"C:\Users\sebas\Downloads\spotify (1).csv"

df = pd.read_csv(CSV_PATH)

# Algunas versiones del dataset traen una columna índice "Unnamed: 0"
if "Unnamed: 0" in df.columns:
    df = df.drop(columns=["Unnamed: 0"])

df.head(3)


Unnamed: 0,track_id,artists,album_name,track_name,popularity,duration_ms,explicit,danceability,energy,key,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo,time_signature,track_genre
0,5SuOikwiRyPMVoIQDJUgSV,Gen Hoshino,Comedy,Comedy,73,230666,False,0.676,0.461,1,-6.746,0,0.143,0.0322,1e-06,0.358,0.715,87.917,4,acoustic
1,4qPNDBW1i3p13qLCt0Ki3A,Ben Woodward,Ghost (Acoustic),Ghost - Acoustic,55,149610,False,0.42,0.166,1,-17.235,1,0.0763,0.924,6e-06,0.101,0.267,77.489,4,acoustic
2,1iJBSr7s7jYXzM8EGcbK5b,Ingrid Michaelson;ZAYN,To Begin Again,To Begin Again,57,210826,False,0.438,0.359,0,-9.734,1,0.0557,0.21,0.0,0.117,0.12,76.332,4,acoustic


In [2]:
print("Filas:", len(df))
print("Columnas:", df.shape[1])
print("\nColumnas:", df.columns.tolist())

print("\nTipos de datos:")
print(df.dtypes)

print("\nValores faltantes por columna:")
print(df.isna().sum().sort_values(ascending=False))


Filas: 114000
Columnas: 20

Columnas: ['track_id', 'artists', 'album_name', 'track_name', 'popularity', 'duration_ms', 'explicit', 'danceability', 'energy', 'key', 'loudness', 'mode', 'speechiness', 'acousticness', 'instrumentalness', 'liveness', 'valence', 'tempo', 'time_signature', 'track_genre']

Tipos de datos:
track_id             object
artists              object
album_name           object
track_name           object
popularity            int64
duration_ms           int64
explicit               bool
danceability        float64
energy              float64
key                   int64
loudness            float64
mode                  int64
speechiness         float64
acousticness        float64
instrumentalness    float64
liveness            float64
valence             float64
tempo               float64
time_signature        int64
track_genre          object
dtype: object

Valores faltantes por columna:
artists             1
album_name          1
track_name          1
track_id   

In [3]:
numeric_cols = df.select_dtypes(include=[np.number, "bool"]).columns.tolist()
categorical_cols = [c for c in df.columns if c not in numeric_cols]

print("Numéricas:", numeric_cols)
print("Categóricas:", categorical_cols)


Numéricas: ['popularity', 'duration_ms', 'explicit', 'danceability', 'energy', 'key', 'loudness', 'mode', 'speechiness', 'acousticness', 'instrumentalness', 'liveness', 'valence', 'tempo', 'time_signature']
Categóricas: ['track_id', 'artists', 'album_name', 'track_name', 'track_genre']


In [4]:
min_max = df[numeric_cols].agg(["min", "max"]).T
min_max


Unnamed: 0,min,max
popularity,0,100
duration_ms,0,5237295
explicit,False,True
danceability,0.0,0.985
energy,0.0,1.0
key,0,11
loudness,-49.531,4.532
mode,0,1
speechiness,0.0,0.965
acousticness,0.0,0.996


In [5]:
stats = pd.DataFrame({
    "mean": df[numeric_cols].mean(numeric_only=True),
    "median": df[numeric_cols].median(numeric_only=True),
    "std": df[numeric_cols].std(numeric_only=True, ddof=1),
    "min": df[numeric_cols].min(numeric_only=True),
    "max": df[numeric_cols].max(numeric_only=True),
}).round(4)

stats


Unnamed: 0,mean,median,std,min,max
popularity,33.2385,35.0,22.3051,0,100
duration_ms,228029.1531,212906.0,107297.7126,0,5237295
explicit,0.0855,0.0,0.2796,False,True
danceability,0.5668,0.58,0.1735,0.0,0.985
energy,0.6414,0.685,0.2515,0.0,1.0
key,5.3091,5.0,3.56,0,11
loudness,-8.259,-7.004,5.0293,-49.531,4.532
mode,0.6376,1.0,0.4807,0,1
speechiness,0.0847,0.0489,0.1057,0.0,0.965
acousticness,0.3149,0.169,0.3325,0.0,0.996


In [6]:
if "duration_ms" in df.columns:
    df["duration_min"] = df["duration_ms"] / 60000
    df[["duration_ms", "duration_min"]].describe().T
else:
    print("No se encontró la columna 'duration_ms'.")


In [7]:
conclusiones = []

# Tamaño y estructura
conclusiones.append(f"El dataset contiene {len(df):,} registros y {df.shape[1]} variables.")
conclusiones.append(
    "Incluye variables categóricas (por ejemplo: 'track_id', 'artists', 'album_name', 'track_name', 'track_genre') "
    "y numéricas (por ejemplo: 'popularity', 'duration_ms', 'danceability', 'energy', 'loudness', 'speechiness', "
    "'acousticness', 'instrumentalness', 'liveness', 'valence', 'tempo', 'key', 'mode', 'time_signature')."
)

# Popularidad
if "popularity" in df.columns:
    pop_mean = df["popularity"].mean()
    pop_median = df["popularity"].median()
    pop_std = df["popularity"].std()
    conclusiones.append(
        f"La popularidad presenta media ≈ {pop_mean:.2f}, mediana {pop_median:.0f} y desviación estándar ≈ {pop_std:.2f}; "
        "esto indica alta dispersión y concentración en valores bajos/medios según la distribución típica."
    )

# Duración
if "duration_ms" in df.columns:
    dur_mean_min = df["duration_ms"].mean() / 60000
    dur_median_min = df["duration_ms"].median() / 60000
    conclusiones.append(
        f"La duración típica de las pistas se ubica alrededor de {dur_median_min:.2f} minutos (mediana), "
        f"con una media de {dur_mean_min:.2f} minutos; existen outliers de duración muy corta o muy extensa."
    )

# Variables de audio 0–1 (si existen)
for col in ["danceability","energy","valence"]:
    if col in df.columns:
        conclusiones.append(
            f"{col.capitalize()} promedio ≈ {df[col].mean():.2f} (escala 0–1), lo que sugiere un comportamiento central moderado."
        )

# Explícitas
if "explicit" in df.columns and df["explicit"].dtype == bool:
    conclusiones.append(f"La proporción de pistas explícitas es ≈ {df['explicit'].mean()*100:.2f}%.")

# Rangos
if len(numeric_cols) > 0:
    conclusiones.append("Los rangos (mín–máx) por variable numérica confirman la amplitud del conjunto; "
                        "en particular, 'duration_ms' y 'tempo' pueden requerir revisión de outliers para análisis más robustos.")

print("\n".join(conclusiones))


El dataset contiene 114,000 registros y 21 variables.
Incluye variables categóricas (por ejemplo: 'track_id', 'artists', 'album_name', 'track_name', 'track_genre') y numéricas (por ejemplo: 'popularity', 'duration_ms', 'danceability', 'energy', 'loudness', 'speechiness', 'acousticness', 'instrumentalness', 'liveness', 'valence', 'tempo', 'key', 'mode', 'time_signature').
La popularidad presenta media ≈ 33.24, mediana 35 y desviación estándar ≈ 22.31; esto indica alta dispersión y concentración en valores bajos/medios según la distribución típica.
La duración típica de las pistas se ubica alrededor de 3.55 minutos (mediana), con una media de 3.80 minutos; existen outliers de duración muy corta o muy extensa.
Danceability promedio ≈ 0.57 (escala 0–1), lo que sugiere un comportamiento central moderado.
Energy promedio ≈ 0.64 (escala 0–1), lo que sugiere un comportamiento central moderado.
Valence promedio ≈ 0.47 (escala 0–1), lo que sugiere un comportamiento central moderado.
La proporció