# Análisis de Canciones – 20 Preguntas y Preguntas de Negocio

En este notebook se plantean 20 preguntas que combinan operaciones de agrupación, filtrado y análisis de negocio sobre el dataset de canciones. Los estudiantes deberán:
- Realizar análisis descriptivo básico (dimensiones, resumen estadístico, etc.).
- Aplicar agrupaciones y filtros para extraer información (por artista, género, año, etc.).
- Reflexionar sobre los resultados y plantear posibles estrategias de negocio en la industria musical.

¡Manos a la obra!

In [1]:
!wget https://github.com/javierherrera1996/lecture_analytics/raw/main/songs_normalize.csv

--2025-03-11 21:59:40--  https://github.com/javierherrera1996/lecture_analytics/raw/main/songs_normalize.csv
Resolving github.com (github.com)... 140.82.112.3
Connecting to github.com (github.com)|140.82.112.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/javierherrera1996/lecture_analytics/main/songs_normalize.csv [following]
--2025-03-11 21:59:40--  https://raw.githubusercontent.com/javierherrera1996/lecture_analytics/main/songs_normalize.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.108.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 254987 (249K) [text/plain]
Saving to: ‘songs_normalize.csv’


2025-03-11 21:59:40 (5.25 MB/s) - ‘songs_normalize.csv’ saved [254987/254987]



In [2]:
import pandas as pd
import numpy as np

data = pd.read_csv('songs_normalize.csv')

## Pregunta 1
**¿Cuántas filas y columnas tiene el dataset?**

_Muestra las dimensiones del DataFrame._

In [3]:
data

Unnamed: 0,artist,song,duration_ms,explicit,year,popularity,danceability,energy,key,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo,genre
0,Britney Spears,Oops!...I Did It Again,211160,False,2000,77,0.751,0.834,1,-5.444,0,0.0437,0.3000,0.000018,0.3550,0.894,95.053,pop
1,blink-182,All The Small Things,167066,False,1999,79,0.434,0.897,0,-4.918,1,0.0488,0.0103,0.000000,0.6120,0.684,148.726,"rock, pop"
2,Faith Hill,Breathe,250546,False,1999,66,0.529,0.496,7,-9.007,1,0.0290,0.1730,0.000000,0.2510,0.278,136.859,"pop, country"
3,Bon Jovi,It's My Life,224493,False,2000,78,0.551,0.913,0,-4.063,0,0.0466,0.0263,0.000013,0.3470,0.544,119.992,"rock, metal"
4,*NSYNC,Bye Bye Bye,200560,False,2000,65,0.614,0.928,8,-4.806,0,0.0516,0.0408,0.001040,0.0845,0.879,172.656,pop
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1995,Jonas Brothers,Sucker,181026,False,2019,79,0.842,0.734,1,-5.065,0,0.0588,0.0427,0.000000,0.1060,0.952,137.958,pop
1996,Taylor Swift,Cruel Summer,178426,False,2019,78,0.552,0.702,9,-5.707,1,0.1570,0.1170,0.000021,0.1050,0.564,169.994,pop
1997,Blanco Brown,The Git Up,200593,False,2019,69,0.847,0.678,9,-8.635,1,0.1090,0.0669,0.000000,0.2740,0.811,97.984,"hip hop, country"
1998,Sam Smith,Dancing With A Stranger (with Normani),171029,False,2019,75,0.741,0.520,8,-7.513,1,0.0656,0.4500,0.000002,0.2220,0.347,102.998,pop


In [None]:
data.shape

(2000, 18)

## Pregunta 2
**¿Cuál es la unidad de observación del dataset?**

_Describe qué representa cada fila (por ejemplo, una canción)._

Diferentes operaciones de agrupación, filtrado de informacion de datos basicos de una cancion y análisis de elementos musicales sobre una base de datos de canciones.

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 18 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   artist            2000 non-null   object 
 1   song              2000 non-null   object 
 2   duration_ms       2000 non-null   int64  
 3   explicit          2000 non-null   bool   
 4   year              2000 non-null   int64  
 5   popularity        2000 non-null   int64  
 6   danceability      2000 non-null   float64
 7   energy            2000 non-null   float64
 8   key               2000 non-null   int64  
 9   loudness          2000 non-null   float64
 10  mode              2000 non-null   int64  
 11  speechiness       2000 non-null   float64
 12  acousticness      2000 non-null   float64
 13  instrumentalness  2000 non-null   float64
 14  liveness          2000 non-null   float64
 15  valence           2000 non-null   float64
 16  tempo             2000 non-null   float64


## Pregunta 3
**Genera un resumen estadístico de las variables numéricas.**

_Utiliza el método `describe()` para visualizar conteos, medias, desviaciones, etc._

In [5]:
data.describe()

Unnamed: 0,duration_ms,year,popularity,danceability,energy,key,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo
count,2000.0,2000.0,2000.0,2000.0,2000.0,2000.0,2000.0,2000.0,2000.0,2000.0,2000.0,2000.0,2000.0,2000.0
mean,228748.1245,2009.494,59.8725,0.667438,0.720366,5.378,-5.512434,0.5535,0.103568,0.128955,0.015226,0.181216,0.55169,120.122558
std,39136.569008,5.85996,21.335577,0.140416,0.152745,3.615059,1.933482,0.497254,0.096159,0.173346,0.087771,0.140669,0.220864,26.967112
min,113000.0,1998.0,0.0,0.129,0.0549,0.0,-20.514,0.0,0.0232,1.9e-05,0.0,0.0215,0.0381,60.019
25%,203580.0,2004.0,56.0,0.581,0.622,2.0,-6.49025,0.0,0.0396,0.014,0.0,0.0881,0.38675,98.98575
50%,223279.5,2010.0,65.5,0.676,0.736,6.0,-5.285,1.0,0.05985,0.0557,0.0,0.124,0.5575,120.0215
75%,248133.0,2015.0,73.0,0.764,0.839,8.0,-4.16775,1.0,0.129,0.17625,6.8e-05,0.241,0.73,134.2655
max,484146.0,2020.0,89.0,0.975,0.999,11.0,-0.276,1.0,0.576,0.976,0.985,0.853,0.973,210.851


## Pregunta 4
**¿Cuál es el promedio de popularidad de las canciones?**

_Calcula la media de la columna 'popularity'._

In [6]:
data.popularity.mean()

59.8725

## Pregunta 5
**¿Cuál es la canción más popular?**

_Usa el valor máximo de la columna 'popularity' para identificarla._

In [7]:
data["popularity"].max()

89

In [8]:
data[data["popularity"] == 89 ]["song"]

Unnamed: 0,song
1322,Sweater Weather


## Pregunta 6
**¿Cuál es el artista más frecuente en el dataset?**

_Utiliza `value_counts()` sobre la columna 'artist'._

In [9]:
data["artist"].value_counts()

Unnamed: 0_level_0,count
artist,Unnamed: 1_level_1
Rihanna,25
Drake,23
Eminem,21
Calvin Harris,20
Britney Spears,19
...,...
Sidney Samson,1
Cam’ron,1
Elvis Presley,1
Lucenzo,1


## Pregunta 7
**Agrupa por artista y calcula el número de canciones por cada uno.**

_Esta agrupación ayudará a identificar quiénes tienen mayor presencia en el dataset._

In [10]:
data.groupby("artist")["song"].count().sort_values(ascending=False)

Unnamed: 0_level_0,song
artist,Unnamed: 1_level_1
Rihanna,25
Drake,23
Eminem,21
Calvin Harris,20
Britney Spears,19
...,...
Khia,1
Kevin Rudolf,1
Kevin Lyttle,1
Kevin Gates,1


## Pregunta 8
**Agrupa por artista y calcula la suma de popularidad.**

_Identifica el artista cuya suma de popularidad es mayor (podría interpretarse como "hit maker")._

In [11]:
data.groupby("artist")["popularity"].sum().sort_values(ascending=False)

Unnamed: 0_level_0,popularity
artist,Unnamed: 1_level_1
Rihanna,1803
Eminem,1519
Drake,1424
Calvin Harris,1356
Britney Spears,1198
...,...
Silentó,0
Storm Queen,0
AJR,0
The Lumineers,0


## Pregunta 9
**Agrupa por género y calcula la suma de popularidad.**

_Determina cuál es el género con mayor popularidad total._

In [12]:
data.groupby("genre")["popularity"].sum().sort_values(ascending=False)

Unnamed: 0_level_0,popularity
genre,Unnamed: 1_level_1
pop,25403
"hip hop, pop",17761
"hip hop, pop, R&B",14408
"pop, Dance/Electronic",11794
"pop, R&B",10284
hip hop,7979
"hip hop, pop, Dance/Electronic",4660
rock,3885
"rock, pop",2860
"rock, metal",2695


## Pregunta 10
**¿Cuál es el promedio de duración de las canciones (en milisegundos)?**

_Calcula la media de la columna 'duration_ms'._

In [13]:
data["duration_ms"].mean()

228748.1245

## Pregunta 11
**Agrupa por año y calcula el promedio de popularidad.**

_Identifica en qué año las canciones tuvieron mayor popularidad promedio._

In [14]:
data.groupby("year")["popularity"].mean().sort_values(ascending=False)

Unnamed: 0_level_0,popularity
year,Unnamed: 1_level_1
2018,70.850467
1999,64.921053
2008,63.721649
2019,63.011236
2002,62.4
2005,61.759615
2009,61.535714
2010,60.747664
2012,60.556522
2007,59.925532


## Pregunta 12
**Filtra las canciones explícitas y no explícitas y compara su popularidad promedio.**

_Analiza si las canciones con contenido explícito tienen mayor o menor popularidad._

In [15]:
data.groupby("explicit")["popularity"].mean()

Unnamed: 0_level_0,popularity
explicit,Unnamed: 1_level_1
False,59.259489
True,61.484574


Las canciones con contenido explicito son mas populares que las que censuran este contenido

## Pregunta 13 (Negocio)
**Identifica qué artistas tienen un promedio de popularidad mayor a 75.**

_Estos artistas podrían considerarse "hit makers". Filtra y agrupa la información y comenta las implicaciones para la industria musical._

In [21]:
data[data["popularity"] > 75][["artist", "popularity"]]

Unnamed: 0,artist,popularity
0,Britney Spears,77
1,blink-182,79
3,Bon Jovi,78
6,Eminem,86
9,Modjo,77
...,...,...
1984,Post Malone,80
1988,Panic! At The Disco,80
1995,Jonas Brothers,79
1996,Taylor Swift,78


Estos artistas que tienen popularidad mayor a 75 pueden verse como casi leyendas musicales, pues tendrian una comunidad de fans solida, leal y que siempre escuchen su musica, vayan a sus conciertos y compren sus discos. Por lo que es dificil que dejen de ser tan populares como lo son actualmente

## Pregunta 14
**Filtra las canciones del género 'pop' y calcula el promedio de danceability y energy.**

_Esto permitirá evaluar características musicales del pop._

In [None]:
pop=data[data["genre"] == "pop"]
pop

Unnamed: 0,artist,song,duration_ms,explicit,year,popularity,danceability,energy,key,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo,genre
0,Britney Spears,Oops!...I Did It Again,211160,False,2000,77,0.751,0.834,1,-5.444,0,0.0437,0.3000,0.000018,0.3550,0.894,95.053,pop
4,*NSYNC,Bye Bye Bye,200560,False,2000,65,0.614,0.928,8,-4.806,0,0.0516,0.0408,0.001040,0.0845,0.879,172.656,pop
10,Gigi D'Agostino,L'Amour Toujours,238759,False,2011,1,0.617,0.728,7,-7.932,1,0.0292,0.0328,0.048200,0.3600,0.808,139.066,pop
11,Eiffel 65,Move Your Body - Gabry Ponte Original Radio Edit,268863,False,1999,56,0.745,0.958,7,-9.664,1,0.0287,0.0813,0.324000,0.5330,0.960,129.962,pop
12,Bomfunk MC's,Freestyler,306333,False,2000,55,0.822,0.922,11,-5.798,0,0.0989,0.0291,0.325000,0.2520,0.568,163.826,pop
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1985,Ed Sheeran,Cross Me (feat. Chance the Rapper & PnB Rock),206186,True,2019,64,0.746,0.787,4,-6.373,1,0.1200,0.2140,0.000000,0.0669,0.607,95.005,pop
1990,Sam Smith,How Do You Sleep?,202204,False,2019,73,0.477,0.682,1,-4.931,0,0.0925,0.1530,0.000000,0.0763,0.345,110.567,pop
1995,Jonas Brothers,Sucker,181026,False,2019,79,0.842,0.734,1,-5.065,0,0.0588,0.0427,0.000000,0.1060,0.952,137.958,pop
1996,Taylor Swift,Cruel Summer,178426,False,2019,78,0.552,0.702,9,-5.707,1,0.1570,0.1170,0.000021,0.1050,0.564,169.994,pop


In [None]:
pop[["danceability","energy"]].mean()

Unnamed: 0,0
danceability,0.647886
energy,0.716376


## Pregunta 15 (Negocio)
**¿Qué insights se pueden obtener de la relación entre danceability y popularidad?**

_Reflexiona sobre cómo la capacidad de baile (danceability) puede influir en el éxito comercial de una canción. (Respuesta abierta)_

La capacidad que tiene una cancion de ser bailable afecta al exito comercial de esta en el sentido en el que al ser mas movida y tenga mas ritmo podria ser reproducida mas en lugares como discotecas, clubes, tiendas de ropa, restaurantes y tiene mas probabilidad de sonar en la radio por el buen humor en el que pone a sus oyentes, por lo que podria llegar a tener mas exito

## Pregunta 16
**Agrupa por 'mode' y calcula el promedio de loudness.**

_El valor de 'mode' (mayormente 0 o 1) puede tener implicaciones en la tonalidad; analiza si hay diferencias en el loudness._

In [None]:
data.groupby("mode")["loudness"].mean()

Unnamed: 0_level_0,loudness
mode,Unnamed: 1_level_1
0,-5.451888
1,-5.561276


Basandonos en que para analizar el tono, 0 seria tono menor y 1 tono mayor y para la tonalidad, un valor más cercano a 0 indica un volumen percibido más alto. Se puede analizar que el modo 0 tiene una intensidad sonora ligeramente superior al modo 1

## Pregunta 17 (Negocio)
**Analiza la influencia de 'acousticness' en la popularidad.**

_Agrupa las canciones en rangos (por ejemplo, baja, media y alta acousticness) y calcula el promedio de popularidad para cada grupo. Comenta las posibles implicaciones para productores musicales._

In [32]:
bins = [0, 0.33, 0.66, 1]
labels = ['Baja', 'Media', 'Alta']
data['acousticness_level'] = pd.cut(data['acousticness'], bins=bins, labels=labels, include_lowest=True)

In [34]:
data.groupby("acousticness_level")["popularity"].mean()

  data.groupby("acousticness_level")["popularity"].mean()


Unnamed: 0_level_0,popularity
acousticness_level,Unnamed: 1_level_1
Baja,59.925821
Media,57.746032
Alta,66.711111


 Debido a que la popularidad de la música acústica es significativamente mayor en comparación con niveles medios y bajos, se sugiere que los productores musicales que buscan alcanzar una mayor popularidad podrían beneficiarse al incorporar elementos acústicos en sus producciones, como el uso de instrumentos acústicos, la creación de arreglos acústicos o la producción de canciones con un sonido más orgánico y natural.

## Pregunta 18
**Filtra las canciones con un tempo entre 100 y 120 BPM y cuenta cuántas hay.**

_Este filtro puede ayudar a identificar canciones con un ritmo intermedio, común en varios géneros populares._

In [39]:
tempo=data[(data["tempo"] >= 100) & (data["tempo"] <= 120)]
tempo

Unnamed: 0,artist,song,duration_ms,explicit,year,popularity,danceability,energy,key,loudness,mode,speechiness,acousticness,instrumentalness,liveness,valence,tempo,genre,acousticness_level
3,Bon Jovi,It's My Life,224493,False,2000,78,0.551,0.913,0,-4.063,0,0.0466,0.0263,0.000013,0.3470,0.544,119.992,"rock, metal",Baja
6,Eminem,The Real Slim Shady,284200,True,2000,86,0.949,0.661,5,-4.244,0,0.0572,0.0302,0.000000,0.0454,0.760,104.504,hip hop,Baja
7,Robbie Williams,Rock DJ,258560,False,2000,68,0.708,0.772,7,-4.264,1,0.0322,0.0267,0.000000,0.4670,0.861,103.035,"pop, rock",Baja
13,Sting,Desert Rose,285960,False,1999,62,0.586,0.659,0,-7.920,0,0.0304,0.0110,0.000000,0.1060,0.147,111.989,"rock, pop",Baja
16,Anastacia,I'm Outta Love - Radio Edit,245400,False,1999,64,0.761,0.716,10,-5.800,0,0.0560,0.3960,0.000000,0.0771,0.649,119.410,pop,Media
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1981,Sam Feldt,Post Malone (feat. RANI),174444,False,2019,69,0.590,0.642,7,-3.870,1,0.1220,0.0771,0.000000,0.1050,0.651,107.356,"pop, Dance/Electronic",Baja
1986,Lauv,i'm so tired...,162582,False,2019,2,0.599,0.733,11,-7.058,1,0.2030,0.1760,0.000000,0.2420,0.534,102.211,"pop, Dance/Electronic",Baja
1990,Sam Smith,How Do You Sleep?,202204,False,2019,73,0.477,0.682,1,-4.931,0,0.0925,0.1530,0.000000,0.0763,0.345,110.567,pop,Baja
1991,NSG,Options,240081,True,2020,57,0.836,0.621,1,-4.684,0,0.0894,0.3890,0.000092,0.1040,0.762,101.993,"World/Traditional, hip hop",Media


In [40]:
tempo["song"].count()

434

## Pregunta 19
**Agrupa por 'explicit' y calcula el promedio de 'valence'.**

_El 'valence' mide el tono emocional (positivo o negativo) de una canción. Compara canciones explícitas y no explícitas._

In [41]:
data.groupby("explicit")["valence"].mean()

Unnamed: 0_level_0,valence
explicit,Unnamed: 1_level_1
False,0.557879
True,0.535413


Las canciones no explicitas tienden a ser mas positivas en promedio, aunque se evidencia los valores son bastante cercanos, lo que sugiere que tanto las canciones explícitas como las no explícitas pueden abarcar un amplio espectro de emociones.

## Pregunta 20 (Negocio)
**Basado en el análisis previo (popularidad, atributos musicales y agrupaciones), ¿qué estrategias recomendarías a un productor musical para diseñar hits?**

_Considera aspectos como el estilo musical, características sonoras (danceability, energy, acousticness) y tendencias por género. (Respuesta abierta)_

Los productores musicales podrian enfocarse en incorporar elementos acústicos, ya que la música acústica muestra alta popularidad, incorporar el género "pop" ya que sigue siendo dominante, y dentro de este género, las canciones con alta "danceability" y "energy" tienen mayores probabilidades de éxito comercial. Finalmente las canciones con tono positivo tienden a ser más populares, y aunque el contenido explícito es opcional, las canciones explícitas tienen una popularidad ligeramente superior.

## Conclusión

En este notebook se han planteado 20 preguntas que combinan operaciones técnicas de análisis (agrupaciones, filtros y estadísticas) con reflexiones de negocio en el contexto de la industria musical. Estos ejercicios permiten a los estudiantes extraer insights y proponer estrategias basadas en el comportamiento y características de las canciones.