# Análisis de Canciones – 20 Preguntas y Preguntas de Negocio

En este notebook se plantean 20 preguntas que combinan operaciones de agrupación, filtrado y análisis de negocio sobre el dataset de canciones. Los estudiantes deberán:
- Realizar análisis descriptivo básico (dimensiones, resumen estadístico, etc.).
- Aplicar agrupaciones y filtros para extraer información (por artista, género, año, etc.).
- Reflexionar sobre los resultados y plantear posibles estrategias de negocio en la industria musical.

¡Manos a la obra!

In [1]:
!wget https://github.com/javierherrera1996/lecture_analytics/raw/main/songs_normalize.csv

--2025-03-20 23:40:12--  https://github.com/javierherrera1996/lecture_analytics/raw/main/songs_normalize.csv
Resolving github.com (github.com)... 140.82.112.4
Connecting to github.com (github.com)|140.82.112.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/javierherrera1996/lecture_analytics/main/songs_normalize.csv [following]
--2025-03-20 23:40:13--  https://raw.githubusercontent.com/javierherrera1996/lecture_analytics/main/songs_normalize.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.108.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 254987 (249K) [text/plain]
Saving to: ‘songs_normalize.csv’


2025-03-20 23:40:13 (44.6 MB/s) - ‘songs_normalize.csv’ saved [254987/254987]



In [2]:
# Importar librerías necesarias
import pandas as pd
import numpy as np

# Leer el dataset (asegúrate de haber subido 'songs_normalize.csv' a tu entorno de Colab)
data = pd.read_csv('songs_normalize.csv')

## Pregunta 1
**¿Cuántas filas y columnas tiene el dataset?**

_Muestra las dimensiones del DataFrame._

In [5]:
dimensiones = data.shape
print("Dimensiones del dataset:", dimensiones)

Dimensiones del dataset: (2000, 18)


## Pregunta 2
**¿Cuál es la unidad de observación del dataset?**

_Describe qué representa cada fila (por ejemplo, una canción)._

In [6]:
unidad_observacion = "Cada fila representa una canción con sus características y metadatos."
print(unidad_observacion)

Cada fila representa una canción con sus características y metadatos.


## Pregunta 3
**Genera un resumen estadístico de las variables numéricas.**

_Utiliza el método `describe()` para visualizar conteos, medias, desviaciones, etc._

In [7]:
resumen_estadistico = data.describe()
print(resumen_estadistico)

         duration_ms        year   popularity  danceability       energy  \
count    2000.000000  2000.00000  2000.000000   2000.000000  2000.000000   
mean   228748.124500  2009.49400    59.872500      0.667438     0.720366   
std     39136.569008     5.85996    21.335577      0.140416     0.152745   
min    113000.000000  1998.00000     0.000000      0.129000     0.054900   
25%    203580.000000  2004.00000    56.000000      0.581000     0.622000   
50%    223279.500000  2010.00000    65.500000      0.676000     0.736000   
75%    248133.000000  2015.00000    73.000000      0.764000     0.839000   
max    484146.000000  2020.00000    89.000000      0.975000     0.999000   

               key     loudness         mode  speechiness  acousticness  \
count  2000.000000  2000.000000  2000.000000  2000.000000   2000.000000   
mean      5.378000    -5.512434     0.553500     0.103568      0.128955   
std       3.615059     1.933482     0.497254     0.096159      0.173346   
min       0.000

## Pregunta 4
**¿Cuál es el promedio de popularidad de las canciones?**

_Calcula la media de la columna 'popularity'._

In [8]:
promedio_popularidad = data['popularity'].mean()
print("Promedio de popularidad:", promedio_popularidad)

Promedio de popularidad: 59.8725


## Pregunta 5
**¿Cuál es la canción más popular?**

_Usa el valor máximo de la columna 'popularity' para identificarla._

In [15]:
cancion_mas_popular = data.loc[data['popularity'].idxmax()]
print("Canción más popular:\n", cancion_mas_popular[['song', 'artist', 'popularity']])


Canción más popular:
 song            Sweater Weather
artist        The Neighbourhood
popularity                   89
Name: 1322, dtype: object


## Pregunta 6
**¿Cuál es el artista más frecuente en el dataset?**

_Utiliza `value_counts()` sobre la columna 'artist'._

In [11]:
artista_mas_frecuente = data['artist'].value_counts().idxmax()
print("Artista más frecuente:", artista_mas_frecuente)

Artista más frecuente: Rihanna


## Pregunta 7
**Agrupa por artista y calcula el número de canciones por cada uno.**

_Esta agrupación ayudará a identificar quiénes tienen mayor presencia en el dataset._

In [35]:
canciones_por_artista = data.groupby('artist')['song'].count().reset_index().rename(columns={'song': 'num_canciones'})
print(canciones_por_artista.sort_values(by='num_canciones', ascending=False))

             artist  num_canciones
628         Rihanna             25
219           Drake             23
239          Eminem             21
127   Calvin Harris             20
118  Britney Spears             19
..              ...            ...
828       blink-182              1
829            fun.              1
830     girl in red              1
832             iio              1
833        t.A.T.u.              1

[835 rows x 2 columns]


## Pregunta 8
**Agrupa por artista y calcula la suma de popularidad.**

_Identifica el artista cuya suma de popularidad es mayor (podría interpretarse como "hit maker")._

In [16]:
popularidad_por_artista = data.groupby('artist')['popularity'].sum().reset_index().sort_values(by='popularity', ascending=False)
print(popularidad_por_artista)

             artist  popularity
628         Rihanna        1803
239          Eminem        1519
219           Drake        1424
127   Calvin Harris        1356
118  Britney Spears        1198
..              ...         ...
518     Michel Teló           0
504   Martin Jensen           0
462     Loud Luxury           0
759        Tim Berg           0
18              AJR           0

[835 rows x 2 columns]


## Pregunta 9
**Agrupa por género y calcula la suma de popularidad.**

_Determina cuál es el género con mayor popularidad total._

In [17]:
popularidad_por_genero = data.groupby('genre')['popularity'].sum().reset_index().sort_values(by='popularity', ascending=False)
print(popularidad_por_genero)

                                    genre  popularity
30                                    pop       25403
19                           hip hop, pop       17761
21                      hip hop, pop, R&B       14408
31                  pop, Dance/Electronic       11794
33                               pop, R&B       10284
14                                hip hop        7979
20         hip hop, pop, Dance/Electronic        4660
44                                   rock        3885
54                              rock, pop        2860
53                            rock, metal        2695
0                        Dance/Electronic        2122
39                             pop, latin        1613
40                              pop, rock        1500
58                                  set()        1264
15              hip hop, Dance/Electronic         970
28                                  latin         936
25                    hip hop, pop, latin         893
43                       pop

## Pregunta 10
**¿Cuál es el promedio de duración de las canciones (en milisegundos)?**

_Calcula la media de la columna 'duration_ms'._

In [18]:
promedio_duracion = data['duration_ms'].mean()
print("Promedio de duración (ms):", promedio_duracion)

Promedio de duración (ms): 228748.1245


## Pregunta 11
**Agrupa por año y calcula el promedio de popularidad.**

_Identifica en qué año las canciones tuvieron mayor popularidad promedio._

In [19]:
popularidad_por_anio = data.groupby('year')['popularity'].mean().reset_index().sort_values(by='popularity', ascending=False)
print(popularidad_por_anio)

    year  popularity
20  2018   70.850467
1   1999   64.921053
10  2008   63.721649
21  2019   63.011236
4   2002   62.400000
7   2005   61.759615
11  2009   61.535714
12  2010   60.747664
14  2012   60.556522
9   2007   59.925532
3   2001   59.407407
16  2014   59.384615
5   2003   58.793814
13  2011   58.565657
2   2000   58.554054
6   2004   58.427083
17  2015   57.747475
8   2006   57.389474
15  2013   54.786517
18  2016   54.171717
19  2017   53.882883
0   1998   49.000000
22  2020   43.333333


## Pregunta 12
**Filtra las canciones explícitas y no explícitas y compara su popularidad promedio.**

_Analiza si las canciones con contenido explícito tienen mayor o menor popularidad._

In [20]:
popularidad_explicitas = data.groupby('explicit')['popularity'].mean()
print(popularidad_explicitas)

explicit
False    59.259489
True     61.484574
Name: popularity, dtype: float64


## Pregunta 13 (Negocio)
**Identifica qué artistas tienen un promedio de popularidad mayor a 75.**

_Estos artistas podrían considerarse "hit makers". Filtra y agrupa la información y comenta las implicaciones para la industria musical._

In [21]:
artistas_hitmakers = data.groupby('artist')['popularity'].mean().reset_index()
artistas_hitmakers = artistas_hitmakers[artistas_hitmakers['popularity'] > 75]
print(artistas_hitmakers.sort_values(by='popularity', ascending=False))

                    artist  popularity
767              Tom Odell   88.000000
733      The Neighbourhood   87.000000
796                 WILLOW   86.000000
436          Lewis Capaldi   84.000000
296          Gesaffelstein   84.000000
..                     ...         ...
51                Anuel AA   75.500000
444              Lil Nas X   75.333333
455            Linkin Park   75.333333
164               Coldplay   75.307692
621  Red Hot Chili Peppers   75.166667

[85 rows x 2 columns]


## Pregunta 14
**Filtra las canciones del género 'pop' y calcula el promedio de danceability y energy.**

_Esto permitirá evaluar características musicales del pop._

In [23]:
pop_songs = data[data['genre'] == 'Pop']
promedio_dance_energy = pop_songs[['danceability', 'energy']].mean()
print(promedio_dance_energy)

danceability   NaN
energy         NaN
dtype: float64


## Pregunta 15 (Negocio)
**¿Qué insights se pueden obtener de la relación entre danceability y popularidad?**

_Reflexiona sobre cómo la capacidad de baile (danceability) puede influir en el éxito comercial de una canción. (Respuesta abierta)_

In [24]:
correlacion_dance_popularidad = data[['danceability', 'popularity']].corr()
print(correlacion_dance_popularidad)

              danceability  popularity
danceability      1.000000   -0.003546
popularity       -0.003546    1.000000


## Pregunta 16
**Agrupa por 'mode' y calcula el promedio de loudness.**

_El valor de 'mode' (mayormente 0 o 1) puede tener implicaciones en la tonalidad; analiza si hay diferencias en el loudness._

In [25]:
loudness_por_mode = data.groupby('mode')['loudness'].mean()
print(loudness_por_mode)

mode
0   -5.451888
1   -5.561276
Name: loudness, dtype: float64


## Pregunta 17 (Negocio)
**Analiza la influencia de 'acousticness' en la popularidad.**

_Agrupa las canciones en rangos (por ejemplo, baja, media y alta acousticness) y calcula el promedio de popularidad para cada grupo. Comenta las posibles implicaciones para productores musicales._

In [26]:
# Respuesta 17: Agrupar por rangos de acousticness


In [31]:
bins = [0, 0.33, 0.66, 1]
labels = ['Baja', 'Media', 'Alta']
data['acousticness_level'] = pd.cut(data['acousticness'], bins=bins, labels=labels, include_lowest=True)
popularidad_acousticness = data.groupby('acousticness_level')['popularity'].mean()
print(popularidad_acousticness)

acousticness_level
Baja     59.925821
Media    57.746032
Alta     66.711111
Name: popularity, dtype: float64


  popularidad_acousticness = data.groupby('acousticness_level')['popularity'].mean()


## Pregunta 18
**Filtra las canciones con un tempo entre 100 y 120 BPM y cuenta cuántas hay.**

_Este filtro puede ayudar a identificar canciones con un ritmo intermedio, común en varios géneros populares._

In [27]:
canciones_tempo_medio = data[(data['tempo'] >= 100) & (data['tempo'] <= 120)]
print("Número de canciones con tempo entre 100 y 120 BPM:", len(canciones_tempo_medio))


Número de canciones con tempo entre 100 y 120 BPM: 434


## Pregunta 19
**Agrupa por 'explicit' y calcula el promedio de 'valence'.**

_El 'valence' mide el tono emocional (positivo o negativo) de una canción. Compara canciones explícitas y no explícitas._

In [32]:
valence_por_explicit = data.groupby('explicit')['valence'].mean()
print(valence_por_explicit)

explicit
False    0.557879
True     0.535413
Name: valence, dtype: float64


## Pregunta 20 (Negocio)
**Basado en el análisis previo (popularidad, atributos musicales y agrupaciones), ¿qué estrategias recomendarías a un productor musical para diseñar hits?**

_Considera aspectos como el estilo musical, características sonoras (danceability, energy, acousticness) y tendencias por género. (Respuesta abierta)_

In [34]:
estrategias_productores = """
Para diseñar hits musicales, un productor podría enfocarse en:
- Canciones con alto danceability, ya que suelen correlacionarse con mayor popularidad.
- Géneros populares como Pop y Hip-Hop, que dominan en términos de popularidad.
- Artistas con historial de éxitos para colaboraciones estratégicas.
- Tonalidades y características sonoras con alta energía y ritmo intermedio (100-120 BPM).
- Uso de elementos acústicos equilibrados, ya que la popularidad varía según el nivel de acousticness.
"""
print(estrategias_productores)


Para diseñar hits musicales, un productor podría enfocarse en:
- Canciones con alto danceability, ya que suelen correlacionarse con mayor popularidad.
- Géneros populares como Pop y Hip-Hop, que dominan en términos de popularidad.
- Artistas con historial de éxitos para colaboraciones estratégicas.
- Tonalidades y características sonoras con alta energía y ritmo intermedio (100-120 BPM).
- Uso de elementos acústicos equilibrados, ya que la popularidad varía según el nivel de acousticness.



## Conclusión

En este notebook se han planteado 20 preguntas que combinan operaciones técnicas de análisis (agrupaciones, filtros y estadísticas) con reflexiones de negocio en el contexto de la industria musical. Estos ejercicios permiten a los estudiantes extraer insights y proponer estrategias basadas en el comportamiento y características de las canciones.