## Etapa 1. Descripción de los datos <a id='data_review'></a>


In [1]:
# Importa pandas
import pandas as pd

In [3]:
# Lee el archivo y almacénalo en df
df = pd.read_csv('/datasets/music_project_en.csv')

In [4]:
# Obtén las 10 primeras filas de la tabla df
print(df.head(10))

     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                       Chains          Obladaet  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE                     L’estate       Julia Dalia  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

        City        time        Day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monday  
5

In [5]:
# Obtén la información general sobre nuestros datos
df.info()
df.duplicated().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


3826

Según la documentación:
- `' userID'`: identificador del usuario;
- `'Track'`: título de la canción;
- `'artist'`: nombre del artista;
- `'genre'`: género de la canción;
- `'City'`: ciudad del usuario;
- `'time'`: la hora exacta en la que se reprodujo la canción;
- `'Day'`: día de la semana.



Observaciones:

Los datos presentan 7 columnas de tipo objeto. Tras validar valores únicos, identificamos que:

- 'artist' tiene 7,567 valores ausentes (11.6% del total), superando el umbral óptimo del 5%
- Existen 3,826 duplicados explícitos
- 'track' y 'genre' tienen tasas de valores ausentes aceptables (<2%)

## Etapa 2. Preprocesamiento de los datos <a id='data_preprocessing'></a>


In [6]:
# Muestra los nombres de las columnas
print(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


In [7]:
# Bucle que itera sobre los encabezados y los pone todos en minúsculas
df_c = [df_col.lower().strip() for df_col in df.columns]
df.columns = df_c
print(df.columns)

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


In [8]:
# Bucle que itera sobre los encabezados y elimina los espacios
df_c = [df_col.lower().strip() for df_col in df.columns] # para optimizar el codigo
df.columns = df_c
print(df.columns)

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


In [9]:
# Cambia el nombre de la columna "userid"
df.rename(columns={'userid':'user_id'}, inplace=True)
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


In [10]:
# Comprueba el resultado: lista de encabezados
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


In [11]:
# Calcula el número de valores ausentes
print(df.isna().sum())

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


In [12]:
df.fillna({'track':'unknown','artist':'unknown','genre':'unknown'},inplace=True)
print(df.isna().sum())
print(df.sample(20))

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64
        user_id                                              track  \
24203  E72C0D1C                               Magic Mushroom Remix   
17240  458777E1                                       To the Beach   
59531  1D818116                        Maha Vishnu Gayathri Mantra   
52301  AAF63AE6        Gimme! Gimme! Gimme! / A Man After Midnight   
20329  62A4C6FC                                              Alone   
40188  9D887CD9                                 Part of The Family   
23217  6951FD2F                                           Noonside   
52892  27D45127                                              Pulse   
55697  1F8DD98B                                            Show Me   
1262   C53560ED                                Sfiorivano le viole   
48566  898828C5                        Undone (feat. Mike Herrera)   
49475  982DD155                                         

In [13]:
# Cuenta los valores ausentes
print(df.isna().sum())

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


In [14]:
# Cuenta los duplicados explícitos
print(df.duplicated().sum())

3826


In [15]:
# Elimina los duplicados explícitos
df.drop_duplicates(inplace=True)
print(df.duplicated().sum())

0


In [16]:
# Comprueba de nuevo si hay duplicados
print(df.duplicated().sum())

0


In [17]:
# Inspecciona los nombres de géneros únicos
print(df['genre'].unique())
print(df['genre'].nunique())

['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknown' 'alternative' 'children' 'rnb' 'hip' 'jazz' 'postrock' 'latin'
 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental' 'rusrock'
 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'hiphop' 'drum' 'extrememetal' 'türkçe'
 'experimental' 'easy' 'metalcore' 'modern' 'argentinetango' 'old' 'swing'
 'breaks' 'eurofolk' 

In [18]:
# Función para reemplazar los duplicados implícitos
def replace_wrong_values(data, column, wrong_values, correct_value):
    data[column].replace(wrong_values,correct_value,inplace=True)
    print(data[column].sample(30))
    print(data[column].nunique())
replace_wrong_values(df,'genre',['hip','hop','hiphop'],'hip-hop')

7181           dance
50127         ruspop
54603           rock
55812      spiritual
27028         action
30242        rusrock
22662    alternative
50338      classical
60425           rock
59807          dance
21717            pop
11009          metal
26725        hip-hop
48867         ruspop
45080            pop
55299          metal
51070    alternative
13737           rock
8694       classical
38843           rock
14553          indie
50882           jazz
2074           metal
45260            pop
60290         ruspop
28012          dance
879         children
30069         reggae
14951        western
56471        triphop
Name: genre, dtype: object
266


In [19]:
# Elimina los duplicados implícitos
replace_wrong_values(df,'genre','hip-hop','hiphop')

2777          latin
59741         vocal
60524          rock
7420          dance
64464    electronic
48397          rock
2982            pop
26980           rap
25865       minimal
56685           pop
22087        hiphop
4154         hiphop
38491        singer
988             pop
27311          rock
62725        rusrap
58461         indie
62161         dance
1824     electronic
27406         salsa
27284      children
7008          dance
58479         dance
57063         latin
54137       western
21492         opera
24879        ruspop
40302    electronic
58794           pop
21011         dance
Name: genre, dtype: object
266


In [20]:
# Comprueba de nuevo los duplicados implícitos
print(df['genre'].unique())

['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknown' 'alternative' 'children' 'rnb' 'hiphop' 'jazz' 'postrock'
 'latin' 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental'
 'rusrock' 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'drum' 'extrememetal' 'türkçe' 'experimental' 'easy'
 'metalcore' 'modern' 'argentinetango' 'old' 'swing' 'breaks' 'eurofolk'
 'stone

## Etapa 3. Análisis

In [21]:
# Cuenta las canciones reproducidas en cada ciudad
print(df.groupby('city')['track'].count())
print(df.groupby('city')['genre'].count())
df['time'] = pd.to_timedelta(df['time'])
print(df.groupby('city')['time'].sum())
print(df.groupby('city')['user_id'].count())

city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64
city
Shelbyville    18512
Springfield    42741
Name: genre, dtype: int64
city
Shelbyville   11580 days 14:02:48
Springfield   26259 days 08:46:54
Name: time, dtype: timedelta64[ns]
city
Shelbyville    18512
Springfield    42741
Name: user_id, dtype: int64


Observaciones

Springfield muestra mayor volumen de actividad (42,741 reproducciones vs 18,512 en Shelbyville). La correlación 1:1 entre usuarios, canciones y géneros sugiere que:

- Cada usuario reproduce una única canción por sesión
- Podrían existir duplicados implícitos en registros

In [22]:
# Calcula las canciones reproducidas en cada uno de los dos días
print(df.groupby('day')['track'].count())
print(df.groupby(['day','track','city']).count())

day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64
                                                                          user_id  \
day       track                                              city                   
Friday     Cello Concerto No.1 Op.107 - 2. Moderato          Springfield        1   
           Concerto For Violin And Strings In E Op.8 No.1... Springfield        1   
           Poppin Tags                                       Springfield        1   
           Scheherazade Op.35 - 1. Largo e maestoso          Shelbyville        1   
           String Quartet No.17 in B flat K.458 -"The Hun... Shelbyville        1   
...                                                                           ...   
Wednesday 酒歌                                                 Shelbyville        1   
          쉼표                                                 Shelbyville        1   
          이리와봐 Come Here                                     Sh

Observaciones:

- Viernes: Máxima actividad global (21,840 reproducciones), liderada por Springfield (15,945)
- Lunes: Segunda mayor actividad (21,354), nuevamente dominada por Springfield (15,740)
- Miércoles: Shelbyville tiene su pico de actividad (5,895 vs 5,614 en lunes)

In [34]:
print(df[df['user_id']=='FFB692EC'])
print(df[df['user_id']=='FFB692EC'].count())
# Declara la función number_tracks() con dos parámetros: day= y city=.
def number_tracks(data, day, city):
    # Almacena las filas del DataFrame donde el valor en la columna 'day' es igual al parámetro day=
    # Filtra las filas donde el valor en la columna 'city' es igual al parámetro city=
    # Extrae la columna 'user_id' de la tabla filtrada y aplica el método count()
    # Devuelve el número de valores de la columna 'user_id'
    filtered = data[(data['day'] == day) & (data['city'] == city)]
    return filtered['user_id']
print(number_tracks(df,'Friday','Springfield'))
print(number_tracks(df,'Friday','Springfield').count())

        user_id                                 track  \
0      FFB692EC                     Kamigata To Boots   
298    FFB692EC                                 Bells   
3918   FFB692EC                            Get A Clue   
5549   FFB692EC        The Curse of Blackbeard Lavoie   
5958   FFB692EC              And Maybe God Is a Train   
9538   FFB692EC                            Lunchblood   
14275  FFB692EC                         Powerlessness   
22585  FFB692EC                            Wake Me Up   
29603  FFB692EC                            Space Port   
29699  FFB692EC  Col (Picture Of Everything You Lost)   
31070  FFB692EC                        Tax Revolution   
41385  FFB692EC                              The Fool   
44408  FFB692EC                     Fall At Your Feet   
48890  FFB692EC                      Convertible love   
50473  FFB692EC                        Nobody Like Me   
52688  FFB692EC                             All Along   
53735  FFB692EC                

In [35]:
# El número de canciones reproducidas en Springfield el lunes
print(number_tracks(df,'Monday','Springfield').count())

15740


In [36]:
# El número de canciones reproducidas en Shelbyville el lunes
print(number_tracks(df,'Monday','Shelbyville').count())

5614


In [37]:
# El número de canciones reproducidas en Springfield el viernes
print(number_tracks(df,'Friday','Springfield').count())

15945


In [38]:
# El número de canciones reproducidas en Shelbyville el viernes
print(number_tracks(df,'Friday','Shelbyville').count())

5895


# Conclusiones <a id='end'></a>

1. Patrones clave:
- Los usuarios de Springfield son 2.3 veces más activos
- Ambos ciudades incrementan actividad en viernes (+12% vs lunes en Springfield)
- Shelbyville tiene comportamiento atípico con mayor uso los miércoles
2. Problemas resueltos:
- Normalización de géneros (ej: unificación de "hip-hop")
- Eliminación de 3,826 duplicados
- Imputación de valores ausentes en track, artist y genre con "unknown"
3. Si existe variacion significativa:
- Springfield consume más música los viernes (15,945 vs 5,895 en Shelbyville)
- Shelbyville tiene perfil atípico con pico los miércoles
- Géneros dominantes difieren: Springfield prefiere classical, dance y pop, Shelbyville rock y ruspop