# **DESCRIPCIÓN DEL PROYECTO**

En este proyecto, comparararemos las preferencias musicales de las ciudades de Springfield y Shelbyville. Para ello estudiaremos datos reales de Yandex.Music para probar las hipótesis y comparar el comportamiento del usuario de esas dos ciudades.

**Hipótesis a resolver**
* La actividad de los usuarios difiere según el día de la semana y dependiendo de la ciudad.
* Los lunes por la mañana, los habitantes de Springfield y Shelbyville escuchan diferentes géneros. Lo mismo ocurre con los viernes por la noche.
* Los oyentes de Springfield y Shelbyville tienen preferencias distintas. En Springfield prefieren el pop mientras que en Shelbyville hay más aficionados al rap.

## **Comencemos con el análisis**

In [1]:
import pandas as pd # importando pandas

In [2]:
df = pd.read_csv('/content/music_project_en.csv') # leyendo el archivo y almacenándolo en df
df.describe()


Unnamed: 0,userID,Track,artist,genre,City,time,Day
count,65079,63736,57512,63881,65079,65079,65079
unique,41748,39666,37806,268,2,20392,3
top,A8AE9169,Brand,Kartvelli,pop,Springfield,08:14:07,Friday
freq,76,136,136,8850,45360,14,23149


In [4]:
df.shape #tamaño del dataframe: 65079 filas y 7 columnas

(65079, 7)

In [5]:
df.head(10) # obteniendo las 10 primeras filas de la tabla df

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


In [6]:
df.tail(10) # obteniendo las 10 últimas filas de la tabla df

Unnamed: 0,userID,Track,artist,genre,City,time,Day
65069,BE1AAD74,Waterwalk,Eduardo Gonzales,electronic,Springfield,20:38:59,Monday
65070,49F35D53,Ass Up,Rameez,dance,Springfield,14:08:58,Friday
65071,92378E24,Swing it Like You Mean it,OJOJOJ,techno,Springfield,21:12:56,Friday
65072,C532021D,We Can Not Be Silenced,Pänzer,extrememetal,Springfield,08:38:24,Friday
65073,83A474E7,I Worship Only What You Bleed,The Black Dahlia Murder,extrememetal,Springfield,21:07:12,Monday
65074,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
65075,D08D4A55,Maybe One Day (feat. Black Spade),Blu & Exile,hip,Shelbyville,10:00:00,Monday
65076,C5E3A0D5,Jalopiina,,industrial,Springfield,20:09:26,Friday
65077,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday
65078,3A64EF84,Tell Me Sweet Little Lies,Monica Lopez,country,Springfield,21:59:46,Friday


In [7]:
df.info() # obteniendo información general sobre los datos en df, observamos que hay valores nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


In [8]:
df.columns # lista de los nombres de las columnas en la tabla df

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

In [9]:
def fix_columns(df): #generamos una función para corregir todas las columnas de manera automatizada
    new_names = []
    for name in df.columns:
        new_names.append(name.lower().strip()) # pasamos los nombres a minusculas y eliminamos espacios
    return new_names

df.columns = fix_columns(df)
df

Unnamed: 0,userid,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
...,...,...,...,...,...,...,...
65074,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
65075,D08D4A55,Maybe One Day (feat. Black Spade),Blu & Exile,hip,Shelbyville,10:00:00,Monday
65076,C5E3A0D5,Jalopiina,,industrial,Springfield,20:09:26,Friday
65077,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday


In [None]:
# df = df.rename(columns={     # esta es otra forma de renombrar pero menos efizaz y no está automatizada
#     '  userID': 'user_id',
#     'Track':'track',
#     '  City  ':'city',
#     'Day':'day'
# })


In [10]:
df['genre'] #géneros musicales

0              rock
1              rock
2               pop
3              folk
4             dance
            ...    
65074           rnb
65075           hip
65076    industrial
65077          rock
65078       country
Name: genre, Length: 65079, dtype: object

In [11]:
df.isna().sum() #contabilizamos los valores ausentes en cada columna

userid       0
track     1343
artist    7567
genre     1198
city         0
time         0
day          0
dtype: int64

In [12]:
#Reemplazamos los valores ausentes en 'track', 'artist', y 'genre' con la string 'unknown'. 
#Para ello creamos la lista columns_to_replace para recórrela con un bucle for y reemplazar
#los valores ausentes en cada una de las columnas:
columns_to_replace = ['track','artist','genre']

for columna in columns_to_replace: #recorriendo los nombres de las columnas y reemplazando los valores ausentes con 'unknown'
    df[columna] = df[columna].fillna('unknown')

# contando valores ausentes
df.isnull().sum() #se puede susar 'isna' o 'isnull'

userid    0
track     0
artist    0
genre     0
city      0
time      0
day       0
dtype: int64

In [13]:
df.duplicated().sum() # contando duplicado obvios

3826

In [14]:
#A continuación, aplicamos la indexación lógica para obtener una tabla con los datos duplicados.

duplicados_df = df[df.duplicated()]
duplicados_df.head(10) #obtenemos los 10 primeros registros

Unnamed: 0,userid,track,artist,genre,city,time,day
575,E7F07B46,Crazy,The Manhattans,rnb,Springfield,13:39:46,Monday
832,7671A47A,Johnny Go!,NikitA,ruspop,Springfield,21:59:33,Wednesday
1216,69467B01,Change It All,Harrison Storm,singer,Springfield,20:53:06,Wednesday
1754,13B1A573,Te Adoramos Jesús,Athenas,spiritual,Springfield,13:19:37,Monday
1964,B24668A0,Mad over You Mashup,Nana Fofie,singer,Springfield,20:36:51,Monday
2457,B896FACC,No Pussy Blues,Grinderman,pop,Shelbyville,09:08:49,Wednesday
2770,6573A983,Diga Diga Doo,Big Bad Voodoo Daddy,swing,Springfield,21:15:40,Friday
2885,512B0511,Purgatory,Scientific Harmony,dance,Springfield,09:55:06,Monday
2895,2696EA88,Daddy D,Kung Fu,funk,Springfield,08:33:34,Wednesday
2979,3C8ECBFE,Ederlezi,Coq Au Vin,world,Springfield,13:25:15,Monday


In [15]:
df = df.drop_duplicates() # eliminamos los duplicados obvios

df.duplicated().sum() # comprobando si hay duplicados

0

In [16]:
# Nota:cuando eliminamos filas, a menudo también es importante actualizar el índice. 
# Para hacerlo, llama al método reset_index()
df = df.drop_duplicates().reset_index(drop=True)
df

Unnamed: 0,userid,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
...,...,...,...,...,...,...,...
61248,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
61249,D08D4A55,Maybe One Day (feat. Black Spade),Blu & Exile,hip,Shelbyville,10:00:00,Monday
61250,C5E3A0D5,Jalopiina,unknown,industrial,Springfield,20:09:26,Friday
61251,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday


In [17]:
#Imprimimos la lista de nombres únicos de géneros, ordenados en orden alfabético.

df['genre'].sort_values().unique() # inspeccionando los nombres de géneros únicos

# Observamos que los géneros 'hip','hop','hip-hop' están mal escritos, estos deberían ser 'hiphop'

array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'ambient', 'americana', 'animated', 'anime',
       'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook',
       'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom',
       'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian',
       'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop',
       'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber',
       'children', 'chill', 'chinese', 'choral', 'christian', 'christmas',
       'classical', 'classicmetal', 'club', 'colombian', 'comedy',
       'conjazz', 'contemporary', 'country', 'cuban', 'dance',
       'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock',
       'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat',
       'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy',
       'electronic', 'electropop', 'emo', 'entehno', 'epicmetal',
       'estrada', 'ethnic', 'eurofo

In [18]:
# creamos una función para reemplazar los duplicados implícitos
def replace_wrong_genres(wrong_genres, correct_genre): 
    for wrong_value in wrong_genres:
        df['genre'] = df['genre'].replace(wrong_value, correct_genre) # eliminando duplicados implícitos

duplicados_implicitos = ['hip','hop','hip-hop']
genero_correcto = 'hiphop'

replace_wrong_genres(duplicados_implicitos, genero_correcto)

 # revisamos nuevamente en busca de duplicados implícitos y obervamos que se actualizó por el género correcto hiphop
df['genre'].sort_values().unique()

array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'ambient', 'americana', 'animated', 'anime',
       'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook',
       'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom',
       'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian',
       'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop',
       'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber',
       'children', 'chill', 'chinese', 'choral', 'christian', 'christmas',
       'classical', 'classicmetal', 'club', 'colombian', 'comedy',
       'conjazz', 'contemporary', 'country', 'cuban', 'dance',
       'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock',
       'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat',
       'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy',
       'electronic', 'electropop', 'emo', 'entehno', 'epicmetal',
       'estrada', 'ethnic', 'eurofo

# PROBANDO HIPOTESIS

 ### **Hipótesis 1: comparar el comportamiento del usuario en las dos ciudades**

Evaluaremos la actividad del usuario en cada ciudad. Para ello agrupamos los datos por ciudad y encontramos el número de canciones reproducidas en cada grupo.

In [20]:
#Filtramos solamente para la ciudad Springfield
df.loc[df.loc[:,'city'] == 'Springfield'] 

Unnamed: 0,userid,track,artist,genre,city,time,day
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
...,...,...,...,...,...,...,...
61247,83A474E7,I Worship Only What You Bleed,The Black Dahlia Murder,extrememetal,Springfield,21:07:12,Monday
61248,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
61250,C5E3A0D5,Jalopiina,unknown,industrial,Springfield,20:09:26,Friday
61251,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday


In [21]:
#Filtramos solamente para la ciudad Shelbyville
df.loc[df.loc[:,'city'] == 'Shelbyville'] 

Unnamed: 0,userid,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
9,E772D5C0,Pessimist,unknown,dance,Shelbyville,21:20:49,Wednesday
...,...,...,...,...,...,...,...
61239,D94F810B,Theme from the Walking Dead,Proyecto Halloween,film,Shelbyville,21:14:40,Monday
61240,BC8EC5CF,Red Lips: Gta (Rover Rework),Rover,electronic,Shelbyville,21:06:50,Monday
61241,29E04611,Bre Petrunko,Perunika Trio,world,Shelbyville,13:56:00,Monday
61242,1B91C621,(Hello) Cloud Mountain,sleepmakeswaves,postrock,Shelbyville,09:22:13,Monday


In [22]:
#Calculamos el número de pistas reproducidas solamente en la ciudad 'Springfield'
print(df.loc[df.loc[:,'city'] == 'Springfield']['city'].count()) 

42741


In [23]:
#Calculamos el número de pistas reproducidas solamente en la ciudad 'Shelbyville'
print(df.loc[df.loc[:,'city'] == 'Shelbyville']['city'].count()) 

18512


Ahora agrupamos los datos por día de la semana y encontramos el número de pistas reproducidas el lunes, miércoles y viernes.

In [24]:
# Calculamos el número de pistas reporducidas el lunes
print(df.loc[df.loc[:,'day'] == 'Monday']['day'].count()) 

21354


In [25]:
# Calculamos el número de pistas reporducidas el miércoles
print(df.loc[df.loc[:,'day'] == 'Wednesday']['day'].count())

18059


In [26]:
# Calculamos el número de pistas reporducidas el viernes
print(df.loc[df.loc[:,'day'] == 'Friday']['day'].count()) 

21840


Ahora calculamos el número de pistas reproducidas por dia y ciudad

In [28]:
def number_tracks (dia, ciudad):
    tabla_filtrada_por_dia = df.loc[df.loc[:,'day'] == dia]
    track_list = tabla_filtrada_por_dia.loc[tabla_filtrada_por_dia.loc[:,'city'] == ciudad]
    track_list = track_list['userid'].count()
    print(track_list)

number_tracks('Monday','Springfield') # el número de canciones reproducidas en Springfield el lunes
number_tracks('Monday','Shelbyville') # el número de canciones reproducidas en Shelbyville el lunes
number_tracks('Wednesday','Springfield') # el número de canciones reproducidas en Springfield el miércoles
number_tracks('Wednesday','Shelbyville') # el número de canciones reproducidas en Shelbyville el miércoles
number_tracks('Friday','Springfield') # el número de canciones reproducidas en Springfield el viernes
number_tracks('Friday','Shelbyville') # el número de canciones reproducidas en Shelbyville el viernes

15740
5614
11056
7003
15945
5895


Ahora creamos una tabla donde se resume los datos encontrados sobre la primera hipótesis

In [29]:
columnas = ['city', 'monday', 'wednesday', 'friday']

datos = [
    ['Springfield', 15740, 11056, 15945],
    ['Shelbyville', 5614, 7003, 5895],
]

tabla_resumen = pd.DataFrame(data=datos, columns=columnas)
tabla_resumen

Unnamed: 0,city,monday,wednesday,friday
0,Springfield,15740,11056,15945
1,Shelbyville,5614,7003,5895


**Conclusión**

Los datos revelan las diferencias en el comportamiento de los usuarios:

En Springfield, el número de canciones reproducidas alcanzan el punto máximo los lunes y viernes mientras que los miércoles hay un descenso de la actividad.
En Shelbyville, al contario, los usuarios escuchan más música los miércoles. La actividad de los usuarios de las dos ciudades es diferente.

Así que la primera hipótesis: `'La actividad de los usuarios difiere según el día de la semana y dependiendo de la ciudad'` parece ser correcta.

### **Hipótesis 2: música al principio y al final de la semana**

In [30]:
# obteniendo la tabla spr_general de las filas de df, donde los valores en la columna 
# 'city' es 'Springfield'
spr_general = df.loc[df.loc[:, 'city']=='Springfield']
spr_general

Unnamed: 0,userid,track,artist,genre,city,time,day
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
...,...,...,...,...,...,...,...
61247,83A474E7,I Worship Only What You Bleed,The Black Dahlia Murder,extrememetal,Springfield,21:07:12,Monday
61248,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
61250,C5E3A0D5,Jalopiina,unknown,industrial,Springfield,20:09:26,Friday
61251,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday


In [31]:
# obteniendo la tabla shel_general de las filas de df, donde los valores en la columna 
# 'city' es 'Shelbyville'
shel_general = df.loc[df.loc[:, 'city']=='Shelbyville']
shel_general

Unnamed: 0,userid,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
9,E772D5C0,Pessimist,unknown,dance,Shelbyville,21:20:49,Wednesday
...,...,...,...,...,...,...,...
61239,D94F810B,Theme from the Walking Dead,Proyecto Halloween,film,Shelbyville,21:14:40,Monday
61240,BC8EC5CF,Red Lips: Gta (Rover Rework),Rover,electronic,Shelbyville,21:06:50,Monday
61241,29E04611,Bre Petrunko,Perunika Trio,world,Shelbyville,13:56:00,Monday
61242,1B91C621,(Hello) Cloud Mountain,sleepmakeswaves,postrock,Shelbyville,09:22:13,Monday


In [32]:
#Creamos una función que devolverá información de los 15 géneros más populares de un día determinado 
#en un período entre dos marcas de fecha y hora en la ciudades de 'Springfield' y 'Shelbyville'
def genre_weekday (df, dia, time1, time2):
    # genre_df solo almacenará aquellas filas df en las que el día sea igual a 'dia'
    genre_df = df.loc[df.loc[:, 'day']==dia] 
    # genre_df solo almacenará aquellas filas df en las que el tiempo sea mayor que time1
    genre_df = genre_df.loc[genre_df.loc[:, 'time']>time1]
    # genre_df solo almacenará aquellas filas df en las que el tiempo sea menor que time2
    genre_df = genre_df.loc[genre_df.loc[:, 'time']<time2] 
    # agrupamos por la columan 'género' y ordenaremos el resultado en orden descendente
    genre_df_count = genre_df['genre'].value_counts(ascending=False) 

    return genre_df_count[0:15] # devolvemos el objeto Series que almacena los 15 géneros más populares

Comparamos los resultados de la función genre_weekday() para Springfield y Shelbyville el lunes por la mañana (de 7 a 11) y el viernes por la tarde (de 17:00 a 23:00):

In [33]:
genre_weekday(spr_general, 'Monday', '07', '11')

pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
classical      157
metal          120
jazz           100
folk            97
soundtrack      95
Name: genre, dtype: int64

In [34]:
genre_weekday(shel_general, 'Monday', '07', '11')

pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
world           36
rap             32
soundtrack      31
metal           27
rnb             27
Name: genre, dtype: int64

In [35]:
genre_weekday(spr_general, 'Friday', '17', '23')

pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
classical      163
alternative    163
rusrap         142
jazz           111
unknown        110
soundtrack     105
rnb             90
metal           88
Name: genre, dtype: int64

In [36]:
genre_weekday(shel_general, 'Friday', '17', '23')

pop            256
electronic     216
rock           216
dance          210
hiphop          97
alternative     63
jazz            61
classical       60
rusrap          59
world           54
ruspop          47
unknown         47
soundtrack      40
metal           39
rap             36
Name: genre, dtype: int64

**Conclusión**

Habiendo comparado los 15 géneros más populares del lunes por la mañana podemos concluir lo siguiente:

Los usuarios de Springfield y Shelbyville escuchan música similar. Los cinco géneros más populares son los mismos, solo rock y electrónica han intercambiado posiciones.

En Springfield el número de valores ausentes resultaron ser tan altos que el valor 'unknown' llegó al décimo. Esto significa que los valores ausentes forman una parte considerable de los datos, lo que podría ser la base de la cuestión sobre la fiabilidad de nuestras conclusiones.

Para el viernes por la tarde, la situación es similar. Los géneros individuales varían algo pero, en general, los 15 más populares son parecidos en las dos ciudades.

De esta forma, la segunda hipótesis: `Los lunes por la mañana, los habitantes de Springfield y Shelbyville escuchan diferentes géneros. Lo mismo ocurre con los viernes por la noche` ha sido parcialmente demostrada:

Los usuarios escuchan música similar al principio y al final de la semana.
No hay una gran diferencia entre Springfield y Shelbyville. En ambas ciudades, el pop es el género más popular.
Sin embargo, el número de valores ausentes hace este resultado un tanto cuestionable. En Springfield, hay tantos nulos que afectan a nuestros 15 géneros más populares. De no faltarnos esos valores, las cosas podrían parecer diferentes.

### **Hipótesis 3: preferencias de género en Springfield y Shelbyville**

Hipótesis: Shelbyville ama la música rap. A los ciudadanos de Springfield les gusta más el pop.

In [37]:
spr_general = df.loc[df.loc[:, 'city']=='Springfield']
spr_genres = spr_general['genre'].value_counts(ascending=False)
spr_genres.head(10)

pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: genre, dtype: int64

In [38]:
shel_general = df.loc[df.loc[:, 'city']=='Shelbyville']
spr_genres = shel_general['genre'].value_counts(ascending=False)
spr_genres.head(10)

pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: genre, dtype: int64

**Conslusión** 

La hipótesis: `Los oyentes de Springfield y Shelbyville tienen preferencias distintas. En Springfield prefieren el pop mientras que en Shelbyville hay más aficionados al rap` ha sido parcialmente demostrada:

La música pop es el género más popular en Springfield, tal como se esperaba.
Sin embargo, la música pop ha resultado ser igual de popular en Shelbyville y el rap no estaba entre los 5 más populares en ninguna de las ciudades.