# Music Streaming

# Contenido <a id='back'></a>

* [Introducción](#intro)
* [Etapa 1. Descripción de los datos](#data_review)
    * [Conclusiones](#data_review_conclusions)
* [Etapa 2. Preprocesamiento de datos](#data_preprocessing)
    * [2.1 Estilo del encabezado](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusiones](#data_preprocessing_conclusions)
* [Etapa 3. Prueba de hipótesis](#hypotheses)
    * [3.1 Hipótesis 1: actividad de los usuarios y las usuarias en las dos ciudades](#activity)
    * [3.2 Hipótesis 2: preferencias musicales los lunes y los viernes](#week)
    * [3.3 Hipótesis 3: preferencias de género en Springfield y Shelbyville](#genre)
* [Conclusiones](#end)

## Introducción <a id='intro'></a>
En este proyecto se hará el análisis de datos reales de transmisión de música online y se probarán hipótesis relacionadas con las preferencias musicales de dos ciudades: Springfield y Shelbyville, con el fin de comparar el comportamiento de los usuarios y las usuarias de estas ciudades.

### Objetivo:
Se probarán las siguientes tres hipótesis:
1. La actividad de los usuarios y las usuarias difiere según el día de la semana y dependiendo de la ciudad.
2. Los lunes por la mañana, los habitantes de Springfield y Shelbyville escuchan géneros distintos. Lo mismo ocurre los viernes por la noche.
3. Los oyentes de Springfield y Shelbyville tienen preferencias distintas. En Springfield prefieren el pop, mientras que en Shelbyville hay más personas a las que les gusta el rap.

### Etapas: 
El proyecto consistirá en tres etapas

1. Se proporcionará una descripción general de los datos
2. Se preprocesarán los datos para su limpieza.
3. Se pondrán a prueba las hipótesis siguiendo los pasos de programación necesarios para probar cada declaración.

[Volver a Contenidos](#back)

## Etapa 1. Descripción de los datos <a id='data_review'></a>

In [44]:
import pandas as pd

In [45]:
# Lectura del DF el archivo
df = pd.read_csv('./datasets/music_project_en.csv')

In [46]:
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


In [47]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


Estas son nuestras observaciones sobre la tabla. Contiene siete columnas. Todas almacenan el mismo tipo de datos: `object` (objeto).

Según la documentación:
- `' userID'` — identificador del usuario o la usuaria;
- `'Track'` — título de la canción;
- `'artist'` — nombre del artista;
- `'genre'` — género musical;
- `'City'` — ciudad del usuario o la usuaria;
- `'time'` — hora exacta en la que se reprodujo la canción;
- `'Day'` — día de la semana.

Podemos ver tres problemas con el estilo en los encabezados de la tabla:
1. Algunos encabezados están en mayúsculas; otros, en minúsculas.
2. Hay espacios en algunos encabezados.
3. Hay nombres como userID que no siguen la síntaxis snake_case 



### Observaciones <a id='data_review_conclusions'></a>

1. Las filas tienen datos tipo objeto (tipo de objeto de Pandas). Podemos entender a la información que almacenan las columnas coo atributos de las canciones alacenadas en el dataframe.

2. Tenemos datos con los parámetros suficientes para responder a las 3 hipótesis

3. Algunas columnas tienen valores tipo NaN o Null, ya que la longitud de las columnas no siempre coinciden. Para saber si hay valores duplicados o ausentes, hace falta un análisis más exahustivo con los metodos isna() y duplicated().

[Volver a Contenidos](#back)

## Etapa 2. Preprocesamiento de datos <a id='data_preprocessing'></a>

El objetivo aquí es preparar los datos para que sean analizados.
El primer paso es resolver cualquier problema con los encabezados. Luego podemos avanzar a los valores ausentes y duplicados.


### Estilo del encabezado <a id='header_style'></a>

In [48]:
# La lista de encabezados para la tabla df:
print(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


Se cambiarán los encabezados de la tabla de acuerdo con las reglas del buen estilo:
* todos los caracteres deben ser minúsculas;
* elimina los espacios;
* si el nombre tiene varias palabras, utiliza snake_case.

In [49]:
# Bucle en los encabezados poniendo todo en minúsculas
new_columns= []
for columna in df.columns:
    new_name = columna.lower()
    new_columns.append(new_name)
    
df.columns = new_columns
print(df.columns)

Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')


In [50]:
# Bucle en los encabezados eliminando los espacios
new_columns= []
for columna in df.columns:
    new_name = columna.lower().strip()
    new_columns.append(new_name)
df.columns = new_columns
print(df.columns)

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


In [51]:
# Aplicamos snake_case a los encabezados que lo requieran:
# Cambiar el nombre del encabezado "user_id"
new_columns[0]='user_id'
df.columns = new_columns
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


In [52]:
# Comprobar el resultado: la lista de encabezados
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


[Volver a Contenidos](#back)

### Valores ausentes <a id='missing_values'></a>
Primero, encontramos el número de valores ausentes en la tabla.

In [53]:
# Calcular el número de valores ausentes
print('---------  with isna  ---------')
print(df.isna().sum())
print('--------- with isnull ---------')
print(df.isnull().sum())

---------  with isna  ---------
user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64
--------- with isnull ---------
user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


No todos los valores ausentes afectan a la investigación. Por ejemplo, los valores ausentes en `track` y `artist` no son cruciales. Simplemente podemos reemplazarlos con valores predeterminados como el string `'unknown'` (desconocido).

Los valores ausentes en `'genre'` pueden afectar la comparación entre las preferencias musicales de Springfield y Shelbyville. Sin embargo, no tenemos posibilidad de obtenerlos con la información disponible en el DF, de modo que vamos a :
* rellenar estos valores ausentes con un valor predeterminado;
* evaluar cuánto podrían afectar los valores ausentes al análisis;

In [54]:
# Bucle en los encabezados reemplazando los valores ausentes con 'unknown'
columns_to_replace = ['track', 'artist', 'genre']
for columna in columns_to_replace:
    df[columna].fillna('unknown', inplace = True)

# Otra forma : df.fillna('unknown', inplace = True)

In [55]:
# Contando valores ausentes
df.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

[Volver a Contenidos](#back)

### Duplicados <a id='duplicates'></a>

In [56]:
# Contar duplicados explícitos
df.duplicated().sum()

3826

In [57]:
# Eliminar duplicados explícitos
df = df.drop_duplicates().reset_index()

In [58]:
# Comprobación de duplicados
df.duplicated().sum()
# Eliminamos todas las filas duplicadas.

0

Ahora queremos deshacernos de los duplicados implícitos en la columna `genre`. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar al resultado.

Para hacerlo, primero mostremos una lista de nombres de género únicos, ordenados en orden alfabético. Para hacerlo:



In [59]:
# Inspeccionando los nombres de géneros únicos
generos = df['genre'].sort_values().unique()
#generos = generos.sort()
print(generos)

['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'axé' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forró' 'frankreich'
 'französisch' 

Buscando en la lista para encontrar duplicados implícitos del género `hiphop`. Estos pueden ser nombres escritos incorrectamente o nombres alternativos para el mismo género.

Vemos los siguientes duplicados implícitos:
* `hip`
* `hop`
* `hip-hop`

Para deshacertnos de ellos, declaramos la función `replace_wrong_genres()` con dos parámetros:
* `wrong_genres=` — la lista de duplicados;
* `correct_genre=` — el string con el valor correcto.

La función debería corregir los nombres en la columna `'genre'` de la tabla `df`, es decir, remplaza cada valor de la lista `wrong_genres` con el valor en `correct_genre`. Utiliza un bucle `'for'` para iterar sobre la lista de géneros incorrectos y reemplazarlos con el género correcto en la lista principal.

In [60]:
# Función para reemplazar duplicados implícitos
def replace_wrong_genres(wrong_genres, correct_genre):
    for incorrect_genre in wrong_genres:
        df.replace(incorrect_genre, correct_genre, inplace = True)

In [61]:
# Eliminar duplicados implícitos
wrong_genres = ['hip', 'hop', 'hip-hop']
replace_wrong_genres(wrong_genres, 'hiphop')

In [62]:
# Comprobación de duplicados implícitos
generos = df['genre'].sort_values().unique()
print(generos)

['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'axé' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forró' 'frankreich'
 'französisch' 

[Volver a Contenidos](#back)

### Tus observaciones <a id='data_preprocessing_conclusions'></a>
Notaos que hay 2 tipos de duplicados:
1. **Aquellos en los que toda la fila esta duplicada**: en estos casos, podemos identificarlos aplicando duplicated() y sum() (este último para contar el número de duplicados de este tipo); así como también podemos eliminarlos con drop_duplicates()
2. **Aquellos que no hay filas duplicadas, pero tienen ortografía alternativa:** En estos casos, podemos buscar todos los casos que tienen ortografía alternativa y seleccionar una sola forma ortográfica para unificarlos. Luego, podemos reemplazar aquellas descartadas por la forma seleccionada con el método df\['columna'\].replace(), que reemplaza valores específicos de alguna 'columna' 

[Volver a Contenidos](#back)

## Etapa 3. Prueba de hipótesis <a id='hypotheses'></a>

### Hipótesis 1: comparar el comportamiento de los usuarios en las dos ciudades <a id='activity'></a>

La primera hipótesis afirma que existen diferencias en la forma en que los usuarios y las usuarias de Springfield y Shelbyville consumen música. Para comprobar esto, usamos los datos de tres días de la semana: lunes, miércoles y viernes.

In [63]:
# Contando las canciones reproducidas en cada ciudad
by_city = df.groupby('city')['track'].count()
print(by_city)
# print(type(by_city))

city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64


- Los usuarios reproducen más pistas en Springfield que en Shelbyville

In [64]:
# calculando las canciones reproducidas en cada uno de los tres días
by_day = df.groupby('day')['track'].count()
print(by_day)

day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64


- Los días Viernes es cuando los usuarios escuchan más pistas, seguidos de los Lunes y los Miércoles.

Escribimos una función `number_tracks()` que pueda contar entradas según ambos criterios simultáneamente mediante los parámetros:

- `day`: un día de la semana para filtrar. Por ejemplo, `'Monday'`.
- `city`: una ciudad para filtrar. Por ejemplo, `'Springfield'`.

In [65]:
# <creando la función number_tracks()>
# Declararemos la función con dos parámetros: day=, city=.
# Deja que la variable track_list almacene las filas df en las que
# el valor del nombre de la columna ‘day’ sea igual al parámetro day= y, al mismo tiempo,
# el valor del nombre de la columna ‘city’ sea igual al parámetro city= (aplica el filtrado consecutivo
# con la indexación lógica).
# deja que la variable track_list_count almacene el número de valores de la columna 'user_id' en track_list
# (igual al número de filas en track_list después de filtrar dos veces).
# permite que la función devuelva un número: el valor de track_list_count.

# La función cuenta las pistas reproducidas en un cierto día y ciudad.
# Primero recupera las filas del día deseado de la tabla,
# después filtra las filas de la ciudad deseada del resultado,
# luego encuentra el número de canciones en la tabla filtrada,
# y devuelve ese número.
# Para ver lo que devuelve, envuelve la llamada de la función en print().

# comienza a escribir tu código aquí
def number_tracks(day='Monday', city='Springfield'):
    track_list = df[df['day']==day]
    track_list = track_list[track_list['city']==city]
    track_list_count = track_list['user_id'].count()  
    print(f'Day:{day}, city:{city}.')
    return track_list_count

In [66]:
# El número de canciones reproducidas en Springfield el lunes
number_tracks()

Day:Monday, city:Springfield.


15740

In [67]:
# El número de canciones reproducidas en Shelbyville el lunes
number_tracks(city='Shelbyville')

Day:Monday, city:Shelbyville.


5614

In [68]:
# El número de canciones reproducidas en Springfield el miércoles
number_tracks(day='Wednesday')

Day:Wednesday, city:Springfield.


11056

In [69]:
# El número de canciones reproducidas en Shelbyville el miércoles
number_tracks(city='Shelbyville', day='Wednesday')

Day:Wednesday, city:Shelbyville.


7003

In [70]:
# El número de canciones reproducidas en Springfield el viernes
number_tracks(day='Friday')

Day:Friday, city:Springfield.


15945

In [71]:
# El número de canciones reproducidas en Shelbyville el viernes
number_tracks(city='Shelbyville', day='Friday')

Day:Friday, city:Shelbyville.


5895

Utiliza `pd.DataFrame` y la función anterior, creamos una tabla comparativa entre las 2 ciudades con la siguiente información en las columnas: `['city', 'monday', 'wednesday', 'friday']`

In [72]:
# Tabla con los resultados
headings = ['city', 'monday', 'wednesday', 'friday']
data = [
    ['Springfield', 15740, 11056, 15945],
    ['Shelbyville', 5614, 7003, 5895]
]
tabla = pd.DataFrame(data = data,columns = headings)
print(tabla)

          city  monday  wednesday  friday
0  Springfield   15740      11056   15945
1  Shelbyville    5614       7003    5895


**Conclusiones**

>***Hipotesis 1**: existen diferencias en la forma en que los usuarios y las usuarias de Springfield y Shelbyville consumen música.*

   R: Es correcto, pues en springfield se oye más música en el siguiente orden: Friday>Monday>Wednesday.
      Mientras que en Shelbyville se oye más música en un orden diferente a ese: Wednesday>Friday>Monday
       
   CONCLUSIÓN: La hipotesis es ***aceptada completamente***. 

[Volver a Contenidos](#back)

### Hipótesis 2: música al principio y al final de la semana <a id='week'></a>

Según la segunda hipótesis, el lunes por la mañana y el viernes por la noche, los ciudadanos de Springfield escuchan géneros diferentes a los que disfrutan los usuarios de Shelbyville.

Creamos dos tablas con los nombres proporcionados en los dos bloques de código siguientes:
* Para Springfield — `spr_general`
* Para Shelbyville — `shel_general`

In [73]:
# cree la tabla spr_general a partir de las filas df
# donde el valor en la columna 'city' es 'Springfield'
spr_general = df[df['city']=='Springfield']
spr_general.head()

Unnamed: 0,index,user_id,track,artist,genre,city,time,day
1,1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
4,4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
6,6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday


In [74]:
# crea shel_general a partir de las filas df
# donde el valor en la columna 'city' es 'Shelbyville'
shel_general = df[df['city']=='Shelbyville']
shel_general.head()

Unnamed: 0,index,user_id,track,artist,genre,city,time,day
0,0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
2,2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
5,5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
9,9,E772D5C0,Pessimist,unknown,dance,Shelbyville,21:20:49,Wednesday


Creamos la función `genre_weekday()` con cuatro parámetros:
* Una tabla para los datos (`df`)
* El día de la semana (`day`)
* La primera marca de tiempo, en formato (`time1`)
* La última marca de tiempo, en formato (`time2`)

La función debería devolver información de los 15 géneros más populares de un día determinado en un período entre dos marcas de fecha y hora:

In [75]:
# 1) Deja que la variable genre_df almacene las filas que cumplen varias condiciones:
#    - el valor de la columna 'day' es igual al valor del argumento day=
#    - el valor de la columna 'time' es mayor que el valor del argumento time1=
#    - el valor en la columna 'time' es menor que el valor del argumento time2=
#    Utiliza un filtrado consecutivo con indexación lógica.

# 2) Agrupa genre_df por la columna 'genre', toma una de sus columnas,
#    y use el método size() para encontrar el número de entradas para cada una de
#    los géneros representados; almacena los Series resultantes en
#    la variable genre_df_count

# 3) Ordena genre_df_count en orden descendente de frecuencia y guarda el resultado
#    en la variable genre_df_sorted

# 4) Devuelve un objeto Series con los primeros 15 valores de genre_df_sorted - los 15
#    géneros más populares (en un determinado día, en un determinado periodo de tiempo)

# Escribe tu función aquí
def genre_weekday(df, day, time1, time2):
    # Filtrado consecutivo
    # Cree la variable genre_df que almacenará solo aquellas filas df donde el día es igual a day=
    genre_df = df[df['day']==day]# escribe tu código aquí

    # Filtre genre_df nuevamente para almacenar solo las filas donde el tiempo es menor que time2=
    genre_df = genre_df[genre_df['time']<time2]# escribe tu código aquí

    # Filtre genre_df una vez más para almacenar solo las filas donde el tiempo es mayor que time1=
    genre_df = genre_df[genre_df['time']>time1]# escribe tu código aquí

    # Agrupe el DataFrame filtrado por la columna con los nombres de los géneros, seleccione la columna 'genre',
    # y encuentre el número de filas para cada género con el método count()
    genre_df_count = genre_df.groupby(by='genre')['genre'].count()# escribe tu código aquí

    # Ordene el objeto Serie resultante en orden descendente (para que los géneros más populares aparezcan primero en el objeto Series)
    genre_df_sorted = genre_df_count.sort_values(ascending=False)# escribe tu código aquí

    # Devuelve un objeto Series con los primeros 15 valores de genre_df_sorted los 15 géneros más populares (en un día determinado, dentro de un período de timeframe)
    return genre_df_sorted[:15]

Probamos la función `genre_weekday()`para Springfield y Shelbyville el lunes por la mañana (de 7 a 11) y el viernes por la tarde (de 17:00 a 23:00). Utilice el mismo formato de 24 horas que el conjunto de datos (por ejemplo, 05:00 = 17:00:00):

In [76]:
# llamando a la función para el lunes por la mañana en Springfield (utilizando spr_general en vez de la tabla df)
genre_weekday(spr_general, 'Monday', '17:00:00', '23:00:00')

genre
pop            717
dance          524
rock           518
electronic     485
hiphop         238
alternative    182
world          172
classical      172
ruspop         149
rusrap         133
jazz           124
unknown        109
soundtrack      92
folk            89
metal           88
Name: genre, dtype: int64

In [77]:
# llamando a la función para el lunes por la mañana en Shelbyville (utilizando shel_general en vez de la tabla df)
genre_weekday(shel_general, 'Monday', '17:00:00', '23:00:00')

genre
pop            263
rock           208
electronic     192
dance          191
hiphop         104
alternative     72
classical       71
jazz            57
rusrap          54
ruspop          53
world           52
unknown         51
metal           43
folk            39
soundtrack      37
Name: genre, dtype: int64

In [78]:
# llamando a la función para el viernes por la tarde en Springfield
genre_weekday(shel_general, 'Friday', '12:00:00', '24:00:00')

genre
pop            537
dance          447
rock           437
electronic     389
hiphop         220
classical      166
alternative    146
ruspop         123
rusrap         118
world          111
jazz           106
soundtrack      78
metal           73
folk            73
unknown         72
Name: genre, dtype: int64

In [79]:
# llamando a la función para el viernes por la tarde en Shelbyville
genre_weekday(shel_general, 'Friday', '12:00:00', '24:00:00')

genre
pop            537
dance          447
rock           437
electronic     389
hiphop         220
classical      166
alternative    146
ruspop         123
rusrap         118
world          111
jazz           106
soundtrack      78
metal           73
folk            73
unknown         72
Name: genre, dtype: int64

**Conclusión**

> ***Hipotesis 2:** Los lunes por la mañana, los habitantes de Springfield y Shelbyville escuchan géneros distintos. Lo mismo ocurre los viernes por la noche.*

R: Los lunes por la mañana, los habitantes de ambas ciudades tienen el mismo top 15 de géneros, aunque no con el mismo orden de popularidad; Para ambas ciudades se cumple que el género más popular escuchado los lunes por la mañana es el pop.

Los viernes por la tarde, nuevamente, ambas ciudades tienen el mismo top 15 de generos, y esta vez, sí tienen el mismo orden de popularidad. La hipotesís se cumple para los viernes en la tarde.

CONCLUSIÓN: Dado que para los viernes por la tarde se cumple la hipótesis, pero para el lunes por la mañana sólo para el genero más popular y algunos cuantos mas, diría que la hipótesis es ***parcialmente aceptada***.

[Volver a Contenidos](#back)

### Hipótesis 3: preferencias de género en Springfield y Shelbyville <a id='genre'></a>

Hipótesis: Shelbyville ama la música rap. A los residentes de Springfield les gusta más el pop.

In [80]:
# Escribe una línea de código que:
# 1. agrupe la tabla spr_general por la columna 'genre';
# 2. cuente los valores 'genre' con count() en la agrupación;
# 3. ordene el Series resultante en orden descendente y lo guarde en spr_genres.
spr_genres = spr_general.groupby(by='genre')['genre'].count().sort_values(ascending=False)

In [81]:
# mostrar las 10 primeras filas de spr_genres
spr_genres.head(10)

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: genre, dtype: int64

Ahora hacemos lo mismo con los datos de Shelbyville.

In [82]:
# Escribe una línea de código que:
# 1. agrupe la tabla shel_general por la columna 'genre';
# 2. cuente los valores 'genre' en el agrupamiento con count();
# 3. ordene el Series resultante en orden descendente y lo guarde en shel_genres.
shel_genres = shel_general.groupby(by='genre')['genre'].count().sort_values(ascending=False)

In [83]:
# Muestra las 10 primeras filas de shel_genres
shel_genres.head(10)

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: genre, dtype: int64

**Conclusión**


> ***Hipótesis 3:** Shelbyville ama la música rap. A los residentes de Springfield les gusta más el pop*.

Ambas ciudades tienen como genero favorito al pop y gustan del rap en la misma proporción (aproximadamente un 20% de lo que escuchan pop) 

CONCLUSIÓN: La hipotesis es ***completamente rechazada***.

[Volver a Contenidos](#back)

# Conclusiones de las pruebas de hipótesis <a id='end'></a>

***Hipóteis 1:*** *ACEPTADA COMPLETAMENTE:* Ambas ciudades consumen música de modo distinto de acuerdo al día de la semana.

***Hipóteis 2:*** *ACEPTADA PARCIALMENTE*: Solo se cumple la hipótesis para los viernes por la tarde, para los lunes por la mañana solo se cumple para ciertos generos específicos

***Hipóteis 3:*** *RECHAZADA COMPLETAMENTE:* Ambas ciudades aman el pop.

[Volver a Contenidos](#back)