# Déjame escuchar la música

En este proyecto, compararás las preferencias musicales de las ciudades de Springfield y Shelbyville. Estudiarás datos reales de transmisión de música online para probar las hipótesis a continuación y comparar el comportamiento de los usuarios y las usuarias de estas dos ciudades.

## Introducción <a id='intro'></a>

En este proyecto, preparamos un pequeño reto para ti. Incluimos un nuevo tipo de estructura de datos: las marcas temporales. Las marcas temporales son muy comunes y merecen una atención adicional. Más adelante en el programa, aprenderás mucho sobre ellas. Sin embargo, por ahora las trataremos como simples strings. Necesitamos marcas temporales en este proyecto para poner a prueba una de nuestras hipótesis. Tu nivel de conocimientos actual será suficiente para abordarlo.



In [5]:
# Comparar los objetos datetime

dt1 = "12:00:00"
dt2 = "06:00:00"

if dt1 < dt2:
    print("La marca temporal 2 es posterior")
else:
    print("La marca temporal 1 es posterior")

La marca temporal 1 es posterior


## Etapa 1. Descripción de los datos <a id='data_review'></a>



In [6]:
# importar pandas
import pandas as pd

In [7]:
df=pd.read_csv("/datasets/music_project_en.csv")# Leer el archivo y almacenarlo en df


In [8]:
display(df.head(10))# Obtener las 10 primeras filas de la tabla df


Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


In [9]:
display(df.describe())# Obtener información general sobre los datos en df


Unnamed: 0,userID,Track,artist,genre,City,time,Day
count,65079,63736,57512,63881,65079,65079,65079
unique,41748,39666,37806,268,2,20392,3
top,A8AE9169,Brand,Kartvelli,pop,Springfield,08:14:07,Friday
freq,76,136,136,8850,45360,14,23149


In [10]:
display(df.info()) # información de columnas del dataframe

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


None

Estas son las observaciones sobre la tabla. Contiene siete columnas. Todas almacenan el mismo tipo de datos: `object` (objeto).

Según la documentación:
- `' userID'` — identificador del usuario o la usuaria;
- `'Track'` — título de la canción;
- `'artist'` — nombre del artista;
- `'genre'` — género musical;
- `'City'` — ciudad del usuario o la usuaria;
- `'time'` — hora exacta en la que se reprodujo la canción;
- `'Day'` — día de la semana.

Podemos ver tres problemas con el estilo en los encabezados de la tabla:
1. Algunos encabezados están en mayúsculas; otros, en minúsculas.
2. Hay espacios en algunos encabezados.
3. No hay separador entre dos palabras.




In [11]:
display(df) # vista general

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
...,...,...,...,...,...,...,...
65074,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
65075,D08D4A55,Maybe One Day (feat. Black Spade),Blu & Exile,hip,Shelbyville,10:00:00,Monday
65076,C5E3A0D5,Jalopiina,,industrial,Springfield,20:09:26,Friday
65077,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday


In [12]:
print(df.duplicated().sum()) # cantidad de duplicados

3826


In [13]:
print(df["time"][df["time"]<="24:00:00"].count()) # valores del tiempo que cumplen

65079


In [14]:
display(df.isna().sum()) # contando valores nulos o vacios

  userID       0
Track       1343
artist      7567
genre       1198
  City         0
time           0
Day            0
dtype: int64

In [15]:
print(df["Day"].unique())

['Wednesday' 'Friday' 'Monday']


In [16]:
print(df["genre"].unique()) # valores únicos de género

['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic' nan
 'alternative' 'children' 'rnb' 'hip' 'jazz' 'postrock' 'latin'
 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental' 'rusrock'
 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'hiphop' 'drum' 'extrememetal' 'türkçe'
 'experimental' 'easy' 'metalcore' 'modern' 'argentinetango' 'old' 'swing'
 'breaks' 'eurofolk' 'stone

### Observaciones <a id='data_review_conclusions'></a>

`1.   ¿Qué tipo de datos tenemos a nuestra disposición en las filas? ¿Y cómo podemos entender lo que almacenan las columnas?`

       son objetos, podemos entender mostrando que contienen las columnas o leyendo la documentación

`2.   ¿Hay suficientes datos para proporcionar respuestas a nuestras tres hipótesis o necesitamos más información?`
       si hay suficientes datos para la segunda y tercera, sin embargo solo hay datos de 3 días porque lo que se podría asegurarNla primera hipótesis.

`3.   ¿Notaste algún problema en los datos, como valores ausentes, duplicados o tipos de datos incorrectos?

     si, hay valores ausentes y duplicados, la marca de tiempo no es mayor a 24h lo cual es correcto
     hay valores NA


## Etapa 2. Preprocesamiento de datos <a id='data_preprocessing'></a>

El objetivo aquí es preparar los datos para que sean analizados.
El primer paso es resolver cualquier problema con los encabezados. Luego podemos avanzar a los valores ausentes y duplicados. 

### Estilo del encabezado <a id='header_style'></a>


In [17]:
# La lista de encabezados para la tabla df
df.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

Cambia los encabezados de la tabla de acuerdo con las reglas del buen estilo:
* todos los caracteres deben ser minúsculas;
* elimina los espacios;
* si el nombre tiene varias palabras, utiliza snake_case.

Ahora se elimina los espacios al principio y al final de los encabezados :

In [18]:
# Bucle en los encabezados eliminando los espacios
new_name=[]
for old_name in df.columns:
    new_name.append(old_name.strip())
df.columns = new_name
print(df.columns)

Index(['userID', 'Track', 'artist', 'genre', 'City', 'time', 'Day'], dtype='object')


caractéres en minúsculas :

In [19]:
# Bucle en los encabezados poniendo todo en minúsculas
new_name = []
for old_name in df.columns:
    new_name.append(old_name.lower())
df.columns= new_name
print(df.columns)


Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


Se aplica snake_case al encabezado userID y muestra el encabezado de la tabla:

In [20]:
# Cambiar el nombre del encabezado "user_id"
df.rename( columns = {"userid":"user_id"} , inplace= True)


Se comprueba el resultado:

In [21]:
# Comprobar el resultado: la lista de encabezados
print(df.columns)


Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


### Valores ausentes <a id='missing_values'></a>


In [22]:
# Calcular el número de valores ausentes
print(df.isnull().sum())

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


No todos los valores ausentes afectan a la investigación. Por ejemplo, los valores ausentes en `track` y `artist` no son cruciales. Simplemente se puede reemplazarlos con valores predeterminados como el string `'unknown'` (desconocido).

Pero los valores ausentes en `'genre'` pueden afectar la comparación entre las preferencias musicales de Springfield y Shelbyville. En la vida real, sería útil saber las razones por las cuales hay datos ausentes e intentar recuperarlos. Pero no tenemos esa oportunidad en este proyecto. Así que tendrás que:
* rellenar estos valores ausentes con un valor predeterminado;
* evaluar cuánto podrían afectar los valores ausentes a tus cómputos;

Reemplazar los valores ausentes en `'track'`, `'artist'` y `'genre'` con el string `'unknown'`. Para hacer esto, se crea la lista `columns_to_replace`, con un bucle `for` y reemplaza los valores ausentes en cada columna:

In [23]:
# Bucle en los encabezados reemplazando los valores ausentes con 'unknown'
columns_to_replace =["track","artist","genre"]
for columna in columns_to_replace:
    df[columna].fillna("unknowm",inplace=True)



In [24]:
# Contando valores ausentes
print(df.isnull().sum())

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


### Duplicados <a id='duplicates'></a>
Duplicados explícitos en la tabla usando un comando:

In [25]:
# Contar duplicados explícitos
df.duplicated().sum()


3826

Cuenta los duplicados explícitos una vez más para asegurarte de haberlos eliminado todos:

In [27]:
# Comprobación de duplicados

df.duplicated().sum()

0

Ahora queremos deshacernos de los duplicados implícitos en la columna `genre`. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar al resultado.

Para hacerlo, primero mostremos una lista de nombres de género únicos, ordenados en orden alfabético. Para hacerlo:
* Se recupera la columna deseada del dataFrame;
* Se llama al método que te devolverá todos los valores de columna únicos;
* Se aplica un método de ordenamiento a tu resultado.


In [28]:
# Inspeccionando los nombres de géneros únicos
unicos=df["genre"].unique()
print(unicos)

['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknowm' 'alternative' 'children' 'rnb' 'hip' 'jazz' 'postrock' 'latin'
 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental' 'rusrock'
 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'hiphop' 'drum' 'extrememetal' 'türkçe'
 'experimental' 'easy' 'metalcore' 'modern' 'argentinetango' 'old' 'swing'
 'breaks' 'eurofolk' 

In [57]:

unicos.sort()
print(unicos)

['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'axé' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forró' 'frankreich'
 'französisch' 

Se Busca en la lista para encontrar duplicados implícitos del género `hiphop`. Estos pueden ser nombres escritos incorrectamente o nombres alternativos para el mismo género.

duplicados implícitos:
* `hip`
* `hop`
* `hip-hop`

Se declara la función `replace_wrong_genres()` con dos parámetros:
* `wrong_genres=` — la lista de duplicados;
* `correct_genre=` — el string con el valor correcto.

La función debería corregir los nombres en la columna `'genre'` de la tabla `df`, es decir, remplazar cada valor de la lista `wrong_genres` con el valor en `correct_genre`. Utilizando un bucle `'for'` para iterar sobre la lista de géneros incorrectos y reemplazarlos con el género correcto en la lista principal.

In [30]:
# Función para reemplazar duplicados implícitos


def replace_wrong_genres(correct_genre, wrong_genres, df_column):
    for wrong in wrong_genres:
        df_column = df_column.replace(wrong,correct_genre)
    return df_column
        
        

In [31]:
# Eliminar duplicados implícitos

wrong_genres =["hip","hop","hip-hop"]  #la lista de duplicados;
correct_genre ="hiphop"  # el string con el valor correcto.

df["genre"]= replace_wrong_genres(correct_genre, wrong_genres, df["genre"])



In [32]:
# Comprobación de duplicados implícitos
unicos= df["genre"].unique()

print(unicos)


['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknowm' 'alternative' 'children' 'rnb' 'hiphop' 'jazz' 'postrock'
 'latin' 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental'
 'rusrock' 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'drum' 'extrememetal' 'türkçe' 'experimental' 'easy'
 'metalcore' 'modern' 'argentinetango' 'old' 'swing' 'breaks' 'eurofolk'
 'stone

### Tus observaciones <a id='data_preprocessing_conclusions'></a>

Se registraron muchos duplicados en el dataframe, tuve que usar algunas funciones para analizarlos,y crear una función para eliminar duplicados implícitos.

## Etapa 3. Prueba de hipótesis <a id='hypotheses'></a>

### Hipótesis 1: comparar el comportamiento del usuario o la usuaria en las dos ciudades <a id='activity'></a>

La primera hipótesis afirma que existen diferencias en la forma en que los usuarios y las usuarias de Springfield y Shelbyville consumen música. Para comprobar esto, usa los datos de tres días de la semana: lunes, miércoles y viernes.

* Se grupa a los usuarios y las usuarias por ciudad.
* Se Compara el número de canciones que cada grupo reprodujo el lunes, el miércoles y el viernes.




Para evaluar la actividad de los usuarios y las usuarias en cada ciudad, se agrupa los datos por ciudad y encuentra la cantidad de canciones reproducidas en cada grupo.



In [34]:
# Contando las canciones reproducidas en cada ciudad
song_ciudad= df.groupby("city")["user_id"].count() 
print(song_ciudad)


city
Shelbyville    18512
Springfield    42741
Name: user_id, dtype: int64


Hay más canciones reproducidad en la ciudad de Springfield

Ahora se agrupa los datos por día de la semana y el número de canciones reproducidas el lunes, miércoles y viernes.


In [35]:
# calculando las canciones reproducidas en cada uno de los tres días
song_day= df.groupby("day")["track"].count()
print(song_day)

day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64


Los días viernes y lunes se escucharon más canciones



Se Crea la `number_tracks()` para calcular el número de canciones reproducidas en un determinado día y ciudad. La función debe aceptar dos parámetros:

- `day`: un día de la semana para filtrar. Por ejemplo, `'Monday'`.
- `city`: una ciudad para filtrar. Por ejemplo, `'Springfield'`.

Dentro de la función, se aplica un filtrado consecutivo con indexación lógica.

Primero filtra los datos por día y luego filtra la tabla resultante por ciudad.

Después de filtrar los datos por dos criterios, cuenta el número de valores de la columna 'user_id' en la tabla resultante. Este recuento representa el número de entradas que estás buscando. Guarda el resultado en una nueva variable y devuélvelo desde la función.

Llama a `number_tracks()` seis veces, cambiando los valores de los parámetros para que recuperes los datos de ambas ciudades para cada uno de los tres días.

In [37]:
# El número de canciones reproducidas en Springfield el lunes
print(number_tracks("Monday","Springfield"))

15740


In [38]:
# El número de canciones reproducidas en Shelbyville el lunes
print(number_tracks("Monday","Shelbyville"))

5614


In [39]:
# El número de canciones reproducidas en Springfield el miércoles
print(number_tracks("Wednesday","Springfield"))

11056


In [40]:
# El número de canciones reproducidas en Shelbyville el miércoles
print(number_tracks("Wednesday","Shelbyville"))

7003


In [41]:
# El número de canciones reproducidas en Springfield el viernes
print(number_tracks("Friday","Springfield"))

15945


In [42]:
# El número de canciones reproducidas en Shelbyville el viernes
print(number_tracks("Friday","Shelbyville"))

5895


Se utiliza `pd.DataFrame` para crear una tabla, donde
* Los encabezados de la tabla son: `['city', 'monday', 'wednesday', 'friday']`
* Los datos son los resultados que conseguiste de `number_tracks()`

In [43]:
# Tabla con los resultados
songs_citys=pd.DataFrame(data=[["Springfield",15740,7003,15945],["Shelbyville",5614,7003,5895]],columns=['city', 'monday', 'wednesday', 'friday'])

In [44]:
print(songs_citys)

          city  monday  wednesday  friday
0  Springfield   15740       7003   15945
1  Shelbyville    5614       7003    5895


**Conclusiones**


La hipótesis es correcta los de la ciudad de Springfield escuchan más música los lunes y viernes, mientras los de la ciudad Shelbyville los miércoles.

### Hipótesis 2: música al principio y al final de la semana <a id='week'></a>

Según la segunda hipótesis, el lunes por la mañana y el viernes por la noche, los ciudadanos de Springfield escuchan géneros diferentes a los que disfrutan los usuarios de Shelbyville.

Cree dos tablas con los nombres proporcionados en los dos bloques de código siguientes:
* Para Springfield — `spr_general`
* Para Shelbyville — `shel_general`

In [45]:
# cree la tabla spr_general a partir de las filas df
# donde el valor en la columna 'city' es 'Springfield'

spr_general= df[df["city"]=="Springfield"]


In [46]:
# crea shel_general a partir de las filas df
# donde el valor en la columna 'city' es 'Shelbyville'
shel_general= df[df["city"]=="Shelbyville"]

Se escribe la función `genre_weekday()` con cuatro parámetros:
* Una tabla para los datos (`df`)
* El día de la semana (`day`)
* La primera marca de tiempo, en formato (`time1`)
* La última marca de tiempo, en formato (`time2`)

La función debería devolver información de los 15 géneros más populares de un día determinado en un período entre dos marcas de fecha y hora.
Se Aplica la misma lógica de filtrado consecutivo, pero esta vez se utiliza cuatro filtros y luego se crea una nueva columna con los respectivos recuentos de reproducción.


In [47]:

import numpy as np

def genre_weekday(df,day,time1,time2):
    genre_df= df[(df["day"]==day) & (df["time"]<time2) & ( df["time"]>time1) ] #almacenará solo aquellas filas df donde el día es igual a day
    # Filtre genre_df nuevamente para almacenar solo las filas donde el tiempo es menor que time2=
    # Filtre genre_df una vez más para almacenar solo las filas donde el tiempo es mayor que time1=
    # Agrupe el DataFrame filtrado por la columna con los nombres de los géneros, seleccione la columna 'genre',
    # y encuentre el número de filas para cada género con el método count()
    genre_df_count = genre_df.groupby(by="genre")["track"].count()

    # Ordene el objeto Serie resultante en orden descendente (para que los géneros más populares aparezcan primero en el objeto Series)
    genre_df_sorted = genre_df_count.sort_values(ascending= False)

    # Devuelve un objeto Series con los primeros 15 valores de genre_df_sorted los 15 géneros más populares (en un día determinado, dentro de un período de timeframe)
    return genre_df_sorted[:15]

Se Compara los resultados de la función `genre_weekday()`para Springfield y Shelbyville el lunes por la mañana (de 7 a 11) y el viernes por la tarde (de 17:00 a 23:00). Se Utiliza el mismo formato de 24 horas que el conjunto de datos (por ejemplo, 05:00 = 17:00:00):

In [48]:
# llamando a la función para el lunes por la mañana en Springfield (utilizando spr_general en vez de la tabla df)
genre_weekday(spr_general,"Monday","07:00:00","11:00:00")

genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknowm        161
classical      157
metal          120
jazz           100
folk            97
soundtrack      95
Name: track, dtype: int64

In [49]:
# llamando a la función para el lunes por la mañana en Shelbyville (utilizando shel_general en vez de la tabla df)
genre_weekday(shel_general,"Monday","07:00:00","11:00:00")

genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
world           36
rap             32
soundtrack      31
rnb             27
metal           27
Name: track, dtype: int64

In [50]:
# llamando a la función para el viernes por la tarde en Springfield
genre_weekday(spr_general,"Friday","17:00:00","23:00:00")

genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
classical      163
alternative    163
rusrap         142
jazz           111
unknowm        110
soundtrack     105
rnb             90
metal           88
Name: track, dtype: int64

In [51]:
# llamando a la función para el viernes por la tarde en Shelbyville
genre_weekday(shel_general,"Friday","17:00:00","23:00:00")

genre
pop            256
rock           216
electronic     216
dance          210
hiphop          97
alternative     63
jazz            61
classical       60
rusrap          59
world           54
unknowm         47
ruspop          47
soundtrack      40
metal           39
rap             36
Name: track, dtype: int64

**Conclusión**
La hipótesis debe rechazarse, ya que si escuchan géneros similares como pop,rock, dance, electronic y hiphop


### Hipótesis 3: preferencias de género en Springfield y Shelbyville <a id='genre'></a>

Hipótesis: Shelbyville ama la música rap. A los residentes de Springfield les gusta más el pop.

se agrupa la tabla `spr_general` por género y se encuentra el número de canciones reproducidas de cada género con el método `count()`. Después, se ordena el resultado en orden descendente y se guarda en `spr_genres`.

In [52]:

spr_genres= spr_general.groupby(by="genre")["track"].count()
spr_genres= spr_genres.sort_values(ascending=False)

In [53]:
# mostrar las 10 primeras filas de spr_genres
spr_genres.head(10)


genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: track, dtype: int64

In [54]:

# 1. agrupe la tabla shel_general por la columna 'genre';
# 2. cuente los valores 'genre' en el agrupamiento con count();
# 3. ordene el Series resultante en orden descendente y lo guarde en shel_genres.

shel_genres= shel_general.groupby(by="genre")["track"].count()
shel_genres= shel_genres.sort_values(ascending=False)


In [55]:
# Muestra las 10 primeras filas de shel_genres
shel_genres.head(10)

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: track, dtype: int64

**Conclusión**
Rechazo la hipótesis porque según los resultados ambas ciudades les gusta más el pop.


# Conclusiones <a id='end'></a>

1.La actividad de los usuarios y las usuarias difiere según el día de la semana y dependiendo de la ciudad.
(hipótesis correcta)

2.Los lunes por la mañana, los habitantes de Springfield y Shelbyville escuchan géneros distintos. Lo mismo ocurre los viernes por la noche.(hipótesis rechazada, ya que usuarios de ambas ciudades escuchan géneros similares)

3.Los oyentes de Springfield y Shelbyville tienen preferencias distintas. En Springfield prefieren el pop, mientras que en Shelbyville hay más personas a las que les gusta el rap.

(hipótesis rechazada, ya que en ambas ciudades el género más escuchado es el pop.)



### Nota
En proyectos de investigación reales, la prueba de hipótesis estadística es más precisa y cuantitativa. También ten en cuenta que no siempre se pueden sacar conclusiones sobre una ciudad entera a partir de datos de una sola fuente.

Aprenderás más sobre la prueba de hipótesis en el sprint de análisis estadístico de datos.