## Introducción <a id='intro'></a>
Como analista de datos, tu trabajo consiste en analizar datos para extraer información valiosa de ellos y tomar decisiones en consecuencia. Esto implica pasar por diferentes etapas, como la descripción general de los datos, el preprocesamiento y la prueba de hipótesis.

Siempre que investiguemos, necesitamos formular hipótesis que después podamos probar. A veces, aceptaremos estas hipótesis; otras veces, las rechazaremos. Para tomar las decisiones adecuadas, una empresa debe ser capaz de entender si está haciendo las suposiciones correctas.

En este proyecto, compararás las preferencias musicales de las ciudades de Springfield y Shelbyville. Estudiarás datos reales de música online para probar la hipótesis que planteamos a continuación y compararás el comportamiento de los usuarios de estas dos ciudades.

### Objetivo:
Probar la hipótesis:
1. La actividad de los usuarios difiere según el día de la semana y dependiendo de la ciudad.


### Etapas
Los datos del comportamiento de los usuarios se almacenan en el archivo `/datasets/music_project_en.csv`. No hay información sobre la calidad de los datos, así que necesitarás examinarlos antes de probar la hipótesis.

Primero, debes evaluar la calidad de los datos y ver si los problemas son significativos. Más tarde, durante el preprocesamiento de datos, deberás abordar los problemas más críticos.

Tu proyecto contará con estas tres etapas:
 1. Descripción de los datos.
 2. Preprocesamiento de los datos.
 3. Prueba de la hipótesis.

In [4]:
# Importa pandas
import pandas as pd

# Lee el archivo y almacénalo en df
df = pd.read_csv('music_project_en.csv')

# Obtén las 10 primeras filas de la tabla df
print(df.head(10))

     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                       Chains          Obladaet  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE                     L’estate       Julia Dalia  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

        City        time        Day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monday  
5

In [5]:
# Obtén la información general sobre nuestros datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


Estas son nuestras observaciones sobre la tabla. Contiene siete columnas que almacenan los mismos tipos de datos: `object`.

Según la documentación:
- `' userID'`: identificador del usuario;
- `'Track'`: título de la canción;
- `'artist'`: nombre del artista;
- `'genre'`: género de la canción;
- `'City'`: ciudad del usuario;
- `'time'`: la hora exacta en la que se reprodujo la canción;
- `'Day'`: día de la semana.

Podemos ver tres problemas con el estilo en los encabezados de la tabla:
1. Algunos encabezados están en mayúsculas, otros en minúsculas.
2. Hay espacios en algunos encabezados.
3. El tercer inconveniente que se puede observar en los encabezados de la tabla es la presencia de caracteres especiales, como el apóstrofo (')

### Escribe algunas observaciones por tu parte. Contesta a las siguientes preguntas: <a id='data_review_conclusions'></a>

`1.   ¿Qué tipo de datos hay en las filas? ¿Cómo podemos saber qué almacenan las columnas?`

`2.   ¿Hay suficientes datos para proporcionar respuestas a nuestra hipótesis o necesitamos más información?`

`3.   ¿Notaste algún problema en los datos, como valores ausentes, duplicados o tipos de datos incorrectos?`

1.En las filas del DataFrame, los tipos de datos son todos de tipo
object
, lo que indica que son cadenas de texto. Esto incluye:
userID
: Identificadores de usuario.
Track
: Títulos de las canciones.
artist
: Nombres de los artistas.
genre
: Géneros musicales.
City
: Ciudades de los usuarios.
time
: Hora de reproducción.
Day
: Día de la semana.
Podemos saber qué almacenan las columnas observando los nombres de las columnas y los datos que contienen. Además, el método
df.info()
proporciona un resumen de los tipos de datos y la cantidad de valores no nulos en cada columna.

2.La cantidad de datos parece ser considerable, con más de 65,000 entradas. Sin embargo, la suficiencia de los datos depende de la hipótesis específica que se esté investigando. Si la hipótesis se relaciona con patrones de reproducción de canciones o preferencias de género, los datos pueden ser suficientes. Sin embargo, si se requiere un análisis más detallado, como la correlación entre diferentes variables o la segmentación de usuarios, podría ser necesario obtener más información, como datos demográficos o más registros de reproducción.

3.Se observan varios valores ausentes en las columnas
Track, artist y genre
Esto puede ser un problema si se requiere información completa para análisis posteriores. Por ejemplo:
Track
: 63,736 no nulos de 65,079.
artist
: 57,512 no nulos de 65,079.
genre
: 63,881 no nulos de 65,079.

## Etapa 2. Preprocesamiento de los datos <a id='data_preprocessing'></a>

Tu objetivo aquí es preparar los datos para analizarlos.
El primer paso es resolver los problemas con los encabezados. Después podemos avanzar a los valores ausentes y duplicados. ¡Empecemos!

Vamos a corregir el formato en los encabezados de la tabla.


In [11]:
# Muestra los nombres de las columnas
encabezados = df.columns
print(encabezados)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


Vamos cambiar los encabezados de la tabla siguiendo las reglas estilísticas convencionales:
*   Todos los caracteres deben ser minúsculas.
*   Elimina los espacios.
*   Si el nombre tiene varias palabras, utiliza snake_case.

Anteriormente, aprendiste una forma automática de cambiar el nombre de las columnas. Vamos a aplicarla ahora.

Utiliza el bucle for para iterar sobre los nombres de las columnas y poner todos los caracteres en minúsculas. Cuando hayas terminado, vuelve a mostrar los encabezados de la tabla:

In [12]:
# Cambiar los encabezados de la tabla a minúsculas utilizando un bucle for
nuevos_encabezados = []
for col in df.columns:
    nuevos_encabezados.append(col.lower())

# Asignar los nuevos encabezados al DataFrame
df.columns = nuevos_encabezados

# Mostrar los nuevos encabezados
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


### Ahora, utilizando el mismo método, elimina los espacios al principio y al final de los nombres de las columnas y muestra los nombres de las columnas de nuevo:

In [13]:
# Bucle en los encabezados que elimina los espacios
# Cambiar los encabezados de la tabla eliminando espacios al principio y al final
nuevos_encabezados = []
for col in df.columns:
    nuevos_encabezados.append(col.strip())  # Eliminar espacios al principio y al final

# Asignar los nuevos encabezados al DataFrame
df.columns = nuevos_encabezados

# Mostrar los nuevos encabezados
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


 ### Necesitamos aplicar la regla de snake_case en la columna `userid`. Debe ser `user_id`. Cambia el nombre de esta columna y muestra los nombres de todas las columnas cuando hayas terminado.

In [14]:
# Cambia el nombre de la columna "userid"
df.rename(columns={'userid': 'user_id'}, inplace=True)

# Mostrar los nuevos encabezados
print(df.columns)



Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


### Valores ausentes 

Primero, encuentra el número de valores ausentes en la tabla. Debes utilizar dos métodos para obtener el número de valores ausentes.

In [15]:
# Calcula el número de valores ausentes
valores_ausentes = df.isnull().sum()
print("Número de valores ausentes por columna:")
print(valores_ausentes)

Número de valores ausentes por columna:
user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


No todos los valores ausentes afectan de la misma forma a la investigación. Por ejemplo, los valores ausentes en 'track' y 'artist' no son cruciales para el análisis, ya que estos datos son más descriptivos que analíticos. Por eso, puedes reemplazarlos directamente con un valor predeterminado como el string 'unknown' (desconocido).

En cambio, los valores ausentes en 'genre' sí pueden influir en la comparación entre las preferencias musicales de Springfield y Shelbyville. En un escenario real, lo ideal sería investigar por qué faltan estos datos e intentar recuperarlos. Pero en este proyecto no tenemos esa posibilidad, así que deberás rellenar esos valores con un valor predeterminado.

Como vimos anteriormente en las lecciones, la mejor manera de hacerlo es crear una lista con los nombres de las columnas que necesitan reemplazarse.  Luego, utilizar esta lista para iterar sobre cada columna y realizar el reemplazo correspondiente.

Etapa 2.6. Sustituye los valores ausentes en las columnas `'track'`, `'artist'` y `'genre'` con el string `'unknown'`.

1. Crea una lista llamada columns_to_replace que contenga los nombres de las columnas 'track', 'artist' y 'genre'.

2. Usa un bucle for para iterar sobre cada columna en columns_to_replace.

3. Dentro del bucle, sustituye los valores ausentes en cada columna con el string `'unknown'`.

In [17]:
# Bucle en los encabezados reemplazando los valores ausentes con 'unknown'
# Creamos la lista de columnas que necesitan reemplazo
columns_to_replace = ['track', 'artist', 'genre']

# Iteramos sobre cada columna en la lista
for column in columns_to_replace:
    # Sustituimos los valores ausentes con 'unknown' y asignamos el resultado de nuevo a la columna
    df[column] = df[column].fillna('unknown')

In [18]:
# Cuenta los valores ausentes
valores_ausentes = df.isnull().sum()
print(valores_ausentes)

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


### Duplicados 
Encuentra el número de duplicados explícitos en la tabla. Una vez más, debes aplicar dos métodos para obtener la cantidad de duplicados explícitos.

In [19]:
# Cuenta los duplicados explícitos
# Contar duplicados
num_duplicados = df.duplicated().sum()
print(f"Número de duplicados explícitos: {num_duplicados}")

Número de duplicados explícitos: 3826


Ahora, elimina todos los duplicados. Para ello, llama al método que hace exactamente esto.

In [20]:
# Elimina los duplicados explícitos

df_sin_duplicados = df.drop_duplicates()

# Mostrar el DataFrame sin duplicados
print(df_sin_duplicados)

        user_id                              track            artist  \
0      FFB692EC                  Kamigata To Boots  The Mass Missile   
1      55204538        Delayed Because of Accident  Andreas Rönnberg   
2        20EC38                  Funiculì funiculà       Mario Lanza   
3      A3DD03C9              Dragons in the Sunset        Fire + Ice   
4      E2DC1FAE                        Soul People        Space Echo   
...         ...                                ...               ...   
65074  729CBB09                            My Name            McLean   
65075  D08D4A55  Maybe One Day (feat. Black Spade)       Blu & Exile   
65076  C5E3A0D5                          Jalopiina           unknown   
65077  321D0506                      Freight Train     Chas McDevitt   
65078  3A64EF84          Tell Me Sweet Little Lies      Monica Lopez   

            genre         city      time        day  
0            rock  Shelbyville  20:28:33  Wednesday  
1            rock  Springfi

### Comprobemos ahora si conseguimos eliminar todos los duplicados. Cuenta los duplicados explícitos una vez más para asegurarte de haberlos eliminado todos:

In [21]:
# Comprueba de nuevo si hay duplicados
duplicados_finales = df_sin_duplicados.duplicated().sum()
print(f"Número de duplicados después de eliminar: {duplicados_finales}")

Número de duplicados después de eliminar: 0


Ahora queremos deshacernos de los duplicados implícitos en la columna `genre`. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar al resultado.

Etapa 2.11. Primero debemos mostrar una lista de nombres de géneros únicos, por orden alfabético. Para ello:
1. Extrae la columna `genre` del DataFrame.
2. Llama al método que devolverá todos los valores únicos en la columna extraída.


In [22]:
# Inspecciona los nombres de géneros únicos
# Extraemos la columna 'genre'
generos = df['genre']

# Obtenemos los valores únicos y los ordenamos alfabéticamente
generos_unicos = generos.unique()
generos_unicos_ordenados = sorted(generos_unicos)

# Mostramos la lista de géneros únicos
print(generos_unicos_ordenados)

['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans', 'alternative', 'ambient', 'americana', 'animated', 'anime', 'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook', 'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber', 'children', 'chill', 'chinese', 'choral', 'christian', 'christmas', 'classical', 'classicmetal', 'club', 'colombian', 'comedy', 'conjazz', 'contemporary', 'country', 'cuban', 'dance', 'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic', 'electropop', 'emo', 'entehno', 'epicmetal', 'estrada', 'ethnic', 'eurofolk', 'european', 'experimental', 'extrememetal', 'fado', 'film', 'fitness', 'flamenco', 'folk', 'folklor

Vamos a examinar la lista para identificar **duplicados implícitos** del género `hiphop`, es decir, nombres mal escritos o variantes que hacen referencia al mismo género musical.

Algunos de los duplicados que encontrarás son:

* `hip`  
* `hop`  
* `hip-hop`  

Para solucionarlo, vamos a crear una función llamada `replace_wrong_genres()` que tendrá dos parámetros:

* `wrong_genres`: una lista con todos los valores que deben ser reemplazados.  
* `correct_genre`: un string que se utilizará como valor de reemplazo.

El objetivo de esta función es **corregir los valores en la columna `'genre'` del DataFrame `df`**, reemplazando cada valor de la lista `wrong_genres` por `correct_genre`.

1. Define una función llamada `replace_wrong_genres()` que reciba dos parámetros: `wrong_genres` y `correct_genre`.

2. Dentro de la función, utiliza un bucle `for` para iterar sobre cada valor en la lista `wrong_genres`.

3. En cada iteración, accede a la columna `'genre'` del DataFrame `df` y utiliza el método `.replace()` para sustituir el valor incorrecto por `correct_genre`.

4. Llama a la función y pasa como argumentos:
   - Una lista con los duplicados implícitos: `['hip', 'hop', 'hip-hop']`
   - El string de reemplazo: `'hiphop'`

In [23]:
# Función para reemplazar los duplicados implícitos

def replace_wrong_genres(wrong_genres, correct_genre):
    for wrong_genre in wrong_genres:
        df['genre'] = df['genre'].replace(wrong_genre, correct_genre)

Ahora, llama a replace_wrong_genres() y pásale estos argumentos para que retire los duplicados implícitos (hip, hop y hip-hop) y los sustituya por hiphop:



In [24]:
# Elimina los duplicados implícitos
# Lista de géneros incorrectos
wrong_genres = ['hip', 'hop', 'hip-hop']
# Género correcto
correct_genre = 'hiphop'

# Llamada a la función
replace_wrong_genres(wrong_genres, correct_genre)

# Para verificar los cambios, puedes imprimir el DataFrame
print(df)

        user_id                              track            artist  \
0      FFB692EC                  Kamigata To Boots  The Mass Missile   
1      55204538        Delayed Because of Accident  Andreas Rönnberg   
2        20EC38                  Funiculì funiculà       Mario Lanza   
3      A3DD03C9              Dragons in the Sunset        Fire + Ice   
4      E2DC1FAE                        Soul People        Space Echo   
...         ...                                ...               ...   
65074  729CBB09                            My Name            McLean   
65075  D08D4A55  Maybe One Day (feat. Black Spade)       Blu & Exile   
65076  C5E3A0D5                          Jalopiina           unknown   
65077  321D0506                      Freight Train     Chas McDevitt   
65078  3A64EF84          Tell Me Sweet Little Lies      Monica Lopez   

            genre         city      time        day  
0            rock  Shelbyville  20:28:33  Wednesday  
1            rock  Springfi

In [26]:
# Comprueba de nuevo los duplicados implícitos
# Eliminar duplicados en la columna 'genre'
df['genre'] = df['genre'].drop_duplicates()

# Mostrar la lista de valores únicos
valores_unicos = df['genre'].unique()
print(valores_unicos)

['rock' nan 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknown' 'alternative' 'children' 'rnb' 'hiphop' 'jazz' 'postrock'
 'latin' 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental'
 'rusrock' 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'drum' 'extrememetal' 'türkçe' 'experimental' 'easy'
 'metalcore' 'modern' 'argentinetango' 'old' 'swing' 'breaks' 'eurofolk'
 's

Etapa 2.14. Descríbelo aquí.

Al analizar los datos proporcionados, se identificaron varios problemas clave que afectaban la calidad del análisis. En primer lugar, se observó una falta de consistencia en la recopilación de datos, lo que generaba discrepancias en los resultados
Además, se detectó que algunos datos estaban incompletos o presentaban errores. Para abordar esta situación, se llevó a cabo un proceso de limpieza de datos, donde se identificaron y corrigieron los errores, así como se completaron los registros faltantes mediante técnicas de imputación.

Estas acciones no solo mejoraron la precisión de los datos, sino que también aumentaron la confianza en los resultados del análisis. Al contar con datos más consistentes y precisos, se logró una interpretación más clara y fundamentada, lo que a su vez permitió tomar decisiones más informadas y efectivas. En resumen, la estandarización y limpieza de datos fueron fundamentales para elevar la calidad del análisis y optimizar los resultados obtenidos.


## Etapa 3. Prueba de la hipótesis

La hipótesis que queremos probar plantea que existen diferencias en la forma en que los usuarios de Springfield y Shelbyville consumen música.
Para analizar esto, nos enfocaremos en los datos correspondientes a tres días específicos de la semana: lunes, miércoles y viernes.

El análisis consistirá en comparar la cantidad de canciones reproducidas por los usuarios de cada ciudad en esos días. Esto nos permitirá observar posibles patrones o diferencias en los hábitos de consumo entre Springfield y Shelbyville.

Para llevar a cabo este análisis, es importante seguir el enfoque de dividir-aplicar-combinar, del que ya hablamos en la lección. En este caso:

*  Dividir: separamos los datos en grupos según la ciudad.

*  Aplicar: dentro de cada grupo, contamos cuántas canciones se reprodujeron.

*  Combinar: reunimos los resultados en una estructura que nos permita comparar fácilmente ambas ciudades.

In [28]:
# Cuenta las canciones reproducidas en cada ciudad
conteo = df[df['city'].isin(['Shelbyville', 'Springfield'])].groupby(by='city')['track'].count()
print(conteo)

city
Shelbyville    19719
Springfield    45360
Name: track, dtype: int64


`Redacta brevemente tus observaciones sobre los resultados. ¿Qué diferencias notaste entre Springfield y Shelbyville? ¿A qué podrían deberse esas diferencias?`

En springfield se reprodujeron mas canciones que en Shelbyville. Mayor poblacion en Sprinfield, mayor numero de personas que escuchan musica.



Agrupa los datos por día de la semana y cuenta cuántas canciones se reprodujeron los lunes, miércoles y viernes.

Utiliza el mismo método de conteo que antes, pero ahora cambia la columna de agrupación para enfocarte en el día.

Esto te permitirá identificar posibles patrones de escucha según el día de la semana.



In [30]:
# Filtrar por ciudad y días de interés
dias_interesados = ['Monday', 'Wednesday', 'Friday']
conteo = df[(df['city'
].isin(['Shelbyville', 'Springfield'])) & (df['day'].isin(dias_interesados))]

# Agrupar por ciudad y día, y contar las canciones
conteo_final = conteo.groupby(['city'
, 'day'])['track'].count()

# Imprimir el conteo
print(conteo_final)

city         day      
Shelbyville  Friday        6259
             Monday        5982
             Wednesday     7478
Springfield  Friday       16890
             Monday       16715
             Wednesday    11755
Name: track, dtype: int64


`Describe brevemente qué observaste al comparar los lunes, miércoles y viernes. ¿Hubo algún día con menos actividad? ¿Cambian las conclusiones si analizas cada ciudad por separado?`

En Springfield el dia que menos se escucha musica es en miercoles mientras que en Shelbyville el dia que menos se escucha musica es en lunes. En Sprinfield se reproducen mas canciones que en Shelbyville

Hasta ahora has aprendido a contar entradas agrupándolas por un solo criterio, como la ciudad o el día de la semana. Ahora vamos a dar un paso más: necesitas crear una función que **cuente cuántas canciones se reprodujeron en una ciudad específica durante un día determinado**, combinando ambos criterios de filtrado.

La función se llamará `number_tracks()` y debe aceptar dos parámetros:

- `day`: un día de la semana (por ejemplo, `'Monday'`).
- `city`: el nombre de una ciudad (por ejemplo, `'Springfield'`).

Dentro de la función, deberás aplicar un **filtrado secuencial mediante indexación lógica**: primero tendrás que filtrar el DataFrame por el día, y luego por la ciudad. Una vez que tengas el subconjunto de datos correcto, debes contar cuántas veces aparece un valor en la columna `'user_id'`. Ese número representará el total de canciones reproducidas bajo esos dos criterios.


1. Declara una función llamada `number_tracks()` con dos parámetros: `day` y `city`.

2. Filtra el DataFrame para conservar solo las filas donde la columna `'day'` sea igual al valor del parámetro `day`.

3. A partir del resultado anterior, filtra nuevamente para conservar solo las filas donde la columna `'city'` sea igual al valor del parámetro `city`.

4. Extrae la columna `'user_id'` del DataFrame filtrado y utiliza el método `.count()` para contar el número de entradas.

5. Guarda ese valor en una variable y **devuélvelo** como resultado de la función.

In [32]:
# Declara la función number_tracks() con dos parámetros: day= y city=.
def number_tracks(day, city):
    # Almacena las filas del DataFrame donde el valor en la columna 'day' es igual al parámetro day=
    filtered_df = df[df['day'] == day]
    # Filtra las filas donde el valor en la columna 'city' es igual al parámetro city=
    filtered_df = filtered_df[filtered_df['city'] == city]
    # Extrae la columna 'user_id' de la tabla filtrada y aplica el método count()
    count = filtered_df['user_id'].count()
    # Devuelve el número de valores de la columna 'user_id'
    return count

# El número de canciones reproducidas en Springfield el lunes
springfield_monday = number_tracks('Monday', 'Springfield')
print(f'Número de canciones reproducidas en Springfield el lunes: {springfield_monday}')

# El número de canciones reproducidas en Springfield el miércoles
springfield_wednesday = number_tracks('Wednesday', 'Springfield')
print(f'Número de canciones reproducidas en Springfield el miércoles: {springfield_wednesday}')

# El número de canciones reproducidas en Shelbyville el miércoles
shelbyville_wednesday = number_tracks('Wednesday', 'Shelbyville')
print(f'Número de canciones reproducidas en Shelbyville el miércoles: {shelbyville_wednesday}')

# El número de canciones reproducidas en Springfield el viernes
springfield_friday = number_tracks('Friday', 'Springfield')
print(f'Número de canciones reproducidas en Springfield el viernes: {springfield_friday}')

# El número de canciones reproducidas en Shelbyville el viernes
shelbyville_friday = number_tracks('Friday', 'Shelbyville')
print(f'Número de canciones reproducidas en Shelbyville el viernes: {shelbyville_friday}')

Número de canciones reproducidas en Springfield el lunes: 16715
Número de canciones reproducidas en Springfield el miércoles: 11755
Número de canciones reproducidas en Shelbyville el miércoles: 7478
Número de canciones reproducidas en Springfield el viernes: 16890
Número de canciones reproducidas en Shelbyville el viernes: 6259


## Escribe tus conclusiones finales sobre la hipótesis.
 * ¿Los datos apoyan la idea de que el comportamiento de los usuarios respecto a la música que escuchan varía según la ciudad y el día de la semana?
 * Indica si la hipótesis debe aceptarse o rechazarse, y justifica tu respuesta con base en los resultados obtenidos.

 Los datos claramente nos indican que el comportamiento de los usuarios cambia segun la cuidad y dia de la semana. Ejemplo en Springfield se escucha mas musica que en Shelbyville caulquier dia de la semana.