# Déjame escuchar música

Los datos están almacenados en el archivo `/datasets/music_project_en.csv`.

¡Ahora sí, manos al código!


## Etapa 1. Descripción de los datos <a id='data_review'></a>

Abre los datos y examínalos.

Etapa 1.1. Necesitarás `pandas`, así que impórtalo.

In [None]:
# Importa pandas
import pandas as pd

<details>
<summary>Haz clic para ver la pista</summary>

Para usar `pandas`, necesitas la palabra clave `import` seguida del nombre de la biblioteca y un alias.


Etapa 1.2. Lee el archivo `music_project_en.csv` de la carpeta `/datasets/` y guárdalo en la variable `df`:

In [None]:
# Lee el archivo y almacénalo en df
df = pd.read_csv('datasets/music_project_en.csv')

<details>
<summary>Haz clic para ver la pista</summary>

Usa la palabra clave `read_csv` para leer el archivo CSV. Asegúrate de incluir la ruta `/datasets/music_project_en.csv` y guarda el resultado en la variable `df`.

Etapa 1.3. Muestra las 10 primeras filas de la tabla:

In [None]:
# Obtén las 10 primeras filas de la tabla df
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


<details>
<summary>Haz clic para ver la pista</summary>

Usa el método `head` para ver las primeras filas del DataFrame.

Etapa 1.4. Obtén la información general sobre la tabla con el método info().

In [None]:
# Obtén la información general sobre nuestros datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


<details>
<summary>Haz clic para ver la pista</summary>

Usa el método `info` para obtener detalles sobre columnas, tipos de datos y valores nulos.


Estas son nuestras observaciones sobre la tabla. Contiene siete columnas que almacenan los mismos tipos de datos: `object`.

Según la documentación:
- `' userID'`: identificador del usuario;
- `'Track'`: título de la canción;
- `'artist'`: nombre del artista;
- `'genre'`: género de la canción;
- `'City'`: ciudad del usuario;
- `'time'`: la hora exacta en la que se reprodujo la canción;
- `'Day'`: día de la semana.

Podemos ver dos problemas con el estilo en los encabezados de la tabla:
1. Algunos encabezados están en mayúsculas, otros en minúsculas.
2. Existen espacios al inicio de nombre de la primera columna.

### Escribe algunas observaciones por tu parte. Contesta a las siguientes preguntas: <a id='data_review_conclusions'></a>

`1.   ¿Qué tipo de datos hay en las filas? ¿Cómo podemos saber qué almacenan las columnas?`

`2.   ¿Hay suficientes datos para proporcionar respuestas a nuestra hipótesis o necesitamos más información?`

`3.   ¿Notaste algún problema en los datos, como valores ausentes, duplicados o tipos de datos incorrectos?`

1. En las filas tenemos datos tipo 'object', es decir, strings. Con el atributo <code>.head()</code> podemos visualizar y formar una primera idea sobre qué almacenan las columnas, mientras que usando <code>.info()</code> podemos ver un resumen del tipo de dato almacenado en cada columna del DataFrame.

2. No hay suficientes datos para verificar que el tipo de dato almacenado sea exclusivamente str. Si en la columna encontramos distintos tipos de datos <code>.info()</code> me devolverá <code>object</code> así como si todos los datos fueran un string. Necesitamos más información para visualizar los tipos de datos, por ejemplo podemos hacer <code>df['artist'].apply(type).value_counts()</code> para visualizar los tipos de datos almacenados en una columna.

3. De momento podemos ver que en las columnas <i>Track, artist y genre</i> hay datos nulos, pero no podemos ver si existen datos duplicados hasta el momento.

In [None]:
for i in df.columns:
    print('------------')
    print(df[i].apply(type).value_counts())
    print('------------')

------------
  userID
<class 'str'>    65079
Name: count, dtype: int64
------------
------------
Track
<class 'str'>      63736
<class 'float'>     1343
Name: count, dtype: int64
------------
------------
artist
<class 'str'>      57512
<class 'float'>     7567
Name: count, dtype: int64
------------
------------
genre
<class 'str'>      63881
<class 'float'>     1198
Name: count, dtype: int64
------------
------------
  City  
<class 'str'>    65079
Name: count, dtype: int64
------------
------------
time
<class 'str'>    65079
Name: count, dtype: int64
------------
------------
Day
<class 'str'>    65079
Name: count, dtype: int64
------------


## Etapa 2. Preprocesamiento de los datos <a id='data_preprocessing'></a>

Tu objetivo aquí es preparar los datos para analizarlos.
El primer paso es resolver los problemas con los encabezados. Después podemos avanzar a los valores ausentes y duplicados. ¡Empecemos!

Vamos a corregir el formato en los encabezados de la tabla.


### Estilo del encabezado <a id='header_style'></a>
Etapa 2.1. Muestra los encabezados de la tabla (los nombres de las columnas):

In [None]:
# Muestra los nombres de las columnas
print(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


<details>
<summary>Haz clic para ver la pista</summary>

Usa el atributo `.columns` para ver todos los nombres de las columnas en el DataFrame.


Vamos cambiar los encabezados de la tabla siguiendo las reglas estilísticas convencionales:
*   Todos los caracteres deben ser minúsculas.
*   Elimina los espacios.
*   Si el nombre tiene varias palabras, utiliza snake_case, es decir, añade un guion bajo ( _ ) entre las palabras en lugar de un espacio.



Etapa 2.2. Utiliza el bucle for para iterar sobre los nombres de las columnas y poner todos los caracteres en minúsculas. Cuando hayas terminado, vuelve a mostrar los encabezados de la tabla:

In [None]:
# Bucle que itera sobre los encabezados y los pone todos en minúsculas
for name in df.columns:
    df.rename(columns={name: name.lower()}, inplace = True)

print(df.columns)

Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')


<details>
<summary>Haz clic para ver la pista</summary>

Usa un `for` para recorrer `df.columns` y aplica `.lower()` a cada nombre. Luego, asigna la lista resultante de nuevo a `df.columns`.


Etapa 2.3. Ahora, utilizando el mismo método, elimina los espacios al principio y al final de los nombres de las columnas y muestra los nombres de las columnas de nuevo:

In [None]:
# Bucle que itera sobre los encabezados y elimina los espacios
for name in df.columns:
    df.rename(columns = {name: name.strip()}, inplace = True)

print(df.columns)

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


<details>
<summary>Haz clic para ver la pista</summary>

Usa `.strip()` dentro del bucle para limpiar los nombres de columnas. Asegúrate de reasignar los nuevos nombres a `df.columns`.


Etapa 2.4. Necesitamos aplicar la regla de snake_case en la columna `userid`. Debe ser `user_id`. Cambia el nombre de esta columna y muestra los nombres de todas las columnas cuando hayas terminado.

In [None]:
# Cambia el nombre de la columna "userid"
df.rename(columns = {'userid': 'user_id'}, inplace = True)
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


<details>
<summary>Haz clic para ver la pista</summary>

Usa el método `.rename()` con el parámetro `columns` para cambiar `userid` a `user_id`. No olvides establecer `inplace=True` o reasignar a `df`.

Etapa 2.5. Comprueba el resultado. Muestra los encabezados una vez más:

In [None]:
# Comprueba el resultado: lista de encabezados
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


<details>
<summary>Haz clic para ver la pista</summary>

Usa `.columns` para volver a ver los nombres actualizados de las columnas.

### Valores ausentes <a id='missing_values'></a>
 Etapa 2.5. Primero, encuentra el número de valores ausentes en la tabla. Debes utilizar dos métodos para obtener el número de valores ausentes.

In [None]:
# Calcula el número de valores ausentes
print(df.isna().sum())

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


<details>
<summary>Haz clic para ver la pista</summary>

Usa `.isna()` para detectar los valores ausentes y combínalo con el método `.sum()` para contar cuántos hay por columna.


Etapa 2.6. Sustituye los valores ausentes en las columnas `'track'`, `'artist'` y `'genre'` con el string `'unknown'`.

1. Crea una lista llamada columns_to_replace que contenga los nombres de las columnas 'track', 'artist' y 'genre'.

2. Usa un bucle for para iterar sobre cada columna en columns_to_replace.

3. Dentro del bucle, sustituye los valores ausentes en cada columna con el string `'unknown'`.

In [None]:
# Bucle en los encabezados reemplazando los valores ausentes con 'unknown'
columns_to_replace = ['track', 'artist', 'genre']

for column in df.columns:
    if column in columns_to_replace:
        df[column].fillna('unknown', inplace = True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[column].fillna('unknown', inplace = True)


<details>
<summary>Haz clic para ver la pista</summary>

Crea una lista con los nombres de las columnas y usa un `for` para recorrerla. Dentro del bucle, aplica `.fillna('unknown')` a cada una.

Etapa 2.7. Ahora comprueba el resultado para asegurarte de que no falten valores ausentes por reemplazar en el conjunto de datos. Para ello, cuenta los valores ausentes una vez más.

In [None]:
# Cuenta los valores ausentes
df.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

<details>
<summary>Haz clic para ver la pista</summary>

Usa `isna()` con `sum()` otra vez para confirmar que ya no quedan valores nulos en las columnas modificadas.

### Duplicados <a id='duplicates'></a>
Etapa 2.8. Encuentra el número de duplicados explícitos en la tabla. Una vez más, debes aplicar dos métodos para obtener la cantidad de duplicados explícitos.

In [None]:
# Cuenta los duplicados explícitos
df.duplicated().sum()

3826

<details>
<summary>Haz clic para ver la pista</summary>

Usa un método que detecte filas repetidas (`duplicated`) y luego otro para contarlas.

Etapa 2.9. Ahora, elimina todos los duplicados. Para ello, llama al método que hace exactamente esto.

In [None]:
# Elimina los duplicados explícitos
df = df.drop_duplicates().reset_index(drop = True)

<details>
<summary>Haz clic para ver la pista</summary>

Busca un método que elimine las filas duplicadas directamente del DataFrame. No olvides actualizar la variable.

Etapa 2.10. Comprobemos ahora si conseguimos eliminar todos los duplicados. Cuenta los duplicados explícitos una vez más para asegurarte de haberlos eliminado todos:

In [None]:
# Comprueba de nuevo si hay duplicados
df.duplicated().sum()

0

<details>
<summary>Haz clic para ver la pista</summary>

Repite el mismo enfoque que usaste para contar duplicados antes. Deberías ver que el total ahora es cero.

Ahora queremos deshacernos de los duplicados implícitos en la columna `genre`. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar al resultado.

Etapa 2.11. Primero debemos mostrar una lista de nombres de géneros únicos, por orden alfabético. Para ello:
1. Extrae la columna `genre` del DataFrame.
2. Llama al método que devolverá todos los valores únicos en la columna extraída.


In [None]:
# Inspecciona los nombres de géneros únicos

generos_unicos = df['genre'].unique()

print("Número de géneros únicos:", len(generos_unicos))
print("===================================")
print(generos_unicos)

Número de géneros únicos: 269
['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknown' 'alternative' 'children' 'rnb' 'hip' 'jazz' 'postrock' 'latin'
 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental' 'rusrock'
 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'hiphop' 'drum' 'extrememetal' 'türkçe'
 'experimental' 'easy' 'metalcore' 'modern' 'argentinetango' 'old'

<details>
<summary>Haz clic para ver la pista</summary>

Usa `unique()` para obtener los géneros únicos. Si quieres verlos en orden alfabético, combina con `sorted()`.

Etapa 2.12. Vamos a examinar la lista para identificar **duplicados implícitos** del género `hiphop`, es decir, nombres mal escritos o variantes que hacen referencia al mismo género musical.

Los duplicados que encontrarás son:

* `hip`  
* `hop`  
* `hip-hop`  

Para solucionarlo, vamos a crear una función llamada `replace_wrong_values()`.


1. Define una función llamada `replace_wrong_values()` que reciba los siguientes parámetros:

* `df`: el DataFrame a modificar
* `column`: el nombre de la columna a trabajar
* `wrong_values`: una lista con los valores incorrectos
* `correct_value`: el valor correcto para reemplazar

2. Dentro de la función, usa un bucle `for` para iterar sobre cada valor incorrecto y aplicar `.replace()`.


In [None]:
# Función para reemplazar los duplicados implícitos
def replace_wrong_values(df, column, wrong_values, correct_value):
    """
    Reemplaza los valores incorrectos en una columna específica del DataFrame.
    Args:
        df (pd.DataFrame): El DataFrame que contiene los datos.
        column (str): El nombre de la columna en la que se deben reemplazar los valores.
        wrong_values (list): Una lista de valores incorrectos a ser reemplazados.
        correct_value (str): El valor correcto que reemplazará a los valores incorrectos.
    """
    for wrong_value in wrong_values:
        df[column] = df[column].replace(wrong_value, correct_value)


<details>
<summary>Haz clic para ver la pista</summary>

Crea una función con cuatro parámetros. Dentro del bucle, llama a `.replace()` sobre la columna para cada valor incorrecto, cambiándolo por el correcto.

Etapa 2.13. Ahora, llama a la función pasando:

* `df` como el DataFrame
* `'genre'` como nombre de columna
* `['hip', 'hop', 'hip-hop']` como lista de valores incorrectos
* `'hiphop'` como valor correcto


In [None]:
# Elimina los duplicados implícitos
valores_incorrectos = ['hip', 'hop', 'hip-hop']
replace_wrong_values(df, 'genre', valores_incorrectos, 'hiphop')

<details>
<summary>Haz clic para ver la pista</summary>

Llama a la función que creaste y pasa los cuatro argumentos necesarios. Asegúrate de usar el nombre correcto de la columna y lista los valores que deben unificarse.

Etapa 2.14. Asegúrate de que los nombres duplicados se hayan eliminado. Muestra la lista de valores únicos de la columna `'genre'` una vez más:

In [None]:
# Comprueba de nuevo los duplicados implícitos
generos_unicos = df['genre'].unique()

print("Número de géneros únicos:", len(generos_unicos))
print("===================================")
print(generos_unicos)

Número de géneros únicos: 266
['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknown' 'alternative' 'children' 'rnb' 'hiphop' 'jazz' 'postrock'
 'latin' 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental'
 'rusrock' 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'drum' 'extrememetal' 'türkçe' 'experimental' 'easy'
 'metalcore' 'modern' 'argentinetango' 'old' 'swin

<details>
<summary>Haz clic para ver la pista</summary>

Usa de nuevo el método que muestra los valores únicos de una columna para verificar que todos los nombres se hayan unificado correctamente.

## Etapa 3. Análisis

### Tarea: Comparar el comportamiento de los usuarios en las dos ciudades <a id='activity'></a>

Queremos analizar si hay diferencias en la cantidad de canciones reproducidas en Springfield y Shelbyville. Para ello, usaremos los datos de dos días de la semana: lunes y viernes.

Compararemos cuántas canciones se escucharon en cada ciudad durante esos días para identificar posibles patrones de comportamiento.

Sigue estos tres pasos para organizar tu análisis:

- Dividir: agrupa los datos por ciudad.

- Aplicar: cuenta cuántas canciones se reproducen en cada grupo.

- Combinar: presenta los resultados de forma que se puedan comparar fácilmente ambas ciudades.

Repite este proceso por separado para cada uno de los dos días.

Etapa 3.1.
Cuenta cuántas canciones se reprodujeron en cada ciudad utilizando la columna `'track'` como referencia.

In [None]:
# Cuenta las canciones reproducidas en cada ciudad
df_by_city = df.groupby('city')['track'].count()

# df_lunes
df_lunes = df[df['day'] == 'Monday'].groupby('city')['track'].count()

# df miercoles
df_miercoles = df[df['day'] == 'Wednesday'].groupby('city')['track'].count()

# df_viernes
df_viernes = df[df['day'] == 'Friday'].groupby('city')['track'].count()

# Muestra los resultados
print('===================================')
print('Canciones reproducidas por ciudad:')
print(df_by_city)

print('===================================')
print('Canciones reproducidas el lunes por ciudad:')
print(df_lunes)

print('===================================')
print('Canciones reproducidas el miércoles por ciudad:')
print(df_miercoles)

print('===================================')
print('Canciones reproducidas el viernes por ciudad:')
print(df_viernes)

Canciones reproducidas por ciudad:
city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64
Canciones reproducidas el lunes por ciudad:
city
Shelbyville     5614
Springfield    15740
Name: track, dtype: int64
Canciones reproducidas el miércoles por ciudad:
city
Shelbyville     7003
Springfield    11056
Name: track, dtype: int64
Canciones reproducidas el viernes por ciudad:
city
Shelbyville     5895
Springfield    15945
Name: track, dtype: int64


<details>
<summary>Haz clic para ver la pista</summary>

Agrupa los datos por ciudad con el método `groupby()` y usa el método `count()` para contar las canciones reproducidas en cada grupo.

Etapa 3.2. Redacta brevemente tus observaciones sobre los resultados.

¿Qué diferencias encontraste entre Springfield y Shelbyville? ¿A qué podrían deberse?

Se logró encontrar que en Springfield se reproducieron alrededor de 2.3 veces más canciones que en Shelbyville. Esto podría deberse a:

1. La cantidad de usuarios en Springfield es alrededor de 2.3 veces mayor que en Shelbyville,
2. que el usuario promedio en Springfield cambia de canción más seguido que el de Shelbyville, o
3. en general, el usuario promedio en Springfield, en promedio, escucha más canciones que los usuarios de Shelbyville.


Analizando las canciones por día:

<b>Lunes</b>
El día lunes tenemos que en Springfield se escucharon alrededor de 2.8 veces más canciones que en Shelbyville.

<b>Viernes</b>
El día viernes en Springfield se escucharon alrededor de 2.7 veces más canciones que en Shelbyville.

<b>Primer punto a destacar</b>
Aunque la proporción por día incrementó, colocando a Springfield alrededor del 2.8 para el lunes y 2.7 para el viernes, se sigue manteniendo una mayor presencia del uso del servicio en Springfield que en Shelbyville. 

Etapa 3.3.
Agrupa los datos por día de la semana y cuenta cuántas canciones se reprodujeron los lunes y viernes.



In [None]:
# Calcula las canciones reproducidas en cada uno de los dos días
# df_lunes
df_by_day = df.groupby('day')['track'].count()
print(df_by_day)

day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64


<details>
<summary>Haz clic para ver la pista</summary>

Cambia el criterio de agrupación a la columna que representa el día de la semana y filtra solo para los días que te interesan.

Etapa 3.4. Describe brevemente qué observaste al comparar los lunes y viernes.

¿Hubo un día con más actividad? ¿Cambia algo si analizas cada ciudad por separado?

Al agrupar por día de la semana las canciones se pudo encontrar que el día viernes es (por poco) el más escuchado, seguido inmediatamente por el día lunes.
Este método suma todo por días pero no podemos ver la presencia de la aplicación por ubicación solo usamos a un cliente promedio y se analiza la cantidad de canciones escuchadas.

Etapa 3.5

Ahora vamos a combinar dos criterios: día y ciudad.

Crea una función llamada `number_tracks()` que reciba dos parámetros:

* `day`: un día de la semana (por ejemplo, `'Monday'`)
* `city`: el nombre de una ciudad (por ejemplo, `'Springfield'`)

Dentro de la función:

1. Filtra el DataFrame por el día.
2. Luego, filtra por la ciudad.
3. Cuenta cuántas veces aparece `'user_id'` en ese filtro.
4. Devuelve ese número como resultado.


In [None]:
# Declara la función number_tracks() con dos parámetros: day= y city=.
def number_tracks(day, city):
    """
    Esta función cuenta el número de canciones reproducidas en un día y ciudad específicos.
    Args:
        day (str): El día de la semana (por ejemplo, 'Monday', 'Wednesday', 'Friday').
        city (str): El nombre de la ciudad (por ejemplo, 'Springfield').
    Returns:
        int: El número de canciones reproducidas en el día y ciudad especificados.
    """

    # Almacena las filas del DataFrame donde el valor en la columna 'day' es igual al parámetro day=
    df_filtered = df[df['day'] == day]

    # Filtra las filas donde el valor en la columna 'city' es igual al parámetro city=
    df_filtered = df_filtered[df_filtered['city'] == city]

    # Extrae la columna 'user_id' de la tabla filtrada y aplica el método count()
    cuenta = df_filtered['user_id'].count()

    # Devuelve el número de valores de la columna 'user_id'
    return cuenta

<details>
<summary>Haz clic para ver la pista</summary>

Define una función con dos parámetros. Dentro, aplica un filtrado secuencial usando `df[...]`, y al final cuenta los valores con `.count()`.

Etapa 3.6. Llama a `number_tracks()` cuatro veces: una por ciudad en cada uno de los dos días.

In [None]:
# El número de canciones reproducidas en Springfield el lunes
springfield_monday = number_tracks('Monday', 'Springfield')
print("Número de canciones reproducidas en Springfield el lunes:", springfield_monday)

Número de canciones reproducidas en Springfield el lunes: 15740


In [None]:
# El número de canciones reproducidas en Shelbyville el lunes
Shelbyville_monday = number_tracks('Monday', 'Shelbyville')
print("Número de canciones reproducidas en Shelbyville el lunes:", Shelbyville_monday)

Número de canciones reproducidas en Shelbyville el lunes: 5614


In [None]:
# El número de canciones reproducidas en Springfield el viernes
Springfield_friday = number_tracks('Friday', 'Springfield')
print("Número de canciones reproducidas en Springfield el viernes:", Springfield_friday)

Número de canciones reproducidas en Springfield el viernes: 15945


In [None]:
# El número de canciones reproducidas en Shelbyville el viernes
Shelbyville_friday = number_tracks('Friday', 'Shelbyville')
print("Número de canciones reproducidas en Shelbyville el viernes:", Shelbyville_friday)

Número de canciones reproducidas en Shelbyville el viernes: 5895


<details>
<summary>Haz clic para ver la pista</summary>

Llama a tu función con combinaciones distintas de ciudad y día, como `'Monday', 'Springfield'`, y guarda o imprime los resultados para comparar.

Esta sección es adicional para resolver la disyuntiva sobre si el usuario promedio en Springfield reproduce 2.3 veces más canciones que el usuario promedio de Shelbyville o si hay 2.3 veces más usuarios en Springfield que en Shelbiville.

In [None]:
# Cantidad de usuarios únicos por ciudad
unique_users_by_city = df.groupby('city')['user_id'].nunique()

print("=================================")
print("Cantidad de usuarios únicos por ciudad:")
print(unique_users_by_city)

# proporción de usuarios
print("=================================")
proporcion_usuarios = unique_users_by_city['Springfield'] / unique_users_by_city['Shelbyville']
print(f"En Springfield hay {proporcion_usuarios:.4f} veces más usuarios que en Shelbyville.")

Cantidad de usuarios únicos por ciudad:
city
Shelbyville    12423
Springfield    29358
Name: user_id, dtype: int64
En Springfield hay 2.36319729533929 veces más usuarios que en Shelbyville.


# Conclusiones <a id='end'></a>

## Escribe tus conclusiones finales sobre el análisis

Redacta un resumen breve y claro de los hallazgos obtenidos durante el proceso de análisis. Tu conclusión debe:

* Mencionar los principales patrones que observaste en los datos.
* Identificar cualquier problema encontrado y cómo lo solucionaste.
* Explicar cómo estas acciones ayudaron a mejorar la calidad del análisis.

Reflexiona también sobre la pregunta central:

> *¿Los datos muestran que el comportamiento de los usuarios —en cuanto a la música que escuchan— varía según la ciudad y el día de la semana?*

Apoya tu respuesta con ejemplos concretos de los resultados obtenidos.


Después de analizar los 3 días, lunes, miércoles y viernes, de los que se tiene registro en la base de datos se puede afirmar que tanto en los días individuales como en promedio, en Springfield se escuchan alredodor de 2.3 veces más canciones que en Shelbyville y después de analizar la cantidad de usuario esta corresponde con el mismo número, es decir, esta cantidad mayor de canciones reproducidas se debe a que <b>en Sprinfield hay 2.3 más usuarios que en Shelbyville</b>.

Los problemas principales que se encontraron en la base de datos fueron referentes a <b>un uso no estandarizado en el nombre de las columnas</b>, por ello se recurrieron a varios métodos para poder colocar todas la letras en minúsculas, eliminar espacios antes y despues del nombre de las columnas y usar «_», para separar las palabras de la columna «user_id». A su vez también se trabajó buscando existencia de duplicados y unificando el nombre de géneros duplicados como <i>hip</i>, <i>hop</i> y <i>hip-hop</i> y fueron cambiados por <i>hiphop</i>. 

Todas estas correcciones fueron hechas para poder hacer un analisis más acertado sobre el comportamiento de los clientes en 2 ciudades durante 3 diferentes días ya que tener duplicados podría generar problemas con saber realmente las canciones más escuchadas, el pago a los artístas, la personalización del cliente e incluso detectar tendencias por nuevos lanzamientos.

Podemos concluir que los datos muestran que el comportamiento de los usuarios, respecto a la cantidad de canciones reproducidas por día, es superior los días viernes y muy de cerca los días lunes, mientras que los días miércoles es cuando el usuario reproduce menos canciones.