# Déjame escuchar música

Los datos están almacenados en el archivo `/datasets/music_project_en.csv`.

¡Ahora sí, manos al código!


## 0. Etapa 0. Introducción y Definición de Objetivos del proyecto.  

## Objetivo general:
Analizar datos reales de transmisión de música online para explorar y procesar información sobre los hábitos de escucha de los usuarios y las usuarias en dos ciudades: Springfield y Shelbyville.

## Objetivos por etapas del proyecto:  
### Etapa 1: Descripción de los datos.  
- El cuaderno tiene celdas preparadas con instrucciones sobre qué tipo de código escribir, así como bloques de texto donde puedes anotar tus observaciones. En esta etapa es necesario realizar una revisión de los datos, limpiarlos y preparalos para una visualización más sencilla, que nos permitirá manipularlos posteriormente.

### Etapa 2: Preprocesamiento de datos.  
- Limpiar los datos, examinando los nombres de las columnas y abordando los valores duplicados y ausentes.
- Sigue la estructura proporcionada en el cuaderno y asegúrate de anotar tus observaciones al final de esta sección.

### Etapa 3: Análisis.
- Analizar si la actividad de los usuarios y las usuarias presenta variaciones según el día de la semana y la ciudad.
- Sigue los pasos de programación necesarios para probar cada declaración y comenta tus resultados en los bloques apropiados.
- Finalmente, resume los resultados de todo el proyecto en la sección "Conclusiones".


## Etapa 1. Descripción de los datos

Abre los datos y examínalos.

Etapa 1.1. Necesitarás `pandas`, así que impórtalo.

In [52]:
# Importa pandas
import pandas as pd

<details>
<summary>Haz clic para ver la pista</summary>

Para usar `pandas`, necesitas la palabra clave `import` seguida del nombre de la biblioteca y un alias.


Etapa 1.2. Lee el archivo `music_project_en.csv` de la carpeta `/datasets/` y guárdalo en la variable `df`:

In [53]:
# Lee el archivo y almacénalo en df
df = pd.read_csv('/content/music_project_en.csv')

<details>
<summary>Haz clic para ver la pista</summary>

Usa la palabra clave `read_csv` para leer el archivo CSV. Asegúrate de incluir la ruta `/datasets/music_project_en.csv` y guarda el resultado en la variable `df`.

Etapa 1.3. Muestra las 10 primeras filas de la tabla:

In [54]:
# Obtén las 10 primeras filas de la tabla df
print(df.head(10))


     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                       Chains          Obladaet  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE                     L’estate       Julia Dalia  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

        City        time        Day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monday  
5

<details>
<summary>Haz clic para ver la pista</summary>

Usa el método `head` para ver las primeras filas del DataFrame.

Etapa 1.4. Obtén la información general sobre la tabla con el método info().

In [55]:
# Obtén la información general sobre nuestros datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


<details>
<summary>Haz clic para ver la pista</summary>

Usa el método `info` para obtener detalles sobre columnas, tipos de datos y valores nulos.


In [56]:
#Obtener los tipos de las variables en cada columna
df.dtypes

Unnamed: 0,0
userID,object
Track,object
artist,object
genre,object
City,object
time,object
Day,object


Estas son nuestras observaciones sobre la tabla. Contiene siete columnas que almacenan los mismos tipos de datos: `object`.

Según la documentación:
- `' userID'`: identificador del usuario;
- `'Track'`: título de la canción;
- `'artist'`: nombre del artista;
- `'genre'`: género de la canción;
- `'City'`: ciudad del usuario;
- `'time'`: la hora exacta en la que se reprodujo la canción;
- `'Day'`: día de la semana.

Podemos ver dos problemas con el estilo en los encabezados de la tabla:
1. Algunos encabezados están en mayúsculas, otros en minúsculas.
2. `No se usa el formato snake_case. Hay espacios innecesarios en algunos encabezados y las palabras no están separadas por _`




### Escribe algunas observaciones por tu parte. Contesta a las siguientes preguntas: <a id='data_review_conclusions'></a>

`1.   ¿Qué tipo de datos hay en las filas? ¿Cómo podemos saber qué almacenan las columnas?`

`2.   ¿Hay suficientes datos para proporcionar respuestas a nuestra hipótesis o necesitamos más información?`

`3.   ¿Notaste algún problema en los datos, como valores ausentes, duplicados o tipos de datos incorrectos?`

Escribe aquí tus respuestas:

1. De acuerdo con lo observado tras revisar la información con info(), podemos ver que los datos almacenados en las columnas son de tipo Object. Podemos ir más a fondo para analizar los datos dentro de las columnas con .dtypes

2. Necesitamos más información para poder llegar a una hipótesis.

3. Lo que nos arroja info() es que hay varias columnas con datos ausentes, por lo que tenemos que analizar más a fodo estas columnas, para definir el tratamiento que debemos dar a esos datos. Como buena práctiva, ya que definimos que todas las columnas contienen variables de tipo object, podemos utilzar describe() con su parámetro include = 'object' para visualizar más informacción.

In [57]:
print(df.describe(include = 'object'))

          userID  Track     artist  genre       City        time     Day
count      65079  63736      57512  63881        65079     65079   65079
unique     41748  39666      37806    268            2     20392       3
top     A8AE9169  Brand  Kartvelli    pop  Springfield  08:14:07  Friday
freq          76    136        136   8850        45360        14   23149


## Etapa 2. Preprocesamiento de los datos <a id='data_preprocessing'></a>

Tu objetivo aquí es preparar los datos para analizarlos.
El primer paso es resolver los problemas con los encabezados. Después podemos avanzar a los valores ausentes y duplicados. ¡Empecemos!

Vamos a corregir el formato en los encabezados de la tabla.


### Estilo del encabezado <a id='header_style'></a>
Etapa 2.1. Muestra los encabezados de la tabla (los nombres de las columnas):

In [58]:
# Muestra los nombres de las columnas
print(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


<details>
<summary>Haz clic para ver la pista</summary>

Usa el atributo `.columns` para ver todos los nombres de las columnas en el DataFrame.


Vamos cambiar los encabezados de la tabla siguiendo las reglas estilísticas convencionales:
*   Todos los caracteres deben ser minúsculas.
*   Elimina los espacios.
*   Si el nombre tiene varias palabras, utiliza snake_case, es decir, añade un guion bajo ( _ ) entre las palabras en lugar de un espacio.



Etapa 2.2. Utiliza el bucle for para iterar sobre los nombres de las columnas y poner todos los caracteres en minúsculas. Cuando hayas terminado, vuelve a mostrar los encabezados de la tabla:

In [59]:
# Bucle que itera sobre los encabezados y los pone todos en minúsculas
new_columns = [
]

for upper_names in df.columns:
  name_lowered = upper_names.lower()
  new_columns.append(name_lowered)

df.columns = new_columns
print(df.columns)

Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')


<details>
<summary>Haz clic para ver la pista</summary>

Usa un `for` para recorrer `df.columns` y aplica `.lower()` a cada nombre. Luego, asigna la lista resultante de nuevo a `df.columns`.


Etapa 2.3. Ahora, utilizando el mismo método, elimina los espacios al principio y al final de los nombres de las columnas y muestra los nombres de las columnas de nuevo:

In [60]:
# Bucle que itera sobre los encabezados y elimina los espacios
new_columns = [
]

for wrong_names in df.columns:
  name_stripped = wrong_names.strip()
  new_columns.append(name_stripped)

df.columns = new_columns
print(df.columns)


Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


<details>
<summary>Haz clic para ver la pista</summary>

Usa `.strip()` dentro del bucle para limpiar los nombres de columnas. Asegúrate de reasignar los nuevos nombres a `df.columns`.


Etapa 2.4. Necesitamos aplicar la regla de snake_case en la columna `userid`. Debe ser `user_id`. Cambia el nombre de esta columna y muestra los nombres de todas las columnas cuando hayas terminado.

In [61]:
# Cambia el nombre de la columna "userid"
new_column_name = {
    'userid' : 'user_id'
}

df = df.rename(columns = new_column_name) #No utilizo inplace, ya que es un método que desaparecerá pronto de Python, por lo que prefiero practicar reasignar variables
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


<details>
<summary>Haz clic para ver la pista</summary>

Usa el método `.rename()` con el parámetro `columns` para cambiar `userid` a `user_id`. No olvides establecer `inplace=True` o reasignar a `df`.

Etapa 2.5. Comprueba el resultado. Muestra los encabezados una vez más:

In [62]:
# Comprueba el resultado: lista de encabezados
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

<details>
<summary>Haz clic para ver la pista</summary>

Usa `.columns` para volver a ver los nombres actualizados de las columnas.

### Valores ausentes <a id='missing_values'></a>
 Etapa 2.5. Primero, encuentra el número de valores ausentes en la tabla. Debes utilizar dos métodos para obtener el número de valores ausentes.

In [63]:
# Calcula el número de valores ausentes
print(df.isna().sum())

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


<details>
<summary>Haz clic para ver la pista</summary>

Usa `.isna()` para detectar los valores ausentes y combínalo con el método `.sum()` para contar cuántos hay por columna.


Etapa 2.6. Sustituye los valores ausentes en las columnas `'track'`, `'artist'` y `'genre'` con el string `'unknown'`.

1. Crea una lista llamada columns_to_replace que contenga los nombres de las columnas 'track', 'artist' y 'genre'.

2. Usa un bucle for para iterar sobre cada columna en columns_to_replace.

3. Dentro del bucle, sustituye los valores ausentes en cada columna con el string `'unknown'`.

In [64]:
# Bucle en los encabezados reemplazando los valores ausentes con 'unknown'
columns_to_replace = ['track', 'artist' , 'genre']

for col in columns_to_replace:
    df[col] = df[col].fillna('unknown') #Reasigno la variable con la ejecución de fillna()
print(df.isna().sum()) # Compruebo para ver si se ejecutó correctamente y ver los valores ausentes de las columnas.

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


<details>
<summary>Haz clic para ver la pista</summary>

Crea una lista con los nombres de las columnas y usa un `for` para recorrerla. Dentro del bucle, aplica `.fillna('unknown')` a cada una.

Etapa 2.7. Ahora comprueba el resultado para asegurarte de que no falten valores ausentes por reemplazar en el conjunto de datos. Para ello, cuenta los valores ausentes una vez más.

In [65]:
# Cuenta los valores ausentes
print(df.isna().sum())

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


<details>
<summary>Haz clic para ver la pista</summary>

Usa `isna()` con `sum()` otra vez para confirmar que ya no quedan valores nulos en las columnas modificadas.

### Duplicados <a id='duplicates'></a>
Etapa 2.8. Encuentra el número de duplicados explícitos en la tabla. Una vez más, debes aplicar dos métodos para obtener la cantidad de duplicados explícitos.

In [66]:
# Cuenta los duplicados explícitos
print(df.duplicated().sum())

3826


<details>
<summary>Haz clic para ver la pista</summary>

Usa un método que detecte filas repetidas (`duplicated`) y luego otro para contarlas.

Etapa 2.9. Ahora, elimina todos los duplicados. Para ello, llama al método que hace exactamente esto.

In [67]:
# Elimina los duplicados explícitos
df = df.drop_duplicates()


<details>
<summary>Haz clic para ver la pista</summary>

Busca un método que elimine las filas duplicadas directamente del DataFrame. No olvides actualizar la variable.

Etapa 2.10. Comprobemos ahora si conseguimos eliminar todos los duplicados. Cuenta los duplicados explícitos una vez más para asegurarte de haberlos eliminado todos:

In [68]:
# Comprueba de nuevo si hay duplicados
print(df.duplicated().sum())

0


<details>
<summary>Haz clic para ver la pista</summary>

Repite el mismo enfoque que usaste para contar duplicados antes. Deberías ver que el total ahora es cero.

Ahora queremos deshacernos de los duplicados implícitos en la columna `genre`. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar al resultado.

Etapa 2.11. Primero debemos mostrar una lista de nombres de géneros únicos, por orden alfabético. Para ello:
1. Extrae la columna `genre` del DataFrame.
2. Llama al método que devolverá todos los valores únicos en la columna extraída.


In [69]:
# Inspecciona los nombres de géneros únicos
sorted(df['genre'].unique())


['acid',
 'acoustic',
 'action',
 'adult',
 'africa',
 'afrikaans',
 'alternative',
 'ambient',
 'americana',
 'animated',
 'anime',
 'arabesk',
 'arabic',
 'arena',
 'argentinetango',
 'art',
 'audiobook',
 'avantgarde',
 'axé',
 'baile',
 'balkan',
 'beats',
 'bigroom',
 'black',
 'bluegrass',
 'blues',
 'bollywood',
 'bossa',
 'brazilian',
 'breakbeat',
 'breaks',
 'broadway',
 'cantautori',
 'cantopop',
 'canzone',
 'caribbean',
 'caucasian',
 'celtic',
 'chamber',
 'children',
 'chill',
 'chinese',
 'choral',
 'christian',
 'christmas',
 'classical',
 'classicmetal',
 'club',
 'colombian',
 'comedy',
 'conjazz',
 'contemporary',
 'country',
 'cuban',
 'dance',
 'dancehall',
 'dancepop',
 'dark',
 'death',
 'deep',
 'deutschrock',
 'deutschspr',
 'dirty',
 'disco',
 'dnb',
 'documentary',
 'downbeat',
 'downtempo',
 'drum',
 'dub',
 'dubstep',
 'eastern',
 'easy',
 'electronic',
 'electropop',
 'emo',
 'entehno',
 'epicmetal',
 'estrada',
 'ethnic',
 'eurofolk',
 'european',
 'expe

<details>
<summary>Haz clic para ver la pista</summary>

Usa `unique()` para obtener los géneros únicos. Si quieres verlos en orden alfabético, combina con `sorted()`.

In [70]:
print(df['genre'].nunique())

269


Etapa 2.12. Vamos a examinar la lista para identificar **duplicados implícitos** del género `hiphop`, es decir, nombres mal escritos o variantes que hacen referencia al mismo género musical.

Los duplicados que encontrarás son:

* `hip`  
* `hop`  
* `hip-hop`  

Para solucionarlo, vamos a crear una función llamada `replace_wrong_values()`.


1. Define una función llamada `replace_wrong_values()` que reciba los siguientes parámetros:

* `df`: el DataFrame a modificar
* `column`: el nombre de la columna a trabajar
* `wrong_values`: una lista con los valores incorrectos
* `correct_value`: el valor correcto para reemplazar

2. Dentro de la función, usa un bucle `for` para iterar sobre cada valor incorrecto y aplicar `.replace()`.


In [71]:
# Función para reemplazar los duplicados implícitos

def replace_wrong_values (df, column, wrong_values, correct_value):
  for wrong_value in wrong_values:
    df['genre'] = df['genre'].replace(wrong_value, correct_value)
  return df




<details>
<summary>Haz clic para ver la pista</summary>

Crea una función con cuatro parámetros. Dentro del bucle, llama a `.replace()` sobre la columna para cada valor incorrecto, cambiándolo por el correcto.

Etapa 2.13. Ahora, llama a la función pasando:

* `df` como el DataFrame
* `'genre'` como nombre de columna
* `['hip', 'hop', 'hip-hop']` como lista de valores incorrectos
* `'hiphop'` como valor correcto


In [72]:
# Elimina los duplicados implícitos
duplicates = ['hip', 'hop', 'hip-hop']
correct = 'hiphop'

df = replace_wrong_values(df, 'genre', duplicates, correct)


<details>
<summary>Haz clic para ver la pista</summary>

Llama a la función que creaste y pasa los cuatro argumentos necesarios. Asegúrate de usar el nombre correcto de la columna y lista los valores que deben unificarse.

Etapa 2.14. Asegúrate de que los nombres duplicados se hayan eliminado. Muestra la lista de valores únicos de la columna `'genre'` una vez más:

In [73]:
# Comprueba de nuevo los duplicados implícitos
sorted(df['genre'].unique())

['acid',
 'acoustic',
 'action',
 'adult',
 'africa',
 'afrikaans',
 'alternative',
 'ambient',
 'americana',
 'animated',
 'anime',
 'arabesk',
 'arabic',
 'arena',
 'argentinetango',
 'art',
 'audiobook',
 'avantgarde',
 'axé',
 'baile',
 'balkan',
 'beats',
 'bigroom',
 'black',
 'bluegrass',
 'blues',
 'bollywood',
 'bossa',
 'brazilian',
 'breakbeat',
 'breaks',
 'broadway',
 'cantautori',
 'cantopop',
 'canzone',
 'caribbean',
 'caucasian',
 'celtic',
 'chamber',
 'children',
 'chill',
 'chinese',
 'choral',
 'christian',
 'christmas',
 'classical',
 'classicmetal',
 'club',
 'colombian',
 'comedy',
 'conjazz',
 'contemporary',
 'country',
 'cuban',
 'dance',
 'dancehall',
 'dancepop',
 'dark',
 'death',
 'deep',
 'deutschrock',
 'deutschspr',
 'dirty',
 'disco',
 'dnb',
 'documentary',
 'downbeat',
 'downtempo',
 'drum',
 'dub',
 'dubstep',
 'eastern',
 'easy',
 'electronic',
 'electropop',
 'emo',
 'entehno',
 'epicmetal',
 'estrada',
 'ethnic',
 'eurofolk',
 'european',
 'expe

<details>
<summary>Haz clic para ver la pista</summary>

Usa de nuevo el método que muestra los valores únicos de una columna para verificar que todos los nombres se hayan unificado correctamente.

## Etapa 3. Análisis

### Tarea: Comparar el comportamiento de los usuarios en las dos ciudades <a id='activity'></a>

Queremos analizar si hay diferencias en la cantidad de canciones reproducidas en Springfield y Shelbyville. Para ello, usaremos los datos de dos días de la semana: lunes y viernes.

Compararemos cuántas canciones se escucharon en cada ciudad durante esos días para identificar posibles patrones de comportamiento.

Sigue estos tres pasos para organizar tu análisis:

- Dividir: agrupa los datos por ciudad.

- Aplicar: cuenta cuántas canciones se reproducen en cada grupo.

- Combinar: presenta los resultados de forma que se puedan comparar fácilmente ambas ciudades.

Repite este proceso por separado para cada uno de los dos días.

Etapa 3.1.
Cuenta cuántas canciones se reprodujeron en cada ciudad utilizando la columna `'track'` como referencia.

In [74]:
# Cuenta las canciones reproducidas en cada ciudad
df.groupby('city')['track'].count()

Unnamed: 0_level_0,track
city,Unnamed: 1_level_1
Shelbyville,18512
Springfield,42741


<details>
<summary>Haz clic para ver la pista</summary>

Agrupa los datos por ciudad con el método `groupby()` y usa el método `count()` para contar las canciones reproducidas en cada grupo.

Etapa 3.2. Redacta brevemente tus observaciones sobre los resultados.

¿Qué diferencias encontraste entre Springfield y Shelbyville? ¿A qué podrían deberse?

Escribe tus observaciones aquí.  

Hay muchas más reproducciones en Springfield que en Shelbyville. Esto podría deberse a la penetración de mercado en ambas ciudades. Si en una tenemos más presencia que en la otra, o que nuestra plataforma tenga más usuarios en Springfield. Las hipótesis pueden ser muchas en este punto, es necesario seguir analizándo los datos para tener más información del comportamiento de nuestros usuarios.

Etapa 3.3.
Agrupa los datos por día de la semana y cuenta cuántas canciones se reprodujeron los lunes y viernes.



In [75]:
# Calcula las canciones reproducidas en cada uno de los dos días
df.groupby('day')['track'].count().loc[['Monday', 'Friday']]

Unnamed: 0_level_0,track
day,Unnamed: 1_level_1
Monday,21354
Friday,21840


<details>
<summary>Haz clic para ver la pista</summary>

Cambia el criterio de agrupación a la columna que representa el día de la semana y filtra solo para los días que te interesan.

Etapa 3.4. Describe brevemente qué observaste al comparar los lunes y viernes.

¿Hubo un día con más actividad? ¿Cambia algo si analizas cada ciudad por separado?

Escribe tus observaciones aquí.  
`En este caso, la diferencia es mínima. Los usuarios de ambas ciudades escuchan casi la misma cantidad de canciones el lunes, que el viernes. Necesitamos más información para saber si hay diferencia de hábitos de escucha entre los usuarios de ambas ciudades`

Etapa 3.5

Ahora vamos a combinar dos criterios: día y ciudad.

Crea una función llamada `number_tracks()` que reciba dos parámetros:

* `day`: un día de la semana (por ejemplo, `'Monday'`)
* `city`: el nombre de una ciudad (por ejemplo, `'Springfield'`)

Dentro de la función:

1. Filtra el DataFrame por el día.
2. Luego, filtra por la ciudad.
3. Cuenta cuántas veces aparece `'user_id'` en ese filtro.
4. Devuelve ese número como resultado.


In [76]:
# Declara la función number_tracks() con dos parámetros: day= y city=.
def number_tracks(day, city):

    # Almacena las filas del DataFrame donde el valor en la columna 'day' es igual al parámetro day=
  df_day = df[df['day'] == day]

    # Filtra las filas donde el valor en la columna 'city' es igual al parámetro city=
  df_city = df_day[df_day['city'] == city]

    # Extrae la columna 'user_id' de la tabla filtrada y aplica el método count()
  count = df_city['user_id'].count()

    # Devuelve el número de valores de la columna 'user_id'
  return count

<details>
<summary>Haz clic para ver la pista</summary>

Define una función con dos parámetros. Dentro, aplica un filtrado secuencial usando `df[...]`, y al final cuenta los valores con `.count()`.

Etapa 3.6. Llama a `number_tracks()` cuatro veces: una por ciudad en cada uno de los dos días.

In [77]:
# El número de canciones reproducidas en Springfield el lunes
print(number_tracks('Monday', 'Springfield'))

15740


In [78]:
# El número de canciones reproducidas en Shelbyville el lunes
print(number_tracks('Monday', 'Shelbyville'))

5614


In [79]:
# El número de canciones reproducidas en Springfield el viernes
print(number_tracks('Friday', 'Springfield'))

15945


In [80]:
# El número de canciones reproducidas en Shelbyville el viernes
print(number_tracks('Friday', 'Shelbyville'))

5895


<details>
<summary>Haz clic para ver la pista</summary>

Llama a tu función con combinaciones distintas de ciudad y día, como `'Monday', 'Springfield'`, y guarda o imprime los resultados para comparar.

In [81]:
#Para visualizar mejor los datos, crearía una tabla comparativa con los resultados de la función:

# Lunes
spr_monday = number_tracks('Monday', 'Springfield')
shb_monday = number_tracks('Monday', 'Shelbyville')

# Viernes
spr_friday = number_tracks('Friday', 'Springfield')
shb_friday = number_tracks('Friday', 'Shelbyville')

# Crear el DataFrame comparativo
comparacion = pd.DataFrame(
    data = {
        'Springfield': [spr_monday, spr_friday],
        'Shelbyville': [shb_monday, shb_friday]
    },
    index = ['Monday', 'Friday']
)

# Muestra la tabla
print(comparacion)

        Springfield  Shelbyville
Monday        15740         5614
Friday        15945         5895


# Conclusiones <a id='end'></a>

## Escribe tus conclusiones finales sobre el análisis

Redacta un resumen breve y claro de los hallazgos obtenidos durante el proceso de análisis. Tu conclusión debe:

* Mencionar los principales patrones que observaste en los datos.
* Identificar cualquier problema encontrado y cómo lo solucionaste.
* Explicar cómo estas acciones ayudaron a mejorar la calidad del análisis.

Reflexiona también sobre la pregunta central:

> *¿Los datos muestran que el comportamiento de los usuarios —en cuanto a la música que escuchan— varía según la ciudad y el día de la semana?*

Apoya tu respuesta con ejemplos concretos de los resultados obtenidos.


Detalla aquí tus conclusiones.  

Durante el análisis de los datos de reproducción musical, identificamos patrones claros en el comportamiento de los usuarios según la ciudad y el día de la semana.

- Principales hallazgos:
1. En Springfield se escucha casi el triple de canciones que en Shelbyville.
2. En Springfield, se reprodujeron 15,740 canciones el lunes y 15,945 el viernes. Esto indica un ligero aumento hacia el fin de semana.
3. En Shelbyville, las cifras fueron 5,614 canciones el lunes y 5,895 el viernes, mostrando también un pequeño incremento.

Ambas ciudades muestran una mayor actividad los viernes, aunque la diferencia entre lunes y viernes no es drástica. Esto sugiere que hay una tendencia general a escuchar más música al final de la semana, pero el cambio es más sutil de lo esperado.

- Problemas encontrados y soluciones:  

 - Se detectaron valores ausentes en columnas clave como 'track', 'artist' y 'genre'. Para evitar perder datos, estos valores fueron reemplazados con el texto 'unknown', lo cual permitió mantener la integridad del conjunto de datos.
 - Se identificaron duplicados explícitos, que fueron contabilizados con .duplicated().sum(). Este paso permitió entender la calidad de los datos y considerar acciones de limpieza adicionales si fuera necesario.
 - También se detectaron duplicados implícitos en los géneros de las canciones, los cuales fueron unificados mediante una función con el método replace()

Estas medidas ayudaron a mejorar la calidad del análisis, al asegurar que los resultados estuvieran basados en datos consistentes, completos y sin distorsiones.

- Reflexión final y Conclusión:  
Con base en los resultados, podemos afirmar que el comportamiento de los usuarios en cuanto a la música que escuchan sí varía según la ciudad y, ligeramente, el día de la semana, aunque las diferencias entre días no son radicales.  
Por ejemplo:  
  - Springfield mantiene un nivel de actividad musical elevado y relativamente estable entre lunes y viernes.  
  - En Shelbyville, el volumen de reproducciones es mucho más bajo que en Springfield, pero sigue la misma tendencia de incremento los viernes.

Estos patrones pueden ser útiles para tomar decisiones relacionadas con programación musical, campañas de marketing o personalización de recomendaciones según el día y la ubicación.

- Recomendaciones:  

El siguiente paso sería analizar la ejecución y los resultados de las campañas de marketing y compararlos con estos hallazgos, para definir si estos últimos son resultado de dichas campañas y tener las pautas para hacer los ajustes necesarios en nuestro plan de mkt.   

Debemos saber porqué hay tanta diferencia de canciones escuchadas entre ambas ciudades y, a partir de esa información definir un plan de acción para incrementar también las canciones escuchadas en Shelbyville.

Algunas acciones puntuales:  

- Aprovechar los viernes para campañas o lanzamientos musicales.

- Considerar segmentaciones geográficas al planificar estrategias de contenido o marketing.