# Déjame escuchar música

Los datos están almacenados en el archivo `/datasets/music_project_en.csv`.

¡Ahora sí, manos al código!


## Etapa 1. Descripción de los datos <a id='data_review'></a>

Abre los datos y examínalos.

Etapa 1.1. Necesitarás `pandas`, así que impórtalo.

In [1]:
# Importa pandas
import pandas as pd

Etapa 1.2. Lee el archivo `music_project_en.csv` de la carpeta `/datasets/` y guárdalo en la variable `df`:

In [2]:
# Lee el archivo y almacénalo en df
df = pd.read_csv('/datasets/music_project_en.csv')

Etapa 1.3. Muestra las 10 primeras filas de la tabla:

In [3]:
# Obtén las 10 primeras filas de la tabla df
df.head()

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday


Etapa 1.4. Obtén la información general sobre la tabla con el método info().

In [4]:
# Obtén la información general sobre nuestros datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


Estas son nuestras observaciones sobre la tabla. Contiene siete columnas que almacenan los mismos tipos de datos: `object`.

Según la documentación:
- `' userID'`: identificador del usuario;
- `'Track'`: título de la canción;
- `'artist'`: nombre del artista;
- `'genre'`: género de la canción;
- `'City'`: ciudad del usuario;
- `'time'`: la hora exacta en la que se reprodujo la canción;
- `'Day'`: día de la semana.

Podemos ver dos problemas con el estilo en los encabezados de la tabla:
1. Algunos encabezados están en mayúsculas, otros en minúsculas.
2. `Identifica tú mismo el segundo problema y escríbelo aquí.`
   * Hay una inconsistencia con los espacios en los nombres de las columnas




### Escribe algunas observaciones por tu parte. Contesta a las siguientes preguntas: <a id='data_review_conclusions'></a>

`1.   ¿Qué tipo de datos hay en las filas? ¿Cómo podemos saber qué almacenan las columnas?`

`2.   ¿Hay suficientes datos para proporcionar respuestas a nuestra hipótesis o necesitamos más información?`

`3.   ¿Notaste algún problema en los datos, como valores ausentes, duplicados o tipos de datos incorrectos?`

Escribe aquí tus respuestas:

1. Todas las columnas están como object, que es la manera de Pandas de identificar Strings

2. Sí, hay un total de 65079 registros, creo que son suficientes para poder sacar Insights valiosos

3. Si hay valores ausentes en 3 columnas, 'track', 'artist' y 'genre', y todavía no revisamos los duplicados

## Etapa 2. Preprocesamiento de los datos <a id='data_preprocessing'></a>

Tu objetivo aquí es preparar los datos para analizarlos.
El primer paso es resolver los problemas con los encabezados. Después podemos avanzar a los valores ausentes y duplicados. ¡Empecemos!

Vamos a corregir el formato en los encabezados de la tabla.


### Estilo del encabezado <a id='header_style'></a>
Etapa 2.1. Muestra los encabezados de la tabla (los nombres de las columnas):

In [5]:
# Muestra los nombres de las columnas
df.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

Vamos cambiar los encabezados de la tabla siguiendo las reglas estilísticas convencionales:
*   Todos los caracteres deben ser minúsculas.
*   Elimina los espacios.
*   Si el nombre tiene varias palabras, utiliza snake_case, es decir, añade un guion bajo ( _ ) entre las palabras en lugar de un espacio.



Etapa 2.2. Utiliza el bucle for para iterar sobre los nombres de las columnas y poner todos los caracteres en minúsculas. Cuando hayas terminado, vuelve a mostrar los encabezados de la tabla:

In [6]:
df2 = df.copy()
df3 = df.copy()

In [7]:
new_columns = []
for columna in df2.columns:
    new_columns.append(columna.lower())
df2.columns = new_columns
df2.columns

Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')

In [8]:
# Bucle que itera sobre los encabezados y los pone todos en minúsculas
new_columns = {}
for columna in df.columns:
    new_columns[columna] = columna.lower()
df.rename(columns = new_columns, inplace = True)
df.columns

Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')

Etapa 2.3. Ahora, utilizando el mismo método, elimina los espacios al principio y al final de los nombres de las columnas y muestra los nombres de las columnas de nuevo:

In [9]:
# Bucle que itera sobre los encabezados y elimina los espacios
new_columns = []
for column in df.columns:
    new_columns.append(column.strip())
df.columns = new_columns
df.columns

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

Etapa 2.4. Necesitamos aplicar la regla de snake_case en la columna `userid`. Debe ser `user_id`. Cambia el nombre de esta columna y muestra los nombres de todas las columnas cuando hayas terminado.

In [10]:
# Cambia el nombre de la columna "userid"
df.rename(columns = {'userid':'user_id'}, inplace = True)
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

Etapa 2.5. Comprueba el resultado. Muestra los encabezados una vez más:

In [11]:
# Comprueba el resultado: lista de encabezados
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

#### Funcion combinada strip y lower

In [12]:
def Strip_and_lower(df):
    new_columns = []
    for column in df.columns:
        new_name = column.lower()
        new_name = new_name.strip()
        new_columns.append(new_name)
    df.columns = new_columns

In [13]:
Strip_and_lower(df3)
df3.columns

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

### Valores ausentes <a id='missing_values'></a>
 Etapa 2.5. Primero, encuentra el número de valores ausentes en la tabla. Debes utilizar dos métodos para obtener el número de valores ausentes.

In [14]:
# Calcula el número de valores ausentes
df.isna().sum()

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64

Etapa 2.6. Sustituye los valores ausentes en las columnas `'track'`, `'artist'` y `'genre'` con el string `'unknown'`.

1. Crea una lista llamada columns_to_replace que contenga los nombres de las columnas 'track', 'artist' y 'genre'.

2. Usa un bucle for para iterar sobre cada columna en columns_to_replace.

3. Dentro del bucle, sustituye los valores ausentes en cada columna con el string `'unknown'`.

In [15]:
# Bucle en los encabezados reemplazando los valores ausentes con 'unknown'
columns_to_replace = ['track', 'artist', 'genre']
for column in columns_to_replace:
    df[column].fillna('unknown', inplace = True)

Etapa 2.7. Ahora comprueba el resultado para asegurarte de que no falten valores ausentes por reemplazar en el conjunto de datos. Para ello, cuenta los valores ausentes una vez más.

In [16]:
# Cuenta los valores ausentes
df.isna().sum()

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

### Duplicados <a id='duplicates'></a>
Etapa 2.8. Encuentra el número de duplicados explícitos en la tabla. Una vez más, debes aplicar dos métodos para obtener la cantidad de duplicados explícitos.

In [17]:
# Cuenta los duplicados explícitos
df.duplicated().sum()

3826

Etapa 2.9. Ahora, elimina todos los duplicados. Para ello, llama al método que hace exactamente esto.

In [18]:
# Elimina los duplicados explícitos
df.drop_duplicates(inplace =  True)

Etapa 2.10. Comprobemos ahora si conseguimos eliminar todos los duplicados. Cuenta los duplicados explícitos una vez más para asegurarte de haberlos eliminado todos:

In [19]:
# Comprueba de nuevo si hay duplicados
df.duplicated().sum()

0

Ahora queremos deshacernos de los duplicados implícitos en la columna `genre`. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar al resultado.

Etapa 2.11. Primero debemos mostrar una lista de nombres de géneros únicos, por orden alfabético. Para ello:
1. Extrae la columna `genre` del DataFrame.
2. Llama al método que devolverá todos los valores únicos en la columna extraída.


In [20]:
# Inspecciona los nombres de géneros únicos
df['genre'].sort_values().unique()

array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'ambient', 'americana', 'animated', 'anime',
       'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook',
       'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom',
       'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian',
       'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop',
       'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber',
       'children', 'chill', 'chinese', 'choral', 'christian', 'christmas',
       'classical', 'classicmetal', 'club', 'colombian', 'comedy',
       'conjazz', 'contemporary', 'country', 'cuban', 'dance',
       'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock',
       'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat',
       'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy',
       'electronic', 'electropop', 'emo', 'entehno', 'epicmetal',
       'estrada', 'ethnic', 'eurofo

Etapa 2.12. Vamos a examinar la lista para identificar **duplicados implícitos** del género `hiphop`, es decir, nombres mal escritos o variantes que hacen referencia al mismo género musical.

Los duplicados que encontrarás son:

* `hip`  
* `hop`  
* `hip-hop`  

Para solucionarlo, vamos a crear una función llamada `replace_wrong_values()`.


1. Define una función llamada `replace_wrong_values()` que reciba los siguientes parámetros:

* `df`: el DataFrame a modificar
* `column`: el nombre de la columna a trabajar
* `wrong_values`: una lista con los valores incorrectos
* `correct_value`: el valor correcto para reemplazar

2. Dentro de la función, usa un bucle `for` para iterar sobre cada valor incorrecto y aplicar `.replace()`.


In [21]:
# Función para reemplazar los duplicados implícitos
def replace_wrong_values(df, column, wrong_values, correct_values):
    df[column].replace(wrong_values,correct_values,inplace = True)

Etapa 2.13. Ahora, llama a la función pasando:

* `df` como el DataFrame
* `'genre'` como nombre de columna
* `['hip', 'hop', 'hip-hop']` como lista de valores incorrectos
* `'hiphop'` como valor correcto


In [22]:
# Elimina los duplicados implícitos
replace_wrong_values(df,'genre', ['hip', 'hop', 'hip-hop'], 'hiphop')

Etapa 2.14. Asegúrate de que los nombres duplicados se hayan eliminado. Muestra la lista de valores únicos de la columna `'genre'` una vez más:

In [23]:
# Comprueba de nuevo los duplicados implícitos
df['genre'].sort_values().unique()

array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'ambient', 'americana', 'animated', 'anime',
       'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook',
       'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom',
       'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian',
       'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop',
       'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber',
       'children', 'chill', 'chinese', 'choral', 'christian', 'christmas',
       'classical', 'classicmetal', 'club', 'colombian', 'comedy',
       'conjazz', 'contemporary', 'country', 'cuban', 'dance',
       'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock',
       'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat',
       'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy',
       'electronic', 'electropop', 'emo', 'entehno', 'epicmetal',
       'estrada', 'ethnic', 'eurofo

## Etapa 3. Análisis

### Tarea: Comparar el comportamiento de los usuarios en las dos ciudades <a id='activity'></a>

Queremos analizar si hay diferencias en la cantidad de canciones reproducidas en Springfield y Shelbyville. Para ello, usaremos los datos de dos días de la semana: lunes y viernes.

Compararemos cuántas canciones se escucharon en cada ciudad durante esos días para identificar posibles patrones de comportamiento.

Sigue estos tres pasos para organizar tu análisis:

- Dividir: agrupa los datos por ciudad.

- Aplicar: cuenta cuántas canciones se reproducen en cada grupo.

- Combinar: presenta los resultados de forma que se puedan comparar fácilmente ambas ciudades.

Repite este proceso por separado para cada uno de los dos días.

Etapa 3.1.
Cuenta cuántas canciones se reprodujeron en cada ciudad utilizando la columna `'track'` como referencia.

In [24]:
# Cuenta las canciones reproducidas en cada ciudad

city_counts = df.groupby('city')['track'].count()
difference = city_counts.max() - city_counts.min()
print(city_counts)
print()
print(f"hay una diferencia de {difference} reproducciones")


city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64

hay una diferencia de 24229 reproducciones


In [25]:
df['city'].value_counts(normalize = True)

Springfield    0.697778
Shelbyville    0.302222
Name: city, dtype: float64

Etapa 3.2. Redacta brevemente tus observaciones sobre los resultados.

¿Qué diferencias encontraste entre Springfield y Shelbyville? ¿A qué podrían deberse?


Escribe tus observaciones aquí.

Springfield tiene, 24229 reproducciones más que Shelbyville que equivale a casi un 40% de diferencia. Específicamente, Springfield cuenta con un 69.7% mientras que Shelbyville un 30.2% de las reproducciones.

Esto puede deberse a varias razones:
- Una diferencia de población considerable,
- El servicio tiene una base de usuarios con mayor concentración en Springfield
- Una diferencia demográfica (por ejemplo, una concentración más alta jóvenes en Springfield)
- Incluso fechas importantes de la ciudad en el periodo de recolección de los datos.

No es posible identificar una causa o razón objetiva de la diferencia de reproducciones con los datos disponibles


Etapa 3.3.
Agrupa los datos por día de la semana y cuenta cuántas canciones se reprodujeron los lunes y viernes.



In [26]:
mask = (df['day']=='Monday') | (df['day']=='Friday')

In [27]:
# Calcula las canciones reproducidas en cada uno de los dos días
city_counts = df[mask].groupby('day')['track'].count()
difference = city_counts.max() - city_counts.min()
print(city_counts)
print()
print(f"hay una diferencia de {difference} reproducciones")

day
Friday    21840
Monday    21354
Name: track, dtype: int64

hay una diferencia de 486 reproducciones


In [28]:
df[mask]['day'].value_counts(normalize = True)

Friday    0.505626
Monday    0.494374
Name: day, dtype: float64

In [29]:
# Calcula las canciones reproducidas en cada uno de los dos días por ciudad
df[mask].groupby(['city','day'])['track'].count().unstack()

day,Friday,Monday
city,Unnamed: 1_level_1,Unnamed: 2_level_1
Shelbyville,5895,5614
Springfield,15945,15740


In [54]:
prop_por_ciudad_alt = df[mask].groupby('city')['day'].value_counts(normalize=True).unstack(fill_value=0)
prop_por_ciudad_alt

day,Friday,Monday
city,Unnamed: 1_level_1,Unnamed: 2_level_1
Shelbyville,0.512208,0.487792
Springfield,0.503235,0.496765


In [31]:
df[mask]['day'].value_counts()

Friday    21840
Monday    21354
Name: day, dtype: int64

Etapa 3.4. Describe brevemente qué observaste al comparar los lunes y viernes.

¿Hubo un día con más actividad? ¿Cambia algo si analizas cada ciudad por separado?


Escribe tus observaciones aquí.

* Hay una diferencia mínima en las reproducciones del lunes y viernes, en concreto 486 canciones. El viernes se registran el 50.56% (21,840) de las reproducciones, tomando en cuenta solo lunes y viernes, mientras que el lunes el 49.43% (21,354) restante.
* Si tomamos en cuenta las ciudades de Springfield y Shelbyville, se mantiene el mismo comportamiento ~50% entre los 2 días, en ambas ciudades


Esto contrasta con la expectativa cultural de que los viernes existen más eventos sociales, los cuales normalmente van acompañados de música. Esto puede deberse a que el data set no cubra los suficientes días o bien esté incompleto 





Etapa 3.5

Ahora vamos a combinar dos criterios: día y ciudad.

Crea una función llamada `number_tracks()` que reciba dos parámetros:

* `day`: un día de la semana (por ejemplo, `'Monday'`)
* `city`: el nombre de una ciudad (por ejemplo, `'Springfield'`)

Dentro de la función:

1. Filtra el DataFrame por el día.
2. Luego, filtra por la ciudad.
3. Cuenta cuántas veces aparece `'user_id'` en ese filtro.
4. Devuelve ese número como resultado.


In [32]:
def number_tracks(city, day):
    mask = (df['day']==day) & (df['city']==city)
    return df.loc[mask, 'user_id'].value_counts()

In [33]:
# Declara la función number_tracks() con dos parámetros: day= y city=.

    # Almacena las filas del DataFrame donde el valor en la columna 'day' es igual al parámetro day=

    # Filtra las filas donde el valor en la columna 'city' es igual al parámetro city=

    # Extrae la columna 'user_id' de la tabla filtrada y aplica el método count()

    # Devuelve el número de valores de la columna 'user_id'

Etapa 3.6. Llama a `number_tracks()` cuatro veces: una por ciudad en cada uno de los dos días.

In [61]:
# El número de canciones reproducidas en Springfield el lunes
number_tracks('Springfield','Monday')

11904

In [60]:
# El número de canciones reproducidas en Shelbyville el lunes
number_tracks('Shelbyville','Monday')

4248

In [59]:
# El número de canciones reproducidas en Springfield el viernes
number_tracks('Springfield','Friday')

12145

In [56]:
# El número de canciones reproducidas en Shelbyville el viernes
number_tracks('Shelbyville','Friday')

4495

# Conclusiones <a id='end'></a>

## Escribe tus conclusiones finales sobre el análisis

Redacta un resumen breve y claro de los hallazgos obtenidos durante el proceso de análisis. Tu conclusión debe:

* Mencionar los principales patrones que observaste en los datos.
* Identificar cualquier problema encontrado y cómo lo solucionaste.
* Explicar cómo estas acciones ayudaron a mejorar la calidad del análisis.

Reflexiona también sobre la pregunta central:

> *¿Los datos muestran que el comportamiento de los usuarios —en cuanto a la música que escuchan— varía según la ciudad y el día de la semana?*

Apoya tu respuesta con ejemplos concretos de los resultados obtenidos.


Detalla aquí tus conclusiones.

Analizando el número de reproducciones, se descubrió que el 69.7% de las reproducciones totales vienen de Springfield del periodo de los datos, mientras que Shelbyville cuenta con el 30.2% restante

In [55]:
df['city'].value_counts(normalize = True)

Springfield    0.697778
Shelbyville    0.302222
Name: city, dtype: float64

Esto podría significar varias cosas, pero con los datos  disponibles solo es posible detectar causas probables.
- Puede deberse a una demografía diferente, el sector poblacional que escucha más música son los jóvenes.
- La diferencia puede deberse al periodo de recolección; no sabemos si los datos representan una misma estacionalidad.
- Anteriormente, se barajó la idea de una diferencia en el número de usuarios o tamaño de población en cada ciudad, con un análisis más exhaustivo. Podemos ver que es probablemente lo que está pasando. Vemos que la proporción de reproducciones, Springfield = 69.7% y Shelbyville 30.2% es muy similar a la proporción de usuarios en cada ciudad, específicamente Springfield cuenta con el 70.26% de los usuarios y Shelbyville el 29.73% restante


In [84]:
users_by_city = df.groupby('city')['user_id'].nunique()
users_by_city

city
Shelbyville    12423
Springfield    29358
Name: user_id, dtype: int64

In [86]:
total_users = users_by_city.sum()
prop_by_city = users_by_city/total_users
print(prop_by_city)

city
Shelbyville    0.297336
Springfield    0.702664
Name: user_id, dtype: float64


Si analizamos el comportamiento de las reproducciones, según el día no encontramos casi diferencia, proporcionalmente. En ambas ciudades se ve casi el mismo comportamiento, un pequeño aumento en las reproducciones el Vieres, pero este no supera el 2%

In [62]:
prop_por_ciudad_alt

day,Friday,Monday
city,Unnamed: 1_level_1,Unnamed: 2_level_1
Shelbyville,0.512208,0.487792
Springfield,0.503235,0.496765



Conclusiones generales

La diferencia de reproducciones se debe a la base de usuarios de cada ciudad, es prioritario verificar el porqué de esta diferencia. Puede deberse a una diferencia demográfica o inclusive que Shelbyville no se le ha hecho el marketing necesario, para atraer clientes. Es necesario saber más sobre el contexto del servicio y de las ciudades en sí, también se necesita recolectar más datos tanto sobre nuestros clientes, las ciudades y de la reproducción en sí como la hora y día de esta.

Mientras tanto, vemos que no hay una diferencia en el número de reproducciones por día, es necesario hacer una investigación del porqué esto pasa, ya que no es un comportamiento esperado a las preconcepciones culturales.
