# Déjame escuchar música

Los datos están almacenados en el archivo `/datasets/music_project_en.csv`.

¡Ahora sí, manos al código!


## Etapa 1. Descripción de los datos <a id='data_review'></a>

Abre los datos y examínalos.

Etapa 1.1. Necesitarás `pandas`, así que impórtalo.

In [1]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

Etapa 1.2. Lee el archivo `music_project_en.csv` de la carpeta `/datasets/` y guárdalo en la variable `df`:

In [2]:
df = pd.read_csv('Analisis_de_usuarios_para_streaming_musica\music_project_en.csv')


Etapa 1.3. Muestra las 10 primeras filas de la tabla:

In [3]:
print(df.head(10))


     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                       Chains          Obladaet  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE                     L’estate       Julia Dalia  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

        City        time        Day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monday  
5

Etapa 1.4. Obtén la información general sobre la tabla con el método info().

In [4]:
print(df.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB
None


Estas son nuestras observaciones sobre la tabla. Contiene siete columnas que almacenan los mismos tipos de datos: `object`.

Según la documentación:
- `' userID'`: identificador del usuario;
- `'Track'`: título de la canción;
- `'artist'`: nombre del artista;
- `'genre'`: género de la canción;
- `'City'`: ciudad del usuario;
- `'time'`: la hora exacta en la que se reprodujo la canción;
- `'Day'`: día de la semana.

Podemos ver dos problemas con el estilo en los encabezados de la tabla:
1. Algunos encabezados están en mayúsculas, otros en minúsculas.
2. `Identifica tú mismo el segundo problema y escríbelo aquí.`

Hay espacios al inicio de 'City' y 'userID'



### Escribe algunas observaciones por tu parte. Contesta a las siguientes preguntas: <a id='data_review_conclusions'></a>

`1.   ¿Qué tipo de datos hay en las filas? ¿Cómo podemos saber qué almacenan las columnas?`

`2.   ¿Hay suficientes datos para proporcionar respuestas a nuestra hipótesis o necesitamos más información?`

`3.   ¿Notaste algún problema en los datos, como valores ausentes, duplicados o tipos de datos incorrectos?`

Escribe aquí tus respuestas:

1. Los datos son la reproducción de una canción por un usuario, podemos saber que almacenan las columnas Usando el método `info` para obtener detalles sobre columnas, tipos de datos y valores nulos.

2. Si, tenemos suficientes datos para dar respuesta a una hipotesis en especifico como por ejemplo la relacion ciudad-tiempo de escucha pero no se puede realizar un analisis mas "completo".

3. Si, Encabezados con (mayúsculas/minúsculas, espacios) y Valores ausentes hasta el momento.

## Etapa 2. Preprocesamiento de los datos <a id='data_preprocessing'></a>

Tu objetivo aquí es preparar los datos para analizarlos.
El primer paso es resolver los problemas con los encabezados. Después podemos avanzar a los valores ausentes y duplicados. ¡Empecemos!

Vamos a corregir el formato en los encabezados de la tabla.


### Estilo del encabezado <a id='header_style'></a>
Etapa 2.1. Muestra los encabezados de la tabla (los nombres de las columnas):

In [5]:
df.columns


Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

Vamos cambiar los encabezados de la tabla siguiendo las reglas estilísticas convencionales:
*   Todos los caracteres deben ser minúsculas.
*   Elimina los espacios.
*   Si el nombre tiene varias palabras, utiliza snake_case, es decir, añade un guion bajo ( _ ) entre las palabras en lugar de un espacio.



Etapa 2.2. Utiliza el bucle for para iterar sobre los nombres de las columnas y poner todos los caracteres en minúsculas. Cuando hayas terminado, vuelve a mostrar los encabezados de la tabla:

In [6]:

colums_new = []
for colum_old in df.columns:
    name_lower = colum_old.lower()
    colums_new.append(name_lower)


df.columns = colums_new
print(df.columns)

    



Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')


Etapa 2.3. Ahora, utilizando el mismo método, elimina los espacios al principio y al final de los nombres de las columnas y muestra los nombres de las columnas de nuevo:

In [7]:
colums_new = []
for colum_old in df.columns:
    name_lower = colum_old.lower()
    name_strip = name_lower.strip()
    colums_new.append(name_strip)


df.columns = colums_new
print(df.columns)




Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


Etapa 2.4. Necesitamos aplicar la regla de snake_case en la columna `userid`. Debe ser `user_id`. Cambia el nombre de esta columna y muestra los nombres de todas las columnas cuando hayas terminado.

In [8]:
new_name = {
    "userid":"user_id"
}
df.rename(columns = new_name, inplace=True)
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


Etapa 2.5. Comprueba el resultado. Muestra los encabezados una vez más:

In [9]:
df.columns



Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

### Valores ausentes <a id='missing_values'></a>
 Etapa 2.5. Primero, encuentra el número de valores ausentes en la tabla. Debes utilizar dos métodos para obtener el número de valores ausentes.

In [10]:
print(df.isna().sum())


user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


Etapa 2.6. Sustituye los valores ausentes en las columnas `'track'`, `'artist'` y `'genre'` con el string `'unknown'`.

1. Crea una lista llamada columns_to_replace que contenga los nombres de las columnas 'track', 'artist' y 'genre'.

2. Usa un bucle for para iterar sobre cada columna en columns_to_replace.

3. Dentro del bucle, sustituye los valores ausentes en cada columna con el string `'unknown'`.

In [11]:
columns_to_replace = ['track', 'artist', 'genre']
for columns_replace in columns_to_replace:
    df[columns_replace].fillna('unknown', inplace=True)



    
    



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[columns_replace].fillna('unknown', inplace=True)


Etapa 2.7. Ahora comprueba el resultado para asegurarte de que no falten valores ausentes por reemplazar en el conjunto de datos. Para ello, cuenta los valores ausentes una vez más.

In [12]:
print(df.isna().sum())



user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


### Duplicados <a id='duplicates'></a>
Etapa 2.8. Encuentra el número de duplicados explícitos en la tabla. Una vez más, debes aplicar dos métodos para obtener la cantidad de duplicados explícitos.

In [13]:
print(df.duplicated().sum())

3826


Etapa 2.9. Ahora, elimina todos los duplicados. Para ello, llama al método que hace exactamente esto.

In [14]:
df = df.drop_duplicates()



Etapa 2.10. Comprobemos ahora si conseguimos eliminar todos los duplicados. Cuenta los duplicados explícitos una vez más para asegurarte de haberlos eliminado todos:

In [15]:
print(df.duplicated().sum())


0


Ahora queremos deshacernos de los duplicados implícitos en la columna `genre`. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar al resultado.

Etapa 2.11. Primero debemos mostrar una lista de nombres de géneros únicos, por orden alfabético. Para ello:
1. Extrae la columna `genre` del DataFrame.
2. Llama al método que devolverá todos los valores únicos en la columna extraída.


In [16]:
print(sorted(df['genre'].unique()))

['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans', 'alternative', 'ambient', 'americana', 'animated', 'anime', 'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook', 'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber', 'children', 'chill', 'chinese', 'choral', 'christian', 'christmas', 'classical', 'classicmetal', 'club', 'colombian', 'comedy', 'conjazz', 'contemporary', 'country', 'cuban', 'dance', 'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic', 'electropop', 'emo', 'entehno', 'epicmetal', 'estrada', 'ethnic', 'eurofolk', 'european', 'experimental', 'extrememetal', 'fado', 'film', 'fitness', 'flamenco', 'folk', 'folklor

Etapa 2.12. Vamos a examinar la lista para identificar **duplicados implícitos** del género `hiphop`, es decir, nombres mal escritos o variantes que hacen referencia al mismo género musical.

Los duplicados que encontrarás son:

* `hip`  
* `hop`  
* `hip-hop`  

Para solucionarlo, vamos a crear una función llamada `replace_wrong_values()`.


1. Define una función llamada `replace_wrong_values()` que reciba los siguientes parámetros:

* `df`: el DataFrame a modificar
* `column`: el nombre de la columna a trabajar
* `wrong_values`: una lista con los valores incorrectos
* `correct_value`: el valor correcto para reemplazar

2. Dentro de la función, usa un bucle `for` para iterar sobre cada valor incorrecto y aplicar `.replace()`.


In [17]:
def replace_wrong_values(df, column, wrong_values, correct_value):
    for wrong_value in wrong_values: 
        df[column] = df[column].replace(wrong_value, correct_value)
        return df 




Etapa 2.13. Ahora, llama a la función pasando:

* `df` como el DataFrame
* `'genre'` como nombre de columna
* `['hip', 'hop', 'hip-hop']` como lista de valores incorrectos
* `'hiphop'` como valor correcto


In [18]:
duplicates = (['hip', 'hop', 'hip-hop'], 'hiphop')
genre = 'hiphop'
df = replace_wrong_values(df, 'genre', duplicates, genre)
print(df)



        user_id                              track            artist  \
0      FFB692EC                  Kamigata To Boots  The Mass Missile   
1      55204538        Delayed Because of Accident  Andreas Rönnberg   
2        20EC38                  Funiculì funiculà       Mario Lanza   
3      A3DD03C9              Dragons in the Sunset        Fire + Ice   
4      E2DC1FAE                        Soul People        Space Echo   
...         ...                                ...               ...   
65074  729CBB09                            My Name            McLean   
65075  D08D4A55  Maybe One Day (feat. Black Spade)       Blu & Exile   
65076  C5E3A0D5                          Jalopiina           unknown   
65077  321D0506                      Freight Train     Chas McDevitt   
65078  3A64EF84          Tell Me Sweet Little Lies      Monica Lopez   

            genre         city      time        day  
0            rock  Shelbyville  20:28:33  Wednesday  
1            rock  Springfi

Etapa 2.14. Asegúrate de que los nombres duplicados se hayan eliminado. Muestra la lista de valores únicos de la columna `'genre'` una vez más:

In [19]:
print(sorted(df['genre'].unique()))

['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans', 'alternative', 'ambient', 'americana', 'animated', 'anime', 'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook', 'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom', 'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian', 'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop', 'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber', 'children', 'chill', 'chinese', 'choral', 'christian', 'christmas', 'classical', 'classicmetal', 'club', 'colombian', 'comedy', 'conjazz', 'contemporary', 'country', 'cuban', 'dance', 'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock', 'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat', 'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy', 'electronic', 'electropop', 'emo', 'entehno', 'epicmetal', 'estrada', 'ethnic', 'eurofolk', 'european', 'experimental', 'extrememetal', 'fado', 'film', 'fitness', 'flamenco', 'folk', 'folklor

## Etapa 3. Análisis

### Tarea: Comparar el comportamiento de los usuarios en las dos ciudades <a id='activity'></a>

Queremos analizar si hay diferencias en la cantidad de canciones reproducidas en Springfield y Shelbyville. Para ello, usaremos los datos de dos días de la semana: lunes y viernes.

Compararemos cuántas canciones se escucharon en cada ciudad durante esos días para identificar posibles patrones de comportamiento.

Sigue estos tres pasos para organizar tu análisis:

- Dividir: agrupa los datos por ciudad.

- Aplicar: cuenta cuántas canciones se reproducen en cada grupo.

- Combinar: presenta los resultados de forma que se puedan comparar fácilmente ambas ciudades.

Repite este proceso por separado para cada uno de los dos días.

Etapa 3.1.
Cuenta cuántas canciones se reprodujeron en cada ciudad utilizando la columna `'track'` como referencia.

In [20]:
print(df.groupby(by='city')['track'])
print()
print(df.groupby(by='city')['track'].count())

<pandas.core.groupby.generic.SeriesGroupBy object at 0x000001AA58E21950>

city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64


Etapa 3.2. Redacta brevemente tus observaciones sobre los resultados.

¿Qué diferencias encontraste entre Springfield y Shelbyville? ¿A qué podrían deberse?

Escribe tus observaciones aquí.

Etapa 3.3.
Agrupa los datos por día de la semana y cuenta cuántas canciones se reprodujeron los lunes y viernes.



In [21]:
#En la ciudad de Springfield se escucha casi el doble de tiempo con respecto a Shelbyville y lo mismo en número de canciones.
#Hubo mas actividad los lunes, aunque fue por muy poco margen, los resultados por ciudad salen diferentes en cuanto a numeros En Springfield, los viernes tuvieron ligeramente más actividad (15,945 vs 15,740), En Shelbyville, el patrón fue similar (5,895 vs 5,614).



df_filtrado = df[df['day'].isin(['Monday', 'Friday'])]
print(df_filtrado.groupby('day')['track'].count())



day
Friday    21840
Monday    21354
Name: track, dtype: int64


Etapa 3.4. Describe brevemente qué observaste al comparar los lunes y viernes.

¿Hubo un día con más actividad? ¿Cambia algo si analizas cada ciudad por separado?

Escribe tus observaciones aquí.

Etapa 3.5

Ahora vamos a combinar dos criterios: día y ciudad.

Crea una función llamada `number_tracks()` que reciba dos parámetros:

* `day`: un día de la semana (por ejemplo, `'Monday'`)
* `city`: el nombre de una ciudad (por ejemplo, `'Springfield'`)

Dentro de la función:

1. Filtra el DataFrame por el día.
2. Luego, filtra por la ciudad.
3. Cuenta cuántas veces aparece `'user_id'` en ese filtro.
4. Devuelve ese número como resultado.


In [22]:
def number_tracks(day, city):
    day_data = df[df['day'] == day]
    city_day_data = day_data[day_data['city'] == city]
    track_count = city_day_data['user_id'].count()
    return track_count


    # Almacena las filas del DataFrame donde el valor en la columna 'day' es igual al parámetro day=

    # Filtra las filas donde el valor en la columna 'city' es igual al parámetro city=

    # Extrae la columna 'user_id' de la tabla filtrada y aplica el método count()

    # Devuelve el número de valores de la columna 'user_id'

Etapa 3.6. Llama a `number_tracks()` cuatro veces: una por ciudad en cada uno de los dos días.

In [23]:
# El número de canciones reproducidas en Springfield el lunes
springfield_monday = number_tracks('Monday', 'Springfield')
print(springfield_monday)

15740


In [24]:
# El número de canciones reproducidas en Shelbyville el lunes
springfield_friday = number_tracks('Friday', 'Springfield')
print(springfield_friday)

15945


In [25]:
# El número de canciones reproducidas en Springfield el viernes
shelbyville_monday = number_tracks('Monday', 'Shelbyville')
print(shelbyville_monday)

5614


In [26]:
# El número de canciones reproducidas en Shelbyville el viernes
shelbyville_friday = number_tracks('Friday', 'Shelbyville')
print(shelbyville_friday)

5895


# Conclusiones <a id='end'></a>

## Escribe tus conclusiones finales sobre el análisis

Redacta un resumen breve y claro de los hallazgos obtenidos durante el proceso de análisis. Tu conclusión debe:

* Mencionar los principales patrones que observaste en los datos.
* Identificar cualquier problema encontrado y cómo lo solucionaste.
* Explicar cómo estas acciones ayudaron a mejorar la calidad del análisis.

Reflexiona también sobre la pregunta central:

> *¿Los datos muestran que el comportamiento de los usuarios —en cuanto a la música que escuchan— varía según la ciudad y el día de la semana?*

Apoya tu respuesta con ejemplos concretos de los resultados obtenidos.


Principales patrones:

Springfield tiene más actividad musical que Shelbyville (42,741 vs 18,512 reproducciones).

Esto podría ser porque Springfield es una ciudad más grande (pienso yo).

Al analizar por ciudad:

En Springfield, los viernes tuvieron ligeramente más actividad (15,945 vs 15,740).

En Shelbyville, el patrón fue similar (5,895 vs 5,614).



Se identificaron los siguientes "errores":

Encabezados inconsistentes (mayúsculas/minúsculas, espacios)

Valores ausentes (los reemplazamos con 'unknown')

Duplicados explícitos (3,826 filas eliminadas)

Duplicados implícitos en géneros (ej: unificamos 'hip', 'hop' y 'hip-hop' como 'hiphop')


Sí, los datos muestran diferencias en el comportamiento de los usuarios entre ciudades y días:

Diferencias entre ciudades: Los usuarios de Springfield escuchan aproximadamente 2.3 veces más música que los de Shelbyville.

Diferencias por día: Aunque la diferencia es pequeña, ambos ciudades muestran mayor actividad los viernes, especialmente Shelbyville (+5% los viernes vs lunes).

Ejemplos concretos:

En Springfield se escucharon 15,740 canciones el lunes vs 15,945 el viernes.

En Shelbyville fueron 5,614 el lunes vs 5,895 el viernes.

Las acciones de limpieza de datos ayudaron a asegurar la precisión de los conteos, permitir comparaciones exactas entre ciudades y días, facilitar la identificación de patrones.

El análisis nos arroja que factores como (ciudad) y (día de la semana) influyen en los hábitos de escucha de los usuarios, aunque si quiero mencionar que se necesita de mas información (datos) para poder dar un "analisis mas preciso".