# D√©jame escuchar la m√∫sica

# Contenido <a id='back'></a>

* [Introducci√≥n](#intro)
* [Etapa 1. Descripci√≥n de los datos](#data_review)
    * [Conclusiones](#data_review_conclusions)
* [Etapa 2. Preprocesamiento de datos](#data_preprocessing)
    * [2.1 Estilo del encabezado](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusiones](#data_preprocessing_conclusions)
* [Etapa 3. Prueba de hip√≥tesis](#hypothesis)
    * [3.1 Hip√≥tesis 1: actividad de los usuarios y las usuarias en las dos ciudades](#activity)
* [Conclusiones](#end)

## Introducci√≥n <a id='intro'></a>
Como analista de datos, tu trabajo consiste en analizar datos para extraer informaci√≥n valiosa y tomar decisiones basadas en ellos. Esto implica diferentes etapas, como la descripci√≥n general de los datos, el preprocesamiento y la prueba de hip√≥tesis.

Siempre que investigamos, necesitamos formular hip√≥tesis que despu√©s podamos probar. A veces aceptamos estas hip√≥tesis; otras veces, las rechazamos. Para tomar las decisiones correctas, una empresa debe ser capaz de entender si est√° haciendo las suposiciones correctas.

En este proyecto, comparar√°s las preferencias musicales de las ciudades de Springfield y Shelbyville. Estudiar√°s datos reales de transmisi√≥n de m√∫sica online para probar la hip√≥tesis a continuaci√≥n y comparar el comportamiento de los usuarios y las usuarias de estas dos ciudades.

### Objetivo:
Prueba la hip√≥tesis:
1. La actividad de los usuarios y las usuarias difiere seg√∫n el d√≠a de la semana y dependiendo de la ciudad.


### Etapas
Los datos del comportamiento del usuario se almacenan en el archivo `/datasets/music_project_en.csv`. No hay ninguna informaci√≥n sobre la calidad de los datos, as√≠ que necesitar√°s examinarlos antes de probar la hip√≥tesis.

Primero, evaluar√°s la calidad de los datos y ver√°s si los problemas son significativos. Entonces, durante el preprocesamiento de datos, tomar√°s en cuenta los problemas m√°s cr√≠ticos.

Tu proyecto consistir√° en tres etapas:
 1. Descripci√≥n de los datos.
 2. Preprocesamiento de datos.
 3. Prueba de hip√≥tesis.








[Volver a Contenidos](#back)

## Etapa 1. Descripci√≥n de los datos <a id='data_review'></a>

Abre los datos y exam√≠nalos.

Necesitar√°s `pandas`, as√≠ que imp√≥rtalo.

In [1]:
# Importar pandas
import pandas as pd

Lee el archivo `music_project_en.csv` de la carpeta `/datasets/` y gu√°rdalo en la variable `df`:

In [2]:
# Leer el archivo y almacenarlo en df
df = pd.read_csv('/datasets/music_project_en.csv')

Muestra las 10 primeras filas de la tabla:

In [4]:
# Obtener las 10 primeras filas de la tabla df
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas R√∂nnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funicul√¨ funicul√†,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L‚Äôestate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


Obt√©n la informaci√≥n general sobre la tabla con un comando. Conoces el m√©todo que muestra la informaci√≥n general que necesitamos.

In [7]:
# Obtener la informaci√≥n general sobre nuestros datos
df.describe(include="all")

Unnamed: 0,userID,Track,artist,genre,City,time,Day
count,65079,63736,57512,63881,65079,65079,65079
unique,41748,39666,37806,268,2,20392,3
top,A8AE9169,Brand,Kartvelli,pop,Springfield,21:51:22,Friday
freq,76,136,136,8850,45360,14,23149


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


Estas son nuestras observaciones sobre la tabla. Contiene siete columnas. Almacenan los mismos tipos de datos: `object`.

Seg√∫n la documentaci√≥n:
- `' userID'`: identificador del usuario o la usuaria;
- `'Track'`: t√≠tulo de la canci√≥n;
- `'artist'`: nombre del artista;
- `'genre'`: g√©nero de la pista;
- `'City'`: ciudad del usuario o la usuaria;
- `'time'`: la hora exacta en la que se reprodujo la canci√≥n;
- `'Day'`: d√≠a de la semana.

Podemos ver tres problemas con el estilo en los encabezados de la tabla:
1. Algunos encabezados est√°n en may√∫sculas, otros en min√∫sculas.
2. Hay espacios en algunos encabezados.
3. `Detecta el tercer problema por tu cuenta y descr√≠belo aqu√≠`.




### Escribe observaciones de tu parte. Estas son algunas de las preguntas que pueden ser √∫tiles: <a id='data_review_conclusions'></a>

`1.   ¬øQu√© tipo de datos tenemos a nuestra disposici√≥n en las filas? ¬øY c√≥mo podemos entender lo que almacenan las columnas?`
En la tabla df, los datos incluyen:

userID: Identificadores √∫nicos de usuarios (tipo object).
Track: Nombres de canciones reproducidas (tipo object).
artist: Nombre del artista de la canci√≥n (tipo object).
genre: G√©nero musical de la canci√≥n (tipo object).
City: Ciudad desde donde se escuch√≥ la canci√≥n (tipo object).
time: Hora de reproducci√≥n (tipo object).
Day: D√≠a de la semana en que se reprodujo la canci√≥n (tipo object).

`2.   ¬øHay suficientes datos para proporcionar respuestas a nuestra hip√≥tesis o necesitamos m√°s informaci√≥n?`
El DataFrame tiene 65,079 filas, lo que indica un conjunto de datos relativamente grande. Sin embargo, hay valores ausentes en algunas columnas, como:

Track: 63,736 valores no nulos (hay datos faltantes).
artist: 57,512 valores no nulos (algunos artistas no est√°n registrados).
genre: 63,881 valores no nulos (algunas canciones no tienen g√©nero especificado).

`3.   ¬øNotaste alg√∫n problema en los datos, como valores ausentes, duplicados o tipos de datos incorrectos?`
S√≠, hay varios problemas a considerar:

Valores ausentes:

artist, Track y genre tienen datos faltantes, lo que puede afectar los an√°lisis si no se manejan correctamente.
Inconsistencias en los nombres de las columnas:

Algunas columnas tienen nombres en may√∫sculas (City, Day) y otras en min√∫sculas (artist, genre), lo que puede generar problemas al acceder a ellas.
Se recomienda estandarizar los nombres, por ejemplo, con df.columns = df.columns.str.lower().
Posibles datos incorrectos o inconsistentes:

La columna time tiene formato object, lo que indica que no se ha convertido en un formato de tiempo (datetime).

[Volver a Contenidos](#back)

## Etapa 2. Preprocesamiento de datos <a id='data_preprocessing'></a>

El objetivo aqu√≠ es preparar los datos para que sean analizados.
El primer paso es resolver cualquier problema con los encabezados. Luego podemos avanzar a los valores ausentes y duplicados. Empecemos.

Corrige el formato en los encabezados de la tabla.


### Estilo del encabezado <a id='header_style'></a>
Muestra los encabezados de la tabla (los nombres de las columnas):

In [11]:
# Muestra los nombres de las columnas
df.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

Cambia los encabezados de la tabla de acuerdo con las reglas del buen estilo:
* Todos los caracteres deben ser min√∫sculas.
* Elimina los espacios.
* Si el nombre tiene varias palabras, utiliza snake_case.

Anteriormente, aprendiste acerca de la forma autom√°tica de cambiar el nombre de las columnas. Vamos a aplicarla ahora. Utiliza el bucle for para iterar sobre los nombres de las columnas y poner todos los caracteres en min√∫sculas. Cuando hayas terminado, vuelve a mostrar los encabezados de la tabla:

In [12]:
# Bucle en los encabezados poniendo todo en min√∫sculas
df.columns = df.columns.str.lower().str.replace(" ", "_")

Ahora, utilizando el mismo m√©todo, elimina los espacios al principio y al final de los nombres de las columnas e imprime los nombres de las columnas nuevamente:

In [19]:
# Bucle en los encabezados eliminando los espacios
df.columns = df.columns.str.strip()
df.columns = df.columns.str.lower()
df.columns = df.columns.str.replace("_", "")

Necesitamos aplicar la regla de snake_case a la columna `userid`. Debe ser `user_id`. Cambia el nombre de esta columna y muestra los nombres de todas las columnas cuando hayas terminado.

In [20]:
# Cambiar el nombre de la columna "userid"
df.rename(columns={"userid": "user_id"}, inplace=True)

Comprueba el resultado. Muestra los encabezados una vez m√°s:

In [21]:
# Comprobar el resultado: la lista de encabezados
df.columns

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

[Volver a Contenidos](#back)

### Valores ausentes <a id='missing_values'></a>
 Primero, encuentra el n√∫mero de valores ausentes en la tabla. Debes utilizar dos m√©todos en una secuencia para obtener el n√∫mero de valores ausentes.

In [22]:
# Calcular el n√∫mero de valores ausentes
missing_values = df.isnull().sum()
print(missing_values)

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


No todos los valores ausentes afectan a la investigaci√≥n. Por ejemplo, los valores ausentes en `track` y `artist` no son cruciales. Simplemente puedes reemplazarlos con valores predeterminados como el string `'unknown'` (desconocido).

Pero los valores ausentes en `'genre'` pueden afectar la comparaci√≥n entre las preferencias musicales de Springfield y Shelbyville. En la vida real, ser√≠a √∫til saber las razones por las cuales hay datos ausentes e intentar recuperarlos. Pero no tenemos esa oportunidad en este proyecto. As√≠ que tendr√°s que:
* rellenar estos valores ausentes con un valor predeterminado;
* evaluar cu√°nto podr√≠an afectar los valores ausentes a tus c√≥mputos;

Reemplazar los valores ausentes en las columnas `'track'`, `'artist'` y `'genre'` con el string `'unknown'`. Como mostramos anteriormente en las lecciones, la mejor forma de hacerlo es crear una lista que almacene los nombres de las columnas donde se necesita el reemplazo. Luego, utiliza esta lista e itera sobre las columnas donde se necesita el reemplazo haciendo el propio reemplazo.

In [23]:
# Bucle en los encabezados reemplazando los valores ausentes con 'unknown'
df = df.fillna("unknown")

Ahora comprueba el resultado para asegurarte de que despu√©s del reemplazo no haya valores ausentes en el conjunto de datos. Para hacer esto, cuenta los valores ausentes nuevamente.

In [25]:
# Contar valores ausentes
missing_values = df.isnull().sum()
print(missing_values)

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


[Volver a Contenidos](#back)

### Duplicados <a id='duplicates'></a>
Encuentra el n√∫mero de duplicados expl√≠citos en la tabla. Una vez m√°s, debes aplicar dos m√©todos en una secuencia para obtener la cantidad de duplicados expl√≠citos.

In [26]:
# Contar duplicados expl√≠citos
num_duplicados = df.duplicated().sum()
print(f"N√∫mero de filas duplicadas: {num_duplicados}")

N√∫mero de filas duplicadas: 3826


Ahora, elimina todos los duplicados. Para ello, llama al m√©todo que hace exactamente esto.

In [27]:
# Eliminar duplicados expl√≠citos
# Eliminar las filas duplicadas y mantener solo la primera aparici√≥n
df = df.drop_duplicates()

# Mostrar el n√∫mero de filas despu√©s de la eliminaci√≥n
print(f"N√∫mero de filas despu√©s de eliminar duplicados: {df.shape[0]}")

N√∫mero de filas despu√©s de eliminar duplicados: 61253


Comprobemos ahora si eliminamos con √©xito todos los duplicados. Cuenta los duplicados expl√≠citos una vez m√°s para asegurarte de haberlos eliminado todos:

In [28]:
# Comprobar de nuevo si hay duplicados
num_duplicados = df.duplicated().sum()

# Mostrar el resultado
print(f"N√∫mero de filas duplicadas despu√©s de la limpieza: {num_duplicados}")

N√∫mero de filas duplicadas despu√©s de la limpieza: 0


Ahora queremos deshacernos de los duplicados impl√≠citos en la columna `genre`. Por ejemplo, el nombre de un g√©nero se puede escribir de varias formas. Dichos errores tambi√©n pueden afectar al resultado.

Para hacerlo, primero mostremos una lista de nombres de g√©nero √∫nicos, ordenados en orden alfab√©tico. Para ello:
* Extrae la columna `genre` del DataFrame.
* Llama al m√©todo que devolver√° todos los valores √∫nicos en la columna extra√≠da.


In [29]:
# Inspeccionar los nombres de g√©neros √∫nicos
# Obtener los valores √∫nicos de la columna "genre", ordenados alfab√©ticamente
unique_genres = df["genre"].dropna().unique()
unique_genres.sort()

# Mostrar los g√©neros √∫nicos
print(unique_genres)

['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'ax√©' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forr√≥' 'frankreich'
 'franz√∂sisc

Busca en la lista para encontrar duplicados impl√≠citos del g√©nero `hiphop`. Estos pueden ser nombres escritos incorrectamente o nombres alternativos para el mismo g√©nero.

Ver√°s los siguientes duplicados impl√≠citos:
* `hip`
* `hop`
* `hip-hop`

Para deshacerte de ellos, crea una funci√≥n llamada `replace_wrong_genres()` con dos par√°metros:
* `wrong_genres=`: esta es una lista que contiene todos los valores que necesitas reemplazar.
* `correct_genre=`: este es un string que vas a utilizar como reemplazo.

Como resultado, la funci√≥n deber√≠a corregir los nombres en la columna `'genre'` de la tabla `df`, es decir, remplazar cada valor de la lista `wrong_genres` por el valor en `correct_genre`.

Dentro del cuerpo de la funci√≥n, utiliza un bucle `'for'` para iterar sobre la lista de g√©neros incorrectos, extrae la columna `'genre'` y aplica el m√©todo `replace` para hacer correcciones.

In [30]:
# Funci√≥n para reemplazar duplicados impl√≠citos
def replace_wrong_genres(df, wrong_genres, correct_genre):
    """
    Reemplaza valores en la columna 'genre' de df, sustituyendo
    los valores en wrong_genres por correct_genre.
    
    Par√°metros:
    df (DataFrame): El DataFrame donde se realizar√° la correcci√≥n.
    wrong_genres (list): Lista de valores incorrectos a reemplazar.
    correct_genre (str): El valor correcto con el que se reemplazar√°n.
    """
    for genre in wrong_genres:
        df["genre"] = df["genre"].replace(genre, correct_genre)


Ahora, llama a `replace_wrong_genres()` y p√°sale tales argumentos para que retire los duplicados impl√≠citos (`hip`, `hop` y `hip-hop`) y los reemplace por `hiphop`:

In [33]:
# Eliminar duplicados impl√≠citos
# Eliminar duplicados impl√≠citos en la columna "genre"
wrong_genres = ["hip", "hop", "hip-hop"]  # Lista de g√©neros incorrectos
correct_genre = "hiphop"  # Nombre correcto

# Aplicar la funci√≥n para corregir los g√©neros duplicados
replace_wrong_genres(df, wrong_genres, correct_genre)

Aseg√∫rate de que los nombres duplicados han sido eliminados. Muestra la lista de valores √∫nicos de la columna `'genre'` una vez m√°s:

In [34]:

# Comprobar si los valores han sido reemplazados correctamente
print("G√©neros √∫nicos despu√©s de la correcci√≥n:")
print(df["genre"].unique())

G√©neros √∫nicos despu√©s de la correcci√≥n:
['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknown' 'alternative' 'children' 'rnb' 'hiphop' 'jazz' 'postrock'
 'latin' 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental'
 'rusrock' 'dnb' 't√ºrk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'drum' 'extrememetal' 't√ºrk√ße' 'experimental' 'easy'
 'metalcore' 'modern' 'argentine

[Volver a Contenidos](#back)

### Tus observaciones <a id='data_preprocessing_conclusions'></a>

`Describe brevemente lo que has notado al analizar duplicados, c√≥mo abordaste sus eliminaciones y qu√© resultados obtuviste.`
### **üìå Observaciones sobre los duplicados y su eliminaci√≥n**

1. **An√°lisis de los duplicados:**
   - Se encontraron dos tipos de duplicados:
     - **Duplicados expl√≠citos:** Filas id√©nticas que aparec√≠an m√°s de una vez.
     - **Duplicados impl√≠citos:** Variaciones en los valores, especialmente en la columna `genre` (por ejemplo, `"hip"`, `"hop"`, `"hip-hop"` refer√≠an al mismo g√©nero).

2. **Enfoque para eliminarlos:**
   - Para **duplicados expl√≠citos**, se utiliz√≥ `df.drop_duplicates()`, eliminando filas repetidas mientras se conservaba la primera ocurrencia.
   - Para **duplicados impl√≠citos**, se cre√≥ una funci√≥n (`replace_wrong_genres()`) que reemplaz√≥ nombres alternativos en `genre` por una versi√≥n estandarizada (`hiphop`).

3. **Resultados obtenidos:**
   - Se eliminaron todas las filas duplicadas expl√≠citas, reduciendo el tama√±o del conjunto de datos sin p√©rdida de informaci√≥n relevante.
   - Los valores en la columna `genre` quedaron normalizados, evitando inconsistencias que podr√≠an afectar futuros an√°lisis.
   - Al comprobar con `df.duplicated().sum()` y `df["genre"].unique()`, se confirm√≥ que los duplicados fueron eliminados correctamente.

 **Este proceso mejor√≥ la limpieza y calidad de los datos, asegurando una mejor interpretaci√≥n en an√°lisis futuros.**

[Volver a Contenidos](#back)

## Etapa 3. Prueba de hip√≥tesis <a id='hypothesis'></a>

### Hip√≥tesis: comparar el comportamiento del usuario o la usuaria en las dos ciudades <a id='activity'></a>

La hip√≥tesis afirma que existen diferencias en la forma en que los usuarios y las usuarias de Springfield y Shelbyville consumen m√∫sica. Para comprobar esto, usa los datos de tres d√≠as de la semana: lunes, mi√©rcoles y viernes.

* Agrupa a los usuarios y las usuarias por ciudad.
* Compara el n√∫mero de canciones que cada grupo reprodujo el lunes, el mi√©rcoles y el viernes.


Realiza cada c√°lculo por separado.

El primer paso es evaluar la actividad del usuario en cada ciudad. Recuerda las etapas dividir-aplicar-combinar de las que hablamos anteriormente en la lecci√≥n. Tu objetivo ahora es agrupar los datos por ciudad, aplicar el m√©todo apropiado para contar durante la etapa de aplicaci√≥n y luego encontrar la cantidad de canciones reproducidas en cada grupo especificando la columna para obtener el recuento.

A continuaci√≥n se muestra un ejemplo de c√≥mo deber√≠a verse el resultado final:
`df.groupby(by='....')['column'].method()`Realiza cada c√°lculo por separado.

Para evaluar la actividad de los usuarios y las usuarias en cada ciudad, agrupa los datos por ciudad y encuentra la cantidad de canciones reproducidas en cada grupo.



In [35]:

# Contar el n√∫mero de canciones reproducidas en cada ciudad
tracks_per_city = df.groupby("city")["user_id"].count()

# Mostrar el resultado
print(tracks_per_city)


city
Shelbyville    18512
Springfield    42741
Name: user_id, dtype: int64


Son de tipo int64, de la lista 'user_id', se puede observar en la columna city dos nombres de ciudades 'Shelbyville' con 18512 datos y la ciudad de 'Springfield' con 42741 datos o reproducciones.
 Springfield tiene aproximadamente 2.3 veces m√°s reproducciones que Shelbyville, lo que sugiere que los usuarios de Springfield son m√°s activos en la plataforma.

Ahora agrupemos los datos por d√≠a de la semana y encontremos el n√∫mero de canciones reproducidas el lunes, mi√©rcoles y viernes. Utiliza el mismo m√©todo que antes, pero ahora necesitamos una agrupaci√≥n diferente.


In [36]:
# Calcular las canciones reproducidas en cada uno de los tres d√≠as

tracks_per_day = df[df["day"].isin(["Monday", "Wednesday", "Friday"])].groupby("day")["user_id"].count()

# Mostrar el resultado
print(tracks_per_day)


day
Friday       21840
Monday       21354
Wednesday    18059
Name: user_id, dtype: int64


El viernes tiene la mayor cantidad de reproducciones (21,840), lo que sugiere que los usuarios son m√°s activos a finales de la semana.
El lunes ocupa el segundo lugar con 21,354 reproducciones, lo que indica que tambi√©n es un d√≠a con alta actividad.
El mi√©rcoles tiene la menor cantidad de reproducciones (18,059), lo que sugiere que a mitad de semana la actividad de los usuarios disminuye.

Ya sabes c√≥mo contar entradas agrup√°ndolas por ciudad o d√≠a. Ahora necesitas escribir una funci√≥n que pueda contar entradas seg√∫n ambos criterios simult√°neamente.

Crea la funci√≥n `number_tracks()` para calcular el n√∫mero de canciones reproducidas en un determinado d√≠a **y** ciudad. La funci√≥n debe aceptar dos par√°metros:

- `day`: un d√≠a de la semana para filtrar. Por ejemplo, `'Monday'` (lunes).
- `city`: una ciudad para filtrar. Por ejemplo, `'Springfield'`.

Dentro de la funci√≥n, aplicar√°s un filtrado consecutivo con indexaci√≥n l√≥gica.

Primero filtra los datos por d√≠a y luego filtra la tabla resultante por ciudad.

Despu√©s de filtrar los datos por dos criterios, cuenta el n√∫mero de valores de la columna 'user_id' en la tabla resultante. Este recuento representa el n√∫mero de entradas que est√°s buscando. Guarda el resultado en una nueva variable y devu√©lvelo desde la funci√≥n.

In [37]:
# Declarar la funci√≥n number_tracks()
def number_tracks(df, day, city):
    """
    Filtra los datos por d√≠a y ciudad y cuenta el n√∫mero de reproducciones.
    
    Par√°metros:
    df (DataFrame): El DataFrame con los datos.
    day (str): D√≠a de la semana a filtrar.
    city (str): Ciudad a filtrar.
    
    Retorna:
    int: N√∫mero de reproducciones en la ciudad y el d√≠a especificados.
    """
    # Filtrar datos por d√≠a
    filtered_data = df[df["day"] == day]
    
    # Filtrar datos por ciudad
    filtered_data = filtered_data[filtered_data["city"] == city]
    
    # Contar las reproducciones (n√∫mero de valores en 'user_id')
    return filtered_data["user_id"].count()


Llama a `number_tracks()` seis veces, cambiando los valores de los par√°metros para que recuperes los datos de ambas ciudades para cada uno de los tres d√≠as.

In [39]:
# El n√∫mero de canciones reproducidas en Springfield el lunes
# Listas de ciudades y d√≠as a analizar
cities = ["Springfield"]
days = ["Monday"]

# Llamar a la funci√≥n para cada combinaci√≥n de ciudad y d√≠a
for city in cities:
    for day in days:
        count = number_tracks(df, day, city)
        print(f"N√∫mero de canciones reproducidas en {city} el {day}: {count}")


N√∫mero de canciones reproducidas en Springfield el Monday: 15740


In [40]:
# El n√∫mero de canciones reproducidas en Shelbyville el lunes
# Listas de ciudades y d√≠as a analizar
cities = ["Shelbyville"]
days = ["Monday"]

# Llamar a la funci√≥n para cada combinaci√≥n de ciudad y d√≠a
for city in cities:
    for day in days:
        count = number_tracks(df, day, city)
        print(f"N√∫mero de canciones reproducidas en {city} el {day}: {count}")


N√∫mero de canciones reproducidas en Shelbyville el Monday: 5614


In [41]:
# El n√∫mero de canciones reproducidas en Springfield el mi√©rcoles
# Listas de ciudades y d√≠as a analizar
cities = ["Springfield"]
days = ["Wednesday"]

# Llamar a la funci√≥n para cada combinaci√≥n de ciudad y d√≠a
for city in cities:
    for day in days:
        count = number_tracks(df, day, city)
        print(f"N√∫mero de canciones reproducidas en {city} el {day}: {count}")


N√∫mero de canciones reproducidas en Springfield el Wednesday: 11056


In [42]:
# El n√∫mero de canciones reproducidas en Shelbyville el mi√©rcoles
# Listas de ciudades y d√≠as a analizar
cities = ["Shelbyville"]
days = ["Wednesday"]

# Llamar a la funci√≥n para cada combinaci√≥n de ciudad y d√≠a
for city in cities:
    for day in days:
        count = number_tracks(df, day, city)
        print(f"N√∫mero de canciones reproducidas en {city} el {day}: {count}")


N√∫mero de canciones reproducidas en Shelbyville el Wednesday: 7003


In [43]:
# El n√∫mero de canciones reproducidas en Springfield el viernes
# Listas de ciudades y d√≠as a analizar
cities = ["Springfield"]
days = ["Friday"]

# Llamar a la funci√≥n para cada combinaci√≥n de ciudad y d√≠a
for city in cities:
    for day in days:
        count = number_tracks(df, day, city)
        print(f"N√∫mero de canciones reproducidas en {city} el {day}: {count}")


N√∫mero de canciones reproducidas en Springfield el Friday: 15945


In [44]:
# El n√∫mero de canciones reproducidas en Shelbyville el viernes
# Listas de ciudades y d√≠as a analizar
cities = ["Shelbyville"]
days = ["Friday"]

# Llamar a la funci√≥n para cada combinaci√≥n de ciudad y d√≠a
for city in cities:
    for day in days:
        count = number_tracks(df, day, city)
        print(f"N√∫mero de canciones reproducidas en {city} el {day}: {count}")


N√∫mero de canciones reproducidas en Shelbyville el Friday: 5895


**Conclusiones**

La hip√≥tesis se confirma, ya que los datos muestran una clara diferencia en el consumo de m√∫sica entre las dos ciudades.
Springfield tiene una mayor actividad musical en comparaci√≥n con Shelbyville en los tres d√≠as analizados.
Adem√°s, la variaci√≥n en el n√∫mero de reproducciones seg√∫n el d√≠a de la semana indica patrones de consumo diferentes, con mayor actividad los viernes y menor los mi√©rcoles.

[Volver a Contenidos](#back)

# Conclusiones <a id='end'></a>

Los usuarios y usuarias de Springfield reproducen m√°s m√∫sica que los de Shelbyville, independientemente del d√≠a. Adem√°s, la actividad var√≠a a lo largo de la semana, con una disminuci√≥n los mi√©rcoles y un pico los viernes.
Estos resultados pueden ser √∫tiles para estrategias de contenido y marketing, priorizando d√≠as de alta actividad en cada ciudad.

### Nota
En proyectos de investigaci√≥n reales, la prueba de hip√≥tesis estad√≠stica es m√°s precisa y cuantitativa. Tambi√©n ten en cuenta que no siempre se pueden sacar conclusiones sobre una ciudad entera a partir de datos de una sola fuente.

Aprender√°s m√°s sobre la prueba de hip√≥tesis en el sprint de an√°lisis estad√≠stico de datos.

[Volver a Contenidos](#back)