# ¡Hola Julian! 😊

Mi nombre es **Alejandro Castellanos** y hoy tengo el placer de ser el revisor de tu proyecto.

Voy a revisar todo tu código con detalle, buscando tanto los puntos fuertes como aquellos en los que podrías mejorar. Te dejaré comentarios a lo largo del notebook, destacando lo que has hecho bien y sugiriendo ajustes donde sea necesario. Si encuentro algún error, no te preocupes, te lo haré saber de forma clara y te daré información útil para que puedas corregirlo en la próxima iteración. Si en algún punto tienes comentarios, siéntete libre de dejarlos también.


Encontrarás mis comentarios específicos dentro de cajas verdes, amarillas o rojas, es muy importante que no muevas, modifiques o borres mis comentarios, con el fin de tener un seguimiento adecuado de tu proceso:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si todo está perfecto.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>

Puedes responderme de esta forma:
<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class=“tocSkip”></a>
</div>

A continuación te dejaré un comentario general con mi valoración del proyecto. **¡Mi objetivo es que sigas aprendiendo y mejorando con cada paso!**

---

<div class="alert alert-block alert-warning">
<b>Comentario General del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Julian has hecho un gran trabajo en este proyecto. Tu análisis exploratorio de datos fue realmente sobresaliente, demostrando una notable capacidad para examinar y ajustar la información de acuerdo con las indicaciones propuestas.
    
No obstante, tu código presenta problemas ya que en un punto vuelve a cargar los datos, esto hace que todos los ajustes que habias implementado se pierdan y, por ejemplo, los nombres de las columnas no correspondan. Asegurate de cargar los datos una única vez, al inicio del notebook y trabaja con este dataset.
    
¡No te preocupes! Cada ajuste que haces es una oportunidad para aprender y mejorar. Vas por buen camino, y estoy seguro de que en la siguiente versión harás un gran trabajo y lograrás completar el proyecto con éxito. ¡Sigue adelante! . 

Estaré atento a tu próxima iteración 👀

*Estado del proyecto:* **No Aprobado** 

</div>

---

# Déjame escuchar la música

# Contenido <a id='back'></a>

* [Introducción](#intro)
* [Etapa 1. Descripción de los datos](#data_review)
    * [Conclusiones](#data_review_conclusions)
* [Etapa 2. Preprocesamiento de datos](#data_preprocessing)
    * [2.1 Estilo del encabezado](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusiones](#data_preprocessing_conclusions)
* [Etapa 3. Prueba de hipótesis](#hypothesis)
    * [3.1 Hipótesis 1: actividad de los usuarios y las usuarias en las dos ciudades](#activity)
* [Conclusiones](#end)

## Introducción <a id='intro'></a>
Como analista de datos, tu trabajo consiste en analizar datos para extraer información valiosa y tomar decisiones basadas en ellos. Esto implica diferentes etapas, como la descripción general de los datos, el preprocesamiento y la prueba de hipótesis.

Siempre que investigamos, necesitamos formular hipótesis que después podamos probar. A veces aceptamos estas hipótesis; otras veces, las rechazamos. Para tomar las decisiones correctas, una empresa debe ser capaz de entender si está haciendo las suposiciones correctas.

En este proyecto, compararás las preferencias musicales de las ciudades de Springfield y Shelbyville. Estudiarás datos reales de transmisión de música online para probar la hipótesis a continuación y comparar el comportamiento de los usuarios y las usuarias de estas dos ciudades.

### Objetivo:
Prueba la hipótesis:
1. La actividad de los usuarios y las usuarias difiere según el día de la semana y dependiendo de la ciudad.


### Etapas
Los datos del comportamiento del usuario se almacenan en el archivo `/datasets/music_project_en.csv`. No hay ninguna información sobre la calidad de los datos, así que necesitarás examinarlos antes de probar la hipótesis.

Primero, evaluarás la calidad de los datos y verás si los problemas son significativos. Entonces, durante el preprocesamiento de datos, tomarás en cuenta los problemas más críticos.

Tu proyecto consistirá en tres etapas:
 1. Descripción de los datos.
 2. Preprocesamiento de datos.
 3. Prueba de hipótesis.








[Volver a Contenidos](#back)

## Etapa 1. Descripción de los datos <a id='data_review'></a>

Abre los datos y examínalos.

Necesitarás `pandas`, así que impórtalo.

In [8]:
# Importar pandas
import pandas as pd

Lee el archivo `music_project_en.csv` de la carpeta `/datasets/` y guárdalo en la variable `df`:

In [9]:
# Leer el archivo y almacenarlo en df
df = pd.read_csv('/datasets/music_project_en.csv')

Muestra las 10 primeras filas de la tabla:

In [11]:
# Obtener las 10 primeras filas de la tabla df
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


Obtén la información general sobre la tabla con un comando. Conoces el método que muestra la información general que necesitamos.

In [12]:
# Obtener la información general sobre nuestros datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


Estas son nuestras observaciones sobre la tabla. Contiene siete columnas. Almacenan los mismos tipos de datos: `object`.

Según la documentación:
- `' userID'`: identificador del usuario o la usuaria;
- `'Track'`: título de la canción;
- `'artist'`: nombre del artista;
- `'genre'`: género de la pista;
- `'City'`: ciudad del usuario o la usuaria;
- `'time'`: la hora exacta en la que se reprodujo la canción;
- `'Day'`: día de la semana.

Podemos ver tres problemas con el estilo en los encabezados de la tabla:
1. Algunos encabezados están en mayúsculas, otros en minúsculas.
2. Hay espacios en algunos encabezados.
3. `Detecta el tercer problema por tu cuenta y descríbelo aquí`Según veo uno de los principales problemas es la inconsistencia en el formato de capitalización de los encabezados: algunos usan camelCase (por ejemplo, 'userID') mientras que otros están en minúsculas o capitalizados de forma diferente (por ejemplo, 'artist', 'Track'), lo que impide un acceso homogéneo a las columnas.




### Escribe observaciones de tu parte. Estas son algunas de las preguntas que pueden ser útiles: <a id='data_review_conclusions'></a>

`1.   ¿Qué tipo de datos tenemos a nuestra disposición en las filas? El tipo de datos de todas las filas es object. sin embargo, time puede convertirse a datetime64[ns] en un DataFrame con múltiples filas. Cabe aclarar que mi afirmación se basa en las primeras 10 filas y en lo que df.info() me arrojó, pero con base en las 10 primeras filas. 

¿Y cómo podemos entender lo que almacenan las columnas?`Son 7 columnas que en términos generales resumen la información que se necesita: identificación de usuario, artista, canción, género, ciudad, hora de reproducción y el día. Teniendo en cuenta que el objetivo es probar una hipótesis relacionada con las preferencias musicales de las ciudades (Springfield y Shelbyville), la información cumple hasta cierta medida con los requesitos, ya que tanto género como día y ciudad son para mí las más importantes. Sin embargo, creo que haría falta otra columna como "Total Play", esta columna me permitiría saber la cantidad de tiempo (en segundos o minutos) que el usuario reprodujo una canción o música del artista en general. Al final, esto ayudaría a hacer un análisis más completos sobre la cantidad de tiempo que se escucha un género, una canción o un artista en cada ciudad. 

`2.   ¿Hay suficientes datos para proporcionar respuestas a nuestra hipótesis o necesitamos más información?`Como explique en el párrafo anterior creo que haría falta una columna de "Total play" para saber cuánto tiempo se escucha un género, una canción o un artista. Sin embargo, para poder llegar a la hipótesis sobre la diferencia en la actividad según el día de la semana y la ciudad, los datos que arroja la tabla ('City', 'Day', 'time' y 'genre') son suficientes. Todala información que estpy dando es con base en las primeras 10 filas según la celda o el punto 3.

`3.   ¿Notaste algún problema en los datos, como valores ausentes, duplicados o tipos de datos incorrectos?`Teniendo en cuenta que que con df.head(10) saque las primeras 10 filas veo lo siguiente el género que más se repite es dance, hay un valor ausente en artist; los días que más se repiten son lunes, miércoles y viernes; los géneros más escuchados son rock y dance. Encuanto a los duplicados, no veo duplicados en las primeras 10 filas pero habría que usar df.duplicated().sum() para confirmarlo.

[Volver a Contenidos](#back)

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

¡Excelente trabajo al importar la librería `pandas` y cargar el dataset del proyecto! Además, has hecho un muy buen uso de la función `info`. En cuanto a la función `head`, te recomiendo no utilizarla dentro de un `print`, ya que esto elimina las ventajas visuales que ofrecen los notebooks de Jupyter. En su lugar, basta con usar `df.head()` directamente.
    
    
Por otro lado, tus observaciones sobre los datos son muy acertadas, esto te permitirá organizar tus ideas de forma clara y tener una visión estructurada del trabajo que realizarás con los datos. Esta estrategia te ayudará a mantener el foco y avanzar de manera eficiente hacia tus objetivos. 

</div>

## Etapa 2. Preprocesamiento de datos <a id='data_preprocessing'></a>

El objetivo aquí es preparar los datos para que sean analizados.
El primer paso es resolver cualquier problema con los encabezados. Luego podemos avanzar a los valores ausentes y duplicados. Empecemos.

Corrige el formato en los encabezados de la tabla.


### Estilo del encabezado <a id='header_style'></a>
Muestra los encabezados de la tabla (los nombres de las columnas):

In [14]:
# Muestra los nombres de las columnas
print(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


Cambia los encabezados de la tabla de acuerdo con las reglas del buen estilo:
* Todos los caracteres deben ser minúsculas.
* Elimina los espacios.
* Si el nombre tiene varias palabras, utiliza snake_case.

Anteriormente, aprendiste acerca de la forma automática de cambiar el nombre de las columnas. Vamos a aplicarla ahora. Utiliza el bucle for para iterar sobre los nombres de las columnas y poner todos los caracteres en minúsculas. Cuando hayas terminado, vuelve a mostrar los encabezados de la tabla:

In [15]:
# Bucle en los encabezados poniendo todo en minúsculas  
Columns = ['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day']  
columns_low = []  
  
for col in Columns:  
    columns_low.append(col.lower())  

print(columns_low)

['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day']


Ahora, utilizando el mismo método, elimina los espacios al principio y al final de los nombres de las columnas e imprime los nombres de las columnas nuevamente:

In [16]:
# Bucle en los encabezados eliminando los espacios
Columns = ['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day']  
 
columns_cleaned = [col.lower().strip() for col in Columns]  
 
print(columns_cleaned) 

['userid', 'track', 'artist', 'genre', 'city', 'time', 'day']


Necesitamos aplicar la regla de snake_case a la columna `userid`. Debe ser `user_id`. Cambia el nombre de esta columna y muestra los nombres de todas las columnas cuando hayas terminado.

In [18]:
# Cambiar el nombre de la columna "userid"
columns_cleaned = ['user_id' if col == 'userid' else col for col in columns_cleaned]  
  
print(columns_cleaned)  

['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day']


Comprueba el resultado. Muestra los encabezados una vez más:

In [19]:
# Comprobar el resultado: la lista de encabezados
df.columns = columns_cleaned   
df.rename(columns={'userid': 'user_id'}, inplace=True)

print("Encabezados después de las transformaciones:")
print(df.columns)

Encabezados después de las transformaciones:
Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Excelente trabajo ajustando el estilo de los encabezados del dataset. Esta tarea es esencial para garantizar claridad y consistencia en el análisis de datos. Además, facilita la manipulación y reduce errores al trabajar con información estructurada.

</div>

[Volver a Contenidos](#back)

### Valores ausentes <a id='missing_values'></a>
 Primero, encuentra el número de valores ausentes en la tabla. Debes utilizar dos métodos en una secuencia para obtener el número de valores ausentes.

In [10]:
# Calcular el número de valores ausentes
missing_por_columna = df.isna().sum()
print("Valores ausentes por columna:")
print(missing_por_columna)

# Calcular el número total de valores ausentes en toda la tabla
total_missing = df.isna().sum().sum()
print("Total de valores ausentes en la tabla:", total_missing)

Valores ausentes por columna:
user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64
Total de valores ausentes en la tabla: 10108


No todos los valores ausentes afectan a la investigación. Por ejemplo, los valores ausentes en `track` y `artist` no son cruciales. Simplemente puedes reemplazarlos con valores predeterminados como el string `'unknown'` (desconocido).

Pero los valores ausentes en `'genre'` pueden afectar la comparación entre las preferencias musicales de Springfield y Shelbyville. En la vida real, sería útil saber las razones por las cuales hay datos ausentes e intentar recuperarlos. Pero no tenemos esa oportunidad en este proyecto. Así que tendrás que:
* rellenar estos valores ausentes con un valor predeterminado;
* evaluar cuánto podrían afectar los valores ausentes a tus cómputos;

Reemplazar los valores ausentes en las columnas `'track'`, `'artist'` y `'genre'` con el string `'unknown'`. Como mostramos anteriormente en las lecciones, la mejor forma de hacerlo es crear una lista que almacene los nombres de las columnas donde se necesita el reemplazo. Luego, utiliza esta lista e itera sobre las columnas donde se necesita el reemplazo haciendo el propio reemplazo.

In [11]:
# Bucle en los encabezados reemplazando los valores ausentes con 'unknown'
columns_to_fill = ['track', 'artist', 'genre']

for col in columns_to_fill:
    df[col] = df[col].fillna('unknown')

print(df.isna().sum())

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


Ahora comprueba el resultado para asegurarte de que después del reemplazo no haya valores ausentes en el conjunto de datos. Para hacer esto, cuenta los valores ausentes nuevamente.

In [12]:
# Contar valores ausentes
print(df[['track', 'artist', 'genre']].isna().sum())

track     0
artist    0
genre     0
dtype: int64


[Volver a Contenidos](#back)

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Julian buen trabajo al reemplazar los valores faltantes por `unknown` Esta práctica es fundamental para manejar datos incompletos, ya que permite evitar errores durante el análisis y mantener la integridad del dataset. Además, asignar un valor como  `unknown` asegura que los datos sean procesables y facilita identificar y manejar la información faltante en etapas posteriores.


</div>

### Duplicados <a id='duplicates'></a>
Encuentra el número de duplicados explícitos en la tabla. Una vez más, debes aplicar dos métodos en una secuencia para obtener la cantidad de duplicados explícitos.

In [13]:
# Contar duplicados explícitos
explicit_duplicates1 = df.duplicated().sum()

explicit_duplicates2 = len(df) - len(df.drop_duplicates())

# Imprimir ambos resultados (deben ser iguales)
print(explicit_duplicates1)
print(explicit_duplicates2)

3826
3826


Ahora, elimina todos los duplicados. Para ello, llama al método que hace exactamente esto.

In [14]:
# Eliminar duplicados explícitos
df = df.drop_duplicates()

# Verificar si los duplicados fueron eliminados
num_duplicates = df.duplicated().sum()
print(f"Número de duplicados después de la eliminación: {num_duplicates}")

Número de duplicados después de la eliminación: 0


Comprobemos ahora si eliminamos con éxito todos los duplicados. Cuenta los duplicados explícitos una vez más para asegurarte de haberlos eliminado todos:

In [15]:
# Comprobar de nuevo si hay duplicados

num_duplicates = df.duplicated().sum()
print(f"Número de duplicados después de la eliminación: {num_duplicates}")

Número de duplicados después de la eliminación: 0


<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Perfecto, has identificando y eliminando los datos duplicados. Esta tarea es esencial para garantizar la calidad del dataset, evitando sesgos y asegurando resultados más precisos en el análisis.

</div>

Ahora queremos deshacernos de los duplicados implícitos en la columna `genre`. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar al resultado.

Para hacerlo, primero mostremos una lista de nombres de género únicos, ordenados en orden alfabético. Para ello:
* Extrae la columna `genre` del DataFrame.
* Llama al método que devolverá todos los valores únicos en la columna extraída.


In [16]:
# Inspeccionar los nombres de géneros únicos
unique_genres = df['genre'].sort_values().unique()

print(unique_genres)

['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'axé' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forró' 'frankreich'
 'französisch' 

Busca en la lista para encontrar duplicados implícitos del género `hiphop`. Estos pueden ser nombres escritos incorrectamente o nombres alternativos para el mismo género.

Verás los siguientes duplicados implícitos:
* `hip`
* `hop`
* `hip-hop`

Para deshacerte de ellos, crea una función llamada `replace_wrong_genres()` con dos parámetros:
* `wrong_genres=`: esta es una lista que contiene todos los valores que necesitas reemplazar.
* `correct_genre=`: este es un string que vas a utilizar como reemplazo.

Como resultado, la función debería corregir los nombres en la columna `'genre'` de la tabla `df`, es decir, remplazar cada valor de la lista `wrong_genres` por el valor en `correct_genre`.

Dentro del cuerpo de la función, utiliza un bucle `'for'` para iterar sobre la lista de géneros incorrectos, extrae la columna `'genre'` y aplica el método `replace` para hacer correcciones.

In [17]:
# Función para reemplazar duplicados implícitos
def replace_wrong_genres(wrong_genres, correct_genre):
    for wrong in wrong_genres:
        df['genre'] = df['genre'].replace(wrong, correct_genre)

Ahora, llama a `replace_wrong_genres()` y pásale tales argumentos para que retire los duplicados implícitos (`hip`, `hop` y `hip-hop`) y los reemplace por `hiphop`:

In [18]:
# Eliminar duplicados implícitos
replace_wrong_genres(['hip', 'hop', 'hip-hop'], 'hiphop')

Asegúrate de que los nombres duplicados han sido eliminados. Muestra la lista de valores únicos de la columna `'genre'` una vez más:

In [19]:
# Comprobación de duplicados implícitos
print(df['genre'].unique())

['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknown' 'alternative' 'children' 'rnb' 'hiphop' 'jazz' 'postrock'
 'latin' 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental'
 'rusrock' 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'drum' 'extrememetal' 'türkçe' 'experimental' 'easy'
 'metalcore' 'modern' 'argentinetango' 'old' 'swing' 'breaks' 'eurofolk'
 'stone

[Volver a Contenidos](#back)

### Tus observaciones <a id='data_preprocessing_conclusions'></a>

`Describe brevemente lo que has notado al analizar duplicados, cómo abordaste sus eliminaciones y qué resultados obtuviste.`

Al revisar los datos, detecté tanto duplicados explícitos (filas idénticas) como implícitos (valores que se refieren al mismo género, pero escritos de formas diferentes).

Para los duplicados explícitos, primero conté cuántas filas repetidas había usando df.duplicated().sum(). Luego, usé df.drop_duplicates() para eliminarlas y volví a comprobar que ya no quedaban duplicados. Esto dejó el DataFrame libre de registros idénticos que pudieran distorsionar los análisis.

En cuanto a los duplicados implícitos, observé que ciertas variantes de 'hiphop' aparecían como "hip", "hop", "Hip-hop". Para corregirlo, creé la función replace_wrong_genres(wrong_genres, correct_genre) que, mediante un bucle, reemplaza en la columna 'genre' cada valor de la lista wrong_genres por el correct_genre. De este modo, consolidé todos esos valores en un único género estandarizado ("hiphop").

Resultado: Tras eliminar duplicados explícitos e implícitos, el DataFrame quedó limpio y coherente, sin filas repetidas ni variantes innecesarias en la columna 'genre'. Esto nos permitirá realizar análisis y comparaciones más precisos en las siguientes etapas.

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Excelente trabajo manejando los datos duplicados implícitos unificando los términos. Esta tarea es clave para asegurar la consistencia y precisión del dataset, evitando interpretaciones erróneas. Además, unificar términos facilita el análisis y mejora la calidad de los resultados obtenidos en procesos posteriores. Posiblemente podemos hacer el mismo procedimiento para otros géneros y de esta forma simplificar aún más los datos.

</div>

[Volver a Contenidos](#back)

## Etapa 3. Prueba de hipótesis <a id='hypothesis'></a>

### Hipótesis: comparar el comportamiento del usuario o la usuaria en las dos ciudades <a id='activity'></a>

La hipótesis afirma que existen diferencias en la forma en que los usuarios y las usuarias de Springfield y Shelbyville consumen música. Para comprobar esto, usa los datos de tres días de la semana: lunes, miércoles y viernes.

* Agrupa a los usuarios y las usuarias por ciudad.
* Compara el número de canciones que cada grupo reprodujo el lunes, el miércoles y el viernes.


Realiza cada cálculo por separado.

El primer paso es evaluar la actividad del usuario en cada ciudad. Recuerda las etapas dividir-aplicar-combinar de las que hablamos anteriormente en la lección. Tu objetivo ahora es agrupar los datos por ciudad, aplicar el método apropiado para contar durante la etapa de aplicación y luego encontrar la cantidad de canciones reproducidas en cada grupo especificando la columna para obtener el recuento.

A continuación se muestra un ejemplo de cómo debería verse el resultado final:
`df.groupby(by='....')['column'].method()`Realiza cada cálculo por separado.

Para evaluar la actividad de los usuarios y las usuarias en cada ciudad, agrupa los datos por ciudad y encuentra la cantidad de canciones reproducidas en cada grupo.



In [20]:
# Contar las canciones reproducidas en cada ciudad
total_counts = df.groupby('city')['track'].count()

print(total_counts)

city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64


`Comenta tus observaciones aquí`
Importe la librería de pandas, volví a separar espacios y pasar todo a minúsculas que es algo que he hecho en todo el proyecto, utilicé el método groupby() para agrupar la columna "city" y utilcé el método count() para contar todas las canciones para que conocer el total de cada ciudad, constatando que la Sprinfield reproduce más del doble de canciones que Shelbyville. 

<div class="alert alert-block alert-success">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Correcto Julian, de manera general, la ciudad de Springfield tiene más reproducciones 

</div>

Ahora agrupemos los datos por día de la semana y encontremos el número de canciones reproducidas el lunes, miércoles y viernes. Utiliza el mismo método que antes, pero ahora necesitamos una agrupación diferente. Lo ques e pudo constatar es que los ciudadanos de Springfield cnsumen más tiempo y más música casi tres veces más que los ciuddanos de Shelbyville.


In [21]:
# Calcular las canciones reproducidas en cada uno de los tres días

df['day'] = df['day'].str.strip().str.lower()

monday_counts = df.query("day == 'monday'").groupby("city")["track"].count()
wednesday_counts = df.query("day == 'wednesday'").groupby("city")["track"].count()
friday_counts = df.query("day == 'friday'").groupby("city")["track"].count()

print("Lunes:")
print(monday_counts)
print("\nMiércoles:")
print(wednesday_counts)
print("\nViernes:")
print(friday_counts)

Lunes:
city
Shelbyville     5820
Springfield    16286
Name: track, dtype: int64

Miércoles:
city
Shelbyville     7336
Springfield    11526
Name: track, dtype: int64

Viernes:
city
Shelbyville     6146
Springfield    16622
Name: track, dtype: int64


`Comenta tus observaciones aquí`
Para encontrar la salida, se eliminaron los espacios al inicio y final de cada nombre de columna como también se 
conviertieron todos los nombres a minúsculas, especialmente los días lunes, martes y miércoles que son los que pedía el enunciado. Después utilicé el método query() para filtrar esos días por separado, despues agrupé la ciudad y conté las canciones.

<div class="alert alert-block alert-danger">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

No es recomendable reimportar las librerías y el dataset. Si ya los cargaste al inicio del notebook, la información y funciones ya están disponibles, y puedes acceder a ellas desde cualquier celda. Además, si repites la importación del dataset, aumentas la probabilidad de errores, especialmente si ya has realizado diferentes operaciones sobre los datos.
    
En este caso, al volver a usar `df = pd.read_csv('/datasets/music_project_en.csv')` se han perdido todos los ajustes previos que hiciste, como modificar los nombres de las columnas, y manejar los datos faltantes y duplicados.
    
Usa el dataset con el que venias trabajando

</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor (2da Iteración)</b> <a class=“tocSkip”></a>

Excelente trabajo Julian. Has hecho una comparativa correcta para cada ciudad y cada día

</div>

Ya sabes cómo contar entradas agrupándolas por ciudad o día. Ahora necesitas escribir una función que pueda contar entradas según ambos criterios simultáneamente.

Crea la función `number_tracks()` para calcular el número de canciones reproducidas en un determinado día **y** ciudad. La función debe aceptar dos parámetros:

- `day`: un día de la semana para filtrar. Por ejemplo, `'Monday'` (lunes).
- `city`: una ciudad para filtrar. Por ejemplo, `'Springfield'`.

Dentro de la función, aplicarás un filtrado consecutivo con indexación lógica.

Primero filtra los datos por día y luego filtra la tabla resultante por ciudad.

Después de filtrar los datos por dos criterios, cuenta el número de valores de la columna 'user_id' en la tabla resultante. Este recuento representa el número de entradas que estás buscando. Guarda el resultado en una nueva variable y devuélvelo desde la función.

In [22]:
# Declara la función number_tracks() con dos parámetros: day= y city=.
def number_tracks(day, city):
    filtered_df = df[(df['day'] == day) & (df['city'] == city)]
    return filtered_df['user_id'].count()

# Llamadas de ejemplo con los valores reales:
print("Canciones reproducidas en Springfield el lunes:", number_tracks("monday", "Springfield"))
print("Canciones reproducidas en Shelbyville el lunes:", number_tracks("monday", "Shelbyville"))

print("Canciones reproducidas en Springfield el miércoles:", number_tracks("wednesday", "Springfield"))
print("Canciones reproducidas en Shelbyville el miércoles:", number_tracks("wednesday", "Shelbyville"))

print("Canciones reproducidas en Springfield el viernes:", number_tracks("friday", "Springfield"))
print("Canciones reproducidas en Shelbyville el viernes:", number_tracks("friday", "Shelbyville"))

Canciones reproducidas en Springfield el lunes: 16715
Canciones reproducidas en Shelbyville el lunes: 5982
Canciones reproducidas en Springfield el miércoles: 11755
Canciones reproducidas en Shelbyville el miércoles: 7478
Canciones reproducidas en Springfield el viernes: 16890
Canciones reproducidas en Shelbyville el viernes: 6259


<div class="alert alert-block alert-danger">
<b>Comentario del revisor (1ra Iteración)</b> <a class=“tocSkip”></a>

Este error de ejecución se presenta por lo que te comenté más arriba, ahora los nombres de las columnas no corresponden y se genera este problema

</div>

Llama a `number_tracks()` seis veces, cambiando los valores de los parámetros para que recuperes los datos de ambas ciudades para cada uno de los tres días.

In [28]:
# El número de canciones reproducidas en Springfield el lunes
print("Canciones reproducidas en Springfield el lunes:", number_tracks("monday", "Springfield"))

Canciones reproducidas en Springfield el lunes: 16715


In [27]:
# El número de canciones reproducidas en Shelbyville el lunes
print("Canciones reproducidas en Shelbyville el lunes:", number_tracks("monday", "Shelbyville"))

Canciones reproducidas en Shelbyville el lunes: 5982


In [26]:
# El número de canciones reproducidas en Springfield el miércoles
print("Canciones reproducidas en Springfield el miércoles:", number_tracks("wednesday", "Springfield"))

Canciones reproducidas en Springfield el miércoles: 11755


In [25]:
# El número de canciones reproducidas en Shelbyville el miércoles
print("Canciones reproducidas en Shelbyville el miércoles:", number_tracks("wednesday", "Shelbyville"))

Canciones reproducidas en Shelbyville el miércoles: 7478


In [24]:
# El número de canciones reproducidas en Springfield el viernes
print("Canciones reproducidas en Springfield el viernes:", number_tracks("friday", "Springfield"))

Canciones reproducidas en Springfield el viernes: 16890


In [23]:
# El número de canciones reproducidas en Shelbyville el viernes
print("Canciones reproducidas en Shelbyville el viernes:", number_tracks("friday", "Shelbyville"))

Canciones reproducidas en Shelbyville el viernes: 6259


<div class="alert alert-block alert-success">
<b>Comentario del revisor (2da Iteración)</b> <a class=“tocSkip”></a>

Perfecto, has usado correctamente la función `number_tracks` para encontrar la información filtrada y específica para cada caso.

</div>

**Conclusiones**

`Comenta si la hipótesis es correcta o se debe rechazar. Explica tu razonamiento.`

Al comparar el número de canciones reproducidas en Springfield y Shelbyville para los días lunes, miércoles y viernes, observamos que las cifras varían en función tanto del día como de la ciudad. Por ejemplo, si Springfield tiene más reproducciones el vierness, y Shelbyville tiene más reproducciones el miércoles, esto indica que la actividad no es uniforme en todos los días ni en ambas ciudades.

Por lo tanto, los datos respaldan la hipótesis de que la actividad de los usuarios y las usuarias difiere según el día de la semana y dependiendo de la ciudad.

[Volver a Contenidos](#back)

# Conclusiones <a id='end'></a>

`Resume aquí tus conclusiones sobre la hipótesis.`
El comportamiento o las acciones de los usuarios (hombres y mujeres) no son iguales todos los días, sino que varían según el día de la semana y la ciudad en la que se encuentren. Esto sugiere que hay patrones distintos de actividad que pueden estar influenciados por factores como el lugar y el momento. Lo que está claro, es que Springfield es la ciudad que más escucha música, se puede constatar según las cifras, que tanto los lunes como los viernes prácticamente se tripleca el numero de canciones reproducidas entre ambas ciudades.

In [None]:
<div class="alert alert-block alert-success">
<b>Comentario del revisor (2da Iteración)</b> <a class=“tocSkip”></a>



</div>

### Nota
En proyectos de investigación reales, la prueba de hipótesis estadística es más precisa y cuantitativa. También ten en cuenta que no siempre se pueden sacar conclusiones sobre una ciudad entera a partir de datos de una sola fuente.

Aprenderás más sobre la prueba de hipótesis en el sprint de análisis estadístico de datos.

[Volver a Contenidos](#back)