<b>¡Hola Adolfo!</b>

Mi nombre es Alejandro Abia y tengo el gusto de revisar tu proyecto.

A continuación, encontrarás mis comentarios en celdas pintadas de tres colores (verde, amarillo y rojo), a manera de semáforo. Por favor, <b>no las borres ni muevas de posición</b> mientras dure el proceso de revisión.

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
En celdas verdes encontrarás comentarios en relación a tus aciertos y fortalezas.
</div>
<div class="alert alert-block alert-warning">
<b>Antención</b> <a class="tocSkip"></a>
Utilizaré el color amarillo para llamar tu atención, expresar algo importante o compartirte alguna idea de valor.
</div>
<div class="alert alert-block alert-danger">
<b>A resolver</b> <a class="tocSkip"></a>
En rojo emitiré aquellos puntos que deberás atender para aprobar la revisión.
</div>
<div class="alert alert-block alert-info">
<b>Comentario estudiante</b><a class="tocSkip"></a>
Es factible que, a lo largo del proceso de revisión, quieras dejarme comentarios. Si es el caso, por favor realízalo dentro de celdas azules como esta.
</div>
Respecto del proceso de revisión, tu proyecto será aceptado una vez que los comentarios en rojo hayan sido atendidos.
¡Empecemos!

# Déjame escuchar música

# Contenido <a id='back'></a>

* [Introducción](#intro)
* [Etapa 1. Descripción de los datos](#data_review)
    * [Conclusiones](#data_review_conclusions)
* [Etapa 2. Preprocesamiento de datos](#data_preprocessing)
    * [2.1 Estilo del encabezado](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusiones](#data_preprocessing_conclusions)
* [Etapa 3. Prueba de hipótesis](#hypothesis)
    * [3.1 Hipótesis 1: actividad de los usuarios y las usuarias en las dos ciudades](#activity)
* [Conclusiones](#end)

## Introducción <a id='intro'></a>
Como analista de datos, tu trabajo consiste en analizar datos para extraer información valiosa de ellos y tomar decisiones en consecuencia. Esto implica pasar por diferentes etapas, como la descripción general de los datos, el preprocesamiento y la prueba de hipótesis.

Siempre que investiguemos, necesitamos formular hipótesis que después podamos probar. A veces, aceptaremos estas hipótesis; otras veces, las rechazaremos. Para tomar las decisiones adecuadas, una empresa debe ser capaz de entender si está haciendo las suposiciones correctas.

En este proyecto, compararás las preferencias musicales de las ciudades de Springfield y Shelbyville. Estudiarás datos reales de música online para probar la hipótesis que planteamos a continuación y compararás el comportamiento de los usuarios de estas dos ciudades.

### Objetivo:
Probar la hipótesis:
1. La actividad de los usuarios difiere según el día de la semana y dependiendo de la ciudad.


### Etapas
Los datos del comportamiento de los usuarios se almacenan en el archivo `/datasets/music_project_en.csv`. No hay información sobre la calidad de los datos, así que necesitarás examinarlos antes de probar la hipótesis.

Primero, debes evaluar la calidad de los datos y ver si los problemas son significativos. Más tarde, durante el preprocesamiento de datos, deberás abordar los problemas más críticos.

Tu proyecto contará con estas tres etapas:
 1. Descripción de los datos.
 2. Preprocesamiento de los datos.
 3. Prueba de la hipótesis.








[Volver a Contenidos](#back)

## Etapa 1. Descripción de los datos <a id='data_review'></a>

Abre los datos y examínalos.

Etapa 1.1. Necesitarás `pandas`, así que impórtalo.

In [3]:
import pandas as pd # Importa pandas


Etapa 1.2. Lee el archivo `music_project_en.csv` de la carpeta `/datasets/` y guárdalo en la variable `df`:

In [4]:
df= pd.read_csv('/datasets/music_project_en.csv')# Lee el archivo y almacénalo en df


Etapa 1.3. Muestra las 10 primeras filas de la tabla:

In [5]:
print(df.head(10))# Obtén las 10 primeras filas de la tabla df


     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                       Chains          Obladaet  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE                     L’estate       Julia Dalia  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

        City        time        Day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monday  
5

Etapa 1.4. Obtén la información general sobre la tabla con el método info().

In [6]:
print(df.info())# Obtén la información general sobre nuestros datos


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB
None


Estas son nuestras observaciones sobre la tabla. Contiene siete columnas que almacenan los mismos tipos de datos: `object`.

Según la documentación:
- `' userID'`: identificador del usuario;
- `'Track'`: título de la canción;
- `'artist'`: nombre del artista;
- `'genre'`: género de la canción;
- `'City'`: ciudad del usuario;
- `'time'`: la hora exacta en la que se reprodujo la canción;
- `'Day'`: día de la semana.

Podemos ver tres problemas con el estilo en los encabezados de la tabla:
1. Algunos encabezados están en mayúsculas, otros en minúsculas.
2. Hay espacios en algunos encabezados.
3. Puede ser que los nombres de las columnas sean poco descriptivas y el uso para mejor facilidad del estilo snake_case.




In [7]:
print(df.duplicated().sum()) #realice este método para comprobar que si hubiera duplicados


3826


<div class="alert alert-block alert-success">
<b>Celdas [6–7]</b> <a class="tocSkip"></a><br>
Muy buen uso de `info()` y `duplicated().sum()` para inspeccionar rápidamente la estructura general del dataset y la existencia de duplicados. Además, tus respuestas a las preguntas reflexivas muestran una comprensión clara de la estructura y relevancia de los datos. Buen inicio para asegurar la calidad del análisis.
</div>


### Escribe algunas observaciones por tu parte. Contesta a las siguientes preguntas: <a id='data_review_conclusions'></a>

`1.   ¿Qué tipo de datos hay en las filas? ¿Cómo podemos saber qué almacenan las columnas?`

`2.   ¿Hay suficientes datos para proporcionar respuestas a nuestra hipótesis o necesitamos más información?`

`3.   ¿Notaste algún problema en los datos, como valores ausentes, duplicados o tipos de datos incorrectos?`

Escribe aquí tus respuestas:

1. El tipo de datos que hay en las filas son del tipo objetos, así como en algunas filas valores ausentes. Para poder visualizar los datos que almacenan las columnas podemos ver el DataFrame, ya sea todo o solo una parte de el, ya sea con head() sample() o tail().

2. Considero que si contamos con datos suficientes para poder dar respuesta a nuestra hipótesis, necesitaremos saber la ciudad de los usuarios contenida en la columna 'City', la hora en que se reprodujo, que es la actividad de los usuarios y lo encontraremos en las columnas 'time' y 'Day'.

3. En un principio con el método info() podemos notar los si hay datos ausentes y para poder ver duplicados nos podemos ayudar con el metodo duplicated().sum() para saber cuántos duplicados hay en la lista 

[Volver a Contenidos](#back)

## Etapa 2. Preprocesamiento de los datos <a id='data_preprocessing'></a>

Tu objetivo aquí es preparar los datos para analizarlos.
El primer paso es resolver los problemas con los encabezados. Después podemos avanzar a los valores ausentes y duplicados. ¡Empecemos!

Vamos a corregir el formato en los encabezados de la tabla.


### Estilo del encabezado <a id='header_style'></a>
Etapa 2.1. Muestra los encabezados de la tabla (los nombres de las columnas):

In [8]:
print(df.columns)# Muestra los nombres de las columnas


Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


Vamos cambiar los encabezados de la tabla siguiendo las reglas estilísticas convencionales:
*   Todos los caracteres deben ser minúsculas.
*   Elimina los espacios.
*   Si el nombre tiene varias palabras, utiliza snake_case.


Anteriormente, aprendiste una forma automática de cambiar el nombre de las columnas. Vamos a aplicarla ahora.

Etapa 2.2. Utiliza el bucle for para iterar sobre los nombres de las columnas y poner todos los caracteres en minúsculas. Cuando hayas terminado, vuelve a mostrar los encabezados de la tabla:

In [9]:
new_col=[]

for old_name in df.columns:
    col_replace = old_name.lower()
    new_col.append(col_replace)# Bucle en los encabezados que lo pone todo en minúsculas

df.columns = new_col
print(df.columns)

Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')


Etapa 2.3. Ahora, utilizando el mismo método, elimina los espacios al principio y al final de los nombres de las columnas y muestra los nombres de las columnas de nuevo:

In [10]:
new_col1 = []
for old_name in df.columns:
    col_replace = old_name.strip() # Bucle en los encabezados que elimina los espacios
    new_col1.append(col_replace)
    
df.columns = new_col1
print(df.columns)

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


Etapa 2.4. Necesitamos aplicar la regla de snake_case en la columna `userid`. Debe ser `user_id`. Cambia el nombre de esta columna y muestra los nombres de todas las columnas cuando hayas terminado.

In [11]:
# Cambia el nombre de la columna "userid"
df.rename(columns={'userid':'user_id'}, inplace=True)
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


<div class="alert alert-block alert-warning">
<b>Celdas [9–11]</b> <a class="tocSkip"></a><br>
La limpieza de nombres de columnas está bien ejecutada, sin embargo, podrías haber unificado los pasos anteriores en un solo bucle para hacerlo más eficiente. Por ejemplo, aplicar `lower().strip()` dentro de una misma iteración habría simplificado el código. También podrías haber renombrado directamente `userid` a `user_id` en ese mismo paso para mayor concisión.
</div>


<div class="alert alert-block alert-info">
<b>Comentario estudiante</b><a class="tocSkip"></a>
Yo también creo que era mejor haberlo hecho en un solo paso, sin embargo la estructura del proyecto venian renglones para hacerlo por separado. ¿En un futuro, entonces, yo lo puedo simplificar, aunque en las instrucciones lo hagan entender que se haga paso por paso?

Etapa 2.5. Comprueba el resultado. Muestra los encabezados una vez más:

In [12]:
print(df.columns)# Comprueba el resultado: lista de encabezados


Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


[Volver a Contenidos](#back)

### Valores ausentes <a id='missing_values'></a>
 Etapa 2.5. Primero, encuentra el número de valores ausentes en la tabla. Debes utilizar dos métodos para obtener el número de valores ausentes.

In [13]:
print(df.isna().sum())# Calcula el número de valores ausentes


user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


No todos los valores ausentes afectan de la misma forma a la investigación. Por ejemplo, los valores ausentes en 'track' y 'artist' no son cruciales para el análisis, ya que estos datos son más descriptivos que analíticos. Por eso, puedes reemplazarlos directamente con un valor predeterminado como el string 'unknown' (desconocido).

En cambio, los valores ausentes en 'genre' sí pueden influir en la comparación entre las preferencias musicales de Springfield y Shelbyville. En un escenario real, lo ideal sería investigar por qué faltan estos datos e intentar recuperarlos. Pero en este proyecto no tenemos esa posibilidad, así que deberás rellenar esos valores con un valor predeterminado.


Como vimos anteriormente en las lecciones, la mejor manera de hacerlo es crear una lista con los nombres de las columnas que necesitan reemplazarse.  Luego, utilizar esta lista para iterar sobre cada columna y realizar el reemplazo correspondiente.

Etapa 2.6. Sustituye los valores ausentes en las columnas `'track'`, `'artist'` y `'genre'` con el string `'unknown'`.

1. Crea una lista llamada columns_to_replace que contenga los nombres de las columnas 'track', 'artist' y 'genre'.

2. Usa un bucle for para iterar sobre cada columna en columns_to_replace.

3. Dentro del bucle, sustituye los valores ausentes en cada columna con el string `'unknown'`.

In [14]:
# Bucle en los encabezados reemplazando los valores ausentes con 'unknown'
columns_to_replace = ['track', 'artist', 'genre']

for columna in columns_to_replace:
    df[columna] = df[columna].fillna('unknown')

Etapa 2.7. Ahora comprueba el resultado para asegurarte de que no falten valores ausentes por reemplazar en el conjunto de datos. Para ello, cuenta los valores ausentes una vez más.

In [15]:
# Cuenta los valores ausentes
print(df.isna().sum())

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


<div class="alert alert-block alert-success">
<b>Celdas [13–15]</b> <a class="tocSkip"></a><br>
Excelente manejo de los valores ausentes. Identificaste correctamente qué columnas eran críticas para el análisis y aplicaste una estrategia adecuada de imputación con `'unknown'`, diferenciando entre columnas descriptivas y analíticas. Esto mejora la calidad de los datos sin introducir sesgos significativos.
</div>


[Volver a Contenidos](#back)

### Duplicados <a id='duplicates'></a>
Etapa 2.8. Encuentra el número de duplicados explícitos en la tabla. Una vez más, debes aplicar dos métodos para obtener la cantidad de duplicados explícitos.

In [16]:
print(df.duplicated().sum())# Cuenta los duplicados explícitos

3826


Etapa 2.9. Ahora, elimina todos los duplicados. Para ello, llama al método que hace exactamente esto.

In [17]:
df= df.drop_duplicates()# Elimina los duplicados explícitos

Etapa 2.10. Comprobemos ahora si conseguimos eliminar todos los duplicados. Cuenta los duplicados explícitos una vez más para asegurarte de haberlos eliminado todos:

In [18]:
print(df.duplicated().sum())# Comprueba de nuevo si hay duplicados

0


<div class="alert alert-block alert-success">
<b>Celdas [16–18]</b> <a class="tocSkip"></a><br>
Has aplicado correctamente la eliminación de duplicados explícitos, verificando antes y después del proceso. Es una buena práctica que garantiza que los datos sobre los que se realizará el análisis no estén distorsionados por repeticiones innecesarias.
</div>


Ahora queremos deshacernos de los duplicados implícitos en la columna `genre`. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar al resultado.

Etapa 2.11. Primero debemos mostrar una lista de nombres de géneros únicos, por orden alfabético. Para ello:
1. Extrae la columna `genre` del DataFrame.
2. Llama al método que devolverá todos los valores únicos en la columna extraída.


In [19]:
print(df['genre'].unique())# Inspecciona los nombres de géneros únicos


['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknown' 'alternative' 'children' 'rnb' 'hip' 'jazz' 'postrock' 'latin'
 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental' 'rusrock'
 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'hiphop' 'drum' 'extrememetal' 'türkçe'
 'experimental' 'easy' 'metalcore' 'modern' 'argentinetango' 'old' 'swing'
 'breaks' 'eurofolk' 

Vamos a examinar la lista para identificar **duplicados implícitos** del género `hiphop`, es decir, nombres mal escritos o variantes que hacen referencia al mismo género musical.

Algunos de los duplicados que encontrarás son:

* `hip`  
* `hop`  
* `hip-hop`  

Para solucionarlo, vamos a crear una función llamada `replace_wrong_genres()` que tendrá dos parámetros:

* `wrong_genres`: una lista con todos los valores que deben ser reemplazados.  
* `correct_genre`: un string que se utilizará como valor de reemplazo.

El objetivo de esta función es **corregir los valores en la columna `'genre'` del DataFrame `df`**, reemplazando cada valor de la lista `wrong_genres` por `correct_genre`.

Etapa 2.12.
1. Define una función llamada `replace_wrong_genres()` que reciba dos parámetros: `wrong_genres` y `correct_genre`.

2. Dentro de la función, utiliza un bucle `for` para iterar sobre cada valor en la lista `wrong_genres`.

3. En cada iteración, accede a la columna `'genre'` del DataFrame `df` y utiliza el método `.replace()` para sustituir el valor incorrecto por `correct_genre`.

4. Llama a la función y pasa como argumentos:
   - Una lista con los duplicados implícitos: `['hip', 'hop', 'hip-hop']`
   - El string de reemplazo: `'hiphop'`

In [20]:
# Función para reemplazar los duplicados implícitos
def replace_wrong_genres(wrong_genres, correct_genre):
    for wrong in wrong_genres:
        df['genre'] = df['genre'].replace(wrong, correct_genre)
        return df
    
correct_genre = 'hiphop'
wrong_genres = ['hip', 'hop', 'hip-hop']



Etapa 2.13. Ahora, llama a `replace_wrong_genres()` y pásale estos argumentos para que retire los duplicados implícitos (`hip`, `hop` y `hip-hop`) y los sustituya por `hiphop`:

In [21]:
# Elimina los duplicados implícitos
df = replace_wrong_genres(wrong_genres, correct_genre)

Etapa 2.14. Asegúrate de que los nombres duplicados se hayan eliminado. Muestra la lista de valores únicos de la columna `'genre'` una vez más:

In [22]:
# Comprueba de nuevo los duplicados implícitos
print(df['genre'].unique())

['rock' 'pop' 'folk' 'dance' 'rusrap' 'ruspop' 'world' 'electronic'
 'unknown' 'alternative' 'children' 'rnb' 'hiphop' 'jazz' 'postrock'
 'latin' 'classical' 'metal' 'reggae' 'triphop' 'blues' 'instrumental'
 'rusrock' 'dnb' 'türk' 'post' 'country' 'psychedelic' 'conjazz' 'indie'
 'posthardcore' 'local' 'avantgarde' 'punk' 'videogame' 'techno' 'house'
 'christmas' 'melodic' 'caucasian' 'reggaeton' 'soundtrack' 'singer' 'ska'
 'salsa' 'ambient' 'film' 'western' 'rap' 'beats' "hard'n'heavy"
 'progmetal' 'minimal' 'tropical' 'contemporary' 'new' 'soul' 'holiday'
 'german' 'jpop' 'spiritual' 'urban' 'gospel' 'nujazz' 'folkmetal'
 'trance' 'miscellaneous' 'anime' 'hardcore' 'progressive' 'korean'
 'numetal' 'vocal' 'estrada' 'tango' 'loungeelectronic' 'classicmetal'
 'dubstep' 'club' 'deep' 'southern' 'black' 'folkrock' 'fitness' 'french'
 'disco' 'religious' 'drum' 'extrememetal' 'türkçe' 'experimental' 'easy'
 'metalcore' 'modern' 'argentinetango' 'old' 'swing' 'breaks' 'eurofolk'
 'stone

<div class="alert alert-block alert-warning">
<b>Celdas [20–22]</b> <a class="tocSkip"></a><br>
La función `replace_wrong_genres()` es útil y está bien estructurada, pero observamos que al final de la limpieza aún aparece `'hip-hop'` entre los valores únicos. Esto sugiere que la función puede no haber aplicado los reemplazos de forma exhaustiva o que los géneros contenían caracteres ocultos (como guiones especiales). Sería recomendable revisar con `strip()` y verificar variantes con espacios u otros caracteres invisibles.
</div>


<div class="alert alert-block alert-info">
<b>Comentario estudiante</b><a class="tocSkip"></a>
Ok, de acuerdo, gracias por la sugerencia. Estoy aprendiendo también que puedo hacer cosas extras además de lo que piden expresamente en el proyecto, y a lo mejor no lo hice en su momento por que me fueran a calificar mal por no seguir instrucciones.

[Volver a Contenidos](#back)

### Observaciones <a id='data_preprocessing_conclusions'></a>

`Redacta un breve resumen de lo que descubriste al analizar los datos. Tu respuesta debe identificar los problemas detectados, explicar cómo los resolviste y describir cómo esas acciones mejoran la calidad del análisis.`



Etapa 2.14. Descríbelo aquí.

Al empezar a ver los datos, antes de poderlos analizar como tal, se detectaron algunos problemas con ellos que pueden ocacionar problemas para su análisis, como lo es primeramente la forma en como esta capturada, tenemos que homologar para que sea mas facil su consulta y análisis, es así que pusimos el nombre de las columnas en minusculas, quitamos espacios y tratamos de usar el estilo snake_case, luego tuvimos que limpiar el contenido del DataFrame, detectando valores ausentes y duplicados tanto explícitos como implícitos. Ahora si que ya tenemos un DataFrame limpio y homologado, va a ser más fácil su consulta y análisis. 

[Volver a Contenidos](#back)

## Etapa 3. Prueba de la hipótesis <a id='hypothesis'></a>

### Tarea: Comparar el comportamiento de los usuarios en las dos ciudades <a id='activity'></a>

La hipótesis que queremos probar plantea que existen diferencias en la forma en que los usuarios de Springfield y Shelbyville consumen música.
Para analizar esto, nos enfocaremos en los datos correspondientes a tres días específicos de la semana: lunes, miércoles y viernes.

El análisis consistirá en comparar la cantidad de canciones reproducidas por los usuarios de cada ciudad en esos días. Esto nos permitirá observar posibles patrones o diferencias en los hábitos de consumo entre Springfield y Shelbyville.

Para llevar a cabo este análisis, es importante seguir el enfoque de dividir-aplicar-combinar, del que ya hablamos en la lección. En este caso:

*  Dividir: separamos los datos en grupos según la ciudad.

*  Aplicar: dentro de cada grupo, contamos cuántas canciones se reprodujeron.

*  Combinar: reunimos los resultados en una estructura que nos permita comparar fácilmente ambas ciudades.

Este procedimiento debe repetirse de forma independiente para cada uno de los tres días seleccionados. El resultado final debe mostrar el número de reproducciones por ciudad en cada uno de esos días.

Una posible forma de estructurar el código sería con la siguiente expresión:

`df.groupby(by='...')['...'].method()`

Deberás completar los argumentos correspondientes para agrupar por ciudad y contar las canciones reproducidas. Este enfoque te dará una visión clara y comparativa del comportamiento de los usuarios en ambas ciudades.

Etapa 3.1. Cuenta cuántas canciones se reprodujeron en cada ciudad utilizando la columna 'track' como referencia.

In [23]:
# Cuenta las canciones reproducidas en cada ciudad

print(df.groupby(by='city')['track'].count())

city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64


`Redacta brevemente tus observaciones sobre los resultados. ¿Qué diferencias notaste entre Springfield y Shelbyville? ¿A qué podrían deberse esas diferencias?`

Etapa 3.2. Escribe tus observaciones aquí.

Lo que observamos con esta información es que en la Ciudad de Springfield se reprodujeron más canciones que en Shelbyville, ésto podría deberse a que la ciudad de Springfield tiene mucho más población que la ciudad de Shelbyville. También puede haber otros factores como el nivel económico de la población que puede llegar a permitir mayor acceso a la pltaforma de pago en una que en otra.

Etapa 3.3.
1. Agrupa los datos por día de la semana y cuenta cuántas canciones se reprodujeron los lunes, miércoles y viernes.

2. Utiliza el mismo método de conteo que antes, pero ahora cambia la columna de agrupación para enfocarte en el día.

3. Esto te permitirá identificar posibles patrones de escucha según el día de la semana.


In [24]:
# Calcula las canciones reproducidas en cada uno de los tres días
print(df.groupby(by='day')['track'].count())

day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64


`Describe brevemente qué observaste al comparar los lunes, miércoles y viernes. ¿Hubo algún día con menos actividad? ¿Cambian las conclusiones si analizas cada ciudad por separado?`

Etapa 3.4. Escribe tus observaciones aquí.

Aqui podemos observar que en general hay un mayor número de reproducciones los días viernes y el día de menos reproducciones es el miércoles. Esto refleja un actuar general de ambas ciudades, que la tendencia sería que si lo analizamos en cada ciudad, la tendencia debería ser la misma que el actuar general.

Hasta ahora has aprendido a contar entradas agrupándolas por un solo criterio, como la ciudad o el día de la semana. Ahora vamos a dar un paso más: necesitas crear una función que **cuente cuántas canciones se reprodujeron en una ciudad específica durante un día determinado**, combinando ambos criterios de filtrado.

La función se llamará `number_tracks()` y debe aceptar dos parámetros:

- `day`: un día de la semana (por ejemplo, `'Monday'`).
- `city`: el nombre de una ciudad (por ejemplo, `'Springfield'`).

Dentro de la función, deberás aplicar un **filtrado secuencial mediante indexación lógica**: primero tendrás que filtrar el DataFrame por el día, y luego por la ciudad. Una vez que tengas el subconjunto de datos correcto, debes contar cuántas veces aparece un valor en la columna `'user_id'`. Ese número representará el total de canciones reproducidas bajo esos dos criterios.



Etapa 3.5.
1. Declara una función llamada `number_tracks()` con dos parámetros: `day` y `city`.

2. Filtra el DataFrame para conservar solo las filas donde la columna `'day'` sea igual al valor del parámetro `day`.

3. A partir del resultado anterior, filtra nuevamente para conservar solo las filas donde la columna `'city'` sea igual al valor del parámetro `city`.

4. Extrae la columna `'user_id'` del DataFrame filtrado y utiliza el método `.count()` para contar el número de entradas.

5. Guarda ese valor en una variable y **devuélvelo** como resultado de la función.


In [25]:
# Declara la función number_tracks() con dos parámetros: day= y city=.
def number_tracks(day, city):
    # Almacena las filas del DataFrame donde el valor en la columna 'day' es igual al parámetro day=
    day_filter = df[df['day'] == day]
    # Filtra las filas donde el valor en la columna 'city' es igual al parámetro city=
    city_filter = day_filter[day_filter['city'] == city]
    # Extrae la columna 'user_id' de la tabla filtrada y aplica el método count()
    user_filter = city_filter['user_id'].count()
    # Devuelve el número de valores de la columna 'user_id'
    return user_filter



Etapa 3.6. Llama a `number_tracks()` seis veces, cambiando los valores de los parámetros para que puedas recuperar los datos de ambas ciudades para cada uno de los tres días.

In [26]:
# El número de canciones reproducidas en Springfield el lunes
print(number_tracks('Monday', 'Springfield'))

15740


In [27]:
# El número de canciones reproducidas en Shelbyville el lunes
print(number_tracks('Monday', 'Shelbyville'))

5614


In [28]:
# El número de canciones reproducidas en Springfield el miércoles
print(number_tracks('Wednesday', 'Springfield'))

11056


In [29]:
# El número de canciones reproducidas en Shelbyville el miércoles
print(number_tracks('Wednesday', 'Shelbyville'))

7003


In [30]:
# El número de canciones reproducidas en Springfield el viernes
print(number_tracks('Friday', 'Springfield'))

15945


In [31]:
# El número de canciones reproducidas en Shelbyville el viernes
print(number_tracks('Friday', 'Shelbyville'))

5895


<div class="alert alert-block alert-success">
<b>Celdas [23–31]</b> <a class="tocSkip"></a><br>
Muy buen trabajo al implementar todo el flujo de análisis comparativo por ciudad y día de la semana. El uso de `groupby()` para obtener estadísticas generales, seguido por una función personalizada (`number_tracks()`) para combinaciones específicas, demuestra una comprensión adecuada del enfoque dividir-aplicar-combinar. Además, las observaciones reflejan una interpretación crítica y fundamentada de los resultados. Solo como sugerencia menor, podrías simplificar el filtrado dentro de la función para mayor legibilidad. En general, este bloque está muy bien estructurado y alineado con los objetivos del análisis.
</div>


[Volver a Contenidos](#back)

# Conclusiones <a id='end'></a>

##Escribe tus conclusiones finales sobre la hipótesis.
 * ¿Los datos apoyan la idea de que el comportamiento de los usuarios respecto a la música que escuchan varía según la ciudad y el día de la semana?
 * Indica si la hipótesis debe aceptarse o rechazarse, y justifica tu respuesta con base en los resultados obtenidos.

Etapa 4. Detalla aquí tus conclusiones.

Del análisis podemos observar que hay más usuarios de Springfield que de Shelbyville, que si consideraramos datos genéricos de la información hace que los usuarios de Springfield marquen tendencia, sin embargo al analizar por separado cada una de las ciudades vemos que el día que más actividad hay en Springfield es el viernes, sin embargo el día con más actividad para los usuarios de Shelbyville son los días miercoles, y así el día con menos actividad en Springfield es el miercoles y en Shelbyville es el lunes, confirmando así la hipótesis por lo que SI SE ACEPTA demostrando así que la actividad de los usuarios difiere según el día de la semana y dependiendo de la ciudad.

### Nota
En los proyectos de investigación reales, la prueba de hipótesis estadística es más precisa y cuantitativa. También ten en cuenta que no siempre se pueden sacar conclusiones sobre una ciudad entera a partir de datos de una sola fuente.

Aprenderás más sobre la prueba de hipótesis en el sprint de análisis estadístico de datos.

[Volver a Contenidos](#back)

<div class="alert alert-block alert-success">
<b>Comentario final</b> <a class="tocSkip"></a><br>
¡Buen trabajo, Adolfo! Tu proyecto destaca por una limpieza de datos sólida, un razonamiento claro durante la formulación y prueba de la hipótesis, y una ejecución muy organizada. Lograste identificar problemas comunes en datos reales y los resolviste con buenas prácticas.  ¡Sigue adelante con este excelente nivel de compromiso!
</div>
