# Hola Bianca!

Mi nombre es David Bautista, soy code reviewer de Tripleten y hoy tengo el gusto de revisar tu proyecto.

Cuando vea un error la primera vez, lo señalaré. Deberás encontrarlo y arreglarlo. La intención es que te prepares para un espacio real de trabajo. En un trabajo, el líder de tu equipo hará lo mismo. Si no puedes solucionar el error, te daré más información en la próxima ocasión.

Encontrarás mis comentarios más abajo - por favor, no los muevas, no los modifiques ni los borres.

¿Cómo lo voy a hacer? Voy a leer detenidamente cada una de las implementaciones que has llevado a cabo para cumplir con lo solicitado. Verás los comentarios de esta forma:

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Si todo está perfecto.
</div>


<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>


<div class="alert alert-block alert-danger">
    
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
    
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>


Puedes responderme de esta forma: 

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
</div>

¡Empecemos!


# Déjame escuchar la música

# Contenido <a id='back'></a>

* [Introducción](#intro)
* [Etapa 1. Descripción de los datos](#data_review)
    * [Conclusiones](#data_review_conclusions)
* [Etapa 2. Preprocesamiento de datos](#data_preprocessing)
    * [2.1 Estilo del encabezado](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusiones](#data_preprocessing_conclusions)
* [Etapa 3. Prueba de hipótesis](#hypotheses)
    * [3.1 Hipótesis 1: actividad de los usuarios y las usuarias en las dos ciudades](#activity)
    * [3.2 Hipótesis 2: preferencias musicales los lunes y los viernes](#week)
    * [3.3 Hipótesis 3: preferencias de género en Springfield y Shelbyville](#genre)
* [Conclusiones](#end)

## Introducción <a id='intro'></a>
Como analista de datos, tu trabajo consiste en analizar datos para extraer información valiosa y tomar decisiones basadas en datos. Esto implica diferentes etapas, como la descripción general de los datos, el preprocesamiento y la prueba de hipótesis.

Siempre que investigamos, necesitamos formular hipótesis que después podamos probar. A veces aceptamos estas hipótesis; otras, las rechazamos. Para tomar las decisiones correctas, una empresa debe ser capaz de entender si está haciendo las suposiciones correctas.

En este proyecto, compararás las preferencias musicales de las ciudades de Springfield y Shelbyville. Estudiarás datos reales de transmisión de música online para probar las hipótesis a continuación y comparar el comportamiento de los usuarios y las usuarias de estas dos ciudades.

### Objetivo:
Prueba tres hipótesis:
1. La actividad de los usuarios y las usuarias difiere según el día de la semana y dependiendo de la cuidad.
2. Los lunes por la mañana, los habitantes de Springfield y Shelbyville escuchan géneros distintos. Lo mismo ocurre con los viernes por la noche.
3. Los oyentes de Springfield y Shelbyville tienen preferencias distintas. En Springfield prefieren el pop, mientras que en Shelbyville hay más personas a las que les gusta el rap.

### Etapas
Los datos del comportamiento del usuario se almacenan en el archivo `/datasets/music_project_en.csv`. No hay ninguna información sobre la calidad de los datos, así que necesitarás examinarlos antes de probar las hipótesis.

Primero, evaluarás la calidad de los datos y verás si los problemas son significativos. Entonces, durante el preprocesamiento de datos, tomarás en cuenta los problemas más críticos.

Tu proyecto consistirá en tres etapas:
 1. Descripción de los datos
 2. Preprocesamiento de datos
 3. Prueba de hipótesis


### Reto

En este proyecto, preparamos un pequeño reto para ti. Incluimos un nuevo tipo de estructura de datos: las marcas temporales. Las marcas temporales son muy comunes y merecen una atención adicional. Más adelante en el programa, aprenderás mucho sobre ellas. Sin embargo, por ahora las trataremos como simples strings. Necesitamos marcas temporales en este proyecto para poner a prueba una de nuestras hipótesis. No te preocupes, te ayudaremos con esto. Tu nivel de conocimientos actual será suficiente para abordarlo.

Por ejemplo, digamos que tenemos dos marcas temporales: `dt1 = "12:00:00"` y `dt2 = "06:00:00"`. Queremos comparar estas dos marcas temporales y ver cuál es posterior.

Podemos compararlas mediante los operadores de comparación estándar (`<`, `>`, `<=`, `>=`, `==`, `!=`). Ejecuta la siguiente celda de código para comparar dos marcas temporales:


In [1]:
# Comparar los objetos datetime

dt1 = "12:00:00"
dt2 = "06:00:00"

if dt1 < dt2:
    print("La marca temporal 2 es posterior")
else:
    print("La marca temporal 1 es posterior")

La marca temporal 1 es posterior


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Muy bien, recuerda que para todo los proyectos que realices es importante genera un contexto donde se comente que trata el caso y cuáles con los objetivos a cumplir, además es indispensable que se genere una tabla de contenido con el fin de mantener el orden en la entrega. Buen trabajo con el reto.
</div>

[Volver a Contenidos](#back)

## Etapa 1. Descripción de los datos <a id='data_review'></a>

Abre los datos y examínalos.

Necesitarás `pandas`, así que impórtalo.

In [2]:
import pandas as pd # importar pandas


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo importando ``pandas``.
</div>

Si estás trabajando en la plataforma, lee el archivo `music_project_en.csv` de la carpeta /datasets/ y guárdalo en la variable `df`. Si estás trabajando localmente, no es necesario especificar carpeta alguna siempre y cuando el archivo `music_project_en.csv` esté en la misma carpeta que este Notebook:

In [3]:
df = pd.read_csv('/datasets/music_project_en.csv') # leer el archivo y almacenarlo en df


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo con el cargue de los datos.
</div>

Muestra las 10 primeras filas de la tabla:

In [4]:
df.head(10)# obtener las 10 primeras filas de la tabla df


Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Excelente, muy buen trabajo usando el ``head()``
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
Buen trabajo.
</div>

Obtén la información general sobre la tabla con un comando:

In [5]:
df.info()# obtener información general sobre los datos en df


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


Estas son nuestras observaciones sobre la tabla. Contiene siete columnas. Almacenan los mismos tipos de datos: `object`.

Según la documentación:
- `'userID'` — identificador de usuario
- `'Track'` — título de la canción
- `'artist'` — nombre del cantante o grupo
- `'genre'` — género de la pista
- `'City'` — ciudad del usuario
- `'time'` — la hora exacta en la que se escuchó la canción
- `'Day'` — día de la semana

Podemos ver tres problemas con el estilo en los encabezados de la tabla:
1. Algunos encabezados están en mayúsculas, otros en minúsculas.
2. Hay espacios en algunos encabezados.
3. Los encabezados de las columnas necesitan ser mas descriptivos `Detectar el tercer problema por tu cuenta y descríbelo aquí`.




<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo.
</div>

### Tus observaciones <a id='data_review_conclusions'></a>

`Escriba sus observaciones aquí:`

`1.   ¿Qué tipo de datos tenemos a nuestra disposición en las filas? En las filas tenemos la informacion de cada usuario donde se indica informacion sobre los habitos musicales de cada uno. Cada usuario tiene un ID unico, canciones y genero de las canciones que escuchan y hora/dia cuando fueron reproducidas, asi como la ciudad donde reside la persona.

¿Y cómo podemos entender lo que almacenan las columnas?` Lo podemos entender leyendo la descripcion, asi como tambien el numero de entradas y el tipo de entradas (non-null vs. null). Otro cosa que nos ayuda a entender es ver el tipo de data que cada columna almacena. En este caso todos son objects(strings)

`2.   ¿Hay suficientes datos para proporcionar respuestas a nuestras tres hipótesis, o necesitamos más información?` Creo que si se manipula la informacion correctamente esta es suficiente para llegar a una conclusion para cada hipotesis.

`3.   ¿Notaste algún problema en los datos, como valores ausentes, duplicados o tipos de datos incorrectos?` Si.
    - En las primeras diez filas se ve un valor ausente an artist. Observando el numero total de entradas (65079), solo hay 57512 valores non-null.
    - Esto mismo ocurre en las columnas  de Track y genre.
    - Tambien noto inconsistencias en la generacion de userID. Unos id's son mas cortos que otros, aunandole que unos contienen son solo numericos, mientras que otros son alfanuméricos.


[Volver a Contenidos](#back)

## Etapa 2. Preprocesamiento de datos <a id='data_preprocessing'></a>

El objetivo aquí es preparar los datos para que sean analizados.
El primer paso es resolver cualquier problema con los encabezados. Luego podemos avanzar a los valores ausentes y duplicados. Empecemos.

Corrige el formato en los encabezados de la tabla.


### Estilo del encabezado <a id='header_style'></a>
Muestra los encabezados de la tabla:

In [6]:
 #la lista de encabezados para la tabla df

display(df.columns)



Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

Cambia los encabezados de la tabla de acuerdo con las reglas del buen estilo:
* todos los caracteres deben ser minúsculas;
* elimina los espacios;
* si el nombre tiene varias palabras, utiliza snake_case.

Pon todos los caracteres en minúsculas e imprime el encabezado de la tabla de nuevo:

In [7]:
# escribe tu código aquí
new_col_names = [col.lower() for col in df.columns]
df.columns = new_col_names

Ahora elimina los espacios al principio y al final de los encabezados y muéstralos:

In [8]:
new_col_names = [col.strip() for col in df.columns]
df.columns = new_col_names

Aplica snake_case al encabezado userID e imprime el encabezado de la tabla:

In [9]:
df.rename(columns={'userid': 'user_id'}, inplace=True)

Comprueba el resultado. Muestra los encabezados una vez más:

In [10]:
display(df.columns) # comprobar el resultado: la lista de encabezados


Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo modificando el nombre de las columnas.
</div>


[Volver a Contenidos](#back)

### Valores ausentes <a id='missing_values'></a>
Primero, encuentra el número de valores ausentes en la tabla. Para ello, utiliza dos métodos `pandas`:

In [11]:
display(df.isna().sum()) # calcular el número de valores ausentes


user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64

No todos los valores ausentes afectan a la investigación. Por ejemplo, los valores ausentes en `track` y `artist` no son cruciales. Simplemente puedes reemplazarlos con valores predeterminados como el string `'unknown'` (desconocido).

Pero los valores ausentes en `'genre'` pueden afectar la comparación entre las preferencias musicales de Springfield y Shelbyville. En la vida real, sería útil saber las razones por las cuales hay datos ausentes e intentar recuperarlos. Pero no tenemos esa oportunidad en este proyecto. Así que tendrás que:
* rellenar estos valores ausentes con un valor predeterminado;
* evaluar cuánto podrían afectar los valores ausentes a tus cómputos;

Reemplazar los valores ausentes en `'track'`, `'artist'` y `'genre'` con el string `'unknown'`. Para hacer esto, crea la lista `columns_to_replace`, recorre sobre ella con un bucle `for`, y para cada columna reemplaza los valores ausentes en ella:

In [12]:
columns_to_replace = ['track', 'artist', 'genre']

for col in columns_to_replace:
    df[col] = df[col].fillna('unknown')
    # bucle en los encabezados reemplazando los valores ausentes con 'unknown'


Asegúrate de que la tabla no contiene más valores ausentes. Cuenta de nuevo los valores ausentes.

In [13]:
(df.isna().sum())# contando valores ausentes


user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo solucionando el problema de los valores nulos.
</div>

[Volver a Contenidos](#back)

### Duplicados <a id='duplicates'></a>
Encuentra el número de duplicados explícitos en la tabla usando un comando:

In [14]:
df.duplicated().sum()# contar duplicados explícitos


3826

Llama al método `pandas` para deshacerte de los duplicados explícitos:

In [15]:
df = df.drop_duplicates().reset_index()

display(df.head()) # eliminar duplicados explícitos

Unnamed: 0,index,user_id,track,artist,genre,city,time,day
0,0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday


Cuenta los duplicados explícitos una vez más para asegurarte de haberlos eliminado todos:

In [16]:
display(df.duplicated().sum()) # comprobación de duplicados


0

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Muy buen trabajo lidiando con los duplicados, lo único que podrías mejorar en estilo es que uses el ``display()`` en vez del ``print()``
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
Buen trabajo.
</div>

Ahora queremos deshacernos de los duplicados implícitos en la columna `genre`. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar al resultado.

Para hacerlo, primero imprimamos una lista de nombres de género únicos, ordenados en orden alfabético. Para hacerlo:
* recupera la columna deseada del dataFrame;
* llama al método que te devolverá todos los valores de columna únicos;
* aplica un método de ordenamiento a tu resultado.


In [17]:
unique_genres = sorted(df['genre'].unique()) # inspeccionar los nombres de género únicos
(unique_genres)

['acid',
 'acoustic',
 'action',
 'adult',
 'africa',
 'afrikaans',
 'alternative',
 'ambient',
 'americana',
 'animated',
 'anime',
 'arabesk',
 'arabic',
 'arena',
 'argentinetango',
 'art',
 'audiobook',
 'avantgarde',
 'axé',
 'baile',
 'balkan',
 'beats',
 'bigroom',
 'black',
 'bluegrass',
 'blues',
 'bollywood',
 'bossa',
 'brazilian',
 'breakbeat',
 'breaks',
 'broadway',
 'cantautori',
 'cantopop',
 'canzone',
 'caribbean',
 'caucasian',
 'celtic',
 'chamber',
 'children',
 'chill',
 'chinese',
 'choral',
 'christian',
 'christmas',
 'classical',
 'classicmetal',
 'club',
 'colombian',
 'comedy',
 'conjazz',
 'contemporary',
 'country',
 'cuban',
 'dance',
 'dancehall',
 'dancepop',
 'dark',
 'death',
 'deep',
 'deutschrock',
 'deutschspr',
 'dirty',
 'disco',
 'dnb',
 'documentary',
 'downbeat',
 'downtempo',
 'drum',
 'dub',
 'dubstep',
 'eastern',
 'easy',
 'electronic',
 'electropop',
 'emo',
 'entehno',
 'epicmetal',
 'estrada',
 'ethnic',
 'eurofolk',
 'european',
 'expe

Busca en la lista para encontrar duplicados implícitos del género `hiphop`. Estos pueden ser nombres escritos incorrectamente o nombres alternativos para el mismo género.

Verás los siguientes duplicados implícitos:
* `hip`
* `hop`
* `hip-hop`

Para deshacerte de ellos, declara la función `replace_wrong_genres()` con dos parámetros:
* `wrong_genres=` — la lista de duplicados;
* `correct_genre=` — el string con el valor correcto.

La función debería corregir los nombres en la columna `'genre'` de la tabla `df`, es decir, remplaza cada valor de la lista `wrong_genres` con el valor en `correct_genre`. Utiliza un bucle `'for'` para iterar sobre la lista de géneros incorrectos y reemplazarlos con el género correcto en la lista principal.

In [18]:
def replace_wrong_genres(df, column, wrong_genres,correct_genre): # función para reemplazar duplicados implícitos
    for wrong_genre in wrong_genres:
        df[column] = df[column].replace(wrong_genre,correct_genre)
    return df


Llama a `replace_wrong_genres()` y pásale argumentos para que retire los duplicados implícitos (`hip`, `hop` y `hip-hop`) y los reemplace por `hiphop`:

In [19]:
duplicates = ['hip', 'hop', 'hip-hop'] # eliminar duplicados implícitos
correct = 'hiphop'
df = replace_wrong_genres(df,'genre', duplicates, correct)


Asegúrate de que los nombres duplicados se hayan eliminado. Muestra la lista de valores únicos de la columna `'genre'` una vez más:

In [20]:
unique_genres = sorted(df['genre'].unique()) # comprobación de duplicados implícitos
(unique_genres)

['acid',
 'acoustic',
 'action',
 'adult',
 'africa',
 'afrikaans',
 'alternative',
 'ambient',
 'americana',
 'animated',
 'anime',
 'arabesk',
 'arabic',
 'arena',
 'argentinetango',
 'art',
 'audiobook',
 'avantgarde',
 'axé',
 'baile',
 'balkan',
 'beats',
 'bigroom',
 'black',
 'bluegrass',
 'blues',
 'bollywood',
 'bossa',
 'brazilian',
 'breakbeat',
 'breaks',
 'broadway',
 'cantautori',
 'cantopop',
 'canzone',
 'caribbean',
 'caucasian',
 'celtic',
 'chamber',
 'children',
 'chill',
 'chinese',
 'choral',
 'christian',
 'christmas',
 'classical',
 'classicmetal',
 'club',
 'colombian',
 'comedy',
 'conjazz',
 'contemporary',
 'country',
 'cuban',
 'dance',
 'dancehall',
 'dancepop',
 'dark',
 'death',
 'deep',
 'deutschrock',
 'deutschspr',
 'dirty',
 'disco',
 'dnb',
 'documentary',
 'downbeat',
 'downtempo',
 'drum',
 'dub',
 'dubstep',
 'eastern',
 'easy',
 'electronic',
 'electropop',
 'emo',
 'entehno',
 'epicmetal',
 'estrada',
 'ethnic',
 'eurofolk',
 'european',
 'expe

[Volver a Contenidos](#back)

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo solucionando el problema de los valores duplicados no tan obvios.
</div>

### Tus observaciones <a id='data_preprocessing_conclusions'></a>

`Describa brevemente lo que ha observado al analizar los duplicados, cómo abordó sus eliminaciones y qué resultados logró.`
Es importante que siempre se aborde el valor de duplicados ya que es muy probable que se encuentren inconsistencias. Ya sea por error humano, diferentes maneras de interpretar o escribir una palbra o un error de proesamientos de datos. 
Para los duplicados explícitos decidi abordar este proceso primero identificando el numero de duplicados totales, para luego eliminarlos por medio del metodo pandas drop_duplicates().reset_index(). Esto resulto que se eliminaran duplicados explícitos sin afectar el indice del DataFrame.
Para los duplicados implícitos genera una lista de la columna 'genre' para poder identicarlos. Posteriormente llame a una fincion que itero sobre ese set para remplazar las tres difentes versiones del string por el correcto. Al volver a generar la lista de valores unicos de la columna, se comprueba que ya solo aparece el string correcto (hiphop).




[Volver a Contenidos](#back)

## Etapa 3. Prueba de hipótesis <a id='hypotheses'></a>

### Hipótesis 1: comparar el comportamiento del usuario en las dos ciudades <a id='activity'></a>

La primera hipótesis afirma que existen diferencias en la forma en que los usuarios y las usuarias de Springfield y Shelbyville consumen música. Para comprobar esto, usa los datos de tres días de la semana: lunes, miércoles y viernes.

* Agrupa a los usuarios y las usuarias por ciudad.
* Compara el número de pistas que cada grupo reprodujo el lunes, el miércoles y el viernes.


Realiza cada cálculo por separado.

El primer paso es evaluar la actividad del usuario en cada ciudad. Agrupa los datos por ciudad y encuentra el número de canciones reproducidas en cada grupo.



In [21]:
city_groups = df.groupby('city')['track'].count() # contando las pistas reproducidas en cada ciudad
(city_groups)

city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64


`Comenta tus observaciones aquí` Se puede ver que el numero de reproducciones en Springfield es mayor por 24,229 reproducciones. La disparidad puede indicar reflejar una diferencia en el numero de habitantes en cada ciudad o el numero de suscripciones a la plataforma musical.

Ahora agrupa los datos por día de la semana y encuentra el número de pistas reproducidas el lunes, el miércoles y el viernes.


In [22]:
 #Cálculo de las pistas reproducidas cada día de la semana
selected_days = ['Monday', 'Wednesday', 'Friday']
filtered_df = df[df['day'].isin(selected_days)]
city_day_counts = filtered_df.groupby(['day'])['track'].count()
(city_day_counts)

day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo con estas primeras agrupaciones.  
</div>

`Comenta tus observaciones aquí` Se observa que los viernes es el dia con mas pistas reproducidados de los tres, seguido del lunes. Es interesante como decrece el numero de reproducciones en miercoles. Podria ser que a mitad de semana los usuarios estan mas inmersos en la rutina y dejan a lado actividades como escuchar musica? 

Ya sabes cómo contar entradas agrupándolas por ciudad o día. Ahora necesitas escribir una función que pueda contar entradas según ambos criterios simultáneamente.

Crea la función `number_tracks()` para **calcular el número de canciones reproducidas en un determinado día y ciudad **. La función debe aceptar dos parámetros:

- `day`: un día de la semana para filtrar. Por ejemplo, `'Monday'`.
- `city`: ciudad: una ciudad para filtrar. Por ejemplo, `'Springfield'`.

Dentro de la función, aplicarás un filtrado consecutivo con indexación lógica.

Primero filtra los datos por día y luego filtra la tabla resultante por ciudad.

Después de filtrar los datos por dos criterios, cuenta el número de valores de la columna 'user_id' en la tabla resultante. Este recuento representa el número de entradas que estás buscando. Guarda el resultado en una nueva variable y devuélvelo desde la función.

In [23]:
# <crear la función number_tracks()>
# declararemos la función con dos parámetros: day=, city=.

def number_tracks(df,day,city): 
    track_list = df[(df['day'] == day) & (df['city'] == city)]
    track_list_count = len(track_list)
    
    return(track_list_count)

       # el valor del nombre de la columna ‘day’ sea igual al parámetro day= y, al mismo tiempo,
# deja que la variable track_list almacene las filas df en las que
# el valor del nombre de la columna ‘city’ sea igual al parámetro city= (aplica el filtrado consecutivo
# con indexación lógica)
# deja que la variable track_list_count almacene el número de valores de la columna 'user_id' en track_list
# (igual al número de filas en track_list después de filtrar dos veces).
# permite que la función devuelva un número: el valor de track_list_count.

# la función cuenta las pistas reproducidas en un cierto día y ciudad.
# primero recupera las filas del día deseado de la tabla,
# después filtra las filas de la ciudad deseada del resultado,
# luego encuentra el número de pistas en la tabla filtrada,
# y devuelve ese número.
# para ver lo que devuelve, envuelve la llamada de la función en print().



Llama a `number_tracks()` seis veces, cambiando los valores de los parámetros, para que recuperes los datos de ambas ciudades para cada uno de los tres días.

In [24]:
result_msp = number_tracks(df, 'Monday', 'Springfield') # el número de canciones reproducidas en Springfield el lunes
(result_msp)

15740

In [25]:
result_msh = number_tracks(df, 'Monday', 'Shelbyville')
(result_msh) # el número de canciones reproducidas en Shelbyville  el lunes


5614

In [26]:
result_wsp = number_tracks(df, 'Wednesday', 'Springfield')
(result_wsp)# el número de canciones reproducidas en Springfield el miércoles


11056

In [27]:
result_wsh = number_tracks(df, 'Wednesday', 'Shelbyville')
print(result_wsh)# el número de canciones reproducidas en Shelbyville el miércoles


7003


In [28]:
result_fsp = number_tracks(df, 'Friday', 'Springfield')# el número de canciones reproducidas en Springfield el viernes
(result_fsp)

15945

In [29]:
result_fsh = number_tracks(df, 'Friday', 'Shelbyville')# el número de canciones reproducidas en Shelbyville el viernes
(result_fsh)

5895

Utiliza `pd.DataFrame` para crear una tabla, donde
* los encabezados de la tabla son: `['city', 'monday', 'wednesday', 'friday']`
* Los datos son los resultados que conseguiste de `number_tracks()`

In [30]:

# Definir ciudades y dias
cities = ['Springfield', 'Shelbyville']
days = ['Monday', 'Wednesday', 'Friday']

# Crear diccionario vacio
new_results = {'city': cities}

# Iterar por dias y ciudades para obtener track counts
for day in days:
    counts = [number_tracks(df, day, city) for city in cities]
    new_results[day.lower()] = counts

# Crear el DataFrame con los resultados del diccionario.
df_result = pd.DataFrame(new_results)

(df_result)

Unnamed: 0,city,monday,wednesday,friday
0,Springfield,15740,11056,15945
1,Shelbyville,5614,7003,5895


**Conclusiones**

`Comente si la primera hipótesis es correcta o debe rechazarse. Explicar tu razonamiento`
La primera hipótesis afirma que existen diferencias en la forma en que los usuarios y las usuarias de Springfield y Shelbyville consumen música
La primera hipótesis es correcta. Si existen diferencias en la manera cómo los usuarios y usuarias  consumen música en cada ciudad. Por ejemplo, el día con más actividad de reproducciones en Springfield son los viernes, mientras que en Shelbyville son los miércoles. En contraste, el miércoles es el día menos preferido en Springfield para escuchar música. A los habitantes de Shelbyville no les sienta bien escuchar música los lunes, mientras que en Springfield es el segundo día con más reproducciones.




<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo con la función y con la tabla de resultados.
</div>

[Volver a Contenidos](#back)

### Hipótesis 2: música al principio y al final de la semana <a id='week'></a>

Según la segunda hipótesis, el lunes por la mañana y el viernes por la noche, los ciudadanos de Springfield escuchan géneros que difieren de los que disfrutan los usuarios de Shelbyville.

Cree dos tablas con los nombres proporcionados en los dos bloques de código a continuación:
* Para Springfield — `spr_general`
* Para Shelbyville — `shel_general`

In [31]:
spr_general = df[df['city'] == 'Springfield']# crear la tabla spr_general a partir de las filas df
spr_general# donde los valores en la columna 'city' es 'Springfield'


Unnamed: 0,index,user_id,track,artist,genre,city,time,day
1,1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
4,4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
6,6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
...,...,...,...,...,...,...,...,...
61247,65073,83A474E7,I Worship Only What You Bleed,The Black Dahlia Murder,extrememetal,Springfield,21:07:12,Monday
61248,65074,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
61250,65076,C5E3A0D5,Jalopiina,unknown,industrial,Springfield,20:09:26,Friday
61251,65077,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday


In [32]:
shel_general= df[df['city'] == 'Shelbyville'] # crear la tabla shel_general a partir de las filas df
shel_general# donde los valores en la columna 'city' es 'Shelbyville'


Unnamed: 0,index,user_id,track,artist,genre,city,time,day
0,0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
2,2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
5,5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
9,9,E772D5C0,Pessimist,unknown,dance,Shelbyville,21:20:49,Wednesday
...,...,...,...,...,...,...,...,...
61239,65063,D94F810B,Theme from the Walking Dead,Proyecto Halloween,film,Shelbyville,21:14:40,Monday
61240,65064,BC8EC5CF,Red Lips: Gta (Rover Rework),Rover,electronic,Shelbyville,21:06:50,Monday
61241,65065,29E04611,Bre Petrunko,Perunika Trio,world,Shelbyville,13:56:00,Monday
61242,65066,1B91C621,(Hello) Cloud Mountain,sleepmakeswaves,postrock,Shelbyville,09:22:13,Monday


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo.</div>

Escribe la función `genre_weekday()` con cuatro parámetros:
* Una tabla para los datos (`df`)
* El día de la semana (`day`)
* La marca de fecha y hora en formato 'hh:mm:ss' (`time1`)
* La marca de fecha y hora en formato 'hh:mm:ss' (`time2`)

La función debe devolver los 15 géneros más populares en un día específico dentro del período definido por las dos marcas de tiempo, junto con sus respectivos recuentos de reproducción.
Aplica la misma lógica de filtrado consecutiva, pero usa cuatro filtros esta vez y luego crea una nueva columna con los recuentos de reproducción respectivos.
Ordena el resultado de un recuento más grande a uno más pequeño y devuélvelo.

In [33]:
# 1) Deja que la variable genre_df almacene las filas que cumplen varias condiciones:
#    - el valor de la columna 'day' es igual al valor del argumento day=
#    - el valor de la columna 'time' es mayor que el valor del argumento time1=
#    - el valor en la columna 'time' es menor que el valor del argumento time2=
#    Utiliza un filtrado consecutivo con indexación lógica.

def genre_weekday(df, day, time1, time2):
    
    genre_df = df[(df['day'] == day) & (df['time'] > time1) & (df['time'] < time2)]
    genre_df_count = genre_df.groupby('genre')['genre'].count()
    genre_df_sorted = genre_df_count.sort_values(ascending=False)
    return genre_df_sorted[:15]

# 2) Agrupa genre_df por la columna 'genre', toma una de sus columnas,
#    y utiliza el método size() para encontrar el número de entradas por cada uno de
#    los géneros representados; almacena los Series resultantes en
#    la variable genre_df_count

                                 

# 3) Ordena genre_df_count en orden descendente de frecuencia y guarda el resultado
#    en la variable genre_df_sorted


# 4) Devuelve un objeto Series con los primeros 15 valores de genre_df_sorted - los 15
#    géneros más populares (en un determinado día, en un determinado periodo de tiempo)



Compara los resultados de la función `genre_weekday()` para Springfield y Shelbyville el lunes por la mañana (de 7 a 11) y el viernes por la tarde (de 17:00 a 23:00). Utiliza el mismo formato de hora de 24 horas que el conjunto de datos (por ejemplo, 05:00 = 17:00:00):

In [34]:
result_mmsp = genre_weekday(spr_general, 'Monday', '07:00:00' ,'11:00:00')# el número de canciones reproducidas en Springfield el lunes
(result_mmsp)
# llamando a la función para el lunes por la mañana en Springfield (utilizando spr_general en vez de la tabla df)


genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
classical      157
metal          120
jazz           100
folk            97
soundtrack      95
Name: genre, dtype: int64

In [35]:
result_mmsh = genre_weekday(shel_general, 'Monday', '07:00:00', '11:00:00')# llamando a la función para el lunes por la mañana en Shelbyville (utilizando shel_general en vez de la tabla df)
(result_mmsh)

genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
world           36
rap             32
soundtrack      31
rnb             27
metal           27
Name: genre, dtype: int64

In [36]:
result_fasp = genre_weekday(spr_general, 'Friday', '17:00:00', '23:00:00')# llamando a la función para el viernes por la tarde en Springfield
result_fasp

genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
classical      163
alternative    163
rusrap         142
jazz           111
unknown        110
soundtrack     105
rnb             90
metal           88
Name: genre, dtype: int64

In [37]:
result_fash = genre_weekday(shel_general, 'Friday', '17:00:00', '23:00:00')# llamando a la función para el viernes por la tarde en Shelbyville
result_fash

genre
pop            256
rock           216
electronic     216
dance          210
hiphop          97
alternative     63
jazz            61
classical       60
rusrap          59
world           54
unknown         47
ruspop          47
soundtrack      40
metal           39
rap             36
Name: genre, dtype: int64

**Conclusiones**

`Comente si la segunda hipótesis es correcta o debe rechazarse. Explica tu razonamiento.`
Según la segunda hipótesis, el lunes por la mañana y el viernes por la noche, los ciudadanos de Springfield escuchan géneros que difieren de los que disfrutan los usuarios de Shelbyville.

Creo que la segunda hipótesis no se puede aceptar o rechazar por completo. Por ejemplo, el pop, sigue siendo el género dominante en ambas ciudades, tanto los lunes y viernes en ambos horarios. También el dance, es el segundo favorito en ambas ciudades los lunes. Por otro lado, como tercera opción Springfield prefiere la música electrónica, mientras que Shelbyville el rock.

De igual manera los viernes por la tarde ambas ciudades muestran preferencia por pop y rock respectivamente. El tercer género más popular los viernes por la tarde en Springfield es el dance y en Shelbyville la música electrónica. 

Conforme se avanza en la lista de los géneros más populares, se pueden notar más variaciones en los gustos de ambas poblaciones.


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Excelente, muy buen trabajo con la función.
</div>

[Volver a Contenidos](#back)

### Hipótesis 3: preferencias de género en Springfield y Shelbyville <a id='genre'></a>

Hipótesis: Shelbyville ama la música rap. A los residentes de Springfield les gusta más el pop.

Agrupa la tabla `spr_general` por género y encuentra el número de canciones reproducidas de cada género con el método `count()`. Luego ordena el resultado en orden descendente y guárdalo en la variable `spr_genres`.

In [38]:
# escribe una línea de código que:
# 1. agrupe la tabla spr_general por la columna 'genre';

spr_genres = spr_general.groupby('genre')['genre'].count()


# 2. cuente los valores 'genre' con count() en la agrupación;
# 3. ordene el Series resultante en orden descendente y lo guarde en spr_genres.
spr_genres = spr_genres.sort_values(ascending=False)

Imprime las 10 primeras filas de `spr_genres`:

In [39]:
# muestra los primeros 10 valores de spr_genres
spr_genres.head(10)

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: genre, dtype: int64

Ahora haz lo mismo con los datos de Shelbyville.

Agrupa la tabla `shel_general` por género y encuentra el número de canciones reproducidas de cada género. Después, ordena el resultado en orden descendente y guárdalo en la tabla `shel_genres`:


In [40]:
# escribe una línea de código que:
# 1. agrupe la tabla spr_general por la columna 'genre';

shel_genres = shel_general.groupby('genre')['genre'].count()


# 2. cuente los valores 'genre' con count() en la agrupación;
# 3. ordene el Series resultante en orden descendente y lo guarde en spr_genres.
shel_genres = shel_genres.sort_values(ascending=False)# escribi una línea de código que:
# 1. agrupe la tabla shel_general por la columna 'genre';
# 2. cuente los valores 'genre' con count() en la agrupación;
# 3. ordene el Series resultante en orden descendente y lo guarde en shel_genres.


Imprime las 10 primeras filas de `shel_genres`:

In [41]:
# imprimir las 10 primeras filas de shel_genres
shel_genres.head(10)

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: genre, dtype: int64

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo.
</div>

**Conclusión**

`Comente si la tercera hipótesis es correcta o debe rechazarse. Explica tu razonamiento.`
Hipótesis: Shelbyville ama la música rap. A los residentes de Springfield les gusta más el pop.

Mientras que el rap es mas popular en Shelbyville (es el octavo genero mas popular, mientras que en Springfield esta el final de la lista, el genero predominante en ambas ciudades es el rap.

Entonces Shelbyville disfruta mas el rap, pero esta ni siquiera dentro de los tres mas populares. Ambas ciudades aman el pop.

Con la informacion disponible se tiene que rechazar la hipótesis de que Shelbyville ama la música rap y los residentes de Springfield les gusta más el pop.




[Volver a Contenidos](#back)

# Conclusiones <a id='end'></a>

`Resuma sus conclusiones sobre cada hipótesis aquí`

1. De la primera hipótesis podemos concluir que si existen diferencias en los hábitos en como los habitantes de cada ciudad escuchan música. Springfield prefiere los viernes, mientras que Shelbyville los miércoles.

2. Creo que la segunda hipótesis no se puede aceptar o rechazar por completo. Los dos géneros más populares en ambas ciudades tanto lunes en la mañana como viernes en la tarde son los mismos. Se presenta más variación en los géneros menos populares.

3. Con la información disponible se tiene que rechazar la tercera hipótesis. Se puede decir que a Shelbyville le gusta más el rap que a Springfield, pero definitivamente no es su género favorito. El pop es favorito en ambas poblaciones.







### Nota
En proyectos de investigación reales, la prueba de hipótesis estadística es más precisa y cuantitativa. También ten en cuenta que no siempre se pueden sacar conclusiones sobre una ciudad entera a partir de datos de una sola fuente.

Aprenderás más sobre la prueba de hipótesis en el sprint de análisis estadístico de datos.

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
# Comentario General
    
Hola Bianca.Te felicito por el desarrollo del proyecto hasta el momento, ahora bien, debes tener en cuenta los comentarios que he generado para la próxima entrega.
</div>


**Gracias por los comentarios, los tendre en cuenta para futuros proyectos. Remplace print() por display(), sin embargo no me quedo claro si necesito hacer algo mas.

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
# Comentario General #2
    
Hola Bianca. No es necesario ningún otro cambio, en realidad tu proyecto ya es de muy alta calidad. Te felicito por culminar el proyecto.
</div>

[Volver a Contenidos](#back)