# Hola Juan!

Mi nombre es David Bautista, soy code reviewer de Tripleten y hoy tengo el gusto de revisar tu proyecto.

Cuando vea un error la primera vez, lo señalaré. Deberás encontrarlo y arreglarlo. La intención es que te prepares para un espacio real de trabajo. En un trabajo, el líder de tu equipo hará lo mismo. Si no puedes solucionar el error, te daré más información en la próxima ocasión.

Encontrarás mis comentarios más abajo - por favor, no los muevas, no los modifiques ni los borres.

¿Cómo lo voy a hacer? Voy a leer detenidamente cada una de las implementaciones que has llevado a cabo para cumplir con lo solicitado. Verás los comentarios de esta forma:

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Si todo está perfecto.
</div>


<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>


<div class="alert alert-block alert-danger">
    
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
    
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>


Puedes responderme de esta forma: 

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
</div>

¡Empecemos!


# Déjame escuchar la música

# Contenido <a id='back'></a>

* [Introducción](#intro)
* [Etapa 1. Descripción de los datos](#data_review)
    * [Conclusiones](#data_review_conclusions)
* [Etapa 2. Preprocesamiento de datos](#data_preprocessing)
    * [2.1 Estilo del encabezado](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusiones](#data_preprocessing_conclusions)
* [Etapa 3. Prueba de hipótesis](#hypotheses)
    * [3.1 Hipótesis 1: actividad de los usuarios y las usuarias en las dos ciudades](#activity)
    * [3.2 Hipótesis 2: preferencias musicales los lunes y los viernes](#week)
    * [3.3 Hipótesis 3: preferencias de género en Springfield y Shelbyville](#genre)
* [Conclusiones](#end)

## Introducción <a id='intro'></a>
Como analista de datos, tu trabajo consiste en analizar datos para extraer información valiosa y tomar decisiones basadas en datos. Esto implica diferentes etapas, como la descripción general de los datos, el preprocesamiento y la prueba de hipótesis.

Siempre que investigamos, necesitamos formular hipótesis que después podamos probar. A veces aceptamos estas hipótesis; otras, las rechazamos. Para tomar las decisiones correctas, una empresa debe ser capaz de entender si está haciendo las suposiciones correctas.

En este proyecto, compararás las preferencias musicales de las ciudades de Springfield y Shelbyville. Estudiarás datos reales de transmisión de música online para probar las hipótesis a continuación y comparar el comportamiento de los usuarios y las usuarias de estas dos ciudades.

### Objetivo:
Prueba tres hipótesis:
1. La actividad de los usuarios y las usuarias difiere según el día de la semana y dependiendo de la cuidad.
2. Los lunes por la mañana, los habitantes de Springfield y Shelbyville escuchan géneros distintos. Lo mismo ocurre con los viernes por la noche.
3. Los oyentes de Springfield y Shelbyville tienen preferencias distintas. En Springfield prefieren el pop, mientras que en Shelbyville hay más personas a las que les gusta el rap.

### Etapas
Los datos del comportamiento del usuario se almacenan en el archivo `/datasets/music_project_en.csv`. No hay ninguna información sobre la calidad de los datos, así que necesitarás examinarlos antes de probar las hipótesis.

Primero, evaluarás la calidad de los datos y verás si los problemas son significativos. Entonces, durante el preprocesamiento de datos, tomarás en cuenta los problemas más críticos.

Tu proyecto consistirá en tres etapas:
 1. Descripción de los datos
 2. Preprocesamiento de datos
 3. Prueba de hipótesis


### Reto

En este proyecto, preparamos un pequeño reto para ti. Incluimos un nuevo tipo de estructura de datos: las marcas temporales. Las marcas temporales son muy comunes y merecen una atención adicional. Más adelante en el programa, aprenderás mucho sobre ellas. Sin embargo, por ahora las trataremos como simples strings. Necesitamos marcas temporales en este proyecto para poner a prueba una de nuestras hipótesis. No te preocupes, te ayudaremos con esto. Tu nivel de conocimientos actual será suficiente para abordarlo.

Por ejemplo, digamos que tenemos dos marcas temporales: `dt1 = "12:00:00"` y `dt2 = "06:00:00"`. Queremos comparar estas dos marcas temporales y ver cuál es posterior.

Podemos compararlas mediante los operadores de comparación estándar (`<`, `>`, `<=`, `>=`, `==`, `!=`). Ejecuta la siguiente celda de código para comparar dos marcas temporales:


In [None]:
# Comparar los objetos datetime

dt1 = "12:00:00"
dt2 = "06:00:00"

if dt1 < dt2:
    print("La marca temporal 2 es posterior")
else:
    print("La marca temporal 1 es posterior")

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Muy bien, recuerda que para todo los proyectos que realices es importante genera un contexto donde se comente que trata el caso y cuáles con los objetivos a cumplir, además es indispensable que se genere una tabla de contenido con el fin de mantener el orden en la entrega. Buen trabajo con el reto.
</div>

[Volver a Contenidos](#back)

## Etapa 1. Descripción de los datos <a id='data_review'></a>

Abre los datos y examínalos.

Necesitarás `pandas`, así que impórtalo.

In [7]:
import pandas as pd


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo importando ``pandas``.
</div>

Si estás trabajando en la plataforma, lee el archivo `music_project_en.csv` de la carpeta /datasets/ y guárdalo en la variable `df`. Si estás trabajando localmente, no es necesario especificar carpeta alguna siempre y cuando el archivo `music_project_en.csv` esté en la misma carpeta que este Notebook:

In [8]:
df = pd.read_csv('/datasets/music_project_en.csv')


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo con el cargue de los datos.
</div>

Muestra las 10 primeras filas de la tabla:

In [9]:
df.head(10)


Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


Obtén la información general sobre la tabla con un comando:

In [10]:
df.describe()


Unnamed: 0,userID,Track,artist,genre,City,time,Day
count,65079,63736,57512,63881,65079,65079,65079
unique,41748,39666,37806,268,2,20392,3
top,A8AE9169,Brand,Kartvelli,pop,Springfield,08:14:07,Friday
freq,76,136,136,8850,45360,14,23149


Estas son nuestras observaciones sobre la tabla. Contiene siete columnas. Almacenan los mismos tipos de datos: `object`.

Según la documentación:
- `'userID'` — identificador de usuario
- `'Track'` — título de la canción
- `'artist'` — nombre del cantante o grupo
- `'genre'` — género de la pista
- `'City'` — ciudad del usuario
- `'time'` — la hora exacta en la que se escuchó la canción
- `'Day'` — día de la semana

Podemos ver tres problemas con el estilo en los encabezados de la tabla:
1. Algunos encabezados están en mayúsculas, otros en minúsculas.
2. Hay espacios en algunos encabezados.
3. `Detectar el tercer problema por tu cuenta y descríbelo aquí`.




<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo con el uso de estos componentes de exploración inicial de los datos.</div>

### Tus observaciones <a id='data_review_conclusions'></a>


1.   En la base de datos que se entrega encontramos que todos los datos tienen formato de Sting, los cuales están divididos en 7 columnas con sus respectivos nombre, los cuales deben ser corregidos para su mejor procesamiento.

2.   Se cuenta con gran cantidad de datos suficientes para realizar un análisis adecuado.

3.   Aunque se encuentran gran cantidad de valores ausentes o nulos, es posible sustituirlos por otros valores, sin que estos afecten el análisis correcto de los datos entregados.



<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo con la sección.</div>

[Volver a Contenidos](#back)

## Etapa 2. Preprocesamiento de datos <a id='data_preprocessing'></a>

El objetivo aquí es preparar los datos para que sean analizados.
El primer paso es resolver cualquier problema con los encabezados. Luego podemos avanzar a los valores ausentes y duplicados. Empecemos.

Corrige el formato en los encabezados de la tabla.


### Estilo del encabezado <a id='header_style'></a>
Muestra los encabezados de la tabla:

In [11]:
df.columns


Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

Cambia los encabezados de la tabla de acuerdo con las reglas del buen estilo:
* todos los caracteres deben ser minúsculas;
* elimina los espacios;
* si el nombre tiene varias palabras, utiliza snake_case.

Pon todos los caracteres en minúsculas e imprime el encabezado de la tabla de nuevo:

In [12]:
new_col_names = []

for old_name in df.columns:
    name_lowered = old_name.lower()
    name_stripped = name_lowered.strip()
    new_col_names.append(name_stripped)
    
    
df.columns = new_col_names


df.columns

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

Ahora elimina los espacios al principio y al final de los encabezados y muéstralos:

Aplica snake_case al encabezado userID e imprime el encabezado de la tabla:

In [13]:
df.rename(columns={'userid': 'user_id',},inplace = True)


Comprueba el resultado. Muestra los encabezados una vez más:

In [14]:
print(df.columns)


Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo modificando el nombre de las columnas.
</div>


[Volver a Contenidos](#back)

### Valores ausentes <a id='missing_values'></a>
Primero, encuentra el número de valores ausentes en la tabla. Para ello, utiliza dos métodos `pandas`:

In [15]:
# calcular el número de valores ausentes
df.isna().sum()


user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64

No todos los valores ausentes afectan a la investigación. Por ejemplo, los valores ausentes en `track` y `artist` no son cruciales. Simplemente puedes reemplazarlos con valores predeterminados como el string `'unknown'` (desconocido).

Pero los valores ausentes en `'genre'` pueden afectar la comparación entre las preferencias musicales de Springfield y Shelbyville. En la vida real, sería útil saber las razones por las cuales hay datos ausentes e intentar recuperarlos. Pero no tenemos esa oportunidad en este proyecto. Así que tendrás que:
* rellenar estos valores ausentes con un valor predeterminado;
* evaluar cuánto podrían afectar los valores ausentes a tus cómputos;

Reemplazar los valores ausentes en `'track'`, `'artist'` y `'genre'` con el string `'unknown'`. Para hacer esto, crea la lista `columns_to_replace`, recorre sobre ella con un bucle `for`, y para cada columna reemplaza los valores ausentes en ella:

In [16]:
# bucle en los encabezados reemplazando los valores ausentes con 'unknown'
columns_to_replace = ['track', 'artist', 'genre']

for col in columns_to_replace:
    df[col].fillna('unknown', inplace=True)

Asegúrate de que la tabla no contiene más valores ausentes. Cuenta de nuevo los valores ausentes.

In [17]:
# contando valores ausentes
print(df.isna().sum()) 

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo solucionando el problema de los valores nulos.
</div>

[Volver a Contenidos](#back)

### Duplicados <a id='duplicates'></a>
Encuentra el número de duplicados explícitos en la tabla usando un comando:

In [18]:
# contar duplicados explícitos
print(df.duplicated().sum())

3826


Llama al método `pandas` para deshacerte de los duplicados explícitos:

In [19]:
# eliminar duplicados explícitos
df = df.drop_duplicates().reset_index(drop=True)

Cuenta los duplicados explícitos una vez más para asegurarte de haberlos eliminado todos:

In [20]:
# comprobación de duplicados
print(df.duplicated().sum())

0


<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
~~Has realizado un buen trabajo. No obstante, es importante que consideres que al eliminar los duplicados se puede generar un problema con la indexación de la tabla. Para resolverlo, puedes seguir este ejemplo:~~
    
```python
df = df.drop_duplicates().reset_index(drop=True)    
```    
</div>

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
    
    Muchas gracias por el comentario, no lo había tenido en cuenta, aunque si vi que la indexación había cambiado y no era consecutiva.
</div>


<div class="alert alert-block alert-success">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
Buen trabajo Juan.
</div>

Ahora queremos deshacernos de los duplicados implícitos en la columna `genre`. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar al resultado.

Para hacerlo, primero imprimamos una lista de nombres de género únicos, ordenados en orden alfabético. Para hacerlo:
* recupera la columna deseada del dataFrame;
* llama al método que te devolverá todos los valores de columna únicos;
* aplica un método de ordenamiento a tu resultado.


In [21]:
# inspeccionar los nombres de género únicos
unique_names = sorted(df['genre'].unique())

for name in unique_names:
    print(name)


acid
acoustic
action
adult
africa
afrikaans
alternative
ambient
americana
animated
anime
arabesk
arabic
arena
argentinetango
art
audiobook
avantgarde
axé
baile
balkan
beats
bigroom
black
bluegrass
blues
bollywood
bossa
brazilian
breakbeat
breaks
broadway
cantautori
cantopop
canzone
caribbean
caucasian
celtic
chamber
children
chill
chinese
choral
christian
christmas
classical
classicmetal
club
colombian
comedy
conjazz
contemporary
country
cuban
dance
dancehall
dancepop
dark
death
deep
deutschrock
deutschspr
dirty
disco
dnb
documentary
downbeat
downtempo
drum
dub
dubstep
eastern
easy
electronic
electropop
emo
entehno
epicmetal
estrada
ethnic
eurofolk
european
experimental
extrememetal
fado
film
fitness
flamenco
folk
folklore
folkmetal
folkrock
folktronica
forró
frankreich
französisch
french
funk
future
gangsta
garage
german
ghazal
gitarre
glitch
gospel
gothic
grime
grunge
gypsy
handsup
hard'n'heavy
hardcore
hardstyle
hardtechno
hip
hip-hop
hiphop
historisch
holiday
hop
horror
house
idm
i

Busca en la lista para encontrar duplicados implícitos del género `hiphop`. Estos pueden ser nombres escritos incorrectamente o nombres alternativos para el mismo género.

Verás los siguientes duplicados implícitos:
* `hip`
* `hop`
* `hip-hop`

Para deshacerte de ellos, declara la función `replace_wrong_genres()` con dos parámetros:
* `wrong_genres=` — la lista de duplicados;
* `correct_genre=` — el string con el valor correcto.

La función debería corregir los nombres en la columna `'genre'` de la tabla `df`, es decir, remplaza cada valor de la lista `wrong_genres` con el valor en `correct_genre`. Utiliza un bucle `'for'` para iterar sobre la lista de géneros incorrectos y reemplazarlos con el género correcto en la lista principal.

In [22]:
# función para reemplazar duplicados implícitos
def replace_wrong_values(df, column, wrong_values, correct_value):
    for wrong_value in wrong_values:
        df[column] = df[column].replace(wrong_value, correct_value)
    return df 

duplicates = ['hip', 'hop', 'hip-hop']
name = 'hiphop'

 

Llama a `replace_wrong_genres()` y pásale argumentos para que retire los duplicados implícitos (`hip`, `hop` y `hip-hop`) y los reemplace por `hiphop`:

In [23]:
# eliminar duplicados implícitos
df = replace_wrong_values(df, 'genre', duplicates, name)
df

Unnamed: 0,user_id,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
...,...,...,...,...,...,...,...
61248,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
61249,D08D4A55,Maybe One Day (feat. Black Spade),Blu & Exile,hiphop,Shelbyville,10:00:00,Monday
61250,C5E3A0D5,Jalopiina,unknown,industrial,Springfield,20:09:26,Friday
61251,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday


Asegúrate de que los nombres duplicados se hayan eliminado. Muestra la lista de valores únicos de la columna `'genre'` una vez más:

In [24]:
# comprobación de duplicados implícitos
unique_names = sorted(df['genre'].unique())

for name in unique_names:
    print(name)
    

print()
print('Total generos:')
print(df['genre'].nunique()) 


acid
acoustic
action
adult
africa
afrikaans
alternative
ambient
americana
animated
anime
arabesk
arabic
arena
argentinetango
art
audiobook
avantgarde
axé
baile
balkan
beats
bigroom
black
bluegrass
blues
bollywood
bossa
brazilian
breakbeat
breaks
broadway
cantautori
cantopop
canzone
caribbean
caucasian
celtic
chamber
children
chill
chinese
choral
christian
christmas
classical
classicmetal
club
colombian
comedy
conjazz
contemporary
country
cuban
dance
dancehall
dancepop
dark
death
deep
deutschrock
deutschspr
dirty
disco
dnb
documentary
downbeat
downtempo
drum
dub
dubstep
eastern
easy
electronic
electropop
emo
entehno
epicmetal
estrada
ethnic
eurofolk
european
experimental
extrememetal
fado
film
fitness
flamenco
folk
folklore
folkmetal
folkrock
folktronica
forró
frankreich
französisch
french
funk
future
gangsta
garage
german
ghazal
gitarre
glitch
gospel
gothic
grime
grunge
gypsy
handsup
hard'n'heavy
hardcore
hardstyle
hardtechno
hiphop
historisch
holiday
horror
house
idm
independent
india

[Volver a Contenidos](#back)

### Tus observaciones <a id='data_preprocessing_conclusions'></a>

Al hacer un repaso de la base de datos dada, se encuentra algunos errores de digitalizacion en los nombres de los generos musicales, puntualmente en el con el genero Hip-Hop, este genero fue nombrado de varias formas como lo fueron: 'hip', 'hop', 'hip-hop'. Para evitar confuciones mas adelante se decide unificar el nombre a 'hiphop'. Con esto tenemos como resultado un total de 266 generos musicales en la base de datos.


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo solucionando el problema de los valores duplicados no tan obvios.
</div>

[Volver a Contenidos](#back)

## Etapa 3. Prueba de hipótesis <a id='hypotheses'></a>

### Hipótesis 1: comparar el comportamiento del usuario en las dos ciudades <a id='activity'></a>

La primera hipótesis afirma que existen diferencias en la forma en que los usuarios y las usuarias de Springfield y Shelbyville consumen música. Para comprobar esto, usa los datos de tres días de la semana: lunes, miércoles y viernes.

* Agrupa a los usuarios y las usuarias por ciudad.
* Compara el número de pistas que cada grupo reprodujo el lunes, el miércoles y el viernes.


Realiza cada cálculo por separado.

El primer paso es evaluar la actividad del usuario en cada ciudad. Agrupa los datos por ciudad y encuentra el número de canciones reproducidas en cada grupo.



In [25]:
# contando las pistas reproducidas en cada ciudad
user_city= (df.groupby('city')['user_id'])

user_city.count() 


city
Shelbyville    18512
Springfield    42741
Name: user_id, dtype: int64

`Se logra evidenciar que los oyentes de Springfield duplican en tamaño a los de Shelbyville`

Ahora agrupa los datos por día de la semana y encuentra el número de pistas reproducidas el lunes, el miércoles y el viernes.


In [26]:
# Cálculo de las pistas reproducidas cada día de la semana

df.groupby('day')['track'].count()

day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
~~Buen trabajo con la ejecución de estas primeras agrupaciones; sin embargo, lo único que podría mejorar es que la de los días podría ser simplificada en una sola tabla, te mostraré una idea.~~
    
```python
df.groupby('day')['track'].count()
```

~~Así mismo, el primer  agrupamiento podrías corregirlo usando la estructura anterior. Fíjate que se usa el elemento de agrupamiento y así mismo se selecciona la columna sobre la cual se quieren ver los cálculos.~~
</div>

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
    
    Muchas gracias por sugerencia, es una solución mucho más simple y rápida a la que inicialmente hice y no lo había pensado así.
    
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
Buen trabajo, Juan, me alegra que te gaya servido la idea.
</div>

**Conclusiones**

`Aunque la escucha en los días es muy parecida, los viernes es el día que más se escucha música, seguido por los lunes y en menor medida los miércoles.`

Ya sabes cómo contar entradas agrupándolas por ciudad o día. Ahora necesitas escribir una función que pueda contar entradas según ambos criterios simultáneamente.

Crea la función `number_tracks()` para calcular el número de canciones reproducidas en un determinado día **y** ciudad. La función debe aceptar dos parámetros:

- `day`: un día de la semana para filtrar. Por ejemplo, `'Monday'`.
- `city`: ciudad: una ciudad para filtrar. Por ejemplo, `'Springfield'`.

Dentro de la función, aplicarás un filtrado consecutivo con indexación lógica.

Primero filtra los datos por día y luego filtra la tabla resultante por ciudad.

Después de filtrar los datos por dos criterios, cuenta el número de valores de la columna 'user_id' en la tabla resultante. Este recuento representa el número de entradas que estás buscando. Guarda el resultado en una nueva variable y devuélvelo desde la función.

In [27]:
# <crear la función number_tracks()>
# declararemos la función con dos parámetros: day=, city=.
# deja que la variable track_list almacene las filas df en las que
# el valor del nombre de la columna ‘day’ sea igual al parámetro day= y, al mismo tiempo,
# el valor del nombre de la columna ‘city’ sea igual al parámetro city= (aplica el filtrado consecutivo
# con indexación lógica)
# deja que la variable track_list_count almacene el número de valores de la columna 'user_id' en track_list
# (igual al número de filas en track_list después de filtrar dos veces).
# permite que la función devuelva un número: el valor de track_list_count.

# la función cuenta las pistas reproducidas en un cierto día y ciudad.
# primero recupera las filas del día deseado de la tabla,
# después filtra las filas de la ciudad deseada del resultado,
# luego encuentra el número de pistas en la tabla filtrada,
# y devuelve ese número.
# para ver lo que devuelve, envuelve la llamada de la función en print().


# empieza a escribir tu código aquí

def number_tracks(df, day, city):
    track_list= df[(df['day'] == day) & (df['city'] == city)]
    track_list_count = len(track_list)
    
    return track_list_count


Llama a `number_tracks()` seis veces, cambiando los valores de los parámetros, para que recuperes los datos de ambas ciudades para cada uno de los tres días.

In [28]:
# el número de canciones reproducidas en Springfield el lunes
Springfield_lunes= number_tracks(df, 'Monday', 'Springfield')
print(f'número de canciones reproducidas en Springfield el lunes {Springfield_lunes}')

número de canciones reproducidas en Springfield el lunes 15740


In [29]:
# el número de canciones reproducidas en Shelbyville el lunes
Shelbyville_lunes= number_tracks(df, 'Monday', 'Shelbyville')
print(f'número de canciones reproducidas en Shelbyville el lunes {Shelbyville_lunes}')

número de canciones reproducidas en Shelbyville el lunes 5614


In [30]:
# el número de canciones reproducidas en Springfield el miércoles
Springfield_miércoles= number_tracks(df, 'Wednesday', 'Springfield')
print(f'número de canciones reproducidas en Springfield el miércoles {Springfield_miércoles}')

número de canciones reproducidas en Springfield el miércoles 11056


In [31]:
# el número de canciones reproducidas en Shelbyville el miércoles
Shelbyville_miércoles= number_tracks(df, 'Wednesday', 'Shelbyville')
print(f'número de canciones reproducidas en Shelbyville el miércoles {Shelbyville_miércoles}')

número de canciones reproducidas en Shelbyville el miércoles 7003


In [32]:
# el número de canciones reproducidas en Springfield el viernes
Springfield_viernes= number_tracks(df, 'Friday', 'Springfield')
print(f'número de canciones reproducidas en Springfield el viernes {Springfield_viernes}')

número de canciones reproducidas en Springfield el viernes 15945


In [33]:
# el número de canciones reproducidas en Shelbyville el viernes
Shelbyville_viernes= number_tracks(df, 'Friday', 'Shelbyville')
print(f'número de canciones reproducidas en Shelbyville el viernes {Shelbyville_viernes}')

número de canciones reproducidas en Shelbyville el viernes 5895


Utiliza `pd.DataFrame` para crear una tabla, donde
* los encabezados de la tabla son: `['city', 'monday', 'wednesday', 'friday']`
* Los datos son los resultados que conseguiste de `number_tracks()`

In [34]:
# tabla con los resultados
columnas= ['city', 'monday', 'wednesday', 'friday']
datos= [
    ['Springfield', 15740, 11056, 15945],
    ['Shelbyville', 5614, 7003, 5895]
] 

city_day_track = pd.DataFrame(data=datos , columns=columnas)

city_day_track

Unnamed: 0,city,monday,wednesday,friday
0,Springfield,15740,11056,15945
1,Shelbyville,5614,7003,5895


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo con la función y con la tabla de resultados.</div>

**Conclusiones**

A partir de los resultados arrojados del análisis de la base de datos podemos afirmar que la hipótesis: “La actividad de los usuarios y las usuarias difiere según el día de la semana y dependiendo de la cuidad.” Es totalmente aceptada debido que:
-	La actividad de los usuarios de las dos ciudades es totalmente diferente en cuanto a reproducciones, siendo los usuarios de Springfield lo que mayor actividad presentan, doblando la cantidad de canciones escuchadas por los usuarios de Shelbyville.
-	Los días con mayor actividad también varían dependiendo de la ciudad. Siendo los lunes y los viernes (siendo los viernes levemente mayor que los lunes) los días con mas reproducciones en Springfield; a diferencia de Shelbyville donde el día con mayor actividad viene siendo los miércoles seguido por los viernes y por ultimo los lunes, aunque estos dos últimos días las reproducciones son muy similares. 


[Volver a Contenidos](#back)

### Hipótesis 2: música al principio y al final de la semana <a id='week'></a>

Según la segunda hipótesis, el lunes por la mañana y el viernes por la noche, los ciudadanos de Springfield escuchan géneros que difieren de los que disfrutan los usuarios de Shelbyville.

Cree dos tablas con los nombres proporcionados en los dos bloques de código a continuación:
* Para Springfield — `spr_general`
* Para Shelbyville — `shel_general`

In [35]:
# crear la tabla spr_general a partir de las filas df
# donde los valores en la columna 'city' es 'Springfield'
spr_general= df[df['city'] == 'Springfield']
spr_general.head()


Unnamed: 0,user_id,track,artist,genre,city,time,day
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday


In [36]:
# crear la tabla shel_general a partir de las filas df
# donde los valores en la columna 'city' es 'Shelbyville'
shel_general= df[df['city'] == 'Shelbyville']
shel_general.head()

Unnamed: 0,user_id,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
9,E772D5C0,Pessimist,unknown,dance,Shelbyville,21:20:49,Wednesday


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo.</div>

Escribe la función `genre_weekday()` con cuatro parámetros:
* Una tabla para los datos (`df`)
* El día de la semana (`day`)
* La marca de fecha y hora en formato 'hh:mm:ss' (`time1`)
* La marca de fecha y hora en formato 'hh:mm:ss' (`time2`)

La función debe devolver los 15 géneros más populares en un día específico dentro del período definido por las dos marcas de tiempo, junto con sus respectivos recuentos de reproducción.
Aplica la misma lógica de filtrado consecutiva, pero usa cuatro filtros esta vez y luego crea una nueva columna con los recuentos de reproducción respectivos.
Ordena el resultado de un recuento más grande a uno más pequeño y devuélvelo.

In [37]:
# 1) Deja que la variable genre_df almacene las filas que cumplen varias condiciones:
#    - el valor de la columna 'day' es igual al valor del argumento day=
#    - el valor de la columna 'time' es mayor que el valor del argumento time1=
#    - el valor en la columna 'time' es menor que el valor del argumento time2=
#    Utiliza un filtrado consecutivo con indexación lógica.

# 2) Agrupa genre_df por la columna 'genre', toma una de sus columnas,
#    y utiliza el método size() para encontrar el número de entradas por cada uno de
#    los géneros representados; almacena los Series resultantes en
#    la variable genre_df_count

# 3) Ordena genre_df_count en orden descendente de frecuencia y guarda el resultado
#    en la variable genre_df_sorted

# 4) Devuelve un objeto Series con los primeros 15 valores de genre_df_sorted - los 15
#    géneros más populares (en un determinado día, en un determinado periodo de tiempo)

# escribe tu función aquí
def genre_weekday(df, day, time1, time2):
    
    # filtrado consecutivo
    # Crea la variable genre_df que almacenará solo aquellas filas df donde el día es igual a day=
    genre_df = df[(df['day']== day)]

    # Filtra genre_df nuevamente para almacenar solo las filas donde el tiempo es menor que time2=
    # Filtra genre_df una vez más para almacenar solo las filas donde el tiempo es mayor que time1=
    genre_df = genre_df[(genre_df['time'] < time2) & (genre_df['time'] > time1)]
    
    # Agrupa el DataFrame filtrado por la columna con los nombres de los géneros, selecciona la columna 'genre',
    # y encuentra el número de filas para cada género con el método count()
    genre_df_count =  genre_df.groupby('genre').count()

    # Ordenaremos el resultado en orden descendente (por lo que los géneros más populares aparecerán primero en el objeto Series)
    genre_df_sorted = genre_df_count.sort_values(by='track', ascending=False)

    # Devuelve un objeto de Series con los primeros 15 valores de genre_df_sorted: los 15 géneros más populares (en un día determinado, dentro de un período de timeframe)
    return genre_df_sorted[:15]

Compara los resultados de la función `genre_weekday()` para Springfield y Shelbyville el lunes por la mañana (de 7 a 11) y el viernes por la tarde (de 17:00 a 23:00). Utiliza el mismo formato de hora de 24 horas que el conjunto de datos (por ejemplo, 05:00 = 17:00:00):

In [38]:
# llamando a la función para el lunes por la mañana en Springfield (utilizando spr_general en vez de la tabla df)

lunes_mañana_Springfield= genre_weekday(df= spr_general, day= 'Monday', time1= '07:00:00', time2= '11:00:00')['track']
lunes_mañana_Springfield

genre
pop            781
dance          549
electronic     480
rock           474
hiphop         286
ruspop         186
world          181
rusrap         175
alternative    164
unknown        161
classical      157
metal          120
jazz           100
folk            97
soundtrack      95
Name: track, dtype: int64

In [39]:
# llamando a la función para el lunes por la mañana en Shelbyville (utilizando shel_general en vez de la tabla df)
lunes_mañana_Shelbyville= genre_weekday(shel_general, 'Monday', '07:00:00', '11:00:00')['track']
lunes_mañana_Shelbyville

genre
pop            218
dance          182
rock           162
electronic     147
hiphop          80
ruspop          64
alternative     58
rusrap          55
jazz            44
classical       40
world           36
rap             32
soundtrack      31
rnb             27
metal           27
Name: track, dtype: int64

In [40]:
# llamando a la función para el viernes por la tarde en Springfield
viernes_tarde_Springfield= genre_weekday(spr_general, 'Friday', '17:00:00', '23:00:00')['track']
viernes_tarde_Springfield

genre
pop            713
rock           517
dance          495
electronic     482
hiphop         273
world          208
ruspop         170
classical      163
alternative    163
rusrap         142
jazz           111
unknown        110
soundtrack     105
rnb             90
metal           88
Name: track, dtype: int64

In [41]:
# llamando a la función para el viernes por la tarde en Shelbyville
viernes_tarde_Shelbyville= genre_weekday(shel_general, 'Friday', '07:00:00', '11:00:00')['track']
viernes_tarde_Shelbyville

genre
pop            211
dance          192
electronic     167
rock           156
hiphop         109
classical       56
alternative     55
rusrap          55
world           46
ruspop          45
metal           42
latin           41
rap             36
rnb             33
jazz            32
Name: track, dtype: int64

**Conclusiones**

Es totalmente falso que los habitantes de Springfield y Shelbyville escuchen géneros distintos tanto los lunes en la mañana como los viernes en la noche. Los habitantes de las dos ciudades concuerdan en los mismos géneros musicales los dos días.

Esta conclusión queda clara al ver que el top 15 de los géneros musicales es igual en las dos ciudades en los días y horas filtradas.


<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
~~En general, realizas buenas conclusiones y buen código; sin embargo, hay cosas en la función ```genre_weekday``` que pueden mejorar. Primero que todo, los filtros que estás realizando para indexar no son consecutivos; podrían ser consecutivos. La idea sería algo como la siguiente:~~
    
```python
df = df[(condicion_1) & (condicion_2) & (condicion_3)]
```
    
~~Por otro lado, debes tener en cuenta el consejo de que variables se estan selecionado en el agrupamiento.~~
</div>

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
    
    Gracias por la sugerencia, en un principio lo había hecho así pero por algún motivo no me funcionada, por lo cual lo hice paso a paso y si me funcionada, pero ya entendí mi error. 
    
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
~~Buen trabajo; sin embargo, hay un detalle más que podemos corregir, fíjate que el resultado de estas tablas son columnas con información redundante, esto lo puede solucionar si selecciona la columna sobre la cual quieres que se realicen las operaciones de agrupamiento, la idea es la misma que te había brindado para una de las secciones anteriores.~~
</div>

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
    
    Muchas gracias por la observacion, tienes toda la razon se ve mucho mas limpio con menos columnas e informacion repetida.
    
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #3</b> <a class="tocSkip"></a>
    
Buen trabajo.
</div>

[Volver a Contenidos](#back)

### Hipótesis 3: preferencias de género en Springfield y Shelbyville <a id='genre'></a>

Hipótesis: Shelbyville ama la música rap. A los residentes de Springfield les gusta más el pop.

Agrupa la tabla `spr_general` por género y encuentra el número de canciones reproducidas de cada género con el método `count()`. Luego ordena el resultado en orden descendente y guárdalo en la variable `spr_genres`.

In [42]:
# escribe una línea de código que:
# 1. agrupe la tabla spr_general por la columna 'genre';
# 2. cuente los valores 'genre' con count() en la agrupación;
# 3. ordene el Series resultante en orden descendente y lo guarde en spr_genres.
spr_genres= spr_general.groupby(by='genre')['track'].count().sort_values(ascending=False)



Imprime las 10 primeras filas de `spr_genres`:

In [43]:
# muestra los primeros 10 valores de spr_genres
spr_genres.head(10)

genre
pop            5892
dance          4435
rock           3965
electronic     3786
hiphop         2096
classical      1616
world          1432
alternative    1379
ruspop         1372
rusrap         1161
Name: track, dtype: int64

Ahora haz lo mismo con los datos de Shelbyville.

Agrupa la tabla `shel_general` por género y encuentra el número de canciones reproducidas de cada género. Después, ordena el resultado en orden descendente y guárdalo en la tabla `shel_genres`:


In [44]:
# escribi una línea de código que:
# 1. agrupe la tabla shel_general por la columna 'genre';
# 2. cuente los valores 'genre' con count() en la agrupación;
# 3. ordene el Series resultante en orden descendente y lo guarde en shel_genres.
shel_genres= shel_general.groupby(by='genre')['track'].count().sort_values(ascending=False)

Imprime las 10 primeras filas de `shel_genres`:

In [45]:
# imprimir las 10 primeras filas de shel_genres
shel_genres.head(10)

genre
pop            2431
dance          1932
rock           1879
electronic     1736
hiphop          960
alternative     649
classical       646
rusrap          564
ruspop          538
world           515
Name: track, dtype: int64

**Conclusión**

La hipótesis 3 es totalmente rechazada, debido a que se muestra una total preferencia por el genero pop en las dos ciudades. Estando este en el primer logar de escucha en Springfield y Shelbyville.`

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
~~Nuevamente debes tener en cuenta el consejo de que variables se estan selecionado en el agrupamiento, te dare un ejemplo:~+
    
```python
shel_general.groupby(by='genre')['track'].count().sort_values(by='track', ascending=False)
```
</div>

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
    
    Gracias por tu comentario, me parece una forma mucho mejor para el código y su salida es más entendible.
    
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor #2</b> <a class="tocSkip"></a>
    
Buen trabajo.</div>

[Volver a Contenidos](#back)

# Conclusiones <a id='end'></a>

Después de realizar el análisis de los datos, podemos afirmar de manera general que: 
-	Existe más usuarios en Springfield
-	Los usuarios de Springfield tienden a escuchar mas música los lunes y viernes, a diferencia los usuarios de Shelbyville que son más activos los miércoles.
-	La escucha musical en las dos ciudades en cuanto género es idéntica. Siendo el pop el genero mas escuchado sin importar el día o la hora. 

En cuanto a las tres hipótesis planteadas inicialmente tenemos que:
-	La primera hipótesis es totalmente aceptada.
-	En cuanto a las otras dos son totalmente rechazadas.


### Nota
En proyectos de investigación reales, la prueba de hipótesis estadística es más precisa y cuantitativa. También ten en cuenta que no siempre se pueden sacar conclusiones sobre una ciudad entera a partir de datos de una sola fuente.

Aprenderás más sobre la prueba de hipótesis en el sprint de análisis estadístico de datos.

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
# Comentario General
    
~~Hola Juan.Te felicito por el desarrollo del proyecto hasta el momento, ahora bien, debes tener en cuenta los comentarios que he generado para la próxima entrega.~~
</div>


<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
    
    Mil gracias por cada uno de tus comentarios, los he tenido en cuenta y me han ayudado a mejorar.
    
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
# Comentario General #2
    
~~Hola Juan. He dejado un nuevo comentario en rojo etiquetado con el #2 para que puedas tener en cuenta. Por otro lado, me alegra que te haya servido mis comentarios de la revisión anterior.~~
</div>

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
    
    Ya tome en cuenta tu nuevo comentario. Muchas gracias. 
    
</div>

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
# Comentario General #3
    
Hola Juan. Te felicito por la culminación del proyecto.
</div>

[Volver a Contenidos](#back)