# Etapa 3 - Prueba de hipótesis

La hipótesis afirma que existen diferencias en la forma en que los usuarios y las usuarias de Springfield y Shelbyville consumen música. Para comprobar esto, usaremos los datos de tres días de la semana: lunes, miércoles y viernes.

* Agruparemos a los usuarios y las usuarias por ciudad.
* Compararemos el número de canciones que cada grupo reprodujo el lunes, el miércoles y el viernes.

El primer paso es evaluar la actividad del usuario en cada ciudad. 


In [1]:
# importa las librerias requeridas
import pandas as pd
import os

In [2]:
# leer el archivo music_proyect_en.csv de la carpeta datasets y guardarlos en una variable
music_clean_df = pd.read_csv('../datasets/clean/music_project_clean.csv') 

In [3]:
# Contar las canciones reproducidas en cada ciudad
plays_per_city = music_clean_df.groupby(by = 'city').count()
print(plays_per_city)

             user_id  track  artist  genre   time    day
city                                                    
Shelbyville    18512  18512   18512  18512  18512  18512
Springfield    42741  42741   42741  42741  42741  42741


Podemos observar que hay mas reproducciones en la ciudad de Springfield, pero al agrupar por ciudad los valores se ven repetidos, por lo que podriamos optar por usar solo una columna.

In [4]:
# Calcular las canciones reproducidas en cada uno de los tres días
plays_per_day = music_clean_df.groupby(by = 'day').count()
print(plays_per_day)

           user_id  track  artist  genre   city   time
day                                                   
Friday       21840  21840   21840  21840  21840  21840
Monday       21354  21354   21354  21354  21354  21354
Wednesday    18059  18059   18059  18059  18059  18059


En este conjunto podemos observar que entre 'Friday' y 'Monday' tienen casi las mismas reproducciones, solamente entre semana diminuye el numero de reproducciones.

Ahora se creará la función number_tracks() para calcular el número de canciones reproducidas en un determinado día y ciudad. La función debe aceptar dos parámetros:

* day: un día de la semana para filtrar. Por ejemplo, 'Monday' (lunes).
* city: una ciudad para filtrar. Por ejemplo, 'Springfield'.

Dentro de la función, se aplicará un filtrado consecutivo con indexación lógica.

Primero se filtrará los datos por día y luego filtrar la tabla resultante por ciudad.

Después de filtrar los datos por dos criterios, se ccontaran el número de valores de la columna 'user_id' en la tabla resultante. Este recuento representa el número de entradas que estamos buscando.


In [6]:
# Declara la función number_tracks() con dos parámetros: day= y city=.
def number_tracks(day,city):
    plays_per_day_city = music_clean_df[music_clean_df['day'] == day] # Almacena las filas del DataFrame donde el valor en la columna 'day' es igual al parámetro day=
    plays_per_day_city = plays_per_day_city[plays_per_day_city['city'] == city]# Filtra las filas donde el valor en la columna 'city' es igual al parámetro city=
    plays_count = plays_per_day_city['user_id'].count()# Extrae la columna 'user_id' de la tabla filtrada y aplica el método count()
    return plays_count

    # Devolve el número de valores de la columna 'user_id'

In [7]:
# El número de canciones reproducidas en Springfield el lunes
print(number_tracks('Monday','Springfield'))

15740


In [8]:
# El número de canciones reproducidas en Shelbyville el lunes
print(number_tracks('Monday','Shelbyville'))

5614


In [9]:
# El número de canciones reproducidas en Springfield el miércoles
print(number_tracks('Wednesday','Springfield'))

11056


In [10]:
# El número de canciones reproducidas en Shelbyville el miércoles
print(number_tracks('Wednesday','Shelbyville'))

7003


In [11]:
# El número de canciones reproducidas en Springfield el viernes
print(number_tracks('Friday','Springfield'))

15945


In [12]:
# El número de canciones reproducidas en Shelbyville el viernes
print(number_tracks('Friday','Shelbyville'))

5895


La hipotesis de que los usuarios difiere segun el dia y dependiendo de la ciudad es correcta.
Si ponemos en orden descendente el numero de canciones reproducidas podemos observar que en el caso de Springfield el día que tiene mas reproducciones es el dia viernes mientras que Shelbyville el día de mayor reproducción es el miercoles por lo que si difiere dependiendo el día, asi en cada uno de los días; el segundo día de mayor reproducción en Sprinfield es el día lunes y en Shelbyville es viernes y por ultimo en Springfield el día de menor reproducción es el miercoles en comparación de Shelbyville que es el Lunes.

Despues de realizar el procesamiento de los datos podemos afirmar que la hipotesis es correcta, los datos nos dan la respuesta a la tarea por lo que es importante siempre tener en cuanta cual es la tarea o pregunta a resolver para determinar que procesos debemos seguir para dar respuesta a la hipotesis.