# Déjame escuchar la música

# Contenido <a id='back'></a>

* [Introducción](#intro)
* [Etapa 1. Descripción de los datos](#data_review)
    * [Conclusiones](#data_review_conclusions)
* [Etapa 2. Preprocesamiento de datos](#data_preprocessing)
    * [2.1 Estilo del encabezado](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusiones](#data_preprocessing_conclusions)
* [Etapa 3. Prueba de hipótesis](#hypothesis)
    * [3.1 Hipótesis 1: actividad de los usuarios y las usuarias en las dos ciudades](#activity)
* [Conclusiones](#end)

## Introducción <a id='intro'></a>
Como analista de datos, tu trabajo consiste en analizar datos para extraer información valiosa y tomar decisiones basadas en ellos. Esto implica diferentes etapas, como la descripción general de los datos, el preprocesamiento y la prueba de hipótesis.

Siempre que investigamos, necesitamos formular hipótesis que después podamos probar. A veces aceptamos estas hipótesis; otras veces, las rechazamos. Para tomar las decisiones correctas, una empresa debe ser capaz de entender si está haciendo las suposiciones correctas.

En este proyecto, compararás las preferencias musicales de las ciudades de Springfield y Shelbyville. Estudiarás datos reales de transmisión de música online para probar la hipótesis a continuación y comparar el comportamiento de los usuarios y las usuarias de estas dos ciudades.

### Objetivo:
Prueba la hipótesis:
1. La actividad de los usuarios y las usuarias difiere según el día de la semana y dependiendo de la ciudad.


### Etapas
Los datos del comportamiento del usuario se almacenan en el archivo `/datasets/music_project_en.csv`. No hay ninguna información sobre la calidad de los datos, así que necesitarás examinarlos antes de probar la hipótesis.

Primero, evaluarás la calidad de los datos y verás si los problemas son significativos. Entonces, durante el preprocesamiento de datos, tomarás en cuenta los problemas más críticos.

Tu proyecto consistirá en tres etapas:
 1. Descripción de los datos.
 2. Preprocesamiento de datos.
 3. Prueba de hipótesis.








[Volver a Contenidos](#back)

## Etapa 1. Descripción de los datos <a id='data_review'></a>

Abre los datos y examínalos.

Necesitarás `pandas`, así que impórtalo.

In [6]:
import pandas as pd

Lee el archivo `music_project_en.csv` de la carpeta `/datasets/` y guárdalo en la variable `df`:

In [7]:
# Leer el archivo y almacenarlo en df
df = pd.read_csv('datasets/music_project_en.csv')

Muestra las 10 primeras filas de la tabla:

In [8]:
# Obtener las 10 primeras filas de la tabla df
print(df.head(10))

     userID                        Track            artist   genre  \
0  FFB692EC            Kamigata To Boots  The Mass Missile    rock   
1  55204538  Delayed Because of Accident  Andreas Rönnberg    rock   
2    20EC38            Funiculì funiculà       Mario Lanza     pop   
3  A3DD03C9        Dragons in the Sunset        Fire + Ice    folk   
4  E2DC1FAE                  Soul People        Space Echo   dance   
5  842029A1                       Chains          Obladaet  rusrap   
6  4CB90AA5                         True      Roman Messer   dance   
7  F03E1C1F             Feeling This Way   Polina Griffith   dance   
8  8FA1D3BE                     L’estate       Julia Dalia  ruspop   
9  E772D5C0                    Pessimist               NaN   dance   

        City        time        Day  
0  Shelbyville  20:28:33  Wednesday  
1  Springfield  14:07:09     Friday  
2  Shelbyville  20:58:07  Wednesday  
3  Shelbyville  08:37:09     Monday  
4  Springfield  08:34:34     Monday  
5

Obtén la información general sobre la tabla con un comando. Conoces el método que muestra la información general que necesitamos.

In [9]:
# Obtener la información general sobre nuestros datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


Estas son nuestras observaciones sobre la tabla. Contiene siete columnas. Almacenan los mismos tipos de datos: `object`.

Según la documentación:
- `' userID'`: identificador del usuario o la usuaria;
- `'Track'`: título de la canción;
- `'artist'`: nombre del artista;
- `'genre'`: género de la pista;
- `'City'`: ciudad del usuario o la usuaria;
- `'time'`: la hora exacta en la que se reprodujo la canción;
- `'Day'`: día de la semana.

Podemos ver tres problemas con el estilo en los encabezados de la tabla:
1. Algunos encabezados están en mayúsculas, otros en minúsculas.
2. Hay espacios en algunos encabezados.
3. Información irrelevante, me parece que 'userID' es irrelevante para nuestro análisis, voy a elaborar sobre esto más adelante.
4. Y probablemente un punto más; falta de claridad en los nombres de los encabezados; en específico hablo de ´time´ y tal vez podría considerar que ´Day´ también ya que entra en ambigüedad sobre lo que podrían referirse al momento de desplegar muestras.




\### Escribe observaciones de tu parte. Estas son algunas de las preguntas que pueden ser útiles: <a id='data_review_conclusions'></a>

`1.   ¿Qué tipo de datos tenemos a nuestra disposición en las filas? ¿Y cómo podemos entender lo que almacenan las columnas?`

Tenemos tanto datos cualitativos como cuantitativos; entre los cualitativos podemos encontrar el ' userID' que permite identificar a cada usuario por separado, similar para los datos 'Track' y 'artist', con el 'genre' podemos categorizar las canciones y agruparlas por su género, con 'City' podemos categorizar por separado la ciudad del usuario, requisito para nuestro análisis, y el dato 'Day' nos servirá para categorizar los cálculos por día de la semana, también requisito para nuestro análisis.; y el dato cuantitativo sería el tiempo que servirá para realizar operaciones matemáticas como cantidad te tiempo total o promedios. 

Podemos entender lo que almacenan las columnas revisando la documentación, analizando una muestra de los datos y verificando si los nombres de las columnas describen claramente su contenido.

`2.   ¿Hay suficientes datos para proporcionar respuestas a nuestra hipótesis o necesitamos más información?`

Tenemos todos los datos necesarios según la hipótesis, a actividad (track, artist, time) de los usuarios y las usuarioas difiere según el día de la semana (Day) y dependiendo de la ciudad (City). Tenemos más que información suficiente como para contestar con información completa y diferentes puntos de vista la hipótesios.

`3.   ¿Notaste algún problema en los datos, como valores ausentes, duplicados o tipos de datos incorrectos?`

En primera vista pensé que el ID sería irrelevante porque estamos hablando de comportamientos entre los usuarios, no cierto usuario en específico, pero pensando en los duplicados supuse que podría haber duplicados específicos con los usuarios, esto lo voy a retomar en un moemtno; continuando, hay efectivamente valores ausentes y duplicados, pero con respecto a los tipos de datos, no tengo el conocimiento suficiente como para utilizar un diferente tipo de datos de Pandas, solamente conozco object y el numérico, por lo que me queda usar todas las columnas como object incluido el Time dado a que el formato dará pie a que se ordene sin problemas, aunque creo que no se podrá hacer ningún tipo de cálculo matemático ni lógico.

Con respecto a los duplicados considerando el ID, supongo 2 situaciones diferentes; uno es que los ID son relevantes ya que puede haber datos que por casualidad, diferentes usuarios escucharon la misma canción, a la misma hora, lo cuál es improbable, la segunda situación es que hubo un error que ingresó los mismos datos con mismo usuario repetidamente. Voy a hacer una prueba para observar si el contar los duplicados con y sin considerar el ID es relevante:

In [10]:
df_sin_id = df.drop(columns=['  userID'])

print('Duplicados considerando los IDs:')
print(df.value_counts())

print('\nDuplicados SIN considerar los IDs:')
print(df_sin_id.value_counts())

Duplicados considerando los IDs:
  userID  Track                              artist                                            genre        City       time      Day      
7040EA32  Richter: Dream 8 (late and soon)   Grace Davidson                                    modern     Springfield  13:01:30  Monday       4
C53560ED  Sfiorivano le viole                Rino Gaetano                                      pop        Shelbyville  08:43:10  Monday       4
48D1D5B6  Night Is Bright                    The Broln Czech Radio Orchestra                   romance    Springfield  09:40:43  Wednesday    3
D19D9132  Mother                             Trevor Hall                                       indie      Springfield  14:33:46  Wednesday    3
28C432A6  Baby I'm Yours                     Arctic Monkeys                                    indie      Springfield  13:39:17  Wednesday    3
                                                                                                            

Dados los resultados vemos mismas muestras al principio pero diferentes muestras al final de ambas situaciones, sin embargo también notamos que no hay diferencia en la cantidad de repetidos, por lo que en esta parte puedo concluir que el ID es irrelevante para nuestro análisis.

Entonces los duplicados que tenemos son duplicados que puedo atribuir a errores que ingresaron los mismos datos repetidamente.

Entonces para resumir, además de lo evidente de que se tiene que arreglar los nombres de las columnas, identifico que la columna de ID es irrelevante para mi análisis, voy a borrar los duplicados, y la columna de día de la semana lo voy a convertir a números para poder trabajar con ellos de una forma más ágil.

[Volver a Contenidos](#back)

## Etapa 2. Preprocesamiento de datos <a id='data_preprocessing'></a>

El objetivo aquí es preparar los datos para que sean analizados.
El primer paso es resolver cualquier problema con los encabezados. Luego podemos avanzar a los valores ausentes y duplicados. Empecemos.

Corrige el formato en los encabezados de la tabla.


### Estilo del encabezado <a id='header_style'></a>
Muestra los encabezados de la tabla (los nombres de las columnas):

In [11]:
# Muestra los nombres de las columnas
print(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


Cambia los encabezados de la tabla de acuerdo con las reglas del buen estilo:
* Todos los caracteres deben ser minúsculas.
* Elimina los espacios.
* Si el nombre tiene varias palabras, utiliza snake_case.

Anteriormente, aprendiste acerca de la forma automática de cambiar el nombre de las columnas. Vamos a aplicarla ahora. Utiliza el bucle for para iterar sobre los nombres de las columnas y poner todos los caracteres en minúsculas. Cuando hayas terminado, vuelve a mostrar los encabezados de la tabla:

In [12]:
# Bucle en los encabezados poniendo todo en minúsculas
new_cols = []
for col in df.columns:
    new_cols.append(col.lower())
df.columns = new_cols

print(df.columns)

Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')


Ahora, utilizando el mismo método, elimina los espacios al principio y al final de los nombres de las columnas e imprime los nombres de las columnas nuevamente:

In [13]:
# Bucle en los encabezados eliminando los espacios
new_cols = []
for col in df.columns:
    new_cols.append(col.strip())
df.columns = new_cols

print(df.columns)

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


Necesitamos aplicar la regla de snake_case a la columna `userid`. Debe ser `user_id`. Cambia el nombre de esta columna y muestra los nombres de todas las columnas cuando hayas terminado.

Aquí voy a aprovechar para también modificar las columnas que considero que merecen un nombre más descriptivo, estos siendo 'time' a 'play_time', y 'day' a 'day_of_week'.

In [14]:
# Cambiar el nombre de la columna "userid"
new_cols = {
    'userid': 'user_id', # Cambio requerido
    'time': 'play_time', # Cambio sugerido por mi, para dejar claro que los datos son de la hora que fue reproducido
    'day': 'day_of_week' # Cambio sugerido por mi, para dejar claro que los datos son del día de la semana reproducido
}
df.rename(columns=new_cols, inplace=True)

print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'play_time',
       'day_of_week'],
      dtype='object')


Comprueba el resultado. Muestra los encabezados una vez más:

In [15]:
# Comprobar el resultado: la lista de encabezados
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'play_time',
       'day_of_week'],
      dtype='object')


[Volver a Contenidos](#back)

### Valores ausentes <a id='missing_values'></a>
 Primero, encuentra el número de valores ausentes en la tabla. Debes utilizar dos métodos en una secuencia para obtener el número de valores ausentes.

In [16]:
# Calcular el número de valores ausentes
print(df.isnull().sum())

user_id           0
track          1343
artist         7567
genre          1198
city              0
play_time         0
day_of_week       0
dtype: int64


No todos los valores ausentes afectan a la investigación. Por ejemplo, los valores ausentes en `track` y `artist` no son cruciales. Simplemente puedes reemplazarlos con valores predeterminados como el string `'unknown'` (desconocido).

Pero los valores ausentes en `'genre'` pueden afectar la comparación entre las preferencias musicales de Springfield y Shelbyville. En la vida real, sería útil saber las razones por las cuales hay datos ausentes e intentar recuperarlos. Pero no tenemos esa oportunidad en este proyecto. Así que tendrás que:
* rellenar estos valores ausentes con un valor predeterminado;
* evaluar cuánto podrían afectar los valores ausentes a tus cómputos;

Reemplazar los valores ausentes en las columnas `'track'`, `'artist'` y `'genre'` con el string `'unknown'`. Como mostramos anteriormente en las lecciones, la mejor forma de hacerlo es crear una lista que almacene los nombres de las columnas donde se necesita el reemplazo. Luego, utiliza esta lista e itera sobre las columnas donde se necesita el reemplazo haciendo el propio reemplazo.

In [17]:
# Bucle en los encabezados reemplazando los valores ausentes con 'unknown'
columnas_a_reemplazar = ['track', 'artist', 'genre']

for col in columnas_a_reemplazar:
    df[col] = df[col].fillna('unknown')

Ahora comprueba el resultado para asegurarte de que después del reemplazo no haya valores ausentes en el conjunto de datos. Para hacer esto, cuenta los valores ausentes nuevamente.

In [18]:
# Contar valores ausentes
print(df.isnull().sum())

user_id        0
track          0
artist         0
genre          0
city           0
play_time      0
day_of_week    0
dtype: int64


[Volver a Contenidos](#back)

### Duplicados <a id='duplicates'></a>
Encuentra el número de duplicados explícitos en la tabla. Una vez más, debes aplicar dos métodos en una secuencia para obtener la cantidad de duplicados explícitos.

In [19]:
# Contar duplicados explícitos
print(df.duplicated().sum())

3826


Ahora, elimina todos los duplicados. Para ello, llama al método que hace exactamente esto.

In [20]:
# Eliminar duplicados explícitos
df = df.drop_duplicates()

Comprobemos ahora si eliminamos con éxito todos los duplicados. Cuenta los duplicados explícitos una vez más para asegurarte de haberlos eliminado todos:

In [21]:
# Comprobar de nuevo si hay duplicados
print(df.duplicated().sum())

0


Ahora queremos deshacernos de los duplicados implícitos en la columna `genre`. Por ejemplo, el nombre de un género se puede escribir de varias formas. Dichos errores también pueden afectar al resultado.

Para hacerlo, primero mostremos una lista de nombres de género únicos, ordenados en orden alfabético. Para ello:
* Extrae la columna `genre` del DataFrame.
* Llama al método que devolverá todos los valores únicos en la columna extraída.


In [22]:
# Inspeccionar los nombres de géneros únicos
print(df['genre'].value_counts())

genre
pop           8323
dance         6367
rock          5844
electronic    5522
hip           2975
              ... 
irish            1
mandopop         1
forró            1
dirty            1
regional         1
Name: count, Length: 269, dtype: int64


Busca en la lista para encontrar duplicados implícitos del género `hiphop`. Estos pueden ser nombres escritos incorrectamente o nombres alternativos para el mismo género.

Verás los siguientes duplicados implícitos:
* `hip`
* `hop`
* `hip-hop`

Para deshacerte de ellos, crea una función llamada `replace_wrong_genres()` con dos parámetros:
* `wrong_genres=`: esta es una lista que contiene todos los valores que necesitas reemplazar.
* `correct_genre=`: este es un string que vas a utilizar como reemplazo.

Como resultado, la función debería corregir los nombres en la columna `'genre'` de la tabla `df`, es decir, remplazar cada valor de la lista `wrong_genres` por el valor en `correct_genre`.

Dentro del cuerpo de la función, utiliza un bucle `'for'` para iterar sobre la lista de géneros incorrectos, extrae la columna `'genre'` y aplica el método `replace` para hacer correcciones.

In [23]:
# Función para reemplazar duplicados implícitos
def replace_wrong_genres(wrong_genres, correct_genre):
    """
    Reemplaza los géneros incorrectos en la columna 'genre' del DataFrame df.
    
    Parámetros:
        wrong_genres (list): Lista de géneros a corregir (ej: ['hip', 'hop', 'hip-hop']).
        correct_genre (str): Género estandarizado (ej: 'hiphop').
    """
    global df # Tomamos el DataFrame como global para tener acceso

    for genre in wrong_genres:
        df['genre'] = df['genre'].replace(genre, correct_genre)

Ahora, llama a `replace_wrong_genres()` y pásale tales argumentos para que retire los duplicados implícitos (`hip`, `hop` y `hip-hop`) y los reemplace por `hiphop`:

In [24]:
# Eliminar duplicados implícitos
wrong_genres = ['hip', 'hop', 'hip-hop']
correct_genre = 'hiphop'

replace_wrong_genres(wrong_genres, correct_genre)

Asegúrate de que los nombres duplicados han sido eliminados. Muestra la lista de valores únicos de la columna `'genre'` una vez más:

In [25]:
# Comprobación de duplicados implícitos
print(df['genre'].value_counts())

genre
pop           8323
dance         6367
rock          5844
electronic    5522
hiphop        3056
              ... 
irish            1
mandopop         1
forró            1
dirty            1
regional         1
Name: count, Length: 266, dtype: int64


[Volver a Contenidos](#back)

### Tus observaciones <a id='data_preprocessing_conclusions'></a>

`Describe brevemente lo que has notado al analizar duplicados, cómo abordaste sus eliminaciones y qué resultados obtuviste.`

Antes de manmipular los duplicados implícitos aparecía el género hiphop nombrado erróneamente como 'hip', una vez corregido aparecía corregido y con una cantidad notable aumentada, algunas decenas de datos estaban nombrados de forma diferente, pero los nombrados erróneamente eran mayoritario por miles.

[Volver a Contenidos](#back)

## Etapa 3. Prueba de hipótesis <a id='hypothesis'></a>

### Hipótesis: comparar el comportamiento del usuario o la usuaria en las dos ciudades <a id='activity'></a>

La hipótesis afirma que existen diferencias en la forma en que los usuarios y las usuarias de Springfield y Shelbyville consumen música. Para comprobar esto, usa los datos de tres días de la semana: lunes, miércoles y viernes.

* Agrupa a los usuarios y las usuarias por ciudad.
* Compara el número de canciones que cada grupo reprodujo el lunes, el miércoles y el viernes.


Realiza cada cálculo por separado.

El primer paso es evaluar la actividad del usuario en cada ciudad. Recuerda las etapas dividir-aplicar-combinar de las que hablamos anteriormente en la lección. Tu objetivo ahora es agrupar los datos por ciudad, aplicar el método apropiado para contar durante la etapa de aplicación y luego encontrar la cantidad de canciones reproducidas en cada grupo especificando la columna para obtener el recuento.

A continuación se muestra un ejemplo de cómo debería verse el resultado final:
`df.groupby(by='....')['column'].method()`Realiza cada cálculo por separado.

Para evaluar la actividad de los usuarios y las usuarias en cada ciudad, agrupa los datos por ciudad y encuentra la cantidad de canciones reproducidas en cada grupo.

In [26]:
# Contar las canciones reproducidas en cada ciudad
songs_per_city = df.groupby(by='city')['track'].count()
print(songs_per_city)

city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64


Con esto podemos observar que se reproducen más canciones en Springfield, y la diferencia es significativa.

Ahora agrupemos los datos por día de la semana y encontremos el número de canciones reproducidas el lunes, miércoles y viernes. Utiliza el mismo método que antes, pero ahora necesitamos una agrupación diferente.


In [27]:
# Calcular las canciones reproducidas en cada uno de los tres días
days = ['Monday', 'Wednesday', 'Friday']

# Primero filtramos el dataframe por los días
df_days_filtered = df[df['day_of_week'].isin(days)]

# Agruipamos por día y contamos las canciones (e imprimimos)
print(df_days_filtered.groupby(by = 'day_of_week')['track'].count())

day_of_week
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64


Al parecer hay una diferencia notable en los días, Lunes y viernes tienen cantidades de reproducciones similares, siendo miércoles teniendo un bajo de reproducciones, no significativa, pero notable.

Ya sabes cómo contar entradas agrupándolas por ciudad o día. Ahora necesitas escribir una función que pueda contar entradas según ambos criterios simultáneamente.

Crea la función `number_tracks()` para calcular el número de canciones reproducidas en un determinado día **y** ciudad. La función debe aceptar dos parámetros:

- `day`: un día de la semana para filtrar. Por ejemplo, `'Monday'` (lunes).
- `city`: una ciudad para filtrar. Por ejemplo, `'Springfield'`.

Dentro de la función, aplicarás un filtrado consecutivo con indexación lógica.

Primero filtra los datos por día y luego filtra la tabla resultante por ciudad.

Después de filtrar los datos por dos criterios, cuenta el número de valores de la columna 'user_id' en la tabla resultante. Este recuento representa el número de entradas que estás buscando. Guarda el resultado en una nueva variable y devuélvelo desde la función.

In [28]:
# Declara la función number_tracks() con dos parámetros: day= y city=.
def number_tracks(day, city):
    """
    Calcula el número de canciones reproducidas en un día y ciudad específicos.
    
    Parámetros:
        day (str): Día de la semana (ej: 'Monday').
        city (str): Ciudad (ej: 'Springfield').
    
    Retorna:
        int: Número de entradas (reproducciones) que cumplen los criterios.
    """
    # Almacena las filas del DataFrame donde el valor en la columna 'day' es igual al parámetro day=
    day_filter = df[df['day_of_week'] == day]

    # Filtra las filas donde el valor en la columna 'city' es igual al parámetro city=
    city_filter = day_filter[day_filter['city'] == city]

    # Extrae la columna 'user_id' de la tabla filtrada y aplica el método count()
    count = city_filter['user_id'].count()

    # Devolve el número de valores de la columna 'user_id'
    return count

Llama a `number_tracks()` seis veces, cambiando los valores de los parámetros para que recuperes los datos de ambas ciudades para cada uno de los tres días.

In [29]:
# El número de canciones reproducidas en Springfield el lunes
print(number_tracks('Monday', 'Springfield'))

15740


In [30]:
# El número de canciones reproducidas en Shelbyville el lunes
print(number_tracks('Monday', 'Shelbyville'))

5614


In [31]:
# El número de canciones reproducidas en Springfield el miércoles
print(number_tracks('Wednesday', 'Springfield'))

11056


In [32]:
# El número de canciones reproducidas en Shelbyville el miércoles
print(number_tracks('Wednesday', 'Shelbyville'))

7003


In [33]:
# El número de canciones reproducidas en Springfield el viernes
print(number_tracks('Friday', 'Springfield'))

15945


In [34]:
# El número de canciones reproducidas en Shelbyville el viernes
print(number_tracks('Friday', 'Shelbyville'))

5895


**Conclusiones**

`Comenta si la hipótesis es correcta o se debe rechazar. Explica tu razonamiento.`

| Ciudad        | Lunes (Monday) | Miércoles (Wednesday) | Viernes (Friday) | **Total**   |
|---------------|----------------:|-----------------------:|------------------:|------------:|
| **Springfield** | 15,740         | 11,056                | 15,945           | **42,741**  |
| **Shelbyville** | 5,614          | 7,003                 | 5,895            | **18,512**  |
| **Total**       | **21,354**     | **18,059**            | **21,840**       | **61,253**  |

1. Diferencias por Ciudad:

    * Springfield tiene una actividad significativamente mayor que Shelbyville en todos los días:

        * Lunes: 15,740 vs 5,614 (≈ 2.8 veces más).

        * Viernes: 15,945 vs 5,895 (≈ 2.7 veces más).

2. Variación por Día:

    * En Springfield:

        * El viernes es el día más activo (15,945), seguido del lunes (15,740).

        * El miércoles muestra un descenso notable (11,056, ≈ 30% menos que el viernes).

    * En Shelbyville:

        * El miércoles es el día más activo (7,003), superando al lunes y viernes.

        * La actividad es más equilibrada entre días (rango de 5,614 a 7,003).

3. Tendencia General:

    * Springfield tiene picos de actividad los lunes y viernes, mientras que Shelbyville tiene un pico los miércoles.

[Volver a Contenidos](#back)

# Conclusiones <a id='end'></a>

`Resume aquí tus conclusiones sobre la hipótesis.`

Podemos aceptar la hipótesis. Existen diferencias claras en la actividad de los usuarios dadas las muestras seleccionadas.

*Según la ciudad:* Springfield tiene casi el triple de actividad que Shelbyville.

*Según el día:* En Springfield, los días lunes y viernes hay más reproducciones que en los miércoles. Mientras que en Shelbyville, por el contrario, los días miércoles hay más reproducciones que los lunes y vienres.

### Nota
En proyectos de investigación reales, la prueba de hipótesis estadística es más precisa y cuantitativa. También ten en cuenta que no siempre se pueden sacar conclusiones sobre una ciudad entera a partir de datos de una sola fuente.

Aprenderás más sobre la prueba de hipótesis en el sprint de análisis estadístico de datos.

[Volver a Contenidos](#back)