# Análisis de Preferencias Musicales en Springfield y Shelbyville

# Contenido <a id='back'></a>

* [Introducción](#intro)
* [Etapa 1. Descripción de los datos](#data_review)
    * [Conclusiones](#data_review_conclusions)
* [Etapa 2. Preprocesamiento de datos](#data_preprocessing)
    * [2.1 Estilo del encabezado](#header_style)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Duplicados](#duplicates)
    * [2.4 Conclusiones](#data_preprocessing_conclusions)
* [Etapa 3. Prueba de hipótesis](#hypothesis)
    * [3.1 Hipótesis 1: actividad de los usuarios y las usuarias en las dos ciudades](#activity)
* [Conclusiones](#end)

## Introducción <a id='intro'></a>

En este proyecto, llevaré a cabo un análisis de datos para comparar las preferencias musicales de las ciudades de Springfield y Shelbyville. Utilizaré datos reales de transmisión de música en línea para probar la siguiente hipótesis y comparar el comportamiento de los usuarios de estas dos ciudades.

### Objetivo:
Mi objetivo principal es probar la siguiente hipótesis:
1. La actividad de los usuarios difiere según el día de la semana y dependiendo de la ciudad.

### Etapas
Los datos del comportamiento del usuario se encuentran en el archivo `/datasets/music_project_en.csv`. Antes de proceder con la prueba de la hipótesis, evaluaré la calidad de los datos y resolveré cualquier problema que pueda afectar la validez de mi análisis.

Mi proyecto constará de tres etapas principales:
1. Descripción de los datos.
2. Preprocesamiento de datos.
3. Prueba de hipótesis.

En cada etapa, utilizaré técnicas de análisis de datos para obtener información relevante y tomar decisiones fundamentadas en los resultados.









[Volver a Contenidos](#back)

## Etapa 1. Descripción de los datos <a id='data_review'></a>

En esta primera etapa, realizaré una descripción de los datos. Para ello, abriré los datos y los examinaré detalladamente. Será necesario importar la biblioteca `pandas` para llevar a cabo esta tarea.


In [7]:
# Importar pandas
import pandas as pd


En esta etapa, procederé a leer el archivo `music_project_en.csv` de la carpeta `/datasets/` y lo guardaré en la variable `df`.

In [8]:
# Leer el archivo y almacenarlo en df

df = pd.read_csv("music_project_en.csv")


A continuación, mostraré las primeras 10 filas de la tabla para tener una vista preliminar de los datos.

In [9]:
# Obtener las 10 primeras filas de la tabla df

df.head(10)


Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


Ahora, procederé a obtener información general sobre la tabla utilizando un comando específico. Estoy familiarizado con un método que nos proporciona la información general que necesitamos.

In [10]:
# Obtener la información general sobre nuestros datos

df.info()

#obtener el número de duplicados explícitos
print()
print(f"Hay un total de {df.duplicated().sum()} duplicados explícitos.")





<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB

Hay un total de 3826 duplicados explícitos.


Estas son las observaciones sobre la tabla. Contiene siete columnas. Almacenan los mismos tipos de datos: `object`.

Según la documentación:
- `' userID'`: identificador del usuario o la usuaria;
- `'Track'`: título de la canción;
- `'artist'`: nombre del artista;
- `'genre'`: género de la pista;
- `'City'`: ciudad del usuario o la usuaria;
- `'time'`: la hora exacta en la que se reprodujo la canción;
- `'Day'`: día de la semana.

Se pueden ver tres problemas con el estilo en los encabezados de la tabla:
1. Algunos encabezados están en mayúsculas, otros en minúsculas.
2. Hay espacios en algunos encabezados.
3. Algunos títulos tienen una mezcla de mayúsculas y minúsculas, lo que no es consistente con el estilo de los encabezados de la tabla.




### Análisis de los Datos y Conclusiones <a id='data_review_conclusions'></a>

#### Observaciones y Conclusiones

##### Tipos de Datos y Descripción de Columnas

- En las 7 filas de datos, todos los tipos de datos son 'object', lo que indica que son cadenas de texto. Para entender mejor el contenido de las columnas, consultaré la documentación proporcionada que brinda una descripción detallada de cada una.

##### Suficiencia de Datos para la Hipótesis

- Para validar nuestra hipótesis: 'La actividad de los usuarios varía según el día de la semana y la ciudad', los datos proporcionados son adecuados. Estos incluyen información sobre el tipo de música que los usuarios escuchan, el día de la semana en que escuchan la música y la ciudad del usuario.

##### Problemas Detectados en los Datos

- Utilizando el método `info()`, pude verificar la presencia de valores nulos en cada columna. Observé que las columnas 'userID', 'City', 'time' y 'Day' no tienen valores nulos.
  
- Sin embargo, al analizar las columnas 'Track', 'artist' y 'genre', identifiqué un total de 1343, 7567 y 1198 valores nulos, respectivamente.
  
- Además, al aplicar el método `duplicated()`, encontré un total de 3826 duplicados explícitos en el DataFrame.

En base a estas observaciones, tomaré las medidas necesarias para abordar los problemas detectados y continuar con el análisis de los datos.



[Volver a Contenidos](#back)

## Etapa 2: Preprocesamiento de Datos <a id='data_preprocessing'></a>

En esta etapa, procederé a preparar los datos para su análisis. El objetivo es abordar cualquier problema presente en los datos para garantizar su integridad y precisión.

El primer paso consistirá en corregir cualquier problema relacionado con el formato de los encabezados de la tabla. Esto incluye asegurarse de que estén correctamente formateados y sean descriptivos de la información contenida en cada columna. 

Ahora, procederé a realizar las correcciones necesarias en los encabezados de la tabla.



### Estilo del encabezado <a id='header_style'></a>
En este paso, mostraré los encabezados de la tabla, es decir, los nombres de las columnas, para verificar su estilo y formato.

In [11]:
# Muestra los nombres de las columnas

df.columns

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')

En esta etapa, modificaré los encabezados de la tabla siguiendo las reglas del buen estilo:

* Convertiré todos los caracteres a minúsculas.
* Eliminaré los espacios.
* Utilizaré snake_case si el nombre tiene varias palabras.

En esta etapa, aplicaré la técnica automática para cambiar el nombre de las columnas. Utilizaré un bucle for para iterar sobre los nombres de las columnas y convertiré todos los caracteres a minúsculas. Una vez completado este proceso, mostraré nuevamente los encabezados de la tabla para verificar los cambios.

In [12]:
# Bucle en los encabezados poniendo todo en minúsculas
names_lowered = []

for columns in df.columns:
    columns_lower = columns.lower()
    names_lowered.append(columns_lower)
    
#Reasignar los nombres de las columnas con todas las letras minúsculas     
df.columns = names_lowered

#Llamar al atributo columns
    
df.columns
    




Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')

### Cambio Automático de los Nombres de las Columnas

Ahora, aplicaré la técnica automática para cambiar el nombre de las columnas. Utilizaré un bucle `for` para iterar sobre los nombres de las columnas y convertiré todos los caracteres a minúsculas. Una vez completado este proceso, mostraré nuevamente los encabezados de la tabla para verificar los cambios.

### Eliminación de Espacios en los Nombres de las Columnas

Utilizando el mismo método, eliminaré los espacios al principio y al final de los nombres de las columnas e imprimiré los nombres de las columnas nuevamente para verificar los cambios realizados.


In [13]:
# Bucle en los encabezados eliminando los espacios

names_stripped= []

for columns in names_lowered:
    columns_stripped = columns.strip()
    names_stripped.append(columns_stripped)
    

#Reasignar los nombres de las columnas a nombres sin espacios al inicio y al final 

df.columns = names_stripped

#Llamar al atributo columns

df.columns



    

  



Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

Aplicaré la regla de snake_case a la columna userid, que deberá ser renombrada como user_id. Luego, mostraré los nombres de todas las columnas para verificar el cambio realizado.

In [14]:
# Cambiar el nombre de la columna "userid"

df.rename(columns={"userid":"user_id"},inplace=True)

#Llamar al atributo columns

df.columns


Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

Comprobaré el resultado y mostraré los encabezados una vez más para verificar los cambios realizados.

In [15]:
# Comprobar el resultado: la lista de encabezados

df.columns


Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')

[Volver a Contenidos](#back)

### Valores Ausentes

Para encontrar el número de valores ausentes en la tabla, utilizaré dos métodos en una secuencia. Esto me permitirá obtener una visión completa de la cantidad de valores ausentes en los datos.


In [16]:
# Calcular el número de valores ausentes

df.isna().sum()


user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64

### Tratamiento de Valores Ausentes

Al abordar los valores ausentes, es importante reconocer que no todos afectan la investigación de la misma manera. Por ejemplo, los valores ausentes en `track` y `artist` pueden no ser cruciales y podrían reemplazarse con valores predeterminados como el string `'unknown'` (desconocido).

Sin embargo, los valores ausentes en `'genre'` podrían tener un impacto significativo en la comparación entre las preferencias musicales de Springfield y Shelbyville. Aunque sería útil conocer las razones por las cuales hay datos ausentes e intentar recuperarlos, desafortunadamente, no tenemos esa oportunidad en este proyecto.

Por lo tanto, para abordar esta situación, llevaré a cabo las siguientes acciones:
- Rellenar los valores ausentes en `'genre'` con un valor predeterminado.
- Evaluar el posible impacto de los valores ausentes en los cálculos realizados.



Para abordar los valores ausentes en las columnas `'track'`, `'artist'` y `'genre'`, procederé a reemplazarlos con el string `'unknown'`. Como hemos demostrado anteriormente en las lecciones, la mejor forma de hacerlo es crear una lista que almacene los nombres de las columnas donde se necesita el reemplazo. Luego, utilizaré esta lista para iterar sobre las columnas donde se necesita el reemplazo y realizaré el propio reemplazo.


In [17]:
# Bucle en los encabezados reemplazando los valores ausentes con 'unknown'

columns_to_replace = ['track', 'artist', 'genre']

for col in columns_to_replace:
    df[col].fillna("unknown",inplace=True)


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna("unknown",inplace=True)


Ahora procederé a verificar el resultado para asegurarme de que después del reemplazo no haya valores ausentes en el conjunto de datos. Para ello, contaré nuevamente los valores ausentes y verificaré que el proceso de reemplazo haya sido exitoso.

In [18]:
# Contar valores ausentes

df.isna().sum()


user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64

[Volver a Contenidos](#back)

### Duplicados <a id='duplicates'></a>

Para encontrar el número de duplicados explícitos en la tabla, aplicaré dos métodos en una secuencia. Esto me permitirá obtener la cantidad de duplicados explícitos en los datos.

In [19]:
# Contar duplicados explícitos

df.duplicated().sum()


3826

Ahora procederé a eliminar todos los duplicados de la tabla. Para ello, llamaré al método que realiza exactamente esta tarea.


In [20]:
# Eliminar duplicados explícitos
df.drop_duplicates(inplace=True)
#Resetear el índice
df.reset_index(drop=True, inplace=True)


Ahora procederé a verificar si hemos eliminado con éxito todos los duplicados. Contaré nuevamente los duplicados explícitos para asegurarme de que todos hayan sido eliminados correctamente.

In [21]:
# Comprobar de nuevo si hay duplicados
df.duplicated().sum()


0

Ahora procederé a deshacernos de los duplicados implícitos en la columna `genre`. Por ejemplo, el nombre de un género se puede escribir de varias formas, lo que podría generar errores y afectar al resultado. Para abordar esto, llevaré a cabo el proceso de eliminación de duplicados implícitos en la columna 'genre'.

Para hacerlo, primero mostraré una lista de nombres de género únicos, ordenados en orden alfabético. Para ello, seguiré estos pasos:

- Extraeré la columna `genre` del DataFrame.
- Llamaré al método que devolverá todos los valores únicos en la columna extraída.


In [22]:
# Inspeccionar los nombres de géneros únicos

df['genre'].sort_values().unique()


array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'ambient', 'americana', 'animated', 'anime',
       'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook',
       'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom',
       'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian',
       'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop',
       'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber',
       'children', 'chill', 'chinese', 'choral', 'christian', 'christmas',
       'classical', 'classicmetal', 'club', 'colombian', 'comedy',
       'conjazz', 'contemporary', 'country', 'cuban', 'dance',
       'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock',
       'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat',
       'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy',
       'electronic', 'electropop', 'emo', 'entehno', 'epicmetal',
       'estrada', 'ethnic', 'eurofo

Para corregir los duplicados implícitos del género `hiphop`, seguiré estos pasos:

- Buscaré en la lista para encontrar duplicados implícitos del género `hiphop`. Estos pueden ser nombres escritos incorrectamente o nombres alternativos para el mismo género.
- Identificaré los siguientes duplicados implícitos: `hip`, `hop`, `hip-hop`.
- Para deshacerme de ellos, crearé una función llamada `replace_wrong_genres()` con dos parámetros:
  - `wrong_genres`: una lista que contiene todos los valores que necesito reemplazar.
  - `correct_genre`: un string que utilizaré como reemplazo.
- Como resultado, la función deberá corregir los nombres en la columna `'genre'` de la tabla `df`, es decir, reemplazar cada valor de la lista `wrong_genres` por el valor en `correct_genre`.
- Dentro del cuerpo de la función, utilizaré un bucle `for` para iterar sobre la lista de géneros incorrectos, extraeré la columna `'genre'` y aplicaré el método `replace` para hacer correcciones.

In [23]:
# Función para reemplazar duplicados implícitos

def replace_wrong_genres(wrong_genres, correct_genre):
    for wrong_genre in wrong_genres: # un bucle sobre nombres mal escritos
        df['genre'] = df['genre'].replace(wrong_genre, correct_genre) # aplicar el método replace() para cada nombre incorrecto
    return df # devolver el DataFrame modificado

  
    


Ahora procederé a llamar a la función `replace_wrong_genres()` y pasarle los siguientes argumentos para que retire los duplicados implícitos (`hip`, `hop` y `hip-hop`) y los reemplace por `hiphop`:

In [24]:
# Eliminar duplicados implícitos

values_to_replace = ["hip","hop","hip-hop"]
correct_value = "hiphop"

replace_wrong_genres(values_to_replace,correct_value)

Unnamed: 0,user_id,track,artist,genre,city,time,day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
...,...,...,...,...,...,...,...
61248,729CBB09,My Name,McLean,rnb,Springfield,13:32:28,Wednesday
61249,D08D4A55,Maybe One Day (feat. Black Spade),Blu & Exile,hiphop,Shelbyville,10:00:00,Monday
61250,C5E3A0D5,Jalopiina,unknown,industrial,Springfield,20:09:26,Friday
61251,321D0506,Freight Train,Chas McDevitt,rock,Springfield,21:43:59,Friday


Para asegurarme de que los nombres duplicados hayan sido eliminados correctamente, mostraré la lista de valores únicos de la columna `'genre'` una vez más.

In [25]:
# Comprobación de duplicados implícitos
df['genre'].sort_values().unique()




array(['acid', 'acoustic', 'action', 'adult', 'africa', 'afrikaans',
       'alternative', 'ambient', 'americana', 'animated', 'anime',
       'arabesk', 'arabic', 'arena', 'argentinetango', 'art', 'audiobook',
       'avantgarde', 'axé', 'baile', 'balkan', 'beats', 'bigroom',
       'black', 'bluegrass', 'blues', 'bollywood', 'bossa', 'brazilian',
       'breakbeat', 'breaks', 'broadway', 'cantautori', 'cantopop',
       'canzone', 'caribbean', 'caucasian', 'celtic', 'chamber',
       'children', 'chill', 'chinese', 'choral', 'christian', 'christmas',
       'classical', 'classicmetal', 'club', 'colombian', 'comedy',
       'conjazz', 'contemporary', 'country', 'cuban', 'dance',
       'dancehall', 'dancepop', 'dark', 'death', 'deep', 'deutschrock',
       'deutschspr', 'dirty', 'disco', 'dnb', 'documentary', 'downbeat',
       'downtempo', 'drum', 'dub', 'dubstep', 'eastern', 'easy',
       'electronic', 'electropop', 'emo', 'entehno', 'epicmetal',
       'estrada', 'ethnic', 'eurofo

[Volver a Contenidos](#back)

### Conclusiones del Preprocesamiento de Datos

Al analizar los duplicados, observé dos tipos: los explícitos y los implícitos. Los duplicados explícitos fueron eliminados utilizando la función `drop_duplicates()` con el parámetro `inplace=True`, lo que significa que no fue necesario reasignar. En total, se eliminaron 3826 duplicados explícitos. Por otro lado, encontramos duplicados implícitos en el género 'hiphop' debido a varias formas de escribirlo. Para abordar esto, utilicé una función con un bucle `for` que reemplazó cada variante de escritura del género por una única forma de escribirlo.

Estas acciones garantizaron que nuestros datos estén limpios y preparados para el análisis posterior.

[Volver a Contenidos](#back)

## Etapa 3. Prueba de hipótesis <a id='hypothesis'></a>

### Hipótesis: comparar el comportamiento del usuario o la usuaria en las dos ciudades <a id='activity'></a>

La hipótesis afirma que existen diferencias en la forma en que los usuarios y las usuarias de Springfield y Shelbyville consumen música. Para comprobar esto, utilizaré los datos de tres días de la semana: lunes, miércoles y viernes.

Para realizar la comparación, seguiré estos pasos:
- Agruparé a los usuarios y las usuarias por ciudad.
- Compararé el número de canciones que cada grupo reprodujo el lunes, el miércoles y el viernes.


### Evaluación de la Actividad del Usuario por Ciudad

Para evaluar la actividad de los usuarios y las usuarias en cada ciudad, seguiré estos pasos por separado:

1. Agruparé los datos por ciudad.
2. Encontraré la cantidad de canciones reproducidas en cada grupo.

Para realizar este cálculo, utilizaré el método `groupby()` junto con el método apropiado para contar durante la etapa de aplicación.

In [26]:
# Contar las canciones reproducidas en cada ciudad
songs_each_city= df.groupby("city")["track"].count()

songs_each_city

city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64

Para encontrar el número de canciones reproducidas el lunes, miércoles y viernes, agruparé los datos por día de la semana y aplicaré el método adecuado para contar durante la etapa de aplicación. Utilizaré el mismo método que antes, pero con una agrupación diferente.

In [27]:
# Calcular las canciones reproducidas en cada uno de los tres días

songs_each_day =df.groupby("day")["track"].count()

songs_each_day


day
Friday       21840
Monday       21354
Wednesday    18059
Name: track, dtype: int64

### Función para Contar Canciones

Para calcular el número de canciones reproducidas en un determinado día y ciudad, crearé la función `number_tracks()`. Esta función aceptará dos parámetros:

- `day`: un día de la semana para filtrar.
- `city`: una ciudad para filtrar.

Dentro de la función, aplicaré un filtrado consecutivo con indexación lógica. Primero filtraré los datos por día y luego filtraré la tabla resultante por ciudad. Después de filtrar los datos por dos criterios, contaré el número de valores de la columna 'user_id' en la tabla resultante. Este recuento representará el número de entradas que estoy buscando. Guardaré el resultado en una nueva variable y lo devolveré desde la función.


In [28]:
# Declara la función number_tracks() con dos parámetros: day= y city=.

def number_tracks(day, city):
    # Filtrado por día
    filter_by_day = df[df["day"] == day]
    # Filtrado por ciudad al filtro anteior por día
    filter_by_city = filter_by_day[filter_by_day["city"] == city]
    # Seleccionar la columna user_id en la tabla filtarda y contar los valores
    count = filter_by_city["user_id"].count()
    # Devuelve el número de valores de la columna 'user_id'
    return count

   

    
 

  

Llamaré a la función `number_tracks()` seis veces, cambiando los valores de los parámetros para recuperar los datos de ambas ciudades para cada uno de los tres días.

In [29]:
# El número de canciones reproducidas en Springfield el lunes

number_tracks("Monday","Springfield")


15740

In [30]:
# El número de canciones reproducidas en Shelbyville el lunes

number_tracks("Monday","Shelbyville")


5614

In [31]:
# El número de canciones reproducidas en Springfield el miércoles

number_tracks("Wednesday","Springfield")

11056

In [32]:
# El número de canciones reproducidas en Shelbyville el miércoles
number_tracks("Wednesday","Shelbyville")


7003

In [33]:
# El número de canciones reproducidas en Springfield el viernes
number_tracks("Friday","Springfield")


15945

In [34]:
# El número de canciones reproducidas en Shelbyville el viernes
number_tracks("Friday","Shelbyville")


5895

**Conclusiones**

Hipótesis: La actividad de los usuarios y las usuarias difiere según el día de la semana y dependiendo de la ciudad.

Con los resultados obtenidos, se confirma la hipótesis de que la actividad de los usuarios varía significativamente dependiendo del día y la ciudad. En todos los días con registros, en la ciudad de Springfield se escucha más música que en Shelbyville, es decir, hay más actividad. Asimismo, la actividad cambia de manera diferente en las dos ciudades: mientras que en Shelbyville aumenta de lunes a miércoles y vuelve a disminuir el viernes, en Springfield disminuye de lunes a miércoles y vuelve a aumentar el viernes.



[Volver a Contenidos](#back)

# Conclusiones <a id='end'></a>



Los resultados respaldan la idea de que la actividad de los usuarios cambia considerablemente según el día y la ciudad. Sin embargo, al hablar de la "actividad de los usuarios", es importante ser más preciso. Si nos referimos únicamente al número de reproducciones por día y ciudad, la hipótesis se mantiene. No obstante, al considerar las preferencias musicales de cada ciudad, es útil filtrar por género musical para identificar patrones de escucha. Incluso podríamos añadir el día como filtro para ver si influye en estas preferencias. De esta forma, podemos descubrir tendencias musicales tanto en general como para cada día específico en cada ciudad.

Por otro lado, si entendemos la "actividad de los usuarios" como la cantidad de música que escuchan en diferentes momentos del día, podríamos dividir el día en franjas horarias y filtrar por ciudad. Esto nos permitiría determinar cuándo se escucha más música en cada lugar. Además, al filtrar por género musical, podríamos identificar si hay momentos específicos del día en que se prefiere ciertos tipos de música en cada ciudad.




### Nota

Para futuros proyectos, se podría utilizar una prueba de hipótesis estadística, ya que es más precisa y cuantitativa. También es importante tener en cuenta que los datos de una sola fuente pueden no representar completamente la totalidad de una ciudad. Sin embargo, dentro de las limitaciones de este proyecto, se ha realizado un análisis exploratorio que permite extraer ciertas conclusiones.

[Volver a Contenidos](#back)