# 🎶 Music Behavior Analysis by City  #

**Proyecto**: Análisis de comportamiento musical por ciudad 

**Autor**: Carlos Smith

**Fecha**: Junio 2025

*Descripción del Proyecto*:
Este proyecto se centra en el **análisis de datos para la prueba de hipótesis**, un pilar fundamental en la toma de decisiones basada en datos. Abordaremos la comparación de **preferencias musicales y patrones de actividad** de usuarios de servicios de streaming en dos ciudades distintas: Springfield y Shelbyville. Trabajaremos con **datos reales de transmisión de música online** para investigar si el comportamiento de los usuarios difiere según el día de la semana y la ciudad.

🎯 *Objetivos Clave*:

- **Formulación y Prueba de Hipótesis**: Diseñar y ejecutar un proceso para validar supuestos sobre el comportamiento del usuario.
- **Análisis Comparativo**: Identificar y contrastar patrones de actividad musical entre diferentes ubicaciones urbanas.
- **Asegurar la Calidad de Datos**: Evaluar, preprocesar y limpiar conjuntos de datos reales para garantizar su fiabilidad en el análisis.
- **Generación de Insights Accionables**: Derivar conclusiones claras y concisas que permitan comprender mejor las dinámicas de consumo musical.

🛠️ Habilidades Demostradas:

- **Python**: Dominio en la manipulación de datos, filtrado y agregación para análisis complejos.
- **Análisis Exploratorio de Datos (EDA)**: Capacidad para identificar la estructura de los datos, detectar problemas de calidad (valores ausentes, duplicados) y comprender las distribuciones.
- **Preprocesamiento de Datos**: Experiencia en la limpieza de datos, estandarización de formatos (ej., encabezados) y manejo robusto de inconsistencias.
- **Prueba de Hipótesis**: Habilidad para formular preguntas de negocio como hipótesis estadísticas y utilizar datos para aceptarlas o rechazarlas.
- **Pensamiento Crítico**: Capacidad para evaluar suposiciones, interpretar resultados y derivar conclusiones significativas.
- **Organización del Proyecto**: Estructuración de un proceso de análisis en etapas claras y manejables.

Este proyecto destaca la habilidad esencial para la investigación basada en datos y la prueba de hipótesis, demostrando cómo la evidencia empírica se traduce en conocimiento para la toma de decisiones estratégicas.

---

**Contexto del Análisis:**

Como parte de las responsabilidades del equipo de análisis, este proyecto se enfoca en desentrañar las diferencias en el comportamiento del usuario en el ámbito del streaming musical. Implica la evaluación rigurosa de la calidad de un conjunto de datos, su preprocesamiento meticuloso y la aplicación de métodos para probar si existen variaciones significativas en la actividad de los usuarios entre Springfield y Shelbyville, lo que es crucial para estrategias de segmentación y personalización.

# Contenido <a id='back'></a>

- Introducción
- Etapa 1. Descripción de los datos
    - Conclusiones
- Etapa 2. Preprocesamiento de datos
    - 2.1 Estilo del encabezado
    - 2.2 Valores ausentes
    - 2.3 Duplicados
    - 2.4 Conclusiones
- Etapa 3. Prueba de hipótesis
    3.1 Hipótesis 1: actividad de los usuarios y las usuarias en las dos ciudades
- Conclusiones

### **Etapa 1. Descripción de los Datos**

En esta etapa inicial del proyecto, nuestro objetivo es realizar un análisis exploratorio de datos (EDA) para comprender la estructura, el contenido y la calidad del conjunto de datos *music_project_en.csv*. Esta fase es crucial para identificar posibles problemas que puedan afectar la fiabilidad de nuestro análisis y la prueba de hipótesis posterior.

Para ello, utilizaremos la biblioteca *pandas*, esencial para la manipulación y el análisis de datos en Python.

**Importación de Datos y Revisión Preliminar**

Importaremos la biblioteca pandas y cargaremos el archivo de datos en un DataFrame, que llamaremos df. Luego, realizaremos una inspección inicial para obtener una visión rápida de las primeras filas y la información general del DataFrame.

Importando librería pandas

In [2]:
# Importar pandas
import pandas as pd


Cargando archivo `music_project_en.csv` de la carpeta `/datasets/` y guardando en la variable `df`:

In [3]:
# Leer el archivo y almacenarlo en df
df=pd.read_csv("/datasets/music_project_en.csv")

Mostrando 10 primeras filas de la tabla:

In [6]:
# Obtener las 10 primeras filas de la tabla df
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas Rönnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funiculì funiculà,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L’estate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


Información general sobre la tabla

In [5]:
# Obtener la información general sobre nuestros datos
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


#### **Observaciones sobre la Estructura y Estilo de los Encabezados**

Al examinar el DataFrame, hemos realizado las siguientes observaciones sobre su estructura y el estilo de los encabezados:

- **Estructura:** La tabla contiene siete columnas. A primera vista, todas ellas parecen estar almacenando datos de tipo object (lo que sugiere que pandas las interpretó como cadenas de texto, incluso si contienen números).

- **Columnas según Documentación**:

    - `userID`: identificador del usuario o la usuaria;
    - `Track`: título de la canción;
    - `artist`: nombre del artista;
    - `genre`: género de la pista;
    - `City`: ciudad del usuario o la usuaria;
    - `time`: la hora exacta en la que se reprodujo la canción;
    - `Day`: día de la semana.
- **Problemas de Estilo en los Encabezados (Identificados):**

    1. **Consistencia de mayúsculas/minúsculas**: Algunos encabezados están en mayúsculas (`Track`, `City`), mientras que otros están en minúsculas (`artist`, `genre`).
    2. **Espacios innecesarios**: Algunos encabezados contienen espacios iniciales o finales (ej., ` userID`).
    3. **Convención de nomenclatura (snake_case)**: El encabezado ` userID` no sigue la convención snake_case (esperaríamos user_id), lo cual dificulta la consistencia en el código. Otros como `Track`, `City`, y `Day` tampoco siguen esta convención (`track`, `city`, `day` serían preferibles).





---

#### **Reflexiones Preliminares sobre los Datos**

Hemos procesado la información inicial del DataFrame para responder a preguntas críticas sobre la calidad y el tipo de nuestros datos:

1. **Tipos de datos y lo que almacenan las columnas**:

    - Las **filas** representan una reproducción individual de una canción, incluyendo detalles como el título de la canción, artista, género, la ciudad del usuario, la hora y el día de la reproducción.
    - Las **columnas** contienen una mezcla de datos que, aunque inicialmente object, se pueden clasificar funcionalmente como:
        - Categóricos: `userID` (identificador único, sin operaciones matemáticas), `Track`, `artist`, `genre` (información complementaria para tendencias), `City` (patrones geográficos), y `Day` (día de la semana de la reproducción).
        - Cuantitativos: `time` (hora exacta de la reproducción, útil para tendencias horarias). Es importante señalar que si `Day` contuviera fechas completas, también podría considerarse cuantitativa para operaciones temporales.
    - Observamos **valores ausentes** en algunas filas, donde la información de canción, artista o género podría estar incompleta.

2. **Suficiencia de datos para la hipótesis**:

    - A pesar de la presencia de valores ausentes, la información disponible es **suficiente para abordar y probar nuestra hipótesis** principal sobre las diferencias en la actividad musical entre ciudades y días de la semana.
    - La columna con más **valores nulo** es `artist`, con aproximadamente un 11% de omisiones, lo cual **no representa un factor crítico que impida responder la hipótesis**.

3. **Problemas identificados en los datos**:

    - **Valores Ausentes**: Confirmamos la presencia de campos nulos en varias columnas, lo que requerirá un manejo adecuado en el preprocesamiento.
    - **Consistencia de Texto**: Se observa inconsistencia en las mayúsculas/minúsculas en columnas como `Track`.
    - **Consistencia de Nombres (snake_case)**: Los valores en la columna `Day` (Día) parecen estar limitados a solo tres valores únicos, lo cual es inusual para los siete días de la semana y sugiere posibles problemas de consistencia o representación incompleta de los datos.

[Volver a Contenidos](#back)

### **Etapa 2. Preprocesamiento de Datos**

El preprocesamiento de datos es una fase crítica en cualquier proyecto de análisis. Nuestro objetivo aquí es transformar los datos crudos en un formato limpio y consistente, adecuado para el análisis y la prueba de hipótesis. Nos centraremos en tres áreas clave: **estandarización de encabezados, manejo de valores ausentes y eliminación de duplicados (explícitos e implícitos)**.




#### **2.1 Estilo del Encabezado** 

Una consistencia en el estilo de los encabezados es fundamental para la legibilidad del código y la facilidad de manipulación del DataFrame. Hemos identificado problemas como mayúsculas/minúsculas inconsistentes, espacios extra y la falta de `snake_case`.

Primero, mostremos los encabezados actuales para tener un punto de partida:

In [7]:
# Muestra los nombres de las columnas
print(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


Ahora, aplicaremos transformaciones para estandarizar el formato:
- Minúsculas
- Eliminar espacios
- Utilizar `snake_case`

In [8]:
# Bucle en encabezados poniendo todo en minúsculas
new_columns=[]

#Iterando sobre nombres
for col in df.columns:
    new_col=col.lower()
    new_columns.append(new_col)

#Definiendo nuevos valores de columnas sobre df.columns
df.columns=new_columns

print(df.columns)

Index(['  userid', 'track', 'artist', 'genre', '  city  ', 'time', 'day'], dtype='object')


In [None]:
# Bucle en los encabezados para eliminar espacios en blanco
new_columns=[]

#Iterando sobre nombres
for col in df.columns:
    new_col=col.strip()
    new_columns.append(new_col)

#Definiendo nuevos valores de columnas sobre df.columns
df.columns=new_columns
print(df.columns)

Index(['userid', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


In [10]:
# Cambiar el nombre de la columna "userid"
df.rename(columns={'userid':'user_id'},inplace=True)
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


Comprobando resultado. Mostrando encabezados una vez más:

In [11]:
# Comprobar el resultado: la lista de encabezados
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


[Volver a Contenidos](#back)

#### **2.2 Valores Ausentes**

Los valores ausentes pueden distorsionar nuestros análisis y llevar a conclusiones erróneas. Es crucial identificarlos y manejarlos de manera adecuada.

Primero, encontraremos el número de valores ausentes en todo el DataFrame:

In [12]:
# Calcular el número de valores ausentes
print(df.isna().sum())

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64


Observamos que las columnas `track`, `artist` y `genre` tienen valores ausentes. Mientras que la ausencia en `track` y `artist` no es crítica para nuestra hipótesis principal, los valores ausentes en `genre` podrían afectar la comparación entre ciudades. Aunque idealmente buscaríamos las razones detrás de estos datos faltantes, en este contexto, los reemplazaremos con un valor predeterminado para mantener la integridad de la estructura y facilitar el análisis.

Procederemos a reemplazar estos valores ausentes con el string `unknown`:

In [13]:
# Bucle en los encabezados reemplazando los valores ausentes con 'unknown'
columns_to_fill=['track','artist','genre']
for col in columns_to_fill:
    df[col].fillna('unknown',inplace=True)



Ahora comprueba el resultado para asegurarnos de que después del reemplazo no haya valores ausentes en el conjunto de datos. Para hacer esto, contaremos los valores ausentes nuevamente.

In [14]:
# Contar valores ausentes
print(df.isna().sum())

user_id    0
track      0
artist     0
genre      0
city       0
time       0
day        0
dtype: int64


[Volver a Contenidos](#back)

#### **2.3 Duplicados**

Los datos duplicados pueden inflar artificialmente las estadísticas y sesgar los resultados. Los abordaremos en dos fases: duplicados explícitos y duplicados implícitos (variaciones de escritura).

Primero, encontraremos y eliminaremos los duplicados explícitos:

In [15]:
# Contar duplicados explícitos
print(df.duplicated().sum())

3826


In [16]:
# Eliminar duplicados explícitos
df.drop_duplicates(inplace=True)

Comprobemos ahora si eliminamos con éxito todos los duplicados. Contaremos los duplicados explícitos una vez más para asegurarnos de haberlos eliminado todos:

In [17]:
# Comprobar de nuevo si hay duplicados
print(df.duplicated().sum())


0


Ahora, nos ocuparemos de los duplicados implícitos en la columna genre. Dichos errores pueden surgir por inconsistencias en la entrada de datos y pueden afectar significativamente la agrupación y el análisis por género.

Primero, mostramos una lista de nombres de género únicos para identificar las inconsistencias:

In [18]:
# Inspeccionar los nombres de géneros únicos
print(df['genre'].sort_values().unique())

['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'axé' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forró' 'frankreich'
 'französisch' 

Hemos identificado duplicados implícitos para el género hiphop (ej., *hip*, *hop*, *hip-hop*). Crearemos una función para estandarizar estos nombres.

In [22]:
# Función para reemplazar duplicados implícitos
def replace_wrong_genres (wrong_genres, correct_genre):
    for wrong in wrong_genres:
        df['genre']=df['genre'].replace(wrong, correct_genre)
    return 


Ahora, utilizaremos `replace_wrong_genres()` e insertaremos los argumentos para que retire los duplicados implícitos (*hip*, *hop* y *hip-hop*) y reemplace por *hiphop*:

In [23]:
# Eliminar duplicados implícitos
wrong=['hip','hop','hip-hop']
correct='hiphop'

exercise=replace_wrong_genres(wrong,correct)
print(exercise)

None


Comprobemos que los nombres duplicados han sido eliminados. Mostrando la lista de valores únicos de la columna `'genre'` :

In [24]:
# Comprobación de duplicados implícitos
print(df['genre'].sort_values().unique())

['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'axé' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'film' 'fitness' 'flamenco' 'folk'
 'folklore' 'folkmetal' 'folkrock' 'folktronica' 'forró' 'frankreich'
 'französisch' 

[Volver a Contenidos](#back)

#### **2.4 Conclusiones del Preprocesamiento de Datos** 

Durante esta etapa de preprocesamiento, hemos realizado mejoras significativas en la calidad y consistencia de nuestros datos, lo cual es fundamental para la fiabilidad de los análisis subsiguientes:

- **Duplicados Explícitos**: Se identificaron y eliminaron 3826 duplicados explícitos utilizando el método `drop_duplicates()` . Este proceso asegura que cada fila del DataFrame represente un registro único, evitando sesgos en conteos y agregaciones. La confirmación posterior del conteo de duplicados verificó una eliminación exitosa.

- **Duplicados Implícitos**: Se notó una falta de homologación en la entrada de datos para el género "hiphop", presentando variaciones como "hip", "hop" y "hip-hop". Este problema se abordó de manera automatizada mediante la creación y aplicación de la función `replace_wrong_genres()`. Esta función iteró a través de los valores de la columna 'genre', reemplazando las versiones incorrectas por el valor estandarizado 'hiphop'. La verificación final de los valores únicos en la columna genre confirmó la estandarización exitosa.

En resumen, la limpieza de encabezados, el manejo de valores ausentes y la eliminación de duplicados (explícitos e implícitos) han resultado en un conjunto de datos mucho más limpio y listo para la prueba de hipótesis, mejorando la precisión y la confianza en nuestros hallazgos.

[Volver a Contenidos](#back)

### **Etapa 3. Prueba de Hipótesis**

En esta etapa, nos adentraremos en el corazón de nuestro proyecto: la prueba de hipótesis. Aplicaremos nuestros datos limpios y preprocesados para investigar si existen diferencias significativas en el comportamiento de consumo de música entre los usuarios de Springfield y Shelbyville, centrándonos en la actividad durante días específicos de la semana.

#### **Hipótesis: Comparación del Comportamiento del Usuario en las Dos Ciudades**

Nuestra hipótesis principal establece que **la actividad de los usuarios difiere según el día de la semana y dependiendo de la ciudad.** Para probar esto, analizaremos los datos de tres días clave: **lunes, miércoles y viernes.**

El enfoque metodológico seguirá el paradigma **dividir-aplicar-combinar (Split-Apply-Combine)** para agrupar y agregar los datos de manera efectiva.

**Evaluación de la Actividad por Ciudad**

Primero, evaluaremos la actividad general de los usuarios en cada ciudad. Agruparemos el DataFrame por la columna `city` y contaremos el número de canciones reproducidas.



In [25]:
# Contar las canciones reproducidas en cada ciudad
usuarios_por_ciudad=df.groupby('city')['user_id'].nunique()
canciones_por_ciudad=df.groupby('city')['track'].count()

print("Usuarios por ciudad")
print(usuarios_por_ciudad)
print()
print("Canciones or Ciudad")
print(canciones_por_ciudad)

print(df.columns)

Usuarios por ciudad
city
Shelbyville    12423
Springfield    29358
Name: user_id, dtype: int64

Canciones or Ciudad
city
Shelbyville    18512
Springfield    42741
Name: track, dtype: int64
Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


#### **Observaciones:**

- Se observa que **Springfield tiene una mayor cantidad de reproducciones de canciones** en comparación con Shelbyville. Específicamente, las reproducciones en Springfield son aproximadamente el doble que en Shelbyville.
- Esta diferencia en el volumen de reproducciones es **lógica y consistente con la mayor población** esperada en Springfield, sugiriendo una correlación directa entre el tamaño de la base de usuarios y la actividad total.


#### **Evaluación de la Actividad por Día de la Semana**

Ahora, profundizaremos en la actividad por día de la semana, sin considerar la ciudad por el momento. Agruparemos los datos por `day` y contaremos las reproducciones.

In [26]:
# Calcular las canciones reproducidas en cada uno de los tres días
ciudad_Shelbyville =df[df['city']=='Shelbyville']
dias_Shelbyville=ciudad_Shelbyville.groupby('day')['day'].count()
ciudad_Springfield =df[df['city']=='Springfield']
dias_Springfield=ciudad_Springfield.groupby('day')['day'].count()
print('Canciones reproducidas Shelbyville')
print(dias_Shelbyville)
print()
print('Canciones reproducidas Springfield')
print(dias_Springfield)

Canciones reproducidas Shelbyville
day
Friday       5895
Monday       5614
Wednesday    7003
Name: day, dtype: int64

Canciones reproducidas Springfield
day
Friday       15945
Monday       15740
Wednesday    11056
Name: day, dtype: int64


#### **Observaciones:**

Al analizar la actividad por día, identificamos patrones distintos:
    - En Shelbyville, el día de mayor actividad de reproducción es el miércoles.
    - En Springfield, el día con el mayor número de reproducciones es el viernes.
- Estos hallazgos ya sugieren una diferencia en el comportamiento de consumo de música entre las dos ciudades en función del día.

**Conteo de Canciones por Día y Ciudad (Función `number_tracks()`)**

Para una verificación más precisa de nuestra hipótesis, necesitamos una función que pueda contar el número de canciones reproducidas simultáneamente por un **día específico y una ciudad específica**.

Crearemos la función `number_tracks()`:

In [27]:
# Declara la función number_tracks() con dos parámetros: day= y city=.
def number_track (df,day,city):
    # Almacena las filas del DataFrame donde el valor en la columna 'day' es igual al parámetro day=
    filter_day = df[ df['day'] == day ]
    # Filtra las filas donde el valor en la columna 'city' es igual al parámetro city=
    filter_city = filter_day[ filter_day['city'] == city ]
    # Extrae la columna 'user_id' de la tabla filtrada y aplica el método count()
    filter_user_id = filter_city['user_id'].count()
    # Devolve el número de valores de la columna 'user_id'
    return filter_user_id


In [28]:
# El número de canciones reproducidas en Springfield el lunes
springfield_monday=number_track(df,"Monday","Springfield")
print(springfield_monday)

15740


In [30]:
# El número de canciones reproducidas en Shelbyville el lunes
springfield_monday=number_track(df,"Monday","Shelbyville")
print(springfield_monday)

5614


In [31]:
# El número de canciones reproducidas en Springfield el miércoles
springfield_monday=number_track(df,"Wednesday","Springfield")
print(springfield_monday)

11056


In [32]:
# El número de canciones reproducidas en Shelbyville el miércoles
springfield_monday=number_track(df,"Wednesday","Shelbyville")
print(springfield_monday)

7003


In [33]:
# El número de canciones reproducidas en Springfield el viernes
springfield_monday=number_track(df,"Friday","Springfield")
print(springfield_monday)

15945


In [35]:
# El número de canciones reproducidas en Shelbyville el viernes
springfield_monday=number_track(df,"Friday","Shelbyville")
print(springfield_monday)

5895


#### **Conclusiones sobre la Hipótesis**

**Comentarios sobre la hipótesis:**
La hipótesis de que "la actividad de los usuarios y usuarias difiere según el día de la semana y dependiendo de la ciudad" debería **aceptarse por completo**. Nuestros análisis comparativos proporcionan una sólida evidencia que apoya esta afirmación.

Al comparar específicamente la actividad en **Shelbyville**, observamos que el día con más reproducciones fue el **miércoles**. En contraste, para **Springfield**, el pico de reproducciones se registró el **viernes**. Adicionalmente, los días de menor actividad también difieren: el lunes fue el día con menos reproducciones en Shelbyville, mientras que en Springfield, el miércoles tuvo las menores reproducciones. Estos patrones divergentes confirman que no existe una similitud en la distribución de la actividad de reproducción musical entre ambas ciudades a lo largo de la semana.

**Resumen de las conclusiones sobre la hipótesis:**

Con base en la información analizada, no se detecta ninguna similitud en el patrón de reproducciones entre ambas ciudades por días de la semana. Las ciudades presentan patrones de consumo musical distintos y picos de actividad en días diferentes. Por lo tanto, la hipótesis inicial se acepta completamente: *la actividad de los usuarios y usuarias difiere significativamente según el día de la semana y la ciudad.*

---

**Nota Adicional**

Es importante recordar que, en proyectos de investigación reales, la prueba de hipótesis estadística es más precisa y cuantitativa, involucrando pruebas como *Chi-cuadrado* o *pruebas t*. También, las conclusiones sobre una ciudad entera basadas en datos de una sola fuente deben manejarse con cautela, ya que la muestra puede no ser completamente representativa. Se explorarán técnicas de prueba de hipótesis más avanzadas en el sprint de análisis estadístico de datos.