# üé∂ Music Behavior Analysis by City
**Auditor√≠a de Datos y Validaci√≥n de Hip√≥tesis de Consumo Musical**

---
### üìã Contexto Anal√≠tico
El presente estudio aborda la comparaci√≥n de patrones de comportamiento entre dos mercados urbanos (Springfield y Shelbyville). A trav√©s de la aplicaci√≥n de t√©cnicas de **Data Wrangling** y **An√°lisis Estad√≠stico**, se busca validar si existen diferencias significativas en la actividad de transmisi√≥n musical, proporcionando fundamentos s√≥lidos para decisiones estrat√©gicas de producto.

**Proyecto ID:** #03  
**Metodolog√≠a:** An√°lisis Exploratorio de Datos (EDA) & A/B Testing Concept  

### üîç Etapa 1: Auditor√≠a y Descripci√≥n de Datos Crudos
**Objetivo:** Evaluar la integridad, estructura y calidad del dataset `music_project_en.csv`.

Esta fase de **An√°lisis Exploratorio de Datos (EDA)** es fundamental para identificar sesgos, inconsistencias o valores an√≥malos que puedan comprometer la validez de las pruebas estad√≠sticas posteriores. Se utiliza la librer√≠a `pandas` para la inspecci√≥n de metadatos y tipos de almacenamiento.

In [2]:
# Importaci√≥n de librer√≠a
import pandas as pd

In [3]:
# Carga de datos
df=pd.read_csv("music_project_en.csv")

In [4]:
# Obtenci√≥n exploratoria de datos
df.head(10)

Unnamed: 0,userID,Track,artist,genre,City,time,Day
0,FFB692EC,Kamigata To Boots,The Mass Missile,rock,Shelbyville,20:28:33,Wednesday
1,55204538,Delayed Because of Accident,Andreas R√∂nnberg,rock,Springfield,14:07:09,Friday
2,20EC38,Funicul√¨ funicul√†,Mario Lanza,pop,Shelbyville,20:58:07,Wednesday
3,A3DD03C9,Dragons in the Sunset,Fire + Ice,folk,Shelbyville,08:37:09,Monday
4,E2DC1FAE,Soul People,Space Echo,dance,Springfield,08:34:34,Monday
5,842029A1,Chains,Obladaet,rusrap,Shelbyville,13:09:41,Friday
6,4CB90AA5,True,Roman Messer,dance,Springfield,13:00:07,Wednesday
7,F03E1C1F,Feeling This Way,Polina Griffith,dance,Springfield,20:47:49,Wednesday
8,8FA1D3BE,L‚Äôestate,Julia Dalia,ruspop,Springfield,09:17:40,Friday
9,E772D5C0,Pessimist,,dance,Shelbyville,21:20:49,Wednesday


### üõ†Ô∏è Protocolo de Inspecci√≥n T√©cnica de Metadatos
**Objetivo:** Diagnosticar la estructura del DataFrame y la integridad de las dimensiones.

Tras la carga del dataset, se procede a una auditor√≠a t√©cnica para evaluar la consistencia de los tipos de datos, la presencia de valores nulos por columna y la memoria utilizada. Esta inspecci√≥n preliminar permite detectar discrepancias entre la documentaci√≥n t√©cnica y la realidad de los datos crudos, estableciendo las prioridades para la fase de limpieza y normalizaci√≥n.

In [5]:
# Obtenci√≥n de informaci√≥n general de DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 65079 entries, 0 to 65078
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0     userID  65079 non-null  object
 1   Track     63736 non-null  object
 2   artist    57512 non-null  object
 3   genre     63881 non-null  object
 4     City    65079 non-null  object
 5   time      65079 non-null  object
 6   Day       65079 non-null  object
dtypes: object(7)
memory usage: 3.5+ MB


#### üìù Evaluaci√≥n de la Viabilidad del An√°lisis
Tras procesar la informaci√≥n t√©cnica, se concluye lo siguiente:

1. **Unidad de An√°lisis:** Cada registro representa un evento de streaming √∫nico. Las dimensiones categ√≥ricas (`city`, `genre`, `day`) son suficientes para la segmentaci√≥n.
2. **Impacto de Valores Nulos:** La columna `artist` presenta un 11% de valores ausentes. Sin embargo, al no ser una variable cr√≠tica para las hip√≥tesis de ciudad/d√≠a, el dataset se considera **apto para el an√°lisis**.
3. **Anomal√≠as Identificadas:** La dimensi√≥n `day` muestra una variabilidad limitada que ser√° investigada en la fase de limpieza de duplicados impl√≠citos.

### üßπ Etapa 2: Data Wrangling y Control de Calidad
**Objetivo:** Transformar datos crudos en un activo anal√≠tico estandarizado.

El preprocesamiento se enfoca en eliminar el "ruido" estad√≠stico. Un dataset limpio es la √∫nica garant√≠a de que los resultados de la prueba de hip√≥tesis reflejen comportamientos reales y no errores de captura de datos.


#### üé® 2.1 Estandarizaci√≥n de Identificadores (Snake Case)
Se aplican transformaciones para asegurar consistencia en la nomenclatura de las columnas, facilitando la mantenibilidad del pipeline de datos.


In [6]:
# Obtenci√≥n de nombres de columnas
print(df.columns)

Index(['  userID', 'Track', 'artist', 'genre', '  City  ', 'time', 'Day'], dtype='object')


### üîß Reingenier√≠a de Atributos y Normalizaci√≥n de Encabezados
**Objetivo:** Implementar un est√°ndar de nomenclatura t√©cnica para optimizar la manipulaci√≥n del DataFrame.

Tras identificar inconsistencias en los encabezados (espacios superfluos y falta de *snake_case*), se procede a la ejecuci√≥n de un proceso de normalizaci√≥n masiva. Esta acci√≥n garantiza la coherencia sem√°ntica en todo el c√≥digo, facilitando el acceso a las variables y minimizando errores sint√°cticos durante la fase de agregaci√≥n y prueba de hip√≥tesis.

In [7]:
# Normalizaci√≥n integral de encabezados
# Eliminaci√≥n de espacios (strip), 2. Conversi√≥n a min√∫sculas (lower), 3. Formato snake_case
df.columns = [col.strip().lower().replace('userid', 'user_id') for col in df.columns]

# Validaci√≥n de arquitectura de columnas
print(df.columns)

Index(['user_id', 'track', 'artist', 'genre', 'city', 'time', 'day'], dtype='object')


#### ü©π 2.2 Gesti√≥n de Valores Ausentes
Para preservar el volumen de la muestra sin introducir sesgos, se imputar√° el valor `unknown` en los campos cr√≠ticos de g√©nero, manteniendo la integridad del DataFrame para comparaciones por ciudad.

##### ü©π Auditor√≠a de Integridad y Estrategia de Imputaci√≥n
**Objetivo:** Mitigar el impacto de la p√©rdida de informaci√≥n en las dimensiones cr√≠ticas.

Tras detectar valores nulos en las variables de contenido (`track`, `artist`, `genre`), se opta por una **imputaci√≥n por etiqueta predeterminada** (`unknown`). Esta decisi√≥n t√©cnica permite conservar el volumen de la muestra para el an√°lisis de actividad por ciudad, evitando la eliminaci√≥n de registros que a√∫n contienen datos valiosos de temporalidad y geolocalizaci√≥n. Se implementa un filtro de alertas para asegurar que la salida del notebook cumpla con los est√°ndares de presentaci√≥n profesional.

In [8]:
# Diagn√≥stico inicial de integridad mediante el conteo de valores nulos por dimensi√≥n
print("Estado inicial de nulos:\n")
print(df.isna().sum())

# Aplicaci√≥n de t√©cnica de imputaci√≥n por etiqueta predeterminada ('unknown')
# Definici√≥n de lista de columnas cr√≠ticas para asegurar la consistencia del cat√°logo
cols_to_fix = ['track', 'artist', 'genre']
for col in cols_to_fix:
    df[col] = df[col].fillna('unknown')

# Auditor√≠a final de calidad post-procesamiento
print("\n---")
print("\nVerificaci√≥n post-imputaci√≥n (Total nulos):", df.isna().sum().sum())

Estado inicial de nulos:

user_id       0
track      1343
artist     7567
genre      1198
city          0
time          0
day           0
dtype: int64

---

Verificaci√≥n post-imputaci√≥n (Total nulos): 0


#### üëØ 2.3 Resoluci√≥n de Duplicados e Inconsistencias Impl√≠citas
Se aborda la limpieza de duplicados expl√≠citos y la homologaci√≥n del g√©nero `hiphop`. Este paso previene la inflaci√≥n artificial de m√©tricas en g√©neros espec√≠ficos debido a errores de escritura manual.

### üîÑ Saneamiento de Duplicados y Homologaci√≥n de Categor√≠as
**Objetivo:** Asegurar la unicidad de los registros y la consistencia en el cat√°logo de g√©neros.

Se implementa una limpieza en dos fases: 
1. **Limpieza T√©cnica:** Eliminaci√≥n de redundancias mediante `drop_duplicates()`, asegurando que cada fila represente un evento de streaming √∫nico. 
2. **Normalizaci√≥n Sem√°ntica:** Resoluci√≥n de duplicados impl√≠citos en la dimensi√≥n `genre`. Se utiliza un m√©todo de reemplazo vectorial para consolidar variaciones de escritura (*hip*, *hop*) en la categor√≠a est√°ndar `hiphop`. 

Este proceso es cr√≠tico para evitar la fragmentaci√≥n de los datos y garantizar que el conteo de g√©neros sea exacto durante la fase de prueba de hip√≥tesis.

In [9]:
# --- Saneamiento de Registros y Reestructuraci√≥n de √çndices ---
# Remoci√≥n de duplicados expl√≠citos y restablecimiento del √≠ndice para asegurar la continuidad del DataFrame
df = df.drop_duplicates().reset_index(drop=True)

# --- Resoluci√≥n de Inconsistencias Sem√°nticas (Duplicados Impl√≠citos) ---
# Definici√≥n de par√°metros para la normalizaci√≥n del cat√°logo de g√©neros (Categor√≠a: 'hiphop')
wrong_genres = ['hip', 'hop', 'hip-hop']
correct_genre = 'hiphop'

# Ejecuci√≥n de reemplazo vectorial para optimizar la integridad de las categor√≠as
df['genre'] = df['genre'].replace(wrong_genres, correct_genre)

# --- Auditor√≠a Final de Consistencia y Calidad de Datos ---
# Verificaci√≥n de la eliminaci√≥n de redundancias y validaci√≥n de la normalizaci√≥n ejecutada
print(f"Post-Limpieza: {df.duplicated().sum()} duplicados expl√≠citos detectados.")
print(f"Normalizaci√≥n: '{correct_genre}' verificado en el cat√°logo de g√©neros.")

# Inspecci√≥n del cat√°logo de g√©neros √∫nicos para validaci√≥n de resultados
print(df['genre'].sort_values().unique())

Post-Limpieza: 0 duplicados expl√≠citos detectados.
Normalizaci√≥n: 'hiphop' verificado en el cat√°logo de g√©neros.
['acid' 'acoustic' 'action' 'adult' 'africa' 'afrikaans' 'alternative'
 'ambient' 'americana' 'animated' 'anime' 'arabesk' 'arabic' 'arena'
 'argentinetango' 'art' 'audiobook' 'avantgarde' 'ax√©' 'baile' 'balkan'
 'beats' 'bigroom' 'black' 'bluegrass' 'blues' 'bollywood' 'bossa'
 'brazilian' 'breakbeat' 'breaks' 'broadway' 'cantautori' 'cantopop'
 'canzone' 'caribbean' 'caucasian' 'celtic' 'chamber' 'children' 'chill'
 'chinese' 'choral' 'christian' 'christmas' 'classical' 'classicmetal'
 'club' 'colombian' 'comedy' 'conjazz' 'contemporary' 'country' 'cuban'
 'dance' 'dancehall' 'dancepop' 'dark' 'death' 'deep' 'deutschrock'
 'deutschspr' 'dirty' 'disco' 'dnb' 'documentary' 'downbeat' 'downtempo'
 'drum' 'dub' 'dubstep' 'eastern' 'easy' 'electronic' 'electropop' 'emo'
 'entehno' 'epicmetal' 'estrada' 'ethnic' 'eurofolk' 'european'
 'experimental' 'extrememetal' 'fado' 'f

#### üèÅ Conclusiones del Preprocesamiento de Datos
La etapa de limpieza ha elevado la calidad del dataset y optimizado la estructura para el an√°lisis estad√≠stico mediante:

* **Remoci√≥n de Sesgos:** Eliminaci√≥n de **3,826 registros duplicados** y reindexaci√≥n del DataFrame, asegurando que cada fila represente un evento de escucha √∫nico.
* **Optimizaci√≥n Vectorial:** Consolidaci√≥n del g√©nero `hiphop` mediante el m√©todo `.replace()`, eliminando inconsistencias (*hip*, *hop*, *hip-hop*) con una ejecuci√≥n de alto rendimiento.
* **Normalizaci√≥n Estructural:** Dataset 100% estandarizado bajo el formato `snake_case` y libre de valores nulos, garantizando la **integridad referencial** necesaria para la fase de prueba de hip√≥tesis.

### üìä Etapa 3: An√°lisis Comparativo de Actividad Urbana
**Objetivo:** Cuantificar la tracci√≥n de usuarios y el volumen transaccional por geograf√≠a y cronolog√≠a.

Se implementa una fase de agregaci√≥n utilizando **Tablas Din√°micas (Pivot Tables)** para contrastar la actividad de Springfield y Shelbyville de forma simult√°nea. Este enfoque permite identificar patrones de consumo as√≠ncronos entre ciudades. Posteriormente, se desarrolla la funci√≥n `number_track()`, dise√±ada como un motor de consulta modular para extraer m√©tricas espec√≠ficas por segmento, facilitando la validaci√≥n t√©cnica de nuestra hip√≥tesis principal.

In [10]:
# --- Auditor√≠a de Actividad por Ubicaci√≥n Geogr√°fica ---
# Ejecuci√≥n de agregaciones para determinar el alcance de usuarios √∫nicos y volumen transaccional por ciudad
stats_ciudad = df.groupby('city').agg({'user_id': 'nunique', 'track': 'count'})
stats_ciudad.columns = ['Usuarios √önicos', 'Total Reproducciones']
print(stats_ciudad)
print("\n")

# --- An√°lisis de Din√°mica Temporal y Segmentaci√≥n Geogr√°fica ---
# Implementaci√≥n de tabla din√°mica (pivot_table) para el contraste multidimensional de actividad
pivot_actividad = df.pivot_table(index='day', columns='city', values='track', aggfunc='count')
print("--- Actividad por D√≠a y Ciudad (Vista Consolidada) ---")
print(pivot_actividad)
print("\n")

             Usuarios √önicos  Total Reproducciones
city                                              
Shelbyville            12423                 18512
Springfield            29358                 42741


--- Actividad por D√≠a y Ciudad (Vista Consolidada) ---
city       Shelbyville  Springfield
day                                
Friday            5895        15945
Monday            5614        15740
Wednesday         7003        11056




In [11]:
# Definici√≥n del Motor de Consulta: Funci√≥n number_track()
def number_track(df, day, city):
    """
    Calcula el volumen de eventos para un segmento espec√≠fico de tiempo y lugar.
    """
    # Aplicaci√≥n de filtros vectorizados
    query_result = df[(df['day'] == day) & (df['city'] == city)]['user_id'].count()
    return query_result

### üîç Auditor√≠a de Segmentaci√≥n
**Acci√≥n:** Validaci√≥n de la l√≥gica de filtrado multicapa.

Antes de proceder a las conclusiones, se verifica que la funci√≥n de conteo responda correctamente a las intersecciones de datos (D√≠a/Ciudad). Esta auditor√≠a asegura que no existan traslapes en el procesamiento de logs y que los conteos finales sean exactos para cada mercado analizado.

In [12]:
# Definici√≥n de los segmentos para la prueba de hip√≥tesis
ciudades = ['Springfield', 'Shelbyville']
dias = ['Monday', 'Wednesday', 'Friday']

# Generaci√≥n de tabla de resultados mediante una lista de comprensi√≥n
datos_hipotesis = [
    [dia, number_track(df, dia, 'Springfield'), number_track(df, dia, 'Shelbyville')]
    for dia in dias
]

# Creaci√≥n de DataFrame para visualizaci√≥n ejecutiva
col_de_resultados = ['dia', 'springfield', 'shelbyville']
tabla_resultados = pd.DataFrame(data=datos_hipotesis, columns=col_de_resultados)

print("--- Resultados de la Prueba de Hip√≥tesis ---")
print(tabla_resultados)

--- Resultados de la Prueba de Hip√≥tesis ---
         dia  springfield  shelbyville
0     Monday        15740         5614
1  Wednesday        11056         7003
2     Friday        15945         5895


## üèÅ Conclusiones y Valor de Negocio

* **Validaci√≥n de Hip√≥tesis:** Se acepta la hip√≥tesis principal. El comportamiento de consumo musical es **geodependiente**; Springfield alcanza su m√°ximo de actividad los viernes, mientras que Shelbyville muestra un pico de tracci√≥n los mi√©rcoles.
* **M√©trica de Volumen:** Springfield duplica la actividad de Shelbyville, lo que sugiere una mayor madurez de mercado o una base de usuarios significativamente m√°s densa.
* **Insights Estrat√©gicos:** La divergencia en los d√≠as de mayor escucha indica que las campa√±as de marketing y lanzamientos de playlists deben ser **as√≠ncronas** entre ciudades para maximizar el engagement.

**Nota de Escalabilidad:** Para fases futuras, se recomienda la implementaci√≥n de pruebas de significancia estad√≠stica (P-Value) para cuantificar la probabilidad de que estas diferencias sean puramente aleatorias.