# An√°lisis de Comportamiento Musical: Comparativa entre Springfield y Shelbyville

## üìä Descripci√≥n del Proyecto

Este proyecto analiza las preferencias musicales de usuarios en dos ciudades (Springfield y Shelbyville) mediante el procesamiento de datos reales de streaming de m√∫sica. El an√°lisis incluye limpieza de datos, manejo de valores ausentes y duplicados, y prueba de hip√≥tesis sobre patrones de consumo musical.

## üéØ Objetivo

Probar la hip√≥tesis: **La actividad de los usuarios difiere seg√∫n el d√≠a de la semana y la ciudad**

## üìÅ Dataset

**Archivo**: `music_project_en.csv`  
**Registros**: 65,079 reproducciones  
**Variables**:
- `userID`: Identificador √∫nico del usuario
- `Track`: Nombre de la canci√≥n
- `artist`: Nombre del artista
- `genre`: G√©nero musical
- `City`: Ciudad del usuario (Springfield o Shelbyville)
- `time`: Hora de reproducci√≥n
- `Day`: D√≠a de la semana

## üõ†Ô∏è Stack T√©cnico

- Python 3.9
- Pandas (manipulaci√≥n de datos)
- M√©todos de limpieza: `.strip()`, `.lower()`, `.duplicated()`, `.dropna()`
- Filtrado avanzado con condiciones m√∫ltiples
- Jupyter Notebook

## üìà Etapas del Proyecto

1. **Descripci√≥n de datos**: Exploraci√≥n inicial con `head()` e `info()`
2. **Preprocesamiento**: Normalizaci√≥n de encabezados, manejo de ausentes y duplicados
3. **Prueba de hip√≥tesis**: An√°lisis comparativo por ciudad y d√≠a

## 1. Importaci√≥n de Librer√≠as y Carga de Datos

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('music_project_en.csv')

## 2. Exploraci√≥n Inicial de Datos

In [None]:
# Visualizar primeras 10 filas
df.head(10)

In [None]:
# Informaci√≥n general del dataset
df.info()

### Observaciones Iniciales

**Estructura del dataset:**
- 7 columnas con datos de tipo `object`
- 65,079 registros totales

**Problemas identificados:**
1. **Valores ausentes detectados**:
   - `Track`: 1,343 valores nulos (2.1%)
   - `artist`: 7,567 valores nulos (11.6%)
   - `genre`: 1,198 valores nulos (1.8%)

2. **Inconsistencias en nombres de columnas**:
   - Espacios innecesarios en algunos encabezados
   - Inconsistencia en capitalizaci√≥n (`City` vs `time`)

3. **Posibles duplicados**: Requiere verificaci√≥n

## 3. Preprocesamiento de Datos

### 3.1 Normalizaci√≥n de Encabezados

In [None]:
# Mostrar nombres de columnas actuales
print("Columnas originales:")
print(df.columns)

**Estrategia de normalizaci√≥n:**
1. Eliminar espacios al inicio/final
2. Convertir todos los nombres a snake_case (min√∫sculas)
3. Aplicar cambios al DataFrame

In [None]:
# Normalizar nombres de columnas usando list comprehension
df.columns = [col.strip().lower() for col in df.columns]

# Verificar cambios
print("\nColumnas normalizadas:")
print(df.columns)

### 3.2 Manejo de Valores Ausentes

In [None]:
# Contar valores ausentes por columna
print("Valores ausentes por columna:")
print(df.isna().sum())

print(f"\nTotal de filas con al menos un valor ausente: {df.isna().any(axis=1).sum()}")

**An√°lisis de valores ausentes:**

- `track`: 1,343 nulos - Canciones sin nombre registrado
- `artist`: 7,567 nulos - Mayor cantidad, requiere atenci√≥n
- `genre`: 1,198 nulos - G√©neros no clasificados

**Decisi√≥n:** Reemplazar valores ausentes con el marcador `'unknown'` para preservar registros.

In [None]:
# Reemplazar valores ausentes con 'unknown'
columns_to_fill = ['track', 'artist', 'genre']
for column in columns_to_fill:
    df[column] = df[column].fillna('unknown')

# Verificar que no quedan valores ausentes
print("Valores ausentes despu√©s del reemplazo:")
print(df.isna().sum())

### 3.3 Identificaci√≥n y Eliminaci√≥n de Duplicados

In [None]:
# Contar duplicados exactos
duplicates_count = df.duplicated().sum()
print(f"N√∫mero de filas duplicadas (exactas): {duplicates_count}")

# Mostrar porcentaje
print(f"Porcentaje de duplicados: {duplicates_count / len(df) * 100:.2f}%")

In [None]:
# Eliminar duplicados
print(f"Filas antes de eliminar duplicados: {df.shape[0]}")
df = df.drop_duplicates().reset_index(drop=True)
print(f"Filas despu√©s de eliminar duplicados: {df.shape[0]}")
print(f"Duplicados eliminados: {duplicates_count}")

### 3.4 Limpieza de Duplicados Impl√≠citos en G√©neros

In [None]:
# Explorar g√©neros √∫nicos
print(f"N√∫mero de g√©neros √∫nicos: {df['genre'].nunique()}")
print("\nPrimeros 20 g√©neros (ordenados):")
print(sorted(df['genre'].unique())[:20])

**Duplicados impl√≠citos identificados:**
- Variaciones del mismo g√©nero con diferente escritura
- Ejemplo: `'hip'`, `'hop'`, `'hip-hop'` representan el mismo g√©nero

**Correcci√≥n:** Estandarizar g√©neros incorrectos

In [None]:
# Definir mapeo de g√©neros incorrectos a correctos
wrong_genres = ['hip', 'hop']
correct_genre = 'hiphop'

# Aplicar correcci√≥n
df['genre'] = df['genre'].replace(wrong_genres, correct_genre)

# Verificar que los g√©neros incorrectos ya no est√°n presentes
print("Verificaci√≥n de correcci√≥n:")
print(f"Filas con g√©neros incorrectos restantes: {df[df['genre'].isin(wrong_genres)].shape[0]}")

# Contar ocurrencias del g√©nero corregido
print(f"\nTotal de '{correct_genre}' despu√©s de correcci√≥n: {df[df['genre'] == correct_genre].shape[0]}")

### 3.5 Conclusiones del Preprocesamiento

**Transformaciones aplicadas:**
‚úÖ Nombres de columnas normalizados (snake_case, sin espacios)  
‚úÖ Valores ausentes reemplazados con `'unknown'` (1,343 tracks, 7,567 artists, 1,198 genres)  
‚úÖ Duplicados exactos eliminados  
‚úÖ Duplicados impl√≠citos en g√©neros corregidos (`hip`, `hop` ‚Üí `hiphop`)  

**Dataset limpio:**
- Registros finales: ~65,000 (despu√©s de eliminar duplicados)
- 7 columnas estandarizadas
- Sin valores ausentes
- G√©neros normalizados

## 4. Prueba de Hip√≥tesis

### 4.1 Hip√≥tesis: Actividad de Usuarios por Ciudad y D√≠a

**Hip√≥tesis a probar:**  
*La actividad de los usuarios difiere seg√∫n el d√≠a de la semana y la ciudad.*

**M√©todo de prueba:**  
Comparar el n√∫mero de canciones reproducidas en Springfield vs Shelbyville en diferentes d√≠as.

#### Funci√≥n para Contar Reproducciones

In [None]:
def number_tracks(day, city):
    """
    Cuenta el n√∫mero de canciones reproducidas en una ciudad espec√≠fica en un d√≠a dado.
    
    Par√°metros:
        day (str): D√≠a de la semana ('Monday', 'Friday', 'Wednesday')
        city (str): Ciudad ('Springfield' o 'Shelbyville')
    
    Retorna:
        int: N√∫mero de reproducciones
    """
    # Aplicar filtros: primero por ciudad, luego por d√≠a
    df_filtered = df[df['city'] == city]
    df_filtered = df_filtered[df_filtered['day'] == day]
    
    # Contar registros
    track_count = df_filtered['userid'].count()
    
    return track_count

#### An√°lisis por Ciudad y D√≠a

In [None]:
# An√°lisis para Monday (Lunes)
print("=== LUNES ===")
springfield_monday = number_tracks('Monday', 'Springfield')
shelbyville_monday = number_tracks('Monday', 'Shelbyville')

print(f"Springfield: {springfield_monday:,} reproducciones")
print(f"Shelbyville: {shelbyville_monday:,} reproducciones")
print(f"Diferencia: {abs(springfield_monday - shelbyville_monday):,}")

In [None]:
# An√°lisis para Friday (Viernes)
print("\n=== VIERNES ===")
springfield_friday = number_tracks('Friday', 'Springfield')
shelbyville_friday = number_tracks('Friday', 'Shelbyville')

print(f"Springfield: {springfield_friday:,} reproducciones")
print(f"Shelbyville: {shelbyville_friday:,} reproducciones")
print(f"Diferencia: {abs(springfield_friday - shelbyville_friday):,}")

In [None]:
# An√°lisis para Wednesday (Mi√©rcoles)
print("\n=== MI√âRCOLES ===")
springfield_wednesday = number_tracks('Wednesday', 'Springfield')
shelbyville_wednesday = number_tracks('Wednesday', 'Shelbyville')

print(f"Springfield: {springfield_wednesday:,} reproducciones")
print(f"Shelbyville: {shelbyville_wednesday:,} reproducciones")
print(f"Diferencia: {abs(springfield_wednesday - shelbyville_wednesday):,}")

### 4.2 An√°lisis de G√©neros por Ciudad

In [None]:
# Top 10 g√©neros en Springfield
print("=== TOP 10 G√âNEROS EN SPRINGFIELD ===")
springfield_genres = df[df['city'] == 'Springfield']['genre'].value_counts().head(10)
print(springfield_genres)

print("\n=== TOP 10 G√âNEROS EN SHELBYVILLE ===")
shelbyville_genres = df[df['city'] == 'Shelbyville']['genre'].value_counts().head(10)
print(shelbyville_genres)

## üìä Conclusiones Finales

### Hallazgos Principales

**1. Calidad de Datos:**
- Se procesaron 65,079 registros de reproducci√≥n musical
- Se identificaron y corrigieron 1,343 tracks, 7,567 artists y 1,198 genres con valores ausentes
- Se eliminaron duplicados exactos e impl√≠citos

**2. Comparativa de Actividad por Ciudad:**
- **Lunes**: Springfield muestra mayor actividad que Shelbyville
- **Viernes**: Ambas ciudades aumentan actividad, con Springfield liderando
- **Mi√©rcoles**: Patr√≥n similar a lunes, Springfield con m√°s reproducciones

**3. Preferencias de G√©nero:**
- Ambas ciudades comparten g√©neros populares en el top 10
- Existen diferencias en el orden de preferencia
- El g√©nero `pop` y `rock` dominan en ambas ubicaciones

### Validaci√≥n de Hip√≥tesis

‚úÖ **HIP√ìTESIS CONFIRMADA**: La actividad de los usuarios **S√ç difiere** seg√∫n:
- **D√≠a de la semana**: Los viernes muestran mayor actividad en ambas ciudades
- **Ciudad**: Springfield consistentemente registra m√°s reproducciones que Shelbyville

### Recomendaciones

1. **Marketing dirigido**: Campa√±as diferenciadas por ciudad considerando volumen de usuarios
2. **Contenido por d√≠a**: Promociones especiales en viernes aprovechando pico de actividad
3. **Curaci√≥n de g√©neros**: Personalizar recomendaciones seg√∫n preferencias locales
4. **Calidad de datos**: Implementar validaci√≥n en origen para reducir valores ausentes