<img src = "https://drive.google.com/uc?export=view&id=1HYrQHu1AE2cEid3BpNxo5KK3tuZF1TCo" alt = "Encabezado MLDS" width = "100%">  </img>

# **Analisis de datos**
---
Este notebook consolida el proceso del proyecto aplicado en una sola narrativa: contexto del negocio (Fase 1), limpieza y tratamiento (Fase 3), y primer analisis exploratorio (Fase 2).


## **1. Integrantes del equipo de trabajo**
---
Por favor incluya los nombres completos y numero de identificacion de los integrantes del equipo de trabajo:


1. **Gabriel Santiago Delgado Lozano C.C. 1000697520**
2. **Angel David Pineros Sierra C.C. 1000381674**
3. **Maria Alejandra Rodriguez Rios. C.C. 1000592008**


## **2. Contexto del proyecto (Integrado desde Fase 1)**
---


### **2.1. Marco de proyecto**
---
#### Trasfondo del negocio
En la ultima decada, el consumo de musica se ha desplazado de la compra de formatos fisicos o descargas hacia un modelo basado en acceso bajo demanda, donde plataformas de streaming concentran la distribucion, la monetizacion y el descubrimiento musical. Servicios como Spotify y YouTube no solo permiten reproducir canciones, sino que actuan como ecosistemas de promocion: integran algoritmos de recomendacion, listas de reproduccion, metricas de audiencia e interaccion, y canales oficiales que influyen en la visibilidad de los lanzamientos. En este contexto, entender por que ciertas canciones logran mayor alcance implica analizar tanto su desempeno en plataformas (reproducciones, vistas) como atributos tecnicos del audio, que pueden asociarse a patrones de consumo y preferencia.

Nos encontramos en el dominio de la distribucion de musica digital y el marketing musical. Con base en el dataset publico de Kaggle [Spotify and YouTube](https://www.kaggle.com/datasets/salvatorerastelli/spotify-and-youtube), este proyecto busca explorar y analizar variables tecnicas del audio (como danceability, energy, valence, tempo, entre otras) que usualmente no se consideran de forma explicita cuando se escucha musica de manera casual. El objetivo es identificar si existe alguna relacion relevante entre estas caracteristicas musicales y el exito de una cancion, entendido principalmente como su nivel de consumo en plataformas (por ejemplo, streams en Spotify y reproducciones/vistas en YouTube).

Los principales actores que se veran beneficiados son:
- Sellos y/o distribuidoras musicales
- Artistas
- Analistas de negocios
- Melomanos

#### Alcance
Se desea implementar un analisis descriptivo y diagnostico que responda a los principales desafios del dominio: comprender que factores del contenido (atributos tecnicos del audio) y del contexto de distribucion (plataforma) se asocian con un mayor desempeno, y como se manifiestan esas diferencias en terminos de consumo. En particular, el analisis buscara:
- Identificar patrones entre audio features y metricas de consumo.
- Comparar el desempeno por track segun cada plataforma.
- Detectar distribuciones de popularidad en canciones para deteccion de one-hit wonders.
- Visualizar las tendencias de los atributos en los datos disponibles.

Los limites del proyecto estan definidos por el alcance del dataset: se trabajara unicamente con los registros y variables disponibles en el conjunto de datos, el cual contiene informacion recolectada hasta el 7 de febrero de 2023.

Como producto final, la persona beneficiaria podra disponer de un reporte o dashboard orientado a la toma de decisiones, util para preguntas como: que plataforma priorizar segun el desempeno observado, que caracteristicas tecnicas tienden a asociarse con mayor exito, y si existe alguna diferencia relevante cuando una cancion cuenta o no con video oficial en YouTube.


### **2.2. Plan de trabajo y seguimiento**
---
Para realizar el plan de trabajo se integra un checklist basado en CRISP-DM para seguimiento por entregas. En esta version de Fase 4 se deja un flujo local (sin dependencia obligatoria de Google Drive) para poder registrar actividades, visualizar progreso y exportar reportes de avance.


In [8]:
from google.colab import drive
from datetime import datetime, timedelta
import pandas as pd
import ipywidgets as widgets
from IPython.display import display

drive.mount('/content/drive')

ruta = '/content/drive/MyDrive/checklist_CRISP_DM.xlsx'


Mounted at /content/drive


In [9]:
hoy = datetime.today()
miercoles = []
fecha = hoy

while len(miercoles) < 4:
    if fecha.weekday() == 2:  # Miércoles
        miercoles.append(fecha.date())
    fecha += timedelta(days=1)

# Tareas base de seguimiento por fase
tareas = [
    (1, 'Fase 1', 'Entendimiento del negocio', 'Redactar marco del proyecto', 'Por asignar', miercoles[0], False),
    (1, 'Fase 1', 'Entendimiento del negocio', 'Definir alcance y actores', 'Por asignar', miercoles[0], False),
    (2, 'Fase 2', 'Entendimiento de los datos', 'Analisis exploratorio inicial', 'Por asignar', miercoles[1], False),
    (2, 'Fase 2', 'Entendimiento de los datos', 'Estadistica descriptiva', 'Por asignar', miercoles[1], False),
    (3, 'Fase 3', 'Preparacion de datos', 'Tratar faltantes, duplicados y atipicos', 'Por asignar', miercoles[2], False),
    (3, 'Fase 3', 'Preparacion de datos', 'Seleccion de variables de analisis', 'Por asignar', miercoles[2], False),
    (4, 'Fase 4', 'Analisis de datos', 'Correlaciones y relaciones entre variables', 'Por asignar', miercoles[3], False),
    (4, 'Fase 4', 'Analisis de datos', 'Conclusiones y recomendaciones', 'Por asignar', miercoles[3], False),
]

cols = ['Entrega', 'Fase', 'Unidad', 'Tarea', 'Responsable', 'Fecha_limite', 'Hecho']
df_plan = pd.DataFrame(tareas, columns=cols)
df_plan


Unnamed: 0,Entrega,Fase,Unidad,Tarea,Responsable,Fecha_limite,Hecho
0,1,Fase 1,Entendimiento del negocio,Redactar marco del proyecto,Por asignar,2026-03-04,False
1,1,Fase 1,Entendimiento del negocio,Definir alcance y actores,Por asignar,2026-03-04,False
2,2,Fase 2,Entendimiento de los datos,Analisis exploratorio inicial,Por asignar,2026-03-11,False
3,2,Fase 2,Entendimiento de los datos,Estadistica descriptiva,Por asignar,2026-03-11,False
4,3,Fase 3,Preparacion de datos,"Tratar faltantes, duplicados y atipicos",Por asignar,2026-03-18,False
5,3,Fase 3,Preparacion de datos,Seleccion de variables de analisis,Por asignar,2026-03-18,False
6,4,Fase 4,Analisis de datos,Correlaciones y relaciones entre variables,Por asignar,2026-03-25,False
7,4,Fase 4,Analisis de datos,Conclusiones y recomendaciones,Por asignar,2026-03-25,False


In [10]:
# Visualizacion opcional del checklist con barras de progreso

def mostrar_entrega(df_entrega, num_entrega):
    titulo = widgets.HTML(f'<h4>Entrega {num_entrega}</h4>')
    items = []
    for _, row in df_entrega.iterrows():
        cb = widgets.Checkbox(value=bool(row['Hecho']), description=row['Tarea'], indent=False)
        items.append(cb)
    display(titulo, widgets.VBox(items))

for entrega in sorted(df_plan['Entrega'].unique()):
    sub = df_plan[df_plan['Entrega'] == entrega]
    progreso = int(sub['Hecho'].mean() * 100)
    barra = widgets.IntProgress(value=progreso, min=0, max=100, description=f'Entrega {entrega}')
    display(barra)

for entrega in sorted(df_plan['Entrega'].unique()):
    mostrar_entrega(df_plan[df_plan['Entrega'] == entrega], entrega)


IntProgress(value=0, description='Entrega 1')

IntProgress(value=0, description='Entrega 2')

IntProgress(value=0, description='Entrega 3')

IntProgress(value=0, description='Entrega 4')

HTML(value='<h4>Entrega 1</h4>')

VBox(children=(Checkbox(value=False, description='Redactar marco del proyecto', indent=False), Checkbox(value=…

HTML(value='<h4>Entrega 2</h4>')

VBox(children=(Checkbox(value=False, description='Analisis exploratorio inicial', indent=False), Checkbox(valu…

HTML(value='<h4>Entrega 3</h4>')

VBox(children=(Checkbox(value=False, description='Tratar faltantes, duplicados y atipicos', indent=False), Che…

HTML(value='<h4>Entrega 4</h4>')

VBox(children=(Checkbox(value=False, description='Correlaciones y relaciones entre variables', indent=False), …

In [11]:
# Exportables locales (opcional)
out_dir = Path('AVD/Proyecto/seguimiento')
out_dir.mkdir(parents=True, exist_ok=True)

(df_plan[df_plan['Hecho'] == True]
 .to_excel(out_dir / 'avance_proyecto.xlsx', index=False))

resumen = df_plan.groupby('Entrega', as_index=False)['Hecho'].mean()
resumen['Progreso_pct'] = resumen['Hecho'] * 100
resumen.to_excel(out_dir / 'resumen_entregas.xlsx', index=False)

print(f'Exportables generados en: {out_dir.resolve()}')


Exportables generados en: /content/AVD/Proyecto/seguimiento


Como apoyo adicional para seguimiento del equipo, puede mantenerse un checklist externo en Notion u otra herramienta de gestion de tareas. En este notebook se deja la version local para asegurar trazabilidad dentro del proyecto.


### **2.3. Datos**
---
El dataset cuenta con un total aproximado de 20.700 registros, correspondientes a canciones, cada una descrita mediante 26 variables. Para facilitar su comprension, las variables se agrupan en distintas categorias segun el tipo de informacion que aportan sobre la cancion. Las descripciones fueron extraidas directamente de la carta de datos del dataset en Kaggle.

La primera categoria corresponde a las variables de identificacion, las cuales permiten reconocer y vincular cada cancion dentro del conjunto de datos. Estas variables son de tipo categorico y no aportan directamente al analisis tecnico del audio:

- `Track`: Nombre de la cancion.
- `Artist`: Artista de la cancion.
- `Url_spotify`: URL para acceder al contenido en Spotify.
- `Uri`: Codigo utilizado para acceder a la cancion mediante la API.
- `Url_youtube`: URL para acceder a la cancion en YouTube.
- `Title`: Titulo del video de la cancion.
- `Channel`: Canal de YouTube.
- `Description`: Descripcion del video en YouTube.
- `Licensed`: Indica si el contenido esta licenciado.
- `official_video`: Variable booleana que indica si la URL de YouTube corresponde al video oficial.

La segunda categoria corresponde a las variables tecnicas, que describen aspectos musicales y acusticos. Estas variables son numericas:

- `Danceability`: Que tan adecuada es la cancion para bailar (0.0 a 1.0).
- `Energy`: Intensidad y nivel de actividad percibidos (0.0 a 1.0).
- `Key`: Tonalidad musical codificada; `-1` indica tonalidad no detectada.
- `Loudness`: Volumen promedio en decibelios (dB).
- `Speechiness`: Presencia de palabras habladas.
- `Acousticness`: Grado de certeza de que la cancion sea acustica.
- `Instrumentalness`: Probabilidad de ausencia de voz.
- `Liveness`: Probabilidad de interpretacion en vivo.
- `Valence`: Caracte emocional positivo de la cancion (0.0 a 1.0).
- `Tempo`: Tempo estimado en pulsos por minuto (BPM).
- `Duration_ms`: Duracion total en milisegundos.

La tercera categoria corresponde a variables de popularidad, que reflejan consumo y respuesta del publico:

- `Stream`: Cantidad de reproducciones en Spotify.
- `Views`: Numero de vistas en YouTube.
- `Comments`: Cantidad de comentarios en YouTube.


### **2.4. Origen y consideraciones de calidad**
---
Como se menciono anteriormente, los datos correspondientes a la informacion general de las canciones provienen de Spotify y YouTube. En cuanto a los datos tecnicos, estos presentan mayor complejidad y deben interpretarse con cierto grado de cautela. Las variables de identificacion y popularidad no presentan inconvenientes relevantes, ya que corresponden a informacion publica y verificable mediante herramientas en linea.

Sin embargo, en foros de Kaggle se menciona que existen casos en los que el video oficial o el canal oficial de una cancion presenta menos visualizaciones que versiones no oficiales. Adicionalmente, aunque las descripciones de las variables tecnicas indican que factores se consideraron para su calculo, el dataset no documenta de manera detallada el proceso exacto mediante el cual dichas variables fueron derivadas. A pesar de ello, el dataset es considerado robusto, y se estima que el proceso de limpieza requerido sera minimo.


## **3. Limpieza y tratamiento de datos (Fase 3)**
---
En esta seccion se integrara el flujo de preparacion de datos construido en la Fase 3:
- Valores faltantes.
- Duplicados y consolidacion por track/artista.
- Valores atipicos e inconsistencias.
- Seleccion final de variables para analisis.


In [12]:
# ---INGRESE SU CODIGO (Integracion Fase 3)---


## **4. Primer analisis exploratorio (Fase 2)**
---
En esta seccion se integrara el analisis exploratorio realizado en la Fase 2:
- Resumen general y estadistica descriptiva.
- Distribuciones de variables tecnicas y de popularidad.
- Correlaciones iniciales y hallazgos relevantes.


In [13]:
# ---INGRESE SU CODIGO (Integracion Fase 2)---


## **5. Resultados, interpretacion y conclusiones**
---
Use esta seccion para consolidar los hallazgos finales del proyecto:
1. Sintesis de patrones relevantes.
2. Implicaciones para la toma de decisiones.
3. Limitaciones del analisis.
4. Recomendaciones y trabajo futuro.


In [14]:
# ---INGRESE SU CODIGO / DISCUSION FINAL---


## **Créditos**
* **Profesor:** [Felipe Restrepo Calle](https://dis.unal.edu.co/~ferestrepoca/)
* **Asistentes docentes:**
    - [Juan Sebastián Lara Ramírez](https://www.linkedin.com/in/juan-sebastian-lara-ramirez-43570a214/).
* **Diseño de imágenes:**
    - [Rosa Alejandra Superlano Esquibel](mailto:rsuperlano@unal.edu.co).
* **Coordinador de virtualización:**
    - [Edder Hernández Forero](https://www.linkedin.com/in/edder-hernandez-forero-28aa8b207/).
    
**Universidad Nacional de Colombia** - *Facultad de Ingeniería*