# 🎶🔄 ETL Spotify: De Datos a Descubrimientos 📊🔍


### Importación de Módulos y Configuración 📚

- `import os`: Este módulo proporciona una forma de utilizar funcionalidades dependientes del sistema operativo, como leer o escribir en archivos y directorios. Es útil para manejar rutas y archivos en diferentes sistemas operativos.

- `import shutil`: Utilizado para operaciones de manejo de archivos de alto nivel. Es especialmente útil para copiar y eliminar directorios.

- `import pandas as pd`: Pandas es una biblioteca de análisis de datos que proporciona estructuras de datos y herramientas de manipulación de datos de alto rendimiento y fáciles de usar. Se importa varias veces, pero solo necesita importarse una vez.

- `import csv`: Este módulo implementa clases para leer y escribir datos tabulares en formato CSV. Se utiliza para operaciones de entrada y salida con archivos CSV.

- `import matplotlib.pyplot as plt`: Matplotlib es una biblioteca para crear visualizaciones estáticas, animadas e interactivas en Python. `pyplot` es un módulo de Matplotlib que proporciona una interfaz similar a MATLAB.

- `from config_spotify import RUTA_ORIGEN, RUTA_DESTINO, file_path`: Este importa variables específicas desde un archivo de configuración llamado `config_spotify.py`. Generalmente, estas variables se utilizan para definir rutas de archivos o configuraciones que se necesitan en el script.

Estas importaciones y configuraciones son fundamentales para preparar el entorno antes de ejecutar operaciones específicas relacionadas con la manipulación de archivos y datos.


In [13]:
import os
import shutil
import pandas as pd
import csv
import matplotlib.pyplot as plt
from ETL_Workshop_02.config_spotify import RUTA_ORIGEN, RUTA_DESTINO, file_path

📁 **Definición de Rutas**:
- `ruta_origen`: Se establece la ruta de los archivos fuente usando la variable `RUTA_ORIGEN`.
- `ruta_destino`: Se define la ruta donde se guardarán las copias utilizando la variable `RUTA_DESTINO`.

🏗️ **Creación de Carpeta de Destino**:
- Se verifica si la carpeta de destino no existe. Si es así, se crea usando `os.makedirs`.

🔍 **Listado de Archivos**:
- Se obtiene la lista de todos los archivos presentes en la ruta de origen.

🔄 **Proceso de Copia y Conversión**:
- Para cada archivo en la ruta de origen:
  1. **Copia**: Se copia el archivo a la ruta de destino.
  2. **Lectura y Re-escritura con UTF-8**: Se abre el archivo copiado en modo lectura y luego se guarda de nuevo para asegurar que esté en codificación UTF-8.
  3. **Conversión a Excel**: Se convierte el archivo CSV a formato Excel y se guarda.
  4. **Información del Archivo**: Se imprime información relevante como el nombre del archivo, la cantidad de filas y columnas, y los nombres de las columnas.

✅ **Finalización**:
- Al terminar, se imprime un mensaje indicando que los archivos han sido copiados y convertidos a Excel en la ruta especificada.


In [14]:
# Ruta de origen de los archivos
ruta_origen = os.path.join(RUTA_ORIGEN)

# Ruta de destino para las copias
ruta_destino = os.path.join(RUTA_DESTINO)

# Crear la carpeta de destino si no existe
if not os.path.exists(ruta_destino):
    os.makedirs(ruta_destino)

# Obtener la lista de archivos en la ruta de origen
archivos = os.listdir(ruta_origen)

# Copiar cada archivo a la carpeta de destino con codificación UTF-8
for archivo in archivos:
    ruta_archivo_origen = os.path.join(ruta_origen, archivo)
    ruta_archivo_destino = os.path.join(ruta_destino, archivo)
    shutil.copyfile(ruta_archivo_origen, ruta_archivo_destino)
    with open(ruta_archivo_destino, 'r', encoding='utf-8') as f:
        contenido = f.read()
    with open(ruta_archivo_destino, 'w', encoding='utf-8') as f:
        f.write(contenido)

    # Convertir el archivo copiado a formato Excel
    df = pd.read_csv(ruta_archivo_destino)
    excel_file_path = os.path.splitext(ruta_archivo_destino)[0] + '.xlsx'
    df.to_excel(excel_file_path, index=False)

    # Print information about the file
    print("Archivo:", archivo)
    print("Cantidad de filas:", df.shape[0])
    print("Cantidad de columnas:", df.shape[1])
    print("Nombres de las columnas:", df.columns.tolist())
    print("----------------------------------------")

print("Copias de archivos creadas y convertidas a formato Excel en la ruta:", ruta_destino)


Archivo: merged_data.csv
Cantidad de filas: 2714
Cantidad de columnas: 10
Nombres de las columnas: ['Year', 'Category', 'Nominee', 'Artist', 'Winner', 'Track_ID', 'Popularity', 'Danceability', 'Energy', 'Tempo']
----------------------------------------
Archivo: spotify_dataset.csv
Cantidad de filas: 114000
Cantidad de columnas: 21
Nombres de las columnas: ['Unnamed: 0', 'track_id', 'artists', 'album_name', 'track_name', 'popularity', 'duration_ms', 'explicit', 'danceability', 'energy', 'key', 'loudness', 'mode', 'speechiness', 'acousticness', 'instrumentalness', 'liveness', 'valence', 'tempo', 'time_signature', 'track_genre']
----------------------------------------
Archivo: the_grammy_awards.csv
Cantidad de filas: 4810
Cantidad de columnas: 10
Nombres de las columnas: ['year', 'title', 'published_at', 'updated_at', 'category', 'nominee', 'artist', 'workers', 'img', 'winner']
----------------------------------------
Copias de archivos creadas y convertidas a formato Excel en la ruta: C

### Carga de Archivo CSV 📂
- **Definición de la ruta del archivo**: Utilizamos `os.path.join()` para crear la ruta completa al archivo CSV. Esto garantiza que la ruta sea correcta independientemente del sistema operativo.
- **Carga de datos**: `pd.read_csv()` se utiliza para cargar los datos desde el archivo CSV en un `DataFrame` de pandas. Esto nos permite manipular los datos de forma eficiente con pandas.

### Inspección Básica de los Datos 🔍
- **Dimensiones del DataFrame**: Usamos `data.shape` para imprimir la cantidad de filas y columnas, proporcionando una vista rápida del tamaño del dataset.
- **Nombres de las columnas**: `data.columns.tolist()` se emplea para obtener y mostrar una lista con los nombres de todas las columnas. Esto es útil para entender qué datos contiene cada columna.
- **Tipos de datos**: Imprimimos los tipos de datos de cada columna usando `data.dtypes`, lo que es crucial para verificar que los datos estén en el formato adecuado para su análisis posterior.


In [15]:
# Ruta del archivo CSV
file_path = os.path.join(file_path)

# Cargar los datos del CSV en un DataFrame de pandas
data = pd.read_csv(file_path)

# Imprimir la cantidad de filas y columnas
print("Cantidad de filas:", data.shape[0])
print("Cantidad de columnas:", data.shape[1])

# Imprimir los nombres de los encabezados de las columnas
print("Nombres de los encabezados de las columnas:", data.columns.tolist())

# Imprimir el tipo de datos de cada columna
print("Tipo de datos en cada columna:")
print(data.dtypes)


Cantidad de filas: 114000
Cantidad de columnas: 21
Nombres de los encabezados de las columnas: ['Unnamed: 0', 'track_id', 'artists', 'album_name', 'track_name', 'popularity', 'duration_ms', 'explicit', 'danceability', 'energy', 'key', 'loudness', 'mode', 'speechiness', 'acousticness', 'instrumentalness', 'liveness', 'valence', 'tempo', 'time_signature', 'track_genre']
Tipo de datos en cada columna:
Unnamed: 0            int64
track_id             object
artists              object
album_name           object
track_name           object
popularity            int64
duration_ms           int64
explicit               bool
danceability        float64
energy              float64
key                   int64
loudness            float64
mode                  int64
speechiness         float64
acousticness        float64
instrumentalness    float64
liveness            float64
valence             float64
tempo               float64
time_signature        int64
track_genre          object
dtype: obj

📂 **Definir la ruta al archivo CSV**
Se establece la variable `archivo_csv` para almacenar la ruta completa del archivo CSV usando `os.path.join()`. Esto ayuda a asegurar que la ruta sea compatible con cualquier sistema operativo.

🔢 **Función para contar las filas del archivo CSV**
Se define la función `contar_filas`, la cual abre el archivo CSV en modo lectura (`mode='r'`) con codificación UTF-8. Utiliza `csv.reader` para leer el archivo y calcula el número total de filas excluyendo el encabezado (si existe). Retorna este número.

📊 **Llamar a la función y mostrar el resultado**
Se invoca la función `contar_filas` pasando la ruta del archivo CSV. Luego, imprime el total de filas del archivo en consola, mostrando cuántas filas contiene el archivo excluyendo cualquier encabezado.


In [16]:
# Definir la ruta al archivo CSV
archivo_csv = os.path.join(file_path)

# Función para contar las filas del archivo CSV
def contar_filas(archivo):
    with open(archivo, mode='r', encoding='utf-8') as archivo:
        lector_csv = csv.reader(archivo)
        numero_de_filas = sum(1 for fila in lector_csv) - 1  # Resta 1 si la primera fila son encabezados
    return numero_de_filas

# Llamar a la función y mostrar el resultado
numero_de_filas = contar_filas(archivo_csv)
print(f'El archivo tiene {numero_de_filas} filas.')



El archivo tiene 114000 filas.


### Definición de la Ruta al Archivo CSV
📁 Utilizamos `os.path.join` para construir de manera segura la ruta al archivo CSV, asegurando que funcione en diferentes sistemas operativos.

### Función para Mostrar las Primeras Filas de un Archivo CSV
🔍 Definimos `mostrar_primeras_filas` para leer y mostrar las primeras `n` filas de un archivo CSV.
- **Abrimos el archivo** en modo lectura, asegurando que se interprete correctamente el texto con `encoding='utf-8'`.
- **Lectura de encabezados**: Usamos `next` para leer la primera línea del archivo, que generalmente contiene los encabezados.
- **Impresión de filas**: Iteramos sobre las filas del archivo y las imprimimos hasta alcanzar el límite especificado (`num_filas`), controlado por un contador.

### Llamada a la Función y Visualización de Información Adicional
📞 Invocamos la función `mostrar_primeras_filas` para visualizar las primeras 30 filas del CSV.
- **Reporte del total de filas**: Mostramos un mensaje indicando el número total de filas en el archivo, lo que es útil para entender el tamaño del dataset.


In [17]:
# Definir la ruta al archivo CSV
archivo_csv = os.path.join(file_path)

# Función para leer y mostrar las primeras n filas de un archivo CSV
def mostrar_primeras_filas(archivo, num_filas):
    with open(archivo, mode='r', encoding='utf-8') as archivo:
        lector_csv = csv.reader(archivo)
        encabezado = next(lector_csv)  # Lee los encabezados si existen
        print(encabezado)  # Imprime los encabezados
        contador = 0
        for fila in lector_csv:
            if contador < num_filas:
                print(fila)
                contador += 1
            else:
                break

# Llamar a la función para mostrar las primeras 30 filas
mostrar_primeras_filas(archivo_csv, 30)



['', 'track_id', 'artists', 'album_name', 'track_name', 'popularity', 'duration_ms', 'explicit', 'danceability', 'energy', 'key', 'loudness', 'mode', 'speechiness', 'acousticness', 'instrumentalness', 'liveness', 'valence', 'tempo', 'time_signature', 'track_genre']
['0', '5SuOikwiRyPMVoIQDJUgSV', 'Gen Hoshino', 'Comedy', 'Comedy', '73', '230666', 'False', '0.676', '0.461', '1', '-6.746', '0', '0.143', '0.0322', '1.01e-06', '0.358', '0.715', '87.917', '4', 'acoustic']
['1', '4qPNDBW1i3p13qLCt0Ki3A', 'Ben Woodward', 'Ghost (Acoustic)', 'Ghost - Acoustic', '55', '149610', 'False', '0.42', '0.166', '1', '-17.235', '1', '0.0763', '0.924', '5.56e-06', '0.101', '0.267', '77.489', '4', 'acoustic']
['2', '1iJBSr7s7jYXzM8EGcbK5b', 'Ingrid Michaelson;ZAYN', 'To Begin Again', 'To Begin Again', '57', '210826', 'False', '0.438', '0.359', '0', '-9.734', '1', '0.0557', '0.21', '0.0', '0.117', '0.12', '76.332', '4', 'acoustic']
['3', '6lfxq3CG4xtTiEg7opyCyx', 'Kina Grannis', 'Crazy Rich Asians (Origina

### Definición de Ruta al Archivo CSV 🗂️
- **Objetivo**: Establecer la ubicación del archivo CSV para su uso posterior.
- **Método**: Utilizando `os.path.join` para construir la ruta completa al archivo, asegurando compatibilidad con diferentes sistemas operativos.

### Función para Mostrar Primeras Filas de un Archivo CSV 📄
- **Objetivo**: Visualizar las primeras filas del archivo CSV para obtener una vista previa rápida de los datos.
- **Cómo funciona**:
  1. **Leer el archivo**: Utiliza `pd.read_csv` para cargar el archivo en un DataFrame.
  2. **Mostrar filas**: Usa `datos.head(num_filas)` para mostrar las primeras `n` filas del DataFrame.

### Llamada a la Función para Visualización de Datos 📊
- **Objetivo**: Ejecutar la función para mostrar las primeras 30 filas del archivo CSV y así obtener un entendimiento inicial de la estructura y contenido de los datos.

### Informar el Total de Filas del Archivo 🧮
- **Objetivo**: Proporcionar información rápida sobre el tamaño del archivo CSV.
- **Descripción**: Se utiliza para informar al usuario cuántas filas contiene el archivo, lo cual es útil para entender la dimensión de los datos con los que se está trabajando.


In [18]:
# Definir la ruta al archivo CSV
archivo_csv = os.path.join(file_path)

# Función para mostrar las primeras n filas de un archivo CSV usando pandas
def mostrar_primeras_filas_pandas(archivo, num_filas):
    # Leer el archivo CSV con pandas
    datos = pd.read_csv(archivo)
    # Mostrar las primeras n filas
    print(datos.head(num_filas))

# Llamar a la función para mostrar las primeras 30 filas
mostrar_primeras_filas_pandas(archivo_csv, 30)


    Unnamed: 0                track_id                               artists  \
0            0  5SuOikwiRyPMVoIQDJUgSV                           Gen Hoshino   
1            1  4qPNDBW1i3p13qLCt0Ki3A                          Ben Woodward   
2            2  1iJBSr7s7jYXzM8EGcbK5b                Ingrid Michaelson;ZAYN   
3            3  6lfxq3CG4xtTiEg7opyCyx                          Kina Grannis   
4            4  5vjLSffimiIP26QG5WcN2K                      Chord Overstreet   
5            5  01MVOl9KtVTNfFiBU9I7dc                          Tyrone Wells   
6            6  6Vc5wAMmXdKIAM7WUoEb7N  A Great Big World;Christina Aguilera   
7            7  1EzrEOXmMH3G43AXT1y7pA                            Jason Mraz   
8            8  0IktbUcnAGrvD03AWnz3Q8             Jason Mraz;Colbie Caillat   
9            9  7k9GuJYLp2AzqokyEdwEw2                        Ross Copperman   
10          10  4mzP5mHkRvGxdhdGdAH7EJ                          Zack Tabudlo   
11          11  5ivF4eQBqJiVL5IAE9jRyl  

### 📂 Cargar el Archivo CSV
Aquí estamos especificando la ruta del archivo CSV utilizando la función `os.path.join()`. Esto nos ayuda a asegurar que la ruta del archivo sea correcta independientemente del sistema operativo que estemos utilizando.

### 🔍 Encontrar Duplicados
En este bloque, buscamos filas duplicadas en el DataFrame llamado `datos`. Utilizamos el método `.duplicated()` que identifica y devuelve una serie de valores booleanos, señalando `True` para las filas que son duplicadas.

### 🖨️ Imprimir los Duplicados
Finalmente, imprimimos las filas duplicadas encontradas. Primero mostramos un mensaje explicativo y luego utilizamos `print(duplicados)` para mostrar las filas que son duplicadas en el DataFrame.


In [19]:
# Cargar el archivo CSV
datos =  os.path.join(file_path)

# Encontrar duplicados
duplicados = datos[datos.duplicated()]

# Imprimir los duplicados
print("Filas duplicadas encontradas:")
print(duplicados)

AttributeError: 'str' object has no attribute 'duplicated'

### Cargar el archivo CSV 📁
Carga la ubicación del archivo CSV a través de la función `os.path.join()`, lo cual garantiza que la ruta sea interpretada correctamente independientemente del sistema operativo que se esté utilizando.

### Calcular la cantidad por género 📊
Utiliza el método `value_counts()` sobre la columna `track_genre` del DataFrame `datos`. Esto permite contar la cantidad de ocurrencias para cada género musical presente en los datos, facilitando una comprensión rápida de la distribución de géneros.

### Imprimir la cantidad por género 🖨️
Imprime en consola el resultado del cálculo anterior, mostrando un desglose de la cantidad de pistas para cada género, lo cual es útil para análisis visuales rápidos o revisiones de datos.


In [None]:
# Cargar el archivo CSV
datos = os.path.join(file_path)

# Calcular la cantidad por género
cantidad_por_genero = datos['track_genre'].value_counts()

# Imprimir la cantidad por género
print("Cantidad por género:")
print(cantidad_por_genero)

TypeError: string indices must be integers, not 'str'

### 📂 Cargar el archivo CSV
Este bloque de código se encarga de cargar los datos desde un archivo CSV. Utiliza la función `os.path.join` para crear una ruta al archivo que es compatible con cualquier sistema operativo.

### 📊 Agrupar por género y calcular la popularidad media
Aquí, los datos se agrupan según el género de las pistas musicales. Para cada género, calculamos la popularidad media, lo que permite entender qué tan populares son las pistas de cada género en promedio.

### 🔝 Ordenar los resultados para identificar los géneros más populares
Después de calcular la popularidad media por género, este código ordena los géneros de mayor a menor popularidad. `sort_values(ascending=False)` se asegura de que los géneros con mayor popularidad estén al principio de la lista.

### 🖨️ Imprimir los géneros más populares
Finalmente, se imprimen los cinco géneros más populares. Esto proporciona una salida clara y directa para mostrar cuáles son los géneros más apreciados según su popularidad media.


In [None]:
# Cargar el archivo CSV
datos = os.path.join(file_path)

# Agrupar por género y calcular la popularidad media de cada género
popularidad_genero = datos.groupby('track_genre')['popularity'].mean()

# Ordenar los resultados para obtener los géneros más populares
generos_mas_populares = popularidad_genero.sort_values(ascending=False).head(5)

# Imprimir los géneros más populares
print("Géneros más populares según la popularidad media:")
print(generos_mas_populares)

### Cargar el archivo CSV 📂
Carga el archivo CSV desde la ubicación especificada para poder utilizar los datos en los análisis posteriores. Se utiliza `os.path.join` para asegurar que la ruta al archivo es correcta independientemente del sistema operativo.

### Agrupar por artista y sumar la popularidad 🎤📊
Se agrupan los datos por el nombre del artista y se suma la popularidad de todas sus pistas. Esto nos permite evaluar qué tan popular es un artista en base a la popularidad acumulada de sus canciones.

### Ordenar los resultados 🏆
Una vez que tenemos la suma de popularidades por artista, ordenamos los resultados de mayor a menor para identificar a los artistas más populares. Usamos `head(5)` para limitar la visualización a los top 5 artistas.

### Imprimir los artistas más populares 🖨️🌟
Se imprime la lista de los cinco artistas más populares basándonos en la popularidad total de sus pistas. Esto nos proporciona una visión clara de quiénes son los artistas más destacados en el conjunto de datos.


In [None]:
# Cargar el archivo CSV
datos = os.path.join(file_path)

# Agrupar por artista y sumar la popularidad de todas sus pistas
popularidad_artista = datos.groupby('artists')['popularity'].sum()

# Ordenar los resultados para obtener los artistas con mayor popularidad total
artistas_mas_populares = popularidad_artista.sort_values(ascending=False).head(5)

# Imprimir los artistas más populares
print("Artistas más famosos por popularidad total:")
print(artistas_mas_populares)


### 📁 Cargar el archivo CSV
Este paso carga el archivo CSV desde una ruta específica. Utilizamos `os.path.join` para asegurarnos de que la ruta sea compatible con cualquier sistema operativo, lo cual es crucial para evitar errores de ruta.

### 📊 Agrupar y Sumar Popularidad
Aquí, agrupamos las pistas por artista usando `groupby` y luego sumamos los valores de popularidad con `.sum()`. Esto nos ayuda a entender cuál artista tiene mayor impacto en términos de popularidad en el conjunto de datos.

### 🔝 Ordenar Resultados
Mediante `sort_values`, ordenamos los artistas de acuerdo a su popularidad de forma descendente y seleccionamos los top 10 con `.head(10)`. Esto nos permite identificar rápidamente a los artistas más populares.

### 📉 Preparar y Mostrar el Gráfico
Finalmente, configuramos y mostramos un gráfico de barras para visualizar los artistas más populares. Se ajusta el tamaño de la figura, se añade un título, etiquetas para ambos ejes, y se rotan las etiquetas del eje X para mejorar la legibilidad. `plt.tight_layout()` ajusta automáticamente los márgenes del gráfico para que todo quede dentro del área visible.


In [None]:
# Cargar el archivo CSV
datos = os.path.join(file_path)

# Agrupar por artista y sumar la popularidad de todas sus pistas
popularidad_artista = datos.groupby('artists')['popularity'].sum()

# Ordenar los resultados para obtener los artistas con mayor popularidad total
artistas_mas_populares = popularidad_artista.sort_values(ascending=False).head(10)

# Preparar el gráfico
plt.figure(figsize=(10, 8))  # Configurar tamaño de la figura
artistas_mas_populares.plot(kind='bar', color='skyblue')  # Crear un gráfico de barras
plt.title('Top 10 Artistas Más Famosos por Popularidad Total en Spotify')  # Título del gráfico
plt.xlabel('Artistas')  # Etiqueta del eje X
plt.ylabel('Popularidad Total')  # Etiqueta del eje Y
plt.xticks(rotation=45, ha='right')  # Rotar etiquetas del eje X para mejor visualización
plt.tight_layout()  # Ajustar automáticamente los parámetros del subplot
plt.show()  # Mostrar el gráfico


### Cargar el archivo CSV
🔍 **Objetivo**: Carga el archivo CSV para poder trabajar con los datos en el notebook.
🧩 **Por qué es importante**: Es fundamental iniciar con la carga de datos para realizar cualquier análisis posterior.

### Calcular la descripción estadística de la columna de popularidad
📊 **Objetivo**: Obtener estadísticas descriptivas (como media, mediana, mínimo, máximo, etc.) de la columna 'popularidad'.
🔑 **Utilidad**: Ayuda a entender la distribución general y las tendencias de la columna 'popularidad'.

### Imprimir la descripción estadística
🖨️ **Objetivo**: Mostrar las estadísticas descriptivas calculadas en la consola para su revisión.
👀 **Relevancia**: Permite visualizar rápidamente un resumen estadístico que puede ser útil para tomar decisiones de análisis.

### Preparar el gráfico de histograma para la distribución de popularidad
📈 **Objetivo**: Crear un histograma para visualizar la frecuencia de los valores de popularidad.
🎨 **Detalles**: Se configura el tamaño, color y transparencia del histograma, además de etiquetas y título para mejor comprensión.
🔗 **Importancia**: Facilita la identificación visual de la distribución y cualquier sesgo o anomalía en los datos.


In [None]:
# Cargar el archivo CSV
datos = os.path.join(file_path)

# Calcular la descripción estadística de la columna de popularidad
descripcion_popularidad = datos['popularity'].describe()

# Imprimir la descripción estadística
print("Descripción estadística de popularidad:")
print(descripcion_popularidad)

# Preparar el gráfico de histograma para la distribución de popularidad
plt.figure(figsize=(10, 6))  # Configurar tamaño de la figura
plt.hist(datos['popularity'], bins=30, color='purple', alpha=0.7)  # Crear un histograma
plt.title('Distribución de Popularidad en Spotify')  # Título del gráfico
plt.xlabel('Popularidad')  # Etiqueta del eje X
plt.ylabel('Frecuencia')  # Etiqueta del eje Y
plt.grid(True)  # Añadir una cuadrícula para facilitar la lectura
plt.show()  # Mostrar el gráfico


### Cargar el archivo CSV
📁 Cargamos los datos desde un archivo CSV usando una ruta de archivo especificada para acceder a los datos necesarios.

### Convertir la duración de milisegundos a minutos
⏱️ Convertimos la duración de las pistas de milisegundos a minutos para facilitar la comprensión y manipulación de los datos.

### Agrupar por género y calcular la duración media de las pistas
🎵 Agrupamos las pistas por género musical para calcular la duración media en minutos de cada género, permitiendo analizar tendencias específicas de cada tipo de música.

### Ordenar los resultados y seleccionar los top 10 para una mejor visualización
🔝 Ordenamos los géneros por la duración media de sus pistas de mayor a menor y seleccionamos los top 10 para enfocarnos en los géneros con pistas más largas.

### Preparar el gráfico de barras horizontales
📊 Creamos un gráfico de barras horizontales para visualizar visualmente los top 10 géneros con pistas más largas, haciendo más fácil la interpretación de los datos.

🔄 Invertimos el eje Y del gráfico para que los géneros con mayor duración media aparezcan en la parte superior, mejorando la presentación visual del gráfico.


In [None]:
# Cargar el archivo CSV
datos = os.path.join(file_path)

# Convertir la duración de milisegundos a minutos
datos['duration_min'] = datos['duration_ms'] / 60000

# Agrupar por género y calcular la duración media de las pistas
duracion_media_genero = datos.groupby('track_genre')['duration_min'].mean()

# Ordenar los resultados y seleccionar los top 10 para una mejor visualización
duracion_media_ordenada = duracion_media_genero.sort_values(ascending=False).head(10)

# Preparar el gráfico de barras horizontales
plt.figure(figsize=(10, 7))  # Configurar tamaño de la figura
duracion_media_ordenada.plot(kind='barh', color='lightblue')  # Crear un gráfico de barras horizontales
plt.title('Top 10 Duración Media de Pistas por Género')  # Título del gráfico
plt.xlabel('Duración Media (minutos)')  # Etiqueta del eje X
plt.ylabel('Género')  # Etiqueta del eje Y
plt.tight_layout()  # Ajustar automáticamente los parámetros del subplot
plt.gca().invert_yaxis()  # Invertir el eje Y para que el más largo aparezca arriba
plt.show()  # Mostrar el gráfico

### Cargar el archivo CSV
📂 Utilizamos una función para unir la ruta del archivo especificada con el nombre del archivo, asegurando que la ruta sea correcta independientemente del sistema operativo que se use.

### Calcular la cantidad de pistas explícitas y no explícitas
🔢 Contamos cuántas pistas en los datos son explícitas y cuántas no, utilizando la función `value_counts()` que proporciona un conteo rápido de diferentes categorías.

### Preparar el gráfico
📊 Iniciamos creando un espacio para el gráfico con un tamaño específico para asegurarnos que los detalles sean visibles.

🚦 Dibujamos un gráfico de barras, donde cada barra representa una categoría (explícitas y no explícitas), usando colores distintos (rojo y verde) para diferenciar claramente entre ellas.

🏷️ Añadimos un título descriptivo al gráfico, etiquetas claras para ambos ejes (X y Y), y personalizamos las etiquetas del eje X para que muestren 'Sí' o 'No', indicando si la pista es explícita.

🔧 Utilizamos `tight_layout()` para ajustar automáticamente los márgenes y el espaciado del gráfico, asegurando que todo se muestre correctamente y sin cortes.

👀 Finalmente, mostramos el gráfico utilizando `plt.show()`, lo que permite que los usuarios lo visualicen inmediatamente.


In [None]:
# Cargar el archivo CSV
datos = os.path.join(file_path)

# Calcular la cantidad de pistas explícitas y no explícitas
cantidad_explicitas = datos['explicit'].value_counts()

# Preparar el gráfico
plt.figure(figsize=(7, 5))  # Configurar tamaño de la figura
cantidad_explicitas.plot(kind='bar', color=['red', 'green'])  # Crear un gráfico de barras
plt.title('Cantidad de Pistas Explícitas vs No Explícitas en Spotify')  # Título del gráfico
plt.xlabel('Es explícita')  # Etiqueta del eje X
plt.ylabel('Cantidad de pistas')  # Etiqueta del eje Y
plt.xticks([0, 1], ['No', 'Sí'], rotation=0)  # Definir etiquetas personalizadas para el eje X
plt.tight_layout()  # Ajustar automáticamente los parámetros del subplot
plt.show()  # Mostrar el gráfico
