# üé∂üîÑ ETL Spotify: De Datos a Descubrimientos üìäüîç


### Importaci√≥n de M√≥dulos y Configuraci√≥n üìö

- `import os`: Este m√≥dulo proporciona una forma de utilizar funcionalidades dependientes del sistema operativo, como leer o escribir en archivos y directorios. Es √∫til para manejar rutas y archivos en diferentes sistemas operativos.

- `import shutil`: Utilizado para operaciones de manejo de archivos de alto nivel. Es especialmente √∫til para copiar y eliminar directorios.

- `import pandas as pd`: Pandas es una biblioteca de an√°lisis de datos que proporciona estructuras de datos y herramientas de manipulaci√≥n de datos de alto rendimiento y f√°ciles de usar. Se importa varias veces, pero solo necesita importarse una vez.

- `import csv`: Este m√≥dulo implementa clases para leer y escribir datos tabulares en formato CSV. Se utiliza para operaciones de entrada y salida con archivos CSV.

- `import matplotlib.pyplot as plt`: Matplotlib es una biblioteca para crear visualizaciones est√°ticas, animadas e interactivas en Python. `pyplot` es un m√≥dulo de Matplotlib que proporciona una interfaz similar a MATLAB.

- `from config_spotify import RUTA_ORIGEN, RUTA_DESTINO, file_path`: Este importa variables espec√≠ficas desde un archivo de configuraci√≥n llamado `config_spotify.py`. Generalmente, estas variables se utilizan para definir rutas de archivos o configuraciones que se necesitan en el script.

Estas importaciones y configuraciones son fundamentales para preparar el entorno antes de ejecutar operaciones espec√≠ficas relacionadas con la manipulaci√≥n de archivos y datos.


In [13]:
import os
import shutil
import pandas as pd
import csv
import matplotlib.pyplot as plt
from ETL_Workshop_02.config_spotify import RUTA_ORIGEN, RUTA_DESTINO, file_path

üìÅ **Definici√≥n de Rutas**:
- `ruta_origen`: Se establece la ruta de los archivos fuente usando la variable `RUTA_ORIGEN`.
- `ruta_destino`: Se define la ruta donde se guardar√°n las copias utilizando la variable `RUTA_DESTINO`.

üèóÔ∏è **Creaci√≥n de Carpeta de Destino**:
- Se verifica si la carpeta de destino no existe. Si es as√≠, se crea usando `os.makedirs`.

üîç **Listado de Archivos**:
- Se obtiene la lista de todos los archivos presentes en la ruta de origen.

üîÑ **Proceso de Copia y Conversi√≥n**:
- Para cada archivo en la ruta de origen:
  1. **Copia**: Se copia el archivo a la ruta de destino.
  2. **Lectura y Re-escritura con UTF-8**: Se abre el archivo copiado en modo lectura y luego se guarda de nuevo para asegurar que est√© en codificaci√≥n UTF-8.
  3. **Conversi√≥n a Excel**: Se convierte el archivo CSV a formato Excel y se guarda.
  4. **Informaci√≥n del Archivo**: Se imprime informaci√≥n relevante como el nombre del archivo, la cantidad de filas y columnas, y los nombres de las columnas.

‚úÖ **Finalizaci√≥n**:
- Al terminar, se imprime un mensaje indicando que los archivos han sido copiados y convertidos a Excel en la ruta especificada.


In [14]:
# Ruta de origen de los archivos
ruta_origen = os.path.join(RUTA_ORIGEN)

# Ruta de destino para las copias
ruta_destino = os.path.join(RUTA_DESTINO)

# Crear la carpeta de destino si no existe
if not os.path.exists(ruta_destino):
    os.makedirs(ruta_destino)

# Obtener la lista de archivos en la ruta de origen
archivos = os.listdir(ruta_origen)

# Copiar cada archivo a la carpeta de destino con codificaci√≥n UTF-8
for archivo in archivos:
    ruta_archivo_origen = os.path.join(ruta_origen, archivo)
    ruta_archivo_destino = os.path.join(ruta_destino, archivo)
    shutil.copyfile(ruta_archivo_origen, ruta_archivo_destino)
    with open(ruta_archivo_destino, 'r', encoding='utf-8') as f:
        contenido = f.read()
    with open(ruta_archivo_destino, 'w', encoding='utf-8') as f:
        f.write(contenido)

    # Convertir el archivo copiado a formato Excel
    df = pd.read_csv(ruta_archivo_destino)
    excel_file_path = os.path.splitext(ruta_archivo_destino)[0] + '.xlsx'
    df.to_excel(excel_file_path, index=False)

    # Print information about the file
    print("Archivo:", archivo)
    print("Cantidad de filas:", df.shape[0])
    print("Cantidad de columnas:", df.shape[1])
    print("Nombres de las columnas:", df.columns.tolist())
    print("----------------------------------------")

print("Copias de archivos creadas y convertidas a formato Excel en la ruta:", ruta_destino)


Archivo: merged_data.csv
Cantidad de filas: 2714
Cantidad de columnas: 10
Nombres de las columnas: ['Year', 'Category', 'Nominee', 'Artist', 'Winner', 'Track_ID', 'Popularity', 'Danceability', 'Energy', 'Tempo']
----------------------------------------
Archivo: spotify_dataset.csv
Cantidad de filas: 114000
Cantidad de columnas: 21
Nombres de las columnas: ['Unnamed: 0', 'track_id', 'artists', 'album_name', 'track_name', 'popularity', 'duration_ms', 'explicit', 'danceability', 'energy', 'key', 'loudness', 'mode', 'speechiness', 'acousticness', 'instrumentalness', 'liveness', 'valence', 'tempo', 'time_signature', 'track_genre']
----------------------------------------
Archivo: the_grammy_awards.csv
Cantidad de filas: 4810
Cantidad de columnas: 10
Nombres de las columnas: ['year', 'title', 'published_at', 'updated_at', 'category', 'nominee', 'artist', 'workers', 'img', 'winner']
----------------------------------------
Copias de archivos creadas y convertidas a formato Excel en la ruta: C

### Carga de Archivo CSV üìÇ
- **Definici√≥n de la ruta del archivo**: Utilizamos `os.path.join()` para crear la ruta completa al archivo CSV. Esto garantiza que la ruta sea correcta independientemente del sistema operativo.
- **Carga de datos**: `pd.read_csv()` se utiliza para cargar los datos desde el archivo CSV en un `DataFrame` de pandas. Esto nos permite manipular los datos de forma eficiente con pandas.

### Inspecci√≥n B√°sica de los Datos üîç
- **Dimensiones del DataFrame**: Usamos `data.shape` para imprimir la cantidad de filas y columnas, proporcionando una vista r√°pida del tama√±o del dataset.
- **Nombres de las columnas**: `data.columns.tolist()` se emplea para obtener y mostrar una lista con los nombres de todas las columnas. Esto es √∫til para entender qu√© datos contiene cada columna.
- **Tipos de datos**: Imprimimos los tipos de datos de cada columna usando `data.dtypes`, lo que es crucial para verificar que los datos est√©n en el formato adecuado para su an√°lisis posterior.


In [15]:
# Ruta del archivo CSV
file_path = os.path.join(file_path)

# Cargar los datos del CSV en un DataFrame de pandas
data = pd.read_csv(file_path)

# Imprimir la cantidad de filas y columnas
print("Cantidad de filas:", data.shape[0])
print("Cantidad de columnas:", data.shape[1])

# Imprimir los nombres de los encabezados de las columnas
print("Nombres de los encabezados de las columnas:", data.columns.tolist())

# Imprimir el tipo de datos de cada columna
print("Tipo de datos en cada columna:")
print(data.dtypes)


Cantidad de filas: 114000
Cantidad de columnas: 21
Nombres de los encabezados de las columnas: ['Unnamed: 0', 'track_id', 'artists', 'album_name', 'track_name', 'popularity', 'duration_ms', 'explicit', 'danceability', 'energy', 'key', 'loudness', 'mode', 'speechiness', 'acousticness', 'instrumentalness', 'liveness', 'valence', 'tempo', 'time_signature', 'track_genre']
Tipo de datos en cada columna:
Unnamed: 0            int64
track_id             object
artists              object
album_name           object
track_name           object
popularity            int64
duration_ms           int64
explicit               bool
danceability        float64
energy              float64
key                   int64
loudness            float64
mode                  int64
speechiness         float64
acousticness        float64
instrumentalness    float64
liveness            float64
valence             float64
tempo               float64
time_signature        int64
track_genre          object
dtype: obj

üìÇ **Definir la ruta al archivo CSV**
Se establece la variable `archivo_csv` para almacenar la ruta completa del archivo CSV usando `os.path.join()`. Esto ayuda a asegurar que la ruta sea compatible con cualquier sistema operativo.

üî¢ **Funci√≥n para contar las filas del archivo CSV**
Se define la funci√≥n `contar_filas`, la cual abre el archivo CSV en modo lectura (`mode='r'`) con codificaci√≥n UTF-8. Utiliza `csv.reader` para leer el archivo y calcula el n√∫mero total de filas excluyendo el encabezado (si existe). Retorna este n√∫mero.

üìä **Llamar a la funci√≥n y mostrar el resultado**
Se invoca la funci√≥n `contar_filas` pasando la ruta del archivo CSV. Luego, imprime el total de filas del archivo en consola, mostrando cu√°ntas filas contiene el archivo excluyendo cualquier encabezado.


In [16]:
# Definir la ruta al archivo CSV
archivo_csv = os.path.join(file_path)

# Funci√≥n para contar las filas del archivo CSV
def contar_filas(archivo):
    with open(archivo, mode='r', encoding='utf-8') as archivo:
        lector_csv = csv.reader(archivo)
        numero_de_filas = sum(1 for fila in lector_csv) - 1  # Resta 1 si la primera fila son encabezados
    return numero_de_filas

# Llamar a la funci√≥n y mostrar el resultado
numero_de_filas = contar_filas(archivo_csv)
print(f'El archivo tiene {numero_de_filas} filas.')



El archivo tiene 114000 filas.


### Definici√≥n de la Ruta al Archivo CSV
üìÅ Utilizamos `os.path.join` para construir de manera segura la ruta al archivo CSV, asegurando que funcione en diferentes sistemas operativos.

### Funci√≥n para Mostrar las Primeras Filas de un Archivo CSV
üîç Definimos `mostrar_primeras_filas` para leer y mostrar las primeras `n` filas de un archivo CSV.
- **Abrimos el archivo** en modo lectura, asegurando que se interprete correctamente el texto con `encoding='utf-8'`.
- **Lectura de encabezados**: Usamos `next` para leer la primera l√≠nea del archivo, que generalmente contiene los encabezados.
- **Impresi√≥n de filas**: Iteramos sobre las filas del archivo y las imprimimos hasta alcanzar el l√≠mite especificado (`num_filas`), controlado por un contador.

### Llamada a la Funci√≥n y Visualizaci√≥n de Informaci√≥n Adicional
üìû Invocamos la funci√≥n `mostrar_primeras_filas` para visualizar las primeras 30 filas del CSV.
- **Reporte del total de filas**: Mostramos un mensaje indicando el n√∫mero total de filas en el archivo, lo que es √∫til para entender el tama√±o del dataset.


In [17]:
# Definir la ruta al archivo CSV
archivo_csv = os.path.join(file_path)

# Funci√≥n para leer y mostrar las primeras n filas de un archivo CSV
def mostrar_primeras_filas(archivo, num_filas):
    with open(archivo, mode='r', encoding='utf-8') as archivo:
        lector_csv = csv.reader(archivo)
        encabezado = next(lector_csv)  # Lee los encabezados si existen
        print(encabezado)  # Imprime los encabezados
        contador = 0
        for fila in lector_csv:
            if contador < num_filas:
                print(fila)
                contador += 1
            else:
                break

# Llamar a la funci√≥n para mostrar las primeras 30 filas
mostrar_primeras_filas(archivo_csv, 30)



['', 'track_id', 'artists', 'album_name', 'track_name', 'popularity', 'duration_ms', 'explicit', 'danceability', 'energy', 'key', 'loudness', 'mode', 'speechiness', 'acousticness', 'instrumentalness', 'liveness', 'valence', 'tempo', 'time_signature', 'track_genre']
['0', '5SuOikwiRyPMVoIQDJUgSV', 'Gen Hoshino', 'Comedy', 'Comedy', '73', '230666', 'False', '0.676', '0.461', '1', '-6.746', '0', '0.143', '0.0322', '1.01e-06', '0.358', '0.715', '87.917', '4', 'acoustic']
['1', '4qPNDBW1i3p13qLCt0Ki3A', 'Ben Woodward', 'Ghost (Acoustic)', 'Ghost - Acoustic', '55', '149610', 'False', '0.42', '0.166', '1', '-17.235', '1', '0.0763', '0.924', '5.56e-06', '0.101', '0.267', '77.489', '4', 'acoustic']
['2', '1iJBSr7s7jYXzM8EGcbK5b', 'Ingrid Michaelson;ZAYN', 'To Begin Again', 'To Begin Again', '57', '210826', 'False', '0.438', '0.359', '0', '-9.734', '1', '0.0557', '0.21', '0.0', '0.117', '0.12', '76.332', '4', 'acoustic']
['3', '6lfxq3CG4xtTiEg7opyCyx', 'Kina Grannis', 'Crazy Rich Asians (Origina

### Definici√≥n de Ruta al Archivo CSV üóÇÔ∏è
- **Objetivo**: Establecer la ubicaci√≥n del archivo CSV para su uso posterior.
- **M√©todo**: Utilizando `os.path.join` para construir la ruta completa al archivo, asegurando compatibilidad con diferentes sistemas operativos.

### Funci√≥n para Mostrar Primeras Filas de un Archivo CSV üìÑ
- **Objetivo**: Visualizar las primeras filas del archivo CSV para obtener una vista previa r√°pida de los datos.
- **C√≥mo funciona**:
  1. **Leer el archivo**: Utiliza `pd.read_csv` para cargar el archivo en un DataFrame.
  2. **Mostrar filas**: Usa `datos.head(num_filas)` para mostrar las primeras `n` filas del DataFrame.

### Llamada a la Funci√≥n para Visualizaci√≥n de Datos üìä
- **Objetivo**: Ejecutar la funci√≥n para mostrar las primeras 30 filas del archivo CSV y as√≠ obtener un entendimiento inicial de la estructura y contenido de los datos.

### Informar el Total de Filas del Archivo üßÆ
- **Objetivo**: Proporcionar informaci√≥n r√°pida sobre el tama√±o del archivo CSV.
- **Descripci√≥n**: Se utiliza para informar al usuario cu√°ntas filas contiene el archivo, lo cual es √∫til para entender la dimensi√≥n de los datos con los que se est√° trabajando.


In [18]:
# Definir la ruta al archivo CSV
archivo_csv = os.path.join(file_path)

# Funci√≥n para mostrar las primeras n filas de un archivo CSV usando pandas
def mostrar_primeras_filas_pandas(archivo, num_filas):
    # Leer el archivo CSV con pandas
    datos = pd.read_csv(archivo)
    # Mostrar las primeras n filas
    print(datos.head(num_filas))

# Llamar a la funci√≥n para mostrar las primeras 30 filas
mostrar_primeras_filas_pandas(archivo_csv, 30)


    Unnamed: 0                track_id                               artists  \
0            0  5SuOikwiRyPMVoIQDJUgSV                           Gen Hoshino   
1            1  4qPNDBW1i3p13qLCt0Ki3A                          Ben Woodward   
2            2  1iJBSr7s7jYXzM8EGcbK5b                Ingrid Michaelson;ZAYN   
3            3  6lfxq3CG4xtTiEg7opyCyx                          Kina Grannis   
4            4  5vjLSffimiIP26QG5WcN2K                      Chord Overstreet   
5            5  01MVOl9KtVTNfFiBU9I7dc                          Tyrone Wells   
6            6  6Vc5wAMmXdKIAM7WUoEb7N  A Great Big World;Christina Aguilera   
7            7  1EzrEOXmMH3G43AXT1y7pA                            Jason Mraz   
8            8  0IktbUcnAGrvD03AWnz3Q8             Jason Mraz;Colbie Caillat   
9            9  7k9GuJYLp2AzqokyEdwEw2                        Ross Copperman   
10          10  4mzP5mHkRvGxdhdGdAH7EJ                          Zack Tabudlo   
11          11  5ivF4eQBqJiVL5IAE9jRyl  

### üìÇ Cargar el Archivo CSV
Aqu√≠ estamos especificando la ruta del archivo CSV utilizando la funci√≥n `os.path.join()`. Esto nos ayuda a asegurar que la ruta del archivo sea correcta independientemente del sistema operativo que estemos utilizando.

### üîç Encontrar Duplicados
En este bloque, buscamos filas duplicadas en el DataFrame llamado `datos`. Utilizamos el m√©todo `.duplicated()` que identifica y devuelve una serie de valores booleanos, se√±alando `True` para las filas que son duplicadas.

### üñ®Ô∏è Imprimir los Duplicados
Finalmente, imprimimos las filas duplicadas encontradas. Primero mostramos un mensaje explicativo y luego utilizamos `print(duplicados)` para mostrar las filas que son duplicadas en el DataFrame.


In [19]:
# Cargar el archivo CSV
datos =  os.path.join(file_path)

# Encontrar duplicados
duplicados = datos[datos.duplicated()]

# Imprimir los duplicados
print("Filas duplicadas encontradas:")
print(duplicados)

AttributeError: 'str' object has no attribute 'duplicated'

### Cargar el archivo CSV üìÅ
Carga la ubicaci√≥n del archivo CSV a trav√©s de la funci√≥n `os.path.join()`, lo cual garantiza que la ruta sea interpretada correctamente independientemente del sistema operativo que se est√© utilizando.

### Calcular la cantidad por g√©nero üìä
Utiliza el m√©todo `value_counts()` sobre la columna `track_genre` del DataFrame `datos`. Esto permite contar la cantidad de ocurrencias para cada g√©nero musical presente en los datos, facilitando una comprensi√≥n r√°pida de la distribuci√≥n de g√©neros.

### Imprimir la cantidad por g√©nero üñ®Ô∏è
Imprime en consola el resultado del c√°lculo anterior, mostrando un desglose de la cantidad de pistas para cada g√©nero, lo cual es √∫til para an√°lisis visuales r√°pidos o revisiones de datos.


In [None]:
# Cargar el archivo CSV
datos = os.path.join(file_path)

# Calcular la cantidad por g√©nero
cantidad_por_genero = datos['track_genre'].value_counts()

# Imprimir la cantidad por g√©nero
print("Cantidad por g√©nero:")
print(cantidad_por_genero)

TypeError: string indices must be integers, not 'str'

### üìÇ Cargar el archivo CSV
Este bloque de c√≥digo se encarga de cargar los datos desde un archivo CSV. Utiliza la funci√≥n `os.path.join` para crear una ruta al archivo que es compatible con cualquier sistema operativo.

### üìä Agrupar por g√©nero y calcular la popularidad media
Aqu√≠, los datos se agrupan seg√∫n el g√©nero de las pistas musicales. Para cada g√©nero, calculamos la popularidad media, lo que permite entender qu√© tan populares son las pistas de cada g√©nero en promedio.

### üîù Ordenar los resultados para identificar los g√©neros m√°s populares
Despu√©s de calcular la popularidad media por g√©nero, este c√≥digo ordena los g√©neros de mayor a menor popularidad. `sort_values(ascending=False)` se asegura de que los g√©neros con mayor popularidad est√©n al principio de la lista.

### üñ®Ô∏è Imprimir los g√©neros m√°s populares
Finalmente, se imprimen los cinco g√©neros m√°s populares. Esto proporciona una salida clara y directa para mostrar cu√°les son los g√©neros m√°s apreciados seg√∫n su popularidad media.


In [None]:
# Cargar el archivo CSV
datos = os.path.join(file_path)

# Agrupar por g√©nero y calcular la popularidad media de cada g√©nero
popularidad_genero = datos.groupby('track_genre')['popularity'].mean()

# Ordenar los resultados para obtener los g√©neros m√°s populares
generos_mas_populares = popularidad_genero.sort_values(ascending=False).head(5)

# Imprimir los g√©neros m√°s populares
print("G√©neros m√°s populares seg√∫n la popularidad media:")
print(generos_mas_populares)

### Cargar el archivo CSV üìÇ
Carga el archivo CSV desde la ubicaci√≥n especificada para poder utilizar los datos en los an√°lisis posteriores. Se utiliza `os.path.join` para asegurar que la ruta al archivo es correcta independientemente del sistema operativo.

### Agrupar por artista y sumar la popularidad üé§üìä
Se agrupan los datos por el nombre del artista y se suma la popularidad de todas sus pistas. Esto nos permite evaluar qu√© tan popular es un artista en base a la popularidad acumulada de sus canciones.

### Ordenar los resultados üèÜ
Una vez que tenemos la suma de popularidades por artista, ordenamos los resultados de mayor a menor para identificar a los artistas m√°s populares. Usamos `head(5)` para limitar la visualizaci√≥n a los top 5 artistas.

### Imprimir los artistas m√°s populares üñ®Ô∏èüåü
Se imprime la lista de los cinco artistas m√°s populares bas√°ndonos en la popularidad total de sus pistas. Esto nos proporciona una visi√≥n clara de qui√©nes son los artistas m√°s destacados en el conjunto de datos.


In [None]:
# Cargar el archivo CSV
datos = os.path.join(file_path)

# Agrupar por artista y sumar la popularidad de todas sus pistas
popularidad_artista = datos.groupby('artists')['popularity'].sum()

# Ordenar los resultados para obtener los artistas con mayor popularidad total
artistas_mas_populares = popularidad_artista.sort_values(ascending=False).head(5)

# Imprimir los artistas m√°s populares
print("Artistas m√°s famosos por popularidad total:")
print(artistas_mas_populares)


### üìÅ Cargar el archivo CSV
Este paso carga el archivo CSV desde una ruta espec√≠fica. Utilizamos `os.path.join` para asegurarnos de que la ruta sea compatible con cualquier sistema operativo, lo cual es crucial para evitar errores de ruta.

### üìä Agrupar y Sumar Popularidad
Aqu√≠, agrupamos las pistas por artista usando `groupby` y luego sumamos los valores de popularidad con `.sum()`. Esto nos ayuda a entender cu√°l artista tiene mayor impacto en t√©rminos de popularidad en el conjunto de datos.

### üîù Ordenar Resultados
Mediante `sort_values`, ordenamos los artistas de acuerdo a su popularidad de forma descendente y seleccionamos los top 10 con `.head(10)`. Esto nos permite identificar r√°pidamente a los artistas m√°s populares.

### üìâ Preparar y Mostrar el Gr√°fico
Finalmente, configuramos y mostramos un gr√°fico de barras para visualizar los artistas m√°s populares. Se ajusta el tama√±o de la figura, se a√±ade un t√≠tulo, etiquetas para ambos ejes, y se rotan las etiquetas del eje X para mejorar la legibilidad. `plt.tight_layout()` ajusta autom√°ticamente los m√°rgenes del gr√°fico para que todo quede dentro del √°rea visible.


In [None]:
# Cargar el archivo CSV
datos = os.path.join(file_path)

# Agrupar por artista y sumar la popularidad de todas sus pistas
popularidad_artista = datos.groupby('artists')['popularity'].sum()

# Ordenar los resultados para obtener los artistas con mayor popularidad total
artistas_mas_populares = popularidad_artista.sort_values(ascending=False).head(10)

# Preparar el gr√°fico
plt.figure(figsize=(10, 8))  # Configurar tama√±o de la figura
artistas_mas_populares.plot(kind='bar', color='skyblue')  # Crear un gr√°fico de barras
plt.title('Top 10 Artistas M√°s Famosos por Popularidad Total en Spotify')  # T√≠tulo del gr√°fico
plt.xlabel('Artistas')  # Etiqueta del eje X
plt.ylabel('Popularidad Total')  # Etiqueta del eje Y
plt.xticks(rotation=45, ha='right')  # Rotar etiquetas del eje X para mejor visualizaci√≥n
plt.tight_layout()  # Ajustar autom√°ticamente los par√°metros del subplot
plt.show()  # Mostrar el gr√°fico


### Cargar el archivo CSV
üîç **Objetivo**: Carga el archivo CSV para poder trabajar con los datos en el notebook.
üß© **Por qu√© es importante**: Es fundamental iniciar con la carga de datos para realizar cualquier an√°lisis posterior.

### Calcular la descripci√≥n estad√≠stica de la columna de popularidad
üìä **Objetivo**: Obtener estad√≠sticas descriptivas (como media, mediana, m√≠nimo, m√°ximo, etc.) de la columna 'popularidad'.
üîë **Utilidad**: Ayuda a entender la distribuci√≥n general y las tendencias de la columna 'popularidad'.

### Imprimir la descripci√≥n estad√≠stica
üñ®Ô∏è **Objetivo**: Mostrar las estad√≠sticas descriptivas calculadas en la consola para su revisi√≥n.
üëÄ **Relevancia**: Permite visualizar r√°pidamente un resumen estad√≠stico que puede ser √∫til para tomar decisiones de an√°lisis.

### Preparar el gr√°fico de histograma para la distribuci√≥n de popularidad
üìà **Objetivo**: Crear un histograma para visualizar la frecuencia de los valores de popularidad.
üé® **Detalles**: Se configura el tama√±o, color y transparencia del histograma, adem√°s de etiquetas y t√≠tulo para mejor comprensi√≥n.
üîó **Importancia**: Facilita la identificaci√≥n visual de la distribuci√≥n y cualquier sesgo o anomal√≠a en los datos.


In [None]:
# Cargar el archivo CSV
datos = os.path.join(file_path)

# Calcular la descripci√≥n estad√≠stica de la columna de popularidad
descripcion_popularidad = datos['popularity'].describe()

# Imprimir la descripci√≥n estad√≠stica
print("Descripci√≥n estad√≠stica de popularidad:")
print(descripcion_popularidad)

# Preparar el gr√°fico de histograma para la distribuci√≥n de popularidad
plt.figure(figsize=(10, 6))  # Configurar tama√±o de la figura
plt.hist(datos['popularity'], bins=30, color='purple', alpha=0.7)  # Crear un histograma
plt.title('Distribuci√≥n de Popularidad en Spotify')  # T√≠tulo del gr√°fico
plt.xlabel('Popularidad')  # Etiqueta del eje X
plt.ylabel('Frecuencia')  # Etiqueta del eje Y
plt.grid(True)  # A√±adir una cuadr√≠cula para facilitar la lectura
plt.show()  # Mostrar el gr√°fico


### Cargar el archivo CSV
üìÅ Cargamos los datos desde un archivo CSV usando una ruta de archivo especificada para acceder a los datos necesarios.

### Convertir la duraci√≥n de milisegundos a minutos
‚è±Ô∏è Convertimos la duraci√≥n de las pistas de milisegundos a minutos para facilitar la comprensi√≥n y manipulaci√≥n de los datos.

### Agrupar por g√©nero y calcular la duraci√≥n media de las pistas
üéµ Agrupamos las pistas por g√©nero musical para calcular la duraci√≥n media en minutos de cada g√©nero, permitiendo analizar tendencias espec√≠ficas de cada tipo de m√∫sica.

### Ordenar los resultados y seleccionar los top 10 para una mejor visualizaci√≥n
üîù Ordenamos los g√©neros por la duraci√≥n media de sus pistas de mayor a menor y seleccionamos los top 10 para enfocarnos en los g√©neros con pistas m√°s largas.

### Preparar el gr√°fico de barras horizontales
üìä Creamos un gr√°fico de barras horizontales para visualizar visualmente los top 10 g√©neros con pistas m√°s largas, haciendo m√°s f√°cil la interpretaci√≥n de los datos.

üîÑ Invertimos el eje Y del gr√°fico para que los g√©neros con mayor duraci√≥n media aparezcan en la parte superior, mejorando la presentaci√≥n visual del gr√°fico.


In [None]:
# Cargar el archivo CSV
datos = os.path.join(file_path)

# Convertir la duraci√≥n de milisegundos a minutos
datos['duration_min'] = datos['duration_ms'] / 60000

# Agrupar por g√©nero y calcular la duraci√≥n media de las pistas
duracion_media_genero = datos.groupby('track_genre')['duration_min'].mean()

# Ordenar los resultados y seleccionar los top 10 para una mejor visualizaci√≥n
duracion_media_ordenada = duracion_media_genero.sort_values(ascending=False).head(10)

# Preparar el gr√°fico de barras horizontales
plt.figure(figsize=(10, 7))  # Configurar tama√±o de la figura
duracion_media_ordenada.plot(kind='barh', color='lightblue')  # Crear un gr√°fico de barras horizontales
plt.title('Top 10 Duraci√≥n Media de Pistas por G√©nero')  # T√≠tulo del gr√°fico
plt.xlabel('Duraci√≥n Media (minutos)')  # Etiqueta del eje X
plt.ylabel('G√©nero')  # Etiqueta del eje Y
plt.tight_layout()  # Ajustar autom√°ticamente los par√°metros del subplot
plt.gca().invert_yaxis()  # Invertir el eje Y para que el m√°s largo aparezca arriba
plt.show()  # Mostrar el gr√°fico

### Cargar el archivo CSV
üìÇ Utilizamos una funci√≥n para unir la ruta del archivo especificada con el nombre del archivo, asegurando que la ruta sea correcta independientemente del sistema operativo que se use.

### Calcular la cantidad de pistas expl√≠citas y no expl√≠citas
üî¢ Contamos cu√°ntas pistas en los datos son expl√≠citas y cu√°ntas no, utilizando la funci√≥n `value_counts()` que proporciona un conteo r√°pido de diferentes categor√≠as.

### Preparar el gr√°fico
üìä Iniciamos creando un espacio para el gr√°fico con un tama√±o espec√≠fico para asegurarnos que los detalles sean visibles.

üö¶ Dibujamos un gr√°fico de barras, donde cada barra representa una categor√≠a (expl√≠citas y no expl√≠citas), usando colores distintos (rojo y verde) para diferenciar claramente entre ellas.

üè∑Ô∏è A√±adimos un t√≠tulo descriptivo al gr√°fico, etiquetas claras para ambos ejes (X y Y), y personalizamos las etiquetas del eje X para que muestren 'S√≠' o 'No', indicando si la pista es expl√≠cita.

üîß Utilizamos `tight_layout()` para ajustar autom√°ticamente los m√°rgenes y el espaciado del gr√°fico, asegurando que todo se muestre correctamente y sin cortes.

üëÄ Finalmente, mostramos el gr√°fico utilizando `plt.show()`, lo que permite que los usuarios lo visualicen inmediatamente.


In [None]:
# Cargar el archivo CSV
datos = os.path.join(file_path)

# Calcular la cantidad de pistas expl√≠citas y no expl√≠citas
cantidad_explicitas = datos['explicit'].value_counts()

# Preparar el gr√°fico
plt.figure(figsize=(7, 5))  # Configurar tama√±o de la figura
cantidad_explicitas.plot(kind='bar', color=['red', 'green'])  # Crear un gr√°fico de barras
plt.title('Cantidad de Pistas Expl√≠citas vs No Expl√≠citas en Spotify')  # T√≠tulo del gr√°fico
plt.xlabel('Es expl√≠cita')  # Etiqueta del eje X
plt.ylabel('Cantidad de pistas')  # Etiqueta del eje Y
plt.xticks([0, 1], ['No', 'S√≠'], rotation=0)  # Definir etiquetas personalizadas para el eje X
plt.tight_layout()  # Ajustar autom√°ticamente los par√°metros del subplot
plt.show()  # Mostrar el gr√°fico
