# Explicación del proceso de trabajo sobre el dataset de spotify

## Consigna : 
Top 100 de temas musicales de Spotify 2010 a 2019: 

Deberá adaptar los datos de la siguiente forma:
● Poner en “title case” los géneros musicales excepto las siglas EDM, DFW, UK, R&B y
LGBTQ+ que deben ir en mayúsculas. Por ejemplo “dfw rap” debe ser transformado a
“DFW Rap”.
● Considerar también la excepción “k-pop” que debe ser transformada a “K-Pop”.
● Se utilizarán como datos de las tarjetas “Top Genre”, “Year Released”, “BPM”, “Top
Year” y “Artist Type”. Como dato a adivinar se utilizará “Artist”. Descartar el resto de las
columnas.
● El archivo resultante deberá tener las siguientes columnas (en este orden específico):
“Top Genre”, “Artist Type”, “Year Released”, “Top Year”, “BPM” y “Artist”


### URL : https://www.kaggle.com/datasets/muhmores/spotify-top-100-songs-of-20152019

## Implementación del código
  

Primero sería necesario importar las librerias a utilizar

In [12]:
import os
import csv
import string 

Luego es necesario preparar las rutas:

por un lado, para acceder al dataset que debemos procesar;

y por el otro, para ubicar el directorio en donde quedaran los archivos necesarios que deben ser creados para llevar a cabo el procesamiento requerido. 

In [13]:
carpeta_archivo = os.path.join("folder_csv")
ruta_archivos = os.path.join(os.getcwd(), carpeta_archivo)

spotify_csv = os.path.join(ruta_archivos, "Spotify 2010 - 2019 Top 100.csv")
modificado = os.path.join(ruta_archivos, "spotify_modificado.csv")
artistas_csv = os.path.join(ruta_archivos, "artistas.csv")

Para el procesamiento de los datos es necesario modificar primero el dataset, está función permite llevar a cabo ese modificación. Para ello recibe como parámetro el dataset y un archivo csv utilizado para almacenar la modificación. 

In [14]:
def modificacion_del_spotify(spotify_csv, spotify_modificado):
    """
    Modificación del dataset.

    En base a un archivo csv ('Spotify 2010 - 2019'), se carga otro 
    que se recibe como parámetro denominado 'spotify_modificado.csv' 
    con los datos de la columna género modificados 
    según una serie de pautas descriptas en la consigna
    para lograr eso se utiliza la función "preparar_linea_2"
    """
    with open(spotify_csv, "r", encoding="utf-8") as data_set:
        reader = csv.reader(data_set, delimiter=',')
        encabezado = reader.__next__()

        with open(spotify_modificado, "w", encoding="utf-8") as copia:
            writer = csv.writer(copia, lineterminator="\n")
            writer.writerow(encabezado)
     
            siglas = ["EDM", "DFW", "UK", "R&B", "LGBTQ+"]

            def preparar_linea_2(row):
                """Modificación de la linea dos."""
                linea = row

                if row[2].split(" ")[0].upper() in siglas: 
                    sigla = row[2].split(" ")[0].upper()
                    genero = sigla + " ".join(row[2].split(" ")[1:])
                    linea[2] = genero
                elif row[2].split("-")[0] == "k":
                    char = row[2].split(" ")[0].upper()
                    genero = char + "-".join(row[2].split(" ")[1:])
                    linea[2] = genero
                else:
                    genero = row[2].title()
                    linea[2] = genero

                return linea
                
            for row in reader: 
                linea = preparar_linea_2(row)
                writer.writerow(linea) 

Esta función genera un nuevo archivo csv con ciertos criterios tomados del dataset spotify

In [18]:
def generar_archivo_de_trabajo(spotify_modificado, artistas):
    """ 
    Datos de interés en archivo artistas.csv. 

    Recibe el archivo 'spotify_modificado.csv' y carga un nuevo archivo 'artistas.csv'
    eliminando las columnas que no son de intéres.
    """
    with open(spotify_modificado, "r", encoding="utf-8") as data_set:
        reader = csv.reader(data_set, delimiter=",")
    
        encabezado = reader.__next__()

        encabezado_salida = [] 
        encabezado_salida.append(encabezado[2].title())
        encabezado_salida.append(encabezado[16].title())
        encabezado_salida.append(encabezado[3].title())
        encabezado_salida.append(encabezado[15].title())
        encabezado_salida.append(encabezado[5].upper())
        encabezado_salida.append(encabezado[1].title())

        with open(artistas, "w", encoding="utf-8") as salida:
            
            writer = csv.writer(salida, lineterminator="\n")    
            writer.writerow(encabezado_salida)
            
            writer.writerows(map(lambda row: [row[2], row[16], row[3], row[15], row[5], row[1]], reader))       

Se relizá el llamado a las funciones para generar la información necesaria.  

In [19]:
modificacion_del_spotify(spotify_csv, modificado)
generar_archivo_de_trabajo(modificado, artistas_csv) 