## Dataset "Spotify" en Pandas

### Importación modulos a utilizar

* `import os`: Se importa este módulo para la llamada a las rutas y directorios que existen en el sistema. 

* `import pandas`: Se importa este módulo para realizar el procesamiento del archivo csv, y así generar uno nuevo con la información necesaria. 

In [1]:
import os
import pandas as pd

### Funciones definidas:

La función `genero_modificado` es la misma utilzada en el parseo de los datasets sin la utilización de Pandas.   

Recibe un género y lo retorna en “title case”, exceptuando las siglas EDM, DFW, UK, R&B y LGBTQ+ que deben ir en mayúsculas. 
Considera también la excepción “k-pop”, que debe ser transformada a “K-Pop”.

In [35]:
def genero_modificado(genero):
    """Covierte a mayúscula si es EDM, DFW, UK, R&B o LGBTQ+. Caso contrario convierte a title"""
    x=genero.title()
    
    if 'K-pop' in x:
        x.replace('K-pop','K-Pop')
    
    lista_gen = ['Edm','Dfw','Uk','R&b','Lgbtq+']
       
    #Busco si en el género global se encuentra alguno de los géneros de lista_gen
    for gen in lista_gen:
        if gen in x:
            # Convierto a mayúscula la parte del género que es alguno de los de lista_gen
            x = x.replace(gen,gen.upper())
    return x

### Lectura del csv de Spotify

Toma del archivo csv solo las columnas a utilizar (top genre, artist type, year released, top year, bpm, artist). Generando un dataframe con la información.
- `usecols`: lista de las columnas a tomar.  

Luego, covierte a title case el nombre de cada columna

In [None]:
path_csv=os.path.join(os.getcwd(),'..','csv','Spotify 2010 - 2019 Top 100.csv')

columnas=['Top Genre','Artist Type','Year Released', 'Top Year', 'Bpm','Artist']

canciones=pd.read_csv(path_csv,usecols=list(map(lambda x: x.lower(),columnas)))

canciones.columns=canciones.columns.str.title()

### Procesamiento del archivo

Las columnas se toman de acuerdo al orden que tienen en el archivo, por eso se reordenan de manera específica para el funcionamiento del juego.

Reordenamiento de las columnas requeridas al siguiente orden: “Top Genre”, “Artist Type”, “Year Released”, “Top Year”, “BPM” y “Artist”

In [None]:
canciones = canciones.reindex(columns=columnas)

Se aplica la función `genero_modificado` previamente definida, a cada fila de la columna de *Top Genre*  del dataframe.

Conviertiendo a __Title Case__ los géneros musicales excepto las siglas EDM, DFW, UK, R&B y
LGBTQ+ que deben ir en mayúsculas. Considerando la excepción “k-pop” que debe ser transformada a “K-Pop”.


In [None]:
canciones['Top Genre']=canciones['Top Genre'].apply(genero_modificado)

Conversión a archivo csv mediante la función de pandas. 
 
Formato de archivo que será utilizado, tanto por el juego para la obtención de los datos utilizados, como para la recopilación de información generada por el mismo.

In [39]:
archivo_nuevo=os.path.join(os.getcwd(),'..','csv','data_set_spotify.csv')
canciones.to_csv(archivo_nuevo,index=False)