# __Análisis y transformación de CSV__

#### Dataset elegido: *Top 100 de temas musicales de Spotify 2010 a 2019* 
[Archivo CSV para descargar](https://www.kaggle.com/datasets/muhmores/spotify-top-100-songs-of-20152019)

##### <html><u>Trabajo a realizar</u></html>

Se deberán realizar los siguientes cambios a el archivo csv y crear un nuevo dataset, para utilizarlo dentro de nuestro proyecto.

Cambios:
* Poner en “title case” los géneros musicales excepto las siglas EDM, DFW, UK, R&B y
LGBTQ+ que deben ir en mayúsculas. Por ejemplo “dfw rap” debe ser transformado a
“DFW Rap”.
* Considerar también la excepción “k-pop” que debe ser transformada a “K-Pop”.
* Se utilizarán como datos de las tarjetas “Top Genre”, “Year Released”, “BPM”, “Top
Year” y “Artist Type”. Como dato a adivinar se utilizará “Artist”. Descartar el resto de las
columnas.
* El archivo resultante deberá tener las siguientes columnas (en este orden específico):
“Top Genre”, “Artist Type”, “Year Released”, “Top Year”, “BPM” y “Artist

##### <html><u>Codigo explicado</u></html>

Debemos primero especificar los path de los archivos y asignarselos a diferentes variables, que luego usaremos para poder abrirlos.

Tener en cuenta que nuestro csv nuevo estara en la ruta "data\\files_csv"

In [1]:
import os
original_spotify = os.path.join((os.path.normpath(os.getcwd() + os.sep + os.pardir)), 'files_csv_to_load', 'spotify.csv')
updated_spotify = os.path.join((os.path.normpath(os.getcwd() + os.sep + os.pardir)), 'files_csv', 'updated_spotify.csv')

Para poder analizar los datos y transformarlos, debemos definir una función que pueda ser utilizada en un apply() y aplicarla en cada fila del DataFrame. Su código deberá modificar las columnas mencionadas en el inicio del notebook, teniendo en cuenta sus excepciones.

__<html><u>Función title_parser</html></u>__

Para esto le mandamos la fila a la función, tomamos la segunda columna de la misma (title), la colocamos en title_case y verificamos que no se deba aplicar algun otro proceso. Si ese es el caso, se tendrá en cuenta que modificación se realizará.

Aquellos géneros que deben estar en mayúsculas, hay que tener cuidado, ya que pueden estar acompañadas por palabras que deben respetar el title_case. Para poder resolver esto, dividimos el string en una lista, y pasamos a mayúsculas solo el primer elemento; que es el que nos interesa.

Para R&b no podemos aplicar este proceso, ya que suele estar al final del string, lo que nos complica el parseo. Utilizamos un replace y se resuelve facilmente. Lo mismo se realiza en K-pop.

In [2]:
def title_parser(elem):
    '''Updates and filters the genre titles to title case having in account some exceptions.'''
    elem[2] = elem[2].title()
    if ('Edm' in elem[2]) or ('Dfw' in elem[2]) or ('Uk' in elem[2]) or ('Lgbtq+' in elem[2]):
        l = elem[2].split(' ')
        l[0] = l[0].upper()
        elem[2] = ' '.join(l)
    elif ('R&b' in elem[2]):
        elem[2] = elem[2].replace('R&b', 'R&B')
    elif ('K-pop' in elem[2]):
        elem[2] = elem[2].replace('K-pop', 'K-Pop')
    return elem

Luego abriremos los archivos con un with (el antigüo en modo read y el actualizado en write) y transformaremos el csv a un DataFrame.

Aplicamos el parseo a los datos, con un apply() y la función anteriormente explicada; guardándolo en nuestra anterior variable, pisandola.

Declaramos un diccionario, que utilizaremos para el nuevo DataFrame, y le colocamos como index las columnas pedidas. Recorremos el mismo y a cada llave del diccionario le ingresamos los datos de la columna equivalente en el DataFrame.

Por ultimo creamos el DataFrame desde el diccionario y lo pasamos a csv.

In [3]:
import pandas as pd
with open(original_spotify, 'r', encoding="utf8") as arcIn, open(updated_spotify, 'w', newline='', encoding='utf8') as arcOut:
    df = pd.read_csv(original_spotify, encoding='utf-8')
    df = df.apply(title_parser, axis=1)    
    dicc = {"top genre": [], "artist type": [], "year released": [], "top year": [], "bpm": [], "artist": []}
    for key in dicc:
        dicc[key] = df[key]
    dataset_updated = pd.DataFrame.from_dict(dicc).set_index("top genre")
    dataset_updated.to_csv(updated_spotify, encoding='utf-8')


De esta forma ya tenemos nuestro csv parseado y listo a ser utilizado en el proyecto.