# Data Set Spotify
* Archivo en -> [Spotify 2010 - 2019 Top 100.csv](https://www.kaggle.com/datasets/muhmores/spotify-top-100-songs-of-20152019)

1. conocer el dataset.
2. Se utilizarán como datos de las tarjetas “Top Genre”, “Artist Type”, “Year Released”, “Top Year”, “BPM”. Como dato a adivinar se utilizará “Artist”.
3. Se quiere reemplazar los nombres de los géneros a title case exceptuando las palabras con iniciales.
4. Exportar a un archivo csv.
___

* Instalar las librerías para el procesamiento del dataset

In [1]:
!pip install pandas



In [2]:
import pandas as pd
import os

* Importar el dataset y crear el DataFrame

In [3]:
archivo = 'Spotify 2010 - 2019 Top 100.csv'
carpeta = os.path.join(os.getcwd(), '..', 'csv_originales', archivo)

In [4]:
try:
    spotify = pd.read_csv(carpeta, encoding='utf-8')
except FileNotFoundError:
    print('No se encontro el archivo seleccionado')

### 1. Conocer el dataset

In [5]:
# ver las columnas, cuantos registros tiene cada columna y el tipo de dato
spotify.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1003 entries, 0 to 1002
Data columns (total 17 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   title          1000 non-null   object 
 1   artist         1000 non-null   object 
 2   top genre      1000 non-null   object 
 3   year released  1000 non-null   float64
 4   added          1000 non-null   object 
 5   bpm            1000 non-null   float64
 6   nrgy           1000 non-null   float64
 7   dnce           1000 non-null   float64
 8   dB             1000 non-null   float64
 9   live           1000 non-null   float64
 10  val            1000 non-null   float64
 11  dur            1000 non-null   float64
 12  acous          1000 non-null   float64
 13  spch           1000 non-null   float64
 14  pop            1000 non-null   float64
 15  top year       1000 non-null   float64
 16  artist type    1000 non-null   object 
dtypes: float64(12), object(5)
memory usage: 133.3+ KB


In [6]:
# ver las primeras 5 lineas y todas sus columnas
spotify.head(5)

Unnamed: 0,title,artist,top genre,year released,added,bpm,nrgy,dnce,dB,live,val,dur,acous,spch,pop,top year,artist type
0,STARSTRUKK (feat. Katy Perry),3OH!3,dance pop,2009.0,2022‑02‑17,140.0,81.0,61.0,-6.0,23.0,23.0,203.0,0.0,6.0,70.0,2010.0,Duo
1,My First Kiss (feat. Ke$ha),3OH!3,dance pop,2010.0,2022‑02‑17,138.0,89.0,68.0,-4.0,36.0,83.0,192.0,1.0,8.0,68.0,2010.0,Duo
2,I Need A Dollar,Aloe Blacc,pop soul,2010.0,2022‑02‑17,95.0,48.0,84.0,-7.0,9.0,96.0,243.0,20.0,3.0,72.0,2010.0,Solo
3,Airplanes (feat. Hayley Williams of Paramore),B.o.B,atl hip hop,2010.0,2022‑02‑17,93.0,87.0,66.0,-4.0,4.0,38.0,180.0,11.0,12.0,80.0,2010.0,Solo
4,Nothin' on You (feat. Bruno Mars),B.o.B,atl hip hop,2010.0,2022‑02‑17,104.0,85.0,69.0,-6.0,9.0,74.0,268.0,39.0,5.0,79.0,2010.0,Solo


### 2. Seleccionar las columnas que nos interesan y ordenarlas

In [7]:
spotify = spotify[['top genre', 'artist type', 'year released', 'top year', 'bpm', 'artist']]
spotify.head(5)

Unnamed: 0,top genre,artist type,year released,top year,bpm,artist
0,dance pop,Duo,2009.0,2010.0,140.0,3OH!3
1,dance pop,Duo,2010.0,2010.0,138.0,3OH!3
2,pop soul,Solo,2010.0,2010.0,95.0,Aloe Blacc
3,atl hip hop,Solo,2010.0,2010.0,93.0,B.o.B
4,atl hip hop,Solo,2010.0,2010.0,104.0,B.o.B


### 3. Reemplazar los nombres de los géneros a title case o mayúsculas

In [8]:
def cambiar_genero(genero):
    """
    Primero pasar el objeto pasado por parametro a string, despues recorrer las palabras
    y cambiar a upper o title segun la condicion
    """
    siglas = ['edm', 'dfw', 'uk', 'r&b', 'lgbtq+']
    p = str(genero)
    titulo = []

    for palabra in p.split(' '):
        if palabra in siglas:
            titulo.append(palabra.upper())
        else:
            titulo.append(palabra.title())
    # por ultimo pasar de lista a string
    return ' '.join(titulo)

In [9]:
# aplicar los cambios en los generos
spotify['top genre'] = spotify['top genre'].apply(cambiar_genero)

# quitar las finas con valores NaN
spotify = spotify.dropna()

# convertir las columnas con flotante a entero
spotify['bpm'] = spotify['bpm'].astype(int)
spotify['year released'] = spotify['year released'].astype(int)
spotify['top year'] = spotify['top year'].astype(int)

spotify.tail(10)

Unnamed: 0,top genre,artist type,year released,top year,bpm,artist
990,Dance Pop,Solo,2019,2019,120,Sigrid
991,Grime,Solo,2019,2019,188,Stormzy
992,Pop,Solo,2019,2019,69,Taylor Swift
993,Pop,Solo,2019,2019,170,Taylor Swift
994,Pop,Solo,2019,2019,85,Taylor Swift
995,Hip Hop,Solo,2018,2019,155,Travis Scott
996,Hip Hop,Solo,2019,2019,80,"Tyler, The Creator"
997,Grime,Solo,2019,2019,103,Wiley
998,Afroswing,Duo,2019,2019,138,Young T & Bugsey
999,Atl Hip Hop,Solo,2019,2019,98,Young Thug


### 4. Exportar a un archivo csv.

In [10]:
# ruta de destino un directorio anterior y nuevo nombre de archivo
archivo = 'dataset_spotify.csv'
carpeta = os.path.join(os.getcwd(), '..', archivo)

In [11]:
spotify.to_csv(carpeta, encoding='utf-8', index=False)