# _TP especial Fundamentos de la Ciencia de Datos_<br>
### _Grupo 7: Buralli, Todesco, Antúnez_


### <u>Descarga y lectura de archivos<u>

Empezaremos descargando y leyendo los archivos mandados por la cátedra

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d.proj3d import rotation_about_vector

covers_dataset = pd.read_csv('Covers.csv')

Hacemos una vista general para saber de que se trata el dataset, que significan cada una de sus columnas

In [None]:
covers_dataset.head()

### Descripción de las variables<br>
* ```Track```: nombre de la canción
* ```Artist```: nombre del artista o intérprete
* ```Duration```: duración en minutos de la canción
* ```Time_Signature```: número de pulsaciones por compás
* ```Danceability```: medida de que tan bailable es la canción(entre 0 y 1)
* ```Energy```: medida de que tan enérgica es la canción(entre 0 y 1)
* ```Key```: tonalidad de la canción, número entero
* ```Loudness```: volumen de la canción, en decibelios
* ```Mode```: tono mayor o menor(0 o 1, respectivamente)
* ```Speechiness```: medida de presencia de palabras habladas en las canciones, valores altos indican una alta presencia de estas palabras
* ```Acoustiness```: mide que tan acústica es la pista
* ```Instrumentalness```: mide la presencia de voces en las canciones, valores más altos indican una canción con mayor parte instrumental
* ```Liveness```: probabilidad de que dicha canción se haya interpretado en vivo, niveles más altos indican mayor presencia de voces de la audiencia
* ```Valance```: medida de la positividad de la canción, niveles más altos indican presencias de mlodías alegres
* ```Tempo```: velocidad de la pista, medida en beats por minutos(BPM)
* ```Popularity```: puntuación de la canción que mide su popularidad
* ```Year```: año de lanzamiento

Identificaremos la cantidad de nulos mediante el co

In [None]:
covers_dataset.isna().sum()

Observamos que no hay NaNs, pero esto no descarta la presencia de valores extraños a analizar en las distintas columnas, por lo que verificaremos mediante el método ```value_count()```

### <u>Revision de valores<u>

In [None]:
covers_dataset["Track"].value_counts()

En ```Track``` parece no haber presencia de valores raros, si algunos nombres repetidos.

In [None]:
covers_dataset["Artist"].value_counts()

Con ```Artist``` parace algo similar, nada extraño a primera vista

In [None]:
covers_dataset["Duration"].value_counts()

```Duration``` tampoco parece tener valores atípicos, aunque luego abria que convertir el dato a algo numerico.

In [None]:
covers_dataset['Time_Signature'].value_counts()

```Time_Signature``` parece correcto.

In [None]:
covers_dataset['Danceability'].value_counts()
danceability = covers_dataset['Danceability']

En ```Danceability``` no parece que haya nada raro... Hagamos un boxplot para ver mas en detalle.

In [None]:
covers_dataset['Danceability'].min()
covers_dataset['Danceability'].max()
covers_dataset['Danceability'].median()
danceability.describe()

In [None]:
covers_dataset['Energy'].value_counts()

A primera vista no parece haber valores extraño.

In [None]:
covers_dataset['Key'].value_counts()

Todo parece normal en ```Key```.

In [None]:
covers_dataset['Loudness'].value_counts()

Sospechosos los valores que se repiten 3 veces siendo una variable continua pero aceptable...

In [None]:
covers_dataset['Mode'].value_counts()

Predominancia del valor de 1 en ```Mode```.

In [None]:
covers_dataset['Speechiness'].value_counts()

Valores repetidos en una variable continua. Candidatos a invertigacion: 0.0352,0.0321,0.0270    

In [None]:
covers_dataset['Acousticness'].value_counts()

Hay valores repetidos 5 veces, puede investigarse...

In [None]:
covers_dataset['Instrumentalness'].value_counts()

Muchos registros con 0 de ```Instrumentalness```, asumimos que 0 significa que la cancion es "Acapella" valores altos de ```instrumentalness``` como bien describimos al principio corresponden o "deberian" corresponder a canciones con mayor presencia instrumental. Mientras que valores menores indican lo contrario. Resaltamos el ```deberia``` porque investigando algunas canciones con valores ```instrumentalness``` estas si poseen instrumentacion.

In [None]:
covers_dataset['Instrumentalness'].max()

In [None]:
covers_dataset['Liveness'].value_counts()

A primera vista no sabemos bien la razon pero en ```Liveness``` hay valores repetidos en 0.1xxx osea todos los valores que son 0.1 y algo mas.

In [None]:
covers_dataset['Valence'].value_counts()

Algunos valores repetidos en ```Valence``` pero zafa...

In [None]:
covers_dataset['Tempo'].value_counts()

Aceptable, quizas los valores 118.777 y 100.002 podrian revisarse, tampoco que se repitan tanto en ```Tempo```

In [None]:
covers_dataset['Popularity'].value_counts()

Variable discreta asi que esta bien que se repitan cosas. Tampoco exageremos!

In [None]:
covers_dataset['Year'].value_counts()

Vemos que todas las canciones son de los '90, pero nada extraño que destacar.

**Nota: Relacionar las variables Valance y Tempo(¿la velocidad se relaciona a la positividad de la canción?)**

### <u>Corrección de tipos<u> 

 Ahora nos ocuparemos de comprobar que los tipos de las variables sean adecuados a lo que representan. Para ello, usamos el método ```info()```

In [None]:
covers_dataset.info()

Hacemos una copia mediante el método ```copy()``` para no arruinar el dataset original

In [None]:
copy_covers_ds = covers_dataset.copy()

Convertimos el tipo de dato de la columna ```Mode``` de entero a booleano para hacer el análisis

In [None]:
copy_covers_ds['Mode'] = copy_covers_ds['Mode'].astype(bool)

Ahora nos centraremos en arreglar el tipo de la variable ```Duration```, convirtiendolo de string a integer(segundos)

In [None]:
#Por las dudas hacemos un cambio de tipos a string.
copy_covers_ds['Duration'] = copy_covers_ds['Duration'].astype(str)
#Creamos la nueva columna con los valores correctos convertidos a segundos(todavia no estan los valores).
copy_covers_ds['DURATION(s)'] = 0
#Por cada registro hacemos:
for index,row in copy_covers_ds.iterrows():
    #duracion original se vuelve el valor de duracion de la fila.
    duracion_original = row['Duration']
    #Separamos por : los minutos y segundos.
    minutos , segundos = duracion_original.split(':')
    #Asignamos los minutos * 60 + los segundos obtenidos a la fila en la columna nueva, casteamos ambos parametros a segundos porque sino hace cualquier cosa.
    copy_covers_ds.at[index,'DURATION(s)'] = int(minutos) * 60 + int(segundos)
#Mostramos resultados.
copy_covers_ds.head()

### <u>Analisis de distribuciones<u>



Ahora observaremos como se distribuye cada variable para poder aprender un poco sobre el conjunto de datos y obtener conclusiones. Tomaremos las variables más interesantes para analizar y cuyo gráfico nos pueda aportar algo de valor

# Analisis de ```Danceability```

In [None]:
# Nos quedamos solo con la columna Danceability
danceability = covers_dataset["Danceability"]

# Creamos el boxplot
plt.figure(figsize=(8, 6))
sns.boxplot(x=danceability)
plt.title("Boxplot de Danceability")
plt.xlabel("Danceability")
plt.show()

In [None]:
min = copy_covers_ds["Danceability"].min()
copy_covers_ds[copy_covers_ds["Danceability"] == min]

Parece que hay unos valores del lado izquierdo, podrian ser posibles outliers. 

# Analisis de ```Duration```

In [None]:
bins = 40

plt.hist(copy_covers_ds['DURATION(s)'], bins = bins)

plt.xlabel('Duración (s)')
plt.ylabel('Cantidad de canciones')
plt.title('Histograma de duración de las canciones')
plt.xticks(range(0, 450, 50))
plt.show()

Se puede ver que la mayoría de las canciones duran entre 150 y 300 segundos(2:30 y 5:00 minutos). Hay algunos outliers que superan los 500 segundos(8:33 minutos) y hay que corroborrar que sean correctos

In [None]:
max = copy_covers_ds["DURATION(s)"].max()
copy_covers_ds[copy_covers_ds["DURATION(s)"] == max]

Corroboramos en internet que la canción dura 3:29 minutos, paro no meter mano en los datos podemos simplemente borrar estos tres outliers para que no molesten.

In [None]:
copy_covers_ds[copy_covers_ds['DURATION(s)'] > 500]

La segunda canción más larga es "November Rain" de Guns 'n Roses y su duración concuerda con el dataset

Podemos tomar como medida eliminar estos tres outliers que nos estan afectando la distribucion en la curva.

In [None]:
copy_covers_ds = copy_covers_ds[copy_covers_ds['DURATION(s)'] < 500]

In [None]:
bins = 40

plt.hist(copy_covers_ds['DURATION(s)'], bins = bins)

plt.xlabel('Duración (s)')
plt.ylabel('Cantidad de canciones')
plt.title('Histograma de duración de las canciones')
plt.xticks(range(0, 450, 50))
plt.show()

Ahora si ;)

# Analisis de ```Instrumentalness```

In [None]:
bins = 5

plt.hist(copy_covers_ds['Instrumentalness'], bins = bins)

plt.xlabel('Instrumentalness')
plt.ylabel('Cantidad de canciones')
plt.title('Histograma de Instrumentalizacion de las canciones')
plt.xticks(range(0, 1, 1))
plt.show()

Podriamos discretizar la variable, por ejemplo utilizar una escala "nula, baja, media, alta"

In [None]:
#Creamos la nueva columna con las variable discretizada(todavia no hay nada) y la inicializamos en nulo.
copy_covers_ds['Instrumentalness Type'] = pd.NA
#Por cada registro hacemos:
for index,row in copy_covers_ds.iterrows():
    #Consideramos los 4 casos(intervalos) y asignamos el nueva valor segun corresponda
    instrulmentalness_original = row['Instrumentalness']
    if(instrulmentalness_original == 0):
        instrulmentalness_nueva = 'nula'
    elif(instrulmentalness_original > 0 and instrulmentalness_original <= 0.4 ) :
        instrulmentalness_nueva = 'baja'
    elif(instrulmentalness_original > 0.4 and instrulmentalness_original <= 0.7) :
        instrulmentalness_nueva = 'media'
    elif(instrulmentalness_original > 0.7 and instrulmentalness_original <= 1) :
        instrulmentalness_nueva = 'alta'
        
    copy_covers_ds.at[index,'Instrumentalness Type'] = instrulmentalness_nueva

copy_covers_ds.head()

In [None]:
# Contar la cantidad de cada tipo de 'Instrumentalness Type'
instrumentalness_counts = copy_covers_ds['Instrumentalness Type'].value_counts()

# Crear el gráfico de barras
plt.figure(figsize=(8, 6))
instrumentalness_counts.plot(kind='bar')
plt.title('Distribución de Instrumentalness')
plt.xlabel('Instrumentalness Type')
plt.ylabel('Cantidad de canciones')
plt.show()

Podemos ver que hay muchas canciones con instrumentalizacion baja(cuidado que el intervalo para bajo es un poco mayor(0.1). Y que tambien hay muchas canciones con una instrumentalizacion nula(0 de instrumentalizacion)

## ```Analisis Time Signature```

In [None]:
# Contar la cantidad de cada tipo de 'Instrumentalness Type'
Time_signature_counts = copy_covers_ds['Time_Signature'].value_counts()

plt.figure(figsize=(6,6))
Time_signature_counts.plot(kind = 'bar', color='skyblue')
plt.yticks(range(0,901,100))
plt.xticks(rotation = 0)
plt.title('Cantidad de canciones por pulsaciones por compás')
plt.xlabel('Signatura', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)
plt.show()

Observamos que la gran mayoria de las canciones tienen 4 pulsaciones por compas, es un compas muy comun por aa

## ```Analisis Energy```


In [None]:
bins = 10

plt.hist(copy_covers_ds['Energy'], bins = bins,color='yellow')

plt.xlabel('Energy')
plt.ylabel('Cantidad de canciones')
plt.title('Histograma de la Energy de las canciones')
plt.xticks(range(0, 1, 0.1))
plt.show()

Podemos observar una cuerva bastante ```sesgada hacia la derecha```, lo que indica una gran presencia de canciones energeticas. Sinceramente como con muchas otras variables no sabemos como es que fueron medidas, como pasa en el caso de esta variable. ¿Como midieron la energia de la cancion? ¿estara ligada al ritmo?

Algunas canciones con un valor de ```energia bajo``` son:

In [None]:
copy_covers_ds[copy_covers_ds['Energy'] < 0.1]

In [None]:
# Nos quedamos solo con la columna Energy
energy = covers_dataset["Energy"]

# Creamos el boxplot
plt.figure(figsize=(8, 6))
sns.boxplot(x=energy)
plt.title("Boxplot de Energy")
plt.xlabel("Energy")
plt.show()

## ```Analisis de Key```

In [None]:
# Contar la cantidad de cada tipo de 'Key'
key_counts = copy_covers_ds['Key'].value_counts().sort_index()

# Crear el gráfico de barras
plt.figure(figsize=(8, 6))
key_counts.plot(kind='bar')
plt.title('Distribución de Key')
plt.xlabel('Key')
plt.ylabel('Cantidad de canciones')
plt.show()

In [None]:
# Contar la cantidad de cada tipo de 'Key'
key_counts = copy_covers_ds['Key'].value_counts().sort_values()

# Crear el gráfico de barras
plt.figure(figsize=(8, 6))
key_counts.plot(kind='bar')
plt.title('Distribución de Key')
plt.xlabel('Key')
plt.ylabel('Cantidad de canciones')
plt.show()