# **Final Project (Artificial Intelligence)**

In [18]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [19]:
### Importing Libraries

import pandas as pd


In [20]:
data_csv = pd.read_csv('/content/drive/MyDrive/IA1_2023-2_Proyecto Final-Primera_Entrega/ClassifyMusicGenres/data/fma-rock-vs-hiphop.csv')
data_json = pd.read_json('/content/drive/MyDrive/IA1_2023-2_Proyecto Final-Primera_Entrega/ClassifyMusicGenres/data/echonest-metrics.json')
merged_data = pd.merge(data_csv, data_json, on='track_id', how='inner')

In [21]:
print("Columnas en data_csv:", data_csv.columns)
print("Columnas en data_json:", data_json.columns)


Columnas en data_csv: Index(['track_id', 'bit_rate', 'comments', 'composer', 'date_created',
       'date_recorded', 'duration', 'favorites', 'genre_top', 'genres',
       'genres_all', 'information', 'interest', 'language_code', 'license',
       'listens', 'lyricist', 'number', 'publisher', 'tags', 'title'],
      dtype='object')
Columnas en data_json: Index(['track_id', 'acousticness', 'danceability', 'energy',
       'instrumentalness', 'liveness', 'speechiness', 'tempo', 'valence'],
      dtype='object')


In [22]:
print("Columnas en data_json:", merged_data.columns)

Columnas en data_json: Index(['track_id', 'bit_rate', 'comments', 'composer', 'date_created',
       'date_recorded', 'duration', 'favorites', 'genre_top', 'genres',
       'genres_all', 'information', 'interest', 'language_code', 'license',
       'listens', 'lyricist', 'number', 'publisher', 'tags', 'title',
       'acousticness', 'danceability', 'energy', 'instrumentalness',
       'liveness', 'speechiness', 'tempo', 'valence'],
      dtype='object')


In [23]:
merged_data.head()

Unnamed: 0,track_id,bit_rate,comments,composer,date_created,date_recorded,duration,favorites,genre_top,genres,...,tags,title,acousticness,danceability,energy,instrumentalness,liveness,speechiness,tempo,valence
0,153,256000,0,Arc and Sender,2008-11-26 01:45:00,2008-11-26 00:00:00,405,5,Rock,[26],...,[],Hundred-Year Flood,0.988306,0.255661,0.979774,0.973006,0.121342,0.05174,90.241,0.034018
1,154,256000,0,Arc and Sender,2008-11-26 01:45:04,2008-11-26 00:00:00,319,1,Rock,[26],...,[],Squares And Circles,0.970135,0.352946,0.023852,0.957113,0.113261,0.032177,53.758,0.035632
2,155,192000,0,,2008-11-26 01:45:10,2008-11-26 00:00:00,756,1,Rock,[26],...,[],Maps of the Stars Homes,0.981657,0.142249,0.912122,0.967294,0.36351,0.087527,91.912,0.034325
3,169,192000,0,James Squeaky,2008-11-26 01:46:02,2006-01-01 00:00:00,144,1,Rock,[25],...,[],Boss of Goth,0.989141,0.225978,0.722835,0.263076,0.092371,0.053406,94.322,0.028347
4,170,192000,0,,2008-11-26 01:46:05,2006-10-07 00:00:00,181,0,Rock,[25],...,[],Industry Standard Massacre,0.88666,0.298518,0.744333,0.92095,0.139587,0.088781,97.88,0.073548


Columna: track_id

Esta columna es un identificador único. Por lo tanto, simplemente querríamos verificar si hay duplicados.

In [24]:
print("Número de ID de pista únicos:", merged_data['track_id'].nunique())
print("Número total de filas:", len(merged_data))

Número de ID de pista únicos: 4802
Número total de filas: 4802


# **Descripción: `bit_rate`**

In [25]:
merged_data['bit_rate'].describe()

count      4802.000000
mean     246125.992503
std       56789.007268
min          -1.000000
25%      197678.750000
50%      256000.000000
75%      256000.000000
max      448000.000000
Name: bit_rate, dtype: float64

La columna `bit_rate` indica la tasa de bits de las canciones en el conjunto de datos. La tasa de bits se refiere a la cantidad de bits que se transmiten o procesan por unidad de tiempo en un archivo de audio y se mide típicamente en kilobits por segundo (kbps). Una tasa de bits más alta usualmente indica una mejor calidad de audio.

- **Total de canciones**: 4802
- **Tasa de bits promedio**: 246126 kbps
    - Esto sugiere que la calidad del audio es relativamente alta, dado que muchas canciones en formato MP3 varían entre 128 kbps y 320 kbps.
- **Desviación estándar**: 56789 kbps
    - Una desviación estándar mayor indica una variabilidad más alta en las tasas de bits de las canciones.
- **Valor mínimo**: -1 kbps
    - Este valor es inusual, ya que una tasa de bits no puede ser negativa. Podría indicar un valor marcador para entradas faltantes o un error.
- **Percentil 25%**: 197679 kbps
- **Mediana (Percentil 50%)**: 256000 kbps
- **Percentil 75%**: 256000 kbps
- **Valor máximo**: 448000 kbps
    - Una tasa de bits muy alta, indicando una calidad de audio posiblemente excepcional.

**Conclusión**: La mayoría de las canciones en el dataset tienen una calidad de audio alta según su tasa de bits. Sin embargo, hay que tener en cuenta y corregir posibles errores o valores atípicos, como el valor de -1 kbps.


## Nota sobre la Relevancia de la columna `bit_rate`

Aunque la columna `bit_rate` nos informa sobre la calidad del audio de una canción, es importante considerar su relevancia en relación con el objetivo principal de este análisis.

### ¿Por qué `bit_rate` podría no ser relevante para nuestro objetivo?

1. **Irrelevancia de la Calidad del Audio para el Género**: La calidad del audio (tasa de bits) no es un indicador directo del género musical. Canciones de Rock pueden tener la misma tasa de bits que canciones de Hip-Hop.

2. **Datos Dispersiones**: Si bien hay valores inusuales como -1 kbps que podrían requerir limpieza, esta corrección no contribuiría directamente al objetivo de clasificación del género.

3. **Más Importancia de Otras Características**: Hay otras características en el conjunto de datos que son más relevantes cuando se trata de identificar características específicas del género musical.

**Conclusión**: Aunque la columna `bit_rate` proporciona información valiosa, probablemente no será crucial para clasificar canciones como 'Hip-Hop' o 'Rock'. Al entrenar modelos de aprendizaje automático, es posible que decidamos omitir esta columna o darle un peso menor en la construcción del modelo.


# **Descripción: `comments`**

In [26]:
merged_data['comments'].describe()

count    4802.000000
mean        0.027697
std         0.418614
min         0.000000
25%         0.000000
50%         0.000000
75%         0.000000
max        24.000000
Name: comments, dtype: float64

### `comments`:

Refleja el número de comentarios que ha recibido una canción en particular. Es una métrica que puede indicar la popularidad o la controversia de una canción, aunque no necesariamente su género.

- **Resumen Estadístico de `comments`**:
  - **Count**: Hay 4802 registros en esta columna, lo que indica que no hay valores faltantes.
  - **Media**: En promedio, las canciones han recibido aproximadamente 0.027 comentarios.
  - **Desviación estándar**: 0.418, lo que indica una baja variabilidad en el número de comentarios recibidos por canción.
  - **Min/Max**: La canción con menos comentarios tiene 0 comentarios, mientras que la canción con más comentarios ha recibido 24.
  - **Mediana (50% percentile)**: La mayoría de las canciones (al menos el 75% de ellas) no tienen comentarios, ya que tanto el percentil 25% como el 50% y el 75% tienen un valor de 0.

**Observaciones**:
Dada la baja media y la predominancia de ceros en esta columna, se puede deducir que la mayoría de las canciones en este conjunto de datos no tienen comentarios. Sin embargo, hay algunas canciones que han llamado la atención y han recibido hasta 24 comentarios.

**Relevancia para el objetivo**:
La cantidad de comentarios puede reflejar la popularidad o el interés en una canción, pero no proporciona una indicación directa sobre su género. Por lo tanto, aunque es una columna interesante, podría no ser crucial para clasificar las canciones como 'Hip-Hop' o 'Rock'.

#**Descripciones de la columnas**


### 1. `track_id`:
Identificador único asignado a cada pista o canción en el conjunto de datos. Este ID permite una referencia rápida y unívoca a cada entrada individual sin confusión con otras canciones.

### 2. `bit_rate`:
Indica la tasa de bits de las canciones, que se refiere a la cantidad de bits que se transmiten o procesan por unidad de tiempo en un archivo de audio. Generalmente, una tasa de bits más alta significa una mejor calidad de audio. Se mide en kilobits por segundo (kbps).

### 3. `comments`:

Refleja el número de comentarios que ha recibido una canción en particular. Es una métrica que puede indicar la popularidad o la controversia de una canción, aunque no necesariamente su género.