In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# MEMORIA DEL PROYECTO

### GENERALIDADES

A quien le gusta la música, cualquier forma es buena con tal de escucharla. Esto es sabido por todos. ¿O no? Si ahondamos un poco más, veremos que los verdaderos melómanos tienen al disco de vinilo como santo y seña, como buque insignia, del verdadero sonido... y no estamos hablando de calidad técnica. Se habla de la calidez del sonido del vinilo y de cuánto lo aman los verdaderos entendidos.

También es cierto que, con el paso de los años, los formatos en los que se reproduce un producto musical han ido variando con los avances económicos y sociales, así como con la aparición y desarrollo de la tecnología.

Durante años, se ponía de moda el último formato: primero llegó el cedé, luego el MP3, después el *streaming*; y esas modas conllevaban el cese de la producción de los formatos que quedaban obsoletos. Pero siempre se ha dicho que el amante de la música de verdad, es amante del vinilo y, por consecuencia, independientemente de las modas, siempre consume vinilo.

Nos hemos puesto manos a la obra para confirmar si esta circunstancia es real o sigue siendo un rumor. Y para ello nos hemos hecho con una base de datos de una de las plataformas musicales más importantes.

## OBTENCIÓN DE LOS DATOS

### DATASETS Y FUENTES ALTERNATIVAS DE DATOS

Se tomó la base de datos de lanzamientos musicales en todos los formatos y en todos los países, en todos los géneros, desde 1860 hasta 2021.

Se limpió de:

+ Valores superiores al año 2020, para tener un año de cierre de década claro.
+ Se transformó los años, que tenían carácter decimal, a un número entero.
+ Además, se quitaron todos los valores nulos o faltantes.

Con el fin de que no fuera excesivamente grande, averiguamos cuál fue el primer año de aparición del vinilo (objeto de nuestro estudio) y eliminamos todos los registros anteriores a dicha fecha. De tal forma, se centró el estudio en los valores registrados entre 1925 y 2020.

De la misma forma, tomamos los datos de los 5 países y los 5 estilos en los que más vinilos se publican a fin de centrar nuestro estudio, teniendo en cuenta que aún limpiando todos estos valores, seguíamos contando con millones de registros para el estudio.

Además, nos aseguramos de ordenar los resultados de nuestras investigaciones por décadas, con el fin de que las visualizaciones quedaran claras y diáfanas.



### 1. LIMPIEZA DE LOS DATOS

In [None]:
df_1 = pd.read_csv("C:/Users/vsuar/Documents/THE BRIDGE/EDA/BBDD/release_data.csv", sep=',')
df_1

In [None]:
df_1.dropna(subset=['release_id','genre', 'format', 'year', 'country'], inplace=True)
df_1

In [None]:
df_1['year'] = df_1['year'].round().astype(int)
df_1

In [None]:
primer_formato = df_1.groupby('format')['year'].min()
primer_formato

In [None]:
df_1 = df_1.loc[(df_1['year'] >= 1925) & (df_1['year'] <= 2020)]
df_1.head()

In [None]:
df_1 = df_1[~df_1['country'].astype(str).str.contains('&')]
df_1

In [None]:
df_1['country'].unique()

In [None]:
hay_nan = df_1.isna().any().any()

if hay_nan:
    print("Hay valores NaN en el DataFrame")
else:
    print("No hay valores NaN en el DataFrame")

In [None]:
columnas_seleccionadas = ['country', 'genre', 'format']
descripcion = df_1[columnas_seleccionadas].describe()
descripcion

In [None]:
df_1.describe()

A continuación, empiezo a limpiar la base para averiguar cuáles son los top 5 países, los top 5 formatos y los top 5 estilos, y trabajar solo con sus resultados.

In [None]:
paises = df_1['country'].nunique()
paises

In [None]:
paises_mas_datos = df_1['country'].value_counts().head(10)
paises_mas_datos

In [None]:
top_paises = ['UK', 'US', 'Germany', 'Japan', 'France']

df_1 = df_1[df_1['country'].isin(top_paises)]
df_1

In [None]:
formatos_mas_datos = df_1['format'].value_counts().head(10)
formatos_mas_datos

In [None]:
top_formatos = ['Vinyl', 'CD', 'File', 'Cassette', 'Shellac']

df_1 = df_1[df_1['format'].isin(top_formatos)]
df_1

In [None]:
generos = df_1['genre'].unique()
generos

In [None]:
generos_mas_datos = df_1['genre'].value_counts().head(10)
generos_mas_datos.head(5)

In [None]:
df_vinyl = df_1[df_1['format'] == 'Vinyl']

generos_por_vinilo = df_vinyl['genre'].value_counts()
generos_por_vinilo.head(5)

### 2. ANÁLISIS Y VISUALIZACIÓN DE LOS DATOS

Una vez he dejado la base con los datos que quiero empezar a analizar, empiezo a programar las visualizaciones que me interesan. Primero empiezo por datos generales, que muestran el estado de la cuestión en todas las categorías de las que disponemos.

Posteriormente, me centro únicamente en el vinilo que es el formato en el que me quiero centrar.

In [None]:
release_by_country = (df_1.groupby('country')['release_id']
                      .count()
                      .reset_index(name='count')
                      .sort_values(['count'], ascending=False)
                      .head(20))


plt.figure(figsize=(12, 6))
sns.barplot(data=release_by_country, x='country', y='count')
plt.title('N.º de publicaciones por top países')
plt.xlabel('País')
plt.ylabel('Recuento')
plt.xticks(rotation=45)
plt.show()

In [None]:
release_by_year = (df_1.groupby('year')['release_id']
                   .count()
                   .reset_index(name='count'))

plt.figure(figsize=(12, 6))
sns.lineplot(data=release_by_year, x='year', y='count')
plt.title('N.º de publicaciones por año')
plt.xlabel('Año')
plt.ylabel('Recuento')
plt.show()

In [None]:
release_by_genre = (df_1.groupby('genre')['release_id']
                    .count()
                    .reset_index(name='count')
                    .sort_values(['count'], ascending=False)
                    .head(15))

plt.figure(figsize=(12, 6))
sns.barplot(data=release_by_genre, x='genre', y='count')
plt.title('N.º de publicaciones por estilo musical')
plt.xlabel('Estilo')
plt.ylabel('Recuento')
plt.xticks(rotation=45)
plt.show()

In [None]:
release_by_format = (df_1.groupby('format')['release_id']
                     .count()
                     .reset_index(name='count')
                     .sort_values(['count'], ascending=False))

plt.figure(figsize=(12, 6))
sns.barplot(data=release_by_format, x='format', y='count')
plt.title('N.º de publicaciones por formato')
plt.xlabel('Formato')
plt.ylabel('Recuento')
plt.xticks(rotation=45)
plt.show()

In [None]:
release_by_country_year = df_1.groupby(['country', df_1['year'] // 10 * 10])['release_id'].count().reset_index(name='count').sort_values('count', ascending=False)

release_by_country_year['year'] = release_by_country_year['year'].astype(str) + 's'

plt.figure(figsize=(12, 6))
sns.barplot(data=release_by_country_year, x='year', y='count', hue='country', palette='Set3')
plt.title('Publicaciones por década y país')
plt.xlabel('Década')
plt.ylabel('Recuento')
plt.xticks(rotation=45)
plt.show()

In [None]:
release_by_genre_country = df_1.groupby(['genre', 'country'])['release_id'].count().reset_index(name='count').sort_values(['count'], ascending=False)

release_by_genre_country['year'] = df_1['year'] // 10 * 10

countries = df_1['country'].value_counts().head(10)

genres_decades = release_by_genre_country[release_by_genre_country['country'].isin(countries.index)]

plt.figure(figsize=(12, 6))
sns.barplot(data=genres_decades, x='genre', y='count', hue='country', palette='Set3')
plt.title('Estilos por década, país y estilo')
plt.xlabel('Estilo')
plt.ylabel('Recuento')
plt.xticks(rotation=45)
plt.show()

In [None]:
estilos_vinilo = df_1['genre'].unique()

sns.countplot(y='genre', data=df_1, order=estilos_vinilo)
plt.xlabel('Estilos en vinilo')
plt.ylabel('Estilos')
plt.title('Distribución de estilos en vinilo')
plt.show()

In [None]:
top_countries = df_1['country'].value_counts().head(10)

sns.barplot(x=top_countries.values, y=top_countries.index)
plt.xlabel('Publicaciones en vinilo')
plt.ylabel('País')
plt.title('Países donde más vinilos se publican')
plt.show()

Y llegamos al gráfico que puede demostrar o no la hipótesis de partida:

In [None]:
format_year = df_1.groupby(['format', df_1['year'] // 10 * 10])['release_id'].count().reset_index(name='count')

format_year['year'] = format_year['year'].astype(str) + 's'

decades = sorted(format_year['year'].unique())

format_year['year'] = pd.Categorical(format_year['year'], categories=decades, ordered=True)

plt.figure(figsize=(12, 6))
sns.lineplot(data=format_year, x='year', y='count', hue='format', palette='Set2', marker='o')
plt.title('Formatos a lo largo de las décadas')
plt.xlabel('Década')
plt.ylabel('Recuento')
plt.xticks(rotation=45)
plt.show()