# Prueba Intertrimestral

**Nombre:** Yago 

**Apellidos:** Tobio Souto 

**Tiempo de la prueba: 2 Horas**

**Asignatura:** Desarrollo de Aplicaciones para la Visualización de Datos

**Fecha:** 18 de octubre de 2023

**Instrucciones:**

- Escribe código limpio y autoexplicativo.

- Se eliminará 0.5 puntos por usar Seaborn o Matplotlib.

- Se pueden utilizar los materiales de clase.

- Se puede utilizar internet para búsqueda de dudas y documentación.

- No se puede utilizar ningún tipo de LLM.

- No se puede utilizar mensajería instantánea.

- Sube tus resultados a tu repositorio de Github.

- Imprime una versión en PDF en A3 y Portrait del notebook.

- Envialo tus resultados a dmartincorral@icai.comillas.edu adjuntando el PDF y la url del notebook subido al repositorio de Github.


## Inicialización de librerías

Carga aquí todas las librerías que vayas a utilizar.

In [115]:
import pandas as pd                 # Para la manipulación de los datasets
import numpy as np                  # Para operaciones matematicas
import sklearn.datasets             # Para los datasets

import plotly.express as px         # Plotly
import plotly.graph_objects as go
import plotly.figure_factory as ff
import pickle                       # Esto sirve para el K-Means Clustering y poder guardar el modelo en el formator correcto. 
from plotly.subplots import make_subplots

# * Librerias de Dash
import dash
import dash_bootstrap_components as dbc
from dash import dcc, html
from dash.dependencies import Input, Output, State

# * Librerías Machine Learning
# * Modelos Existentes (Regresión Lineal, Logistica, Random Forest, K-Means Clustering, SVM)

from sklearn.model_selection import train_test_split 
# ? - Regresión Lineal + Logisticas
from sklearn.linear_model import LinearRegression, SGDClassifier, LogisticRegression
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from sklearn.svm import SVC
# T-test
from scipy.stats import ttest_ind

# ? - Random Forest (+ Escalamiento necesario)
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler

# ? - Metricas de Precisión
from sklearn.metrics import (
    r2_score,
    mean_absolute_error,
    mean_squared_error,
    classification_report,
    confusion_matrix,
    silhouette_score
)

from sklearn.pipeline import Pipeline # ? - Para generar modelos de machine learning con escalamiento automatico

## Ejercicio 1 (2 puntos):

a) Crea una función que calcule y devuelva el factorial de un número entero. **(0.6 puntos)**

b) Crea una función que verifique si un número es primo o no. **(0.6 puntos)**

c) Muestra en un dataframe los 50 primeros números positivos, si es primo y su factorial utilizando las funciones anteriores. **(0.6 puntos)**

d) ¿Cómo se podría programar en una clase las tres operaciones anteriores? **(0.2 puntos)**

In [116]:
import pandas as pd

# Funcion que calcula y devuelve el factorial de un numero entero 
def factorial(num):
    if num == 0:
        return 1
    else:
        return num * factorial(num-1)
    
# Funcion que verifica si un numero es primo o no
def is_prime(num):
    if num < 2:
        return False
    for i in range(2, int(num**0.5) + 1):
        if num % i == 0:
            return False
    return True

# Muestra un dataframe los 50 primeros numeros positivos si son primos y su factorial usando las funciones de arriba 
def show_df():
    df = pd.DataFrame(columns=['Numero', 'Primo', 'Factorial'])
    for i in range(1, 51):
        df.loc[i-1] = [i, is_prime(i), factorial(i)]
    return df

# Generamos una clase que tenga las tres operaciones anteriores
class Operaciones:
    def __init__(self, numero):
        self.numero = numero
        self.factorial = factorial(numero)
        self.primo = is_prime(numero)

    def table(self):
        return show_df()

clase = Operaciones(6)
show_df()

Unnamed: 0,Numero,Primo,Factorial
0,1,False,1
1,2,True,2
2,3,True,6
3,4,False,24
4,5,True,120
5,6,False,720
6,7,True,5040
7,8,False,40320
8,9,False,362880
9,10,False,3628800


## Ejercicio 2 (4 puntos):

a) Extrae de sklearn el conjunto de datos __California Housing dataset__
 y transfórmalo a dataframe de pandas **(0.25 puntos)**

b) Construye una función que muestra la estructura del dataset, el número de NAs, tipos de variables y estadísticas básicas de cada una de las variables. **(0.5 puntos)**

c) Construye una __Regresión lineal__ y un __Random forest__ que predigan el __Median house value__ según los datos disponibles. **(0.75 puntos)**

d) Visualiza cuales son las variables (coeficientes) más importantes en cada uno de los modelos. **(1.25 puntos)**

e) Decide a través de las métricas que consideres oportunas, cuál de los dos modelos es mejor, por qué y explica el proceso que has realizado para responder en los puntos anteriores. **(1.25 puntos)**

In [117]:
dataset = pd.read_csv("fetch_california_housing.csv")
df = pd.DataFrame(dataset)

df = df.drop(['Unnamed: 0.6', 'Unnamed: 0.5', 'Unnamed: 0.4', 'Unnamed: 0.3', 'Unnamed: 0.2', 'Unnamed: 0.1', 'Unnamed: 0'], axis=1)
print(df.head())

   MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  Latitude  \
0  8.3252      41.0  6.984127   1.023810       322.0  2.555556     37.88   
1  8.3014      21.0  6.238137   0.971880      2401.0  2.109842     37.86   
2  7.2574      52.0  8.288136   1.073446       496.0  2.802260     37.85   
3  5.6431      52.0  5.817352   1.073059       558.0  2.547945     37.85   
4  3.8462      52.0  6.281853   1.081081       565.0  2.181467     37.85   

   Longitude  target  
0    -122.23   4.526  
1    -122.22   3.585  
2    -122.24   3.521  
3    -122.25   3.413  
4    -122.25   3.422  


In [118]:
def describe_dataset(df):
    print("\nInformación del dataframe\n")
    print(df.info())
    print("\Dimensiones del dataframe\n")
    print(df.shape)
    print("\nSuma de Valores Nulos por columna del df:\n")
    print(df.isna().sum())
    print("\nTipos de datos de las columnas\n")
    print(df.dtypes)
    print("\nEstadisticas basicas del df\n")
    print(df.describe())

describe_dataset(df)


Información del dataframe

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   MedInc      20640 non-null  float64
 1   HouseAge    20640 non-null  float64
 2   AveRooms    20640 non-null  float64
 3   AveBedrms   20640 non-null  float64
 4   Population  20640 non-null  float64
 5   AveOccup    20640 non-null  float64
 6   Latitude    20640 non-null  float64
 7   Longitude   20640 non-null  float64
 8   target      20640 non-null  float64
dtypes: float64(9)
memory usage: 1.4 MB
None
\Dimensiones del dataframe

(20640, 9)

Suma de Valores Nulos por columna del df:

MedInc        0
HouseAge      0
AveRooms      0
AveBedrms     0
Population    0
AveOccup      0
Latitude      0
Longitude     0
target        0
dtype: int64

Tipos de datos de las columnas

MedInc        float64
HouseAge      float64
AveRooms      float64
AveBedrms     float64
Populat

## Regresión Lineal para predecir el target

In [119]:
# Preparación de datos 

X = df.drop('target', axis = 1)
y = df['target']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)

In [120]:
lm = Pipeline(steps = [
    ('scaler', StandardScaler()), 
    ('lm', LinearRegression())
])

lm = lm.fit(X_train, y_train)
print(f"Variance Explanation R^2 = {round(lm.score(X,y), 2)}")

Variance Explanation R^2 = 0.61


## Random Forest

In [121]:
rf = RandomForestRegressor().fit(X_train, y_train)

rf = Pipeline(steps = [
    ('scaler', StandardScaler()), 
    ('rf', RandomForestRegressor()), 
])

rf = rf.fit(X_train, y_train)

In [122]:
print(f"Variance Explanation R^2 = {round(rf.score(X,y),2)}")

Variance Explanation R^2 = 0.94


## Cuales son las variables mas importantes de cada modelo? 
### Regresion Lineal

In [123]:
lmc = lm.named_steps['lm'].coef_
print(lmc)

objects = X.columns
y_pos = np.arange(len(objects))
coefficients = lmc

figure = go.Figure()

figure.add_trace(
    go.Bar(
        x = coefficients, 
        y = objects, 
        name = "Coeficientes", 
        orientation='h'
    )
)

figure.update_layout(title = "Most important LM coefficients", xaxis_title = "Coefficients", yaxis_title = "Variables")
figure.show()

[ 0.83601038  0.11522131 -0.28190146  0.31828994 -0.00740408 -0.04168267
 -0.89014951 -0.85554916]


### Most important random forest variables: 

In [124]:
rfc = rf.named_steps['rf'].feature_importances_
print(rfc)

# Plot for the RF 
objects = X.columns
y_pos = np.arange(len(objects))
coefficients = rfc 

fig = go.Figure()

fig.add_trace(
    go.Bar(
        x = coefficients, 
        y = objects, 
        name = "Coeficientes", 
        orientation = 'h'
    )
)

fig.update_layout(title = "Random Forest Coefficient Importance", xaxis_title = "Coeficientes", yaxis_title = "Variables")
fig.show()

[0.52327021 0.05229086 0.04665457 0.02959082 0.03183574 0.13412189
 0.09156166 0.09067426]


e) Decide a través de las métricas que consideres oportunas, cuál de los dos modelos es mejor, por qué y explica el proceso que has realizado para responder en los puntos anteriores. **(1.25 puntos)**

In [125]:
# Pues vamos a hacer las predicciones del test dataset: 
# Regresion Lineal: 
y_pred_lm = lm.predict(X_test)

print(f"Mean Squared Error for Linear Regression: {mean_squared_error(y_test, y_pred_lm)}")
print(f"Mean absolute error for Linear Regression: {mean_absolute_error(y_test, y_pred_lm)}")
print(f"Correlation for Linear Regression: {r2_score(y_test, y_pred_lm)}")

Mean Squared Error for Linear Regression: 0.5180228655178677
Mean absolute error for Linear Regression: 0.5255457157103739
Correlation for Linear Regression: 0.6104546894797874


In [126]:
# Random Forest: 
y_pred_rf = rf.predict(X_test)

print(f"Mean Squared Error for Random Forest: {mean_squared_error(y_test, y_pred_rf)}")
print(f"Mean absolute error for Random Forest: {mean_absolute_error(y_test, y_pred_rf)}")
print(f"Correlation ofr Random Forest: {r2_score(y_test, y_pred_rf)}")


Mean Squared Error for Random Forest: 0.2470493044619708
Mean absolute error for Random Forest: 0.32231638333333357
Correlation ofr Random Forest: 0.8142226831546656


In [127]:
# Create a DataFrame with the desired structure
data = {
    "Characteristic": ["Mean Squared Error", "Mean Absolute Error", "Correlation"],
    "Linear Regression": [
        mean_squared_error(y_test, y_pred_lm),
        mean_absolute_error(y_test, y_pred_lm),
        r2_score(y_test, y_pred_lm)
    ],
    "Random Forest": [
        mean_squared_error(y_test, y_pred_rf),
        mean_absolute_error(y_test, y_pred_rf),
        r2_score(y_test, y_pred_rf)
    ]
}

df_info = pd.DataFrame(data)

print(df_info)

        Characteristic  Linear Regression  Random Forest
0   Mean Squared Error           0.518023       0.247049
1  Mean Absolute Error           0.525546       0.322316
2          Correlation           0.610455       0.814223


#### Observamos que generalmente Random Forest es mucho mejor a la hora de predecir el valor de la vivienda, tiene menor error y mayour correlación. 

## Ejercicio 3 (4 puntos):


*Consideremos* el dataset que contiene __The Most Streamed Spotify Songs 2023__ que se encuentra en el respositorio.

Información de las variables:

- track_name: Name of the song
- artist(s)_name: Name of the artist(s) of the song
- vartist_count: Number of artists contributing to the song
- released_year: Year when the song was released
- released_month: Month when the song was released
- release_day: Day of the month when the song was released
- in_spotify_playlists: Number of Spotify playlists the song is included in
- in_spotify_charts: Presence and rank of the song on Spotify charts
- streams: Total number of streams on Spotify
- in_apple_playlists: Number of Apple Music playlists the song is included in
- in_apple_charts: Presence and rank of the song on Apple Music charts
- in_deezer_playlists: Number of Deezer playlists the song is included in
- in_deezer_charts: Presence and rank of the song on Deezer charts
- in_shazam_charts: Presence and rank of the song on Shazam charts
- bpm: Beats per minute, a measure of song tempo
- key: Key of the song
- mode: Mode of the song (major or minor)
- danceability_%: Percentage indicating how suitable the song is for dancing
- valence_%: Positivity of the song's musical content
- energy_%: Perceived energy level of the song
- acousticness_%: Amount of acoustic sound in the song
- instrumentalness_%: Amount of instrumental content in the song
- liveness_%: Presence of live performance elements
- speechiness_%: Amount of spoken words in the song

Para las respuestas b, c, d, e, f y g es imperativo acompañarlas respuestas con una visualización.

a) Lee el fichero en formato dataframe, aplica la función del ejercicio 2.b, elimina NAs y convierte a integer si fuera necesario. **(0.25 puntos)**

b) ¿Cuántos artistas únicos hay? **(0.25 puntos)**

c) ¿Cuál es la distribución de reproducciones? **(0.5 puntos)**

d) ¿Existe una diferencia signitificativa en las reproducciones entre las canciones de un solo artista y las de más de uno? **(0.5 puntos)**

e) ¿Cuáles son las propiedades de una canción que mejor correlan con el número de reproducciones de una canción? **(0.5 puntos)**

f) ¿Cuáles son las variables que mejor predicen las canciones que están por encima el percentil 50? **(1 puntos)**

*Nota: Crea una variable binaria (Hit/No Hit) en base a 3.c, crea una regresión logística y visualiza sus coeficientes.*

g) Agrupa los 4 gráficos realizados en uno solo y haz una recomendación a un sello discográfico para producir un nuevo hit. **(1 puntos)**


a) Lee el fichero en formato dataframe, aplica la función del ejercicio 2.b, elimina NAs y convierte a integer si fuera necesario. **(0.25 puntos)**

In [128]:
df_spotify = pd.read_csv("spotify-2023.csv", encoding="ISO-8859-1")

# 2. Aplica la funcion del 2.b
describe_dataset(df_spotify)

# 3. Elimina los na's del set 
df_spotify.dropna(inplace=True)  # Add parentheses to call the dropna() function

df_spotify.info()

# 4. Convierte a integer si fuese necesario
df_spotify["streams"] = df_spotify["streams"].astype(int)  # Convert to int
df_spotify["in_deezer_playlists"] = df_spotify["in_deezer_playlists"].str.replace(",", "").astype(int)  # Remove commas and convert to int
df_spotify["in_shazam_charts"] = df_spotify["in_shazam_charts"].str.replace(",", "").astype(int)  # Remove commas and convert to int


Información del dataframe

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 952 entries, 0 to 951
Data columns (total 24 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   track_name            952 non-null    object
 1   artist(s)_name        952 non-null    object
 2   artist_count          952 non-null    int64 
 3   released_year         952 non-null    int64 
 4   released_month        952 non-null    int64 
 5   released_day          952 non-null    int64 
 6   in_spotify_playlists  952 non-null    int64 
 7   in_spotify_charts     952 non-null    int64 
 8   streams               952 non-null    int64 
 9   in_apple_playlists    952 non-null    int64 
 10  in_apple_charts       952 non-null    int64 
 11  in_deezer_playlists   952 non-null    object
 12  in_deezer_charts      952 non-null    int64 
 13  in_shazam_charts      902 non-null    object
 14  bpm                   952 non-null    int64 
 15  key         

In [129]:
df_spotify.head()

Unnamed: 0,track_name,artist(s)_name,artist_count,released_year,released_month,released_day,in_spotify_playlists,in_spotify_charts,streams,in_apple_playlists,...,bpm,key,mode,danceability_%,valence_%,energy_%,acousticness_%,instrumentalness_%,liveness_%,speechiness_%
0,Seven (feat. Latto) (Explicit Ver.),"Latto, Jung Kook",2,2023,7,14,553,147,141381703,43,...,125,B,Major,80,89,83,31,0,8,4
1,LALA,Myke Towers,1,2023,3,23,1474,48,133716286,48,...,92,C#,Major,71,61,74,7,0,10,4
2,vampire,Olivia Rodrigo,1,2023,6,30,1397,113,140003974,94,...,138,F,Major,51,32,53,17,0,31,6
3,Cruel Summer,Taylor Swift,1,2019,8,23,7858,100,800840817,116,...,170,A,Major,55,58,72,11,0,11,15
4,WHERE SHE GOES,Bad Bunny,1,2023,5,18,3133,50,303236322,84,...,144,A,Minor,65,23,80,14,63,11,6


b) ¿Cuántos artistas únicos hay? **(0.25 puntos)**

In [130]:
# Get an array with all values in the artist(s)_name column, split them with ',' then drop duplicates 
artists = df_spotify['artist(s)_name'].str.split(',', expand=True).stack().str.strip().unique()
len(artists)
artists

array(['Latto', 'Jung Kook', 'Myke Towers', 'Olivia Rodrigo',
       'Taylor Swift', 'Bad Bunny', 'Dave', 'Central Cee',
       'Eslabon Armado', 'Peso Pluma', 'Quevedo', 'Gunna', 'Yng Lvcas',
       'Grupo Frontera', 'NewJeans', 'David Kushner', 'SZA',
       'Fifty Fifty', 'Feid', 'Young Miko', 'Jimin', 'Gabito Ballesteros',
       'Junior H', 'Bizarrap', 'The Weeknd', 'Madonna', 'Playboi Carti',
       'Fuerza Regida', 'Rï¿½ï¿½ma', 'Selena G', 'Tainy', 'Morgan Wallen',
       'Dua Lipa', 'Troye Sivan', '21 Savage', 'Metro Boomin', 'Karol G',
       'Shakira', 'Yahritza Y Su Esencia', 'Post Malone', 'Swae Lee',
       'Bebe Rexha', 'David Guetta', 'Tyler', 'The Creator', 'Kali Uchis',
       'Miley Cyrus', 'Daft Punk', 'Ariana Grande', 'Sky Rompiendo',
       'Anne-Marie', 'Coi Leray', 'Peggy Gou', 'Manuel Turizo', 'dennis',
       'MC Kevin o Chris', 'PinkPantheress', 'Ice Spice', 'Charlie Puth',
       'BTS', 'Rauw Alejandro', 'ROSALï¿½', 'Ozuna', 'Chris Molitor',
       'Libianca'

c) ¿Cuál es la distribución de reproducciones? **(0.5 puntos)**

In [131]:
# * Histograma - Para ver la distribución de una variable
fig = px.histogram(df_spotify, x="streams",
                   labels = {"streams": "Reproducciones"},
                   histnorm='probability density',
                   nbins = 100,
                   opacity=0.6)
fig.update_traces(marker_color = "darkorange")
fig.show()


d) ¿Existe una diferencia signitificativa en las reproducciones entre las canciones de un solo artista y las de más de uno? **(0.5 puntos)**

In [132]:
df_single = df_spotify[df_spotify['artist_count'] == 1]
df_feature = df_spotify[df_spotify['artist_count'] > 1]

# Box-Plot + T-Student, y queremos hacer varios 
fig = make_subplots(rows=2, cols=1, subplot_titles="Box-Plot para comparar las distribuciones entre canciones con un solo artista y varios.")

fig.add_trace(
    go.Box(x=df_single['streams'], name="Canciones con un solo artista"),
    row=1, col=1
)

fig.add_trace(
    go.Box(x=df_feature['streams'], name="Canciones con varios artistas"),
    row=2, col=1
)

fig.show()

In [133]:
# T-Student para diferencia significativa: 
# ? - T-test -> Test de hipotesis para ver si dos grupos tienen una diferencia significativa
group1 = df_single['streams']
group2 = df_feature['streams']

ttest_ind(group1.dropna(), group2.dropna(), trim=.2)

TtestResult(statistic=2.824056811668969, pvalue=0.004935201415216841, df=490.0)

Al observar que el p-valor es menor a 0.05, si que podemos indicar que hay una diferencia significativa. Se escuchan más las canciones de un solo artista antes que a varios. 


e) ¿Cuáles son las propiedades de una canción que mejor correlan con el número de reproducciones de una canción? **(0.5 puntos)**

In [134]:
# Correlation matrix
df_spotify.info()
# Debemos de categorizar aquellas que no tengamos 
df_spotify['key'] = pd.Categorical(df_spotify["key"]).codes
df_spotify['mode'] = pd.Categorical(df_spotify["mode"]).codes

df_corr = df_spotify.copy()
df_corr.drop(['track_name', 'artist(s)_name'], axis=1, inplace=True)  # Add inplace=True to modify the dataframe in place
# Calculate the correlation matrix
corr_matrix = df_corr.corr()

# Create a heatmap using Plotly
fig = px.imshow(corr_matrix)  # Use 'coolwarm_r' instead of 'coolwarm'
fig.update_layout(title='Correlation Matrix Heatmap')
fig.show()

<class 'pandas.core.frame.DataFrame'>
Index: 816 entries, 0 to 951
Data columns (total 24 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   track_name            816 non-null    object
 1   artist(s)_name        816 non-null    object
 2   artist_count          816 non-null    int64 
 3   released_year         816 non-null    int64 
 4   released_month        816 non-null    int64 
 5   released_day          816 non-null    int64 
 6   in_spotify_playlists  816 non-null    int64 
 7   in_spotify_charts     816 non-null    int64 
 8   streams               816 non-null    int64 
 9   in_apple_playlists    816 non-null    int64 
 10  in_apple_charts       816 non-null    int64 
 11  in_deezer_playlists   816 non-null    int64 
 12  in_deezer_charts      816 non-null    int64 
 13  in_shazam_charts      816 non-null    int64 
 14  bpm                   816 non-null    int64 
 15  key                   816 non-null    object



f) ¿Cuáles son las variables que mejor predicen las canciones que están por encima el percentil 50? **(1 puntos)**

*Nota: Crea una variable binaria (Hit/No Hit) en base a 3.c, crea una regresión logística y visualiza sus coeficientes.*

In [135]:
df_corr['hit'] = df_corr["streams"] > df_corr["streams"].quantile(0.5) #? - Crear una columna con una condición booleana y con quantiles 
df_corr.drop('streams', axis=1, inplace=True)
X = df_corr.drop('hit', axis = 1)
y = df_corr['hit']

# ? - Separar los datos entre test y train
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.2, random_state= 123)

# ? - Crear el modelo
clf_log = Pipeline(steps=[
    ('scaler', StandardScaler()),
    ("glm", LogisticRegression(max_iter=10000, tol=0.1)),
])

# clf_log = LogisticRegression(max_iter=10000, tol=0.1)
clf_log.fit(X_train, y_train)
print(f"Variance Explanation R^2:{round(clf_log.score(X,y),2)}")


predictions = clf_log.predict(X_test)

print("Classification report")
print(classification_report(y_test, predictions))

print("Confusion matrix")
print(confusion_matrix(y_test, predictions))

lmc = clf_log.named_steps['glm'].coef_

# Plot for LM
objects = X.columns
y_pos = np.arange(len(objects))
coefficients = lmc[0]

fig = go.Figure()

# Agrego las trazas necesarias
fig.add_trace(
    go.Bar(
        x = coefficients,
        y = objects,
        name = "Coeficientes",
        orientation='h'
    )
)

# Actualizo el diseño
fig.update_layout(title = "GLM coefficients importance", xaxis_title = "Coeficientes normalizados", yaxis_title = "Variables")

# Muestro la figura
fig.show()

Variance Explanation R^2:0.85
Classification report
              precision    recall  f1-score   support

       False       0.77      0.90      0.83        82
        True       0.88      0.73      0.80        82

    accuracy                           0.82       164
   macro avg       0.83      0.82      0.82       164
weighted avg       0.83      0.82      0.82       164

Confusion matrix
[[74  8]
 [22 60]]


g) Agrupa los 4 gráficos realizados en uno solo y haz una recomendación a un sello discográfico para producir un nuevo hit. **(1 puntos)**

In [138]:
fig = make_subplots(rows=2, cols=2)

fig.add_trace(
    go.Histogram(
        x=df_spotify['streams'],
        histnorm='probability density',
        nbinsx=100,
        opacity=0.6
    ), 
    row=1, col=2
)

fig.add_trace(
    go.Heatmap(
        z=corr_matrix.values.tolist(),
        x=corr_matrix.columns.tolist(),
        y=corr_matrix.index.tolist(),
        colorscale='Viridis'
    ),
    row=2, col=1
)

fig.add_trace(
    go.Bar(
        x=coefficients,
        y=objects,
        name="Coeficientes",
        orientation='h'
    ),
    row=2, col=2
)
fig.update_layout(title_text = "What makes a hit?")
fig.show()