<center>
    <img src="http://sct.inf.utfsm.cl/wp-content/uploads/2020/04/logo_di.png" style="width:60%">
    <h1> INF396 - Introducción a la Ciencia de Datos</h1>
    <h3> Material Complementario T1</h3>
    <h3> Camilo Núñez-Fernández - camilo.nunezf@usm.cl</h3>
</center>
<hr style="height:2px;border:none"/>

**Temas**  

* Estadística Descriptiva - Rep. Gráficas - Parte 2

<hr style="height:2px;border:none"/>

In [None]:
import numpy as np
import pandas as pd

import plotly.graph_objects as go
import plotly.express as px

from sklearn.cluster import KMeans
from scipy.stats import gaussian_kde

In [None]:
np.random.seed(42)

colors = ['#1f77b4', '#ff7f0e']

# II.II~$\rhd$~Estadística Descriptiva - Visualización: Violin Plots

## Ejemplo 1

In [None]:
cluster1 = np.random.normal(loc=(30, 30), scale=3, size=(300, 2))
cluster2 = np.random.normal(loc=(60, 60), scale=3, size=(300, 2))
data = np.vstack([cluster1, cluster2])

In [None]:
kmeans = KMeans(n_clusters=2, random_state=42)
labels = kmeans.fit_predict(data)
centroids = kmeans.cluster_centers_

In [None]:
df = pd.DataFrame(data, columns=['Eje X', 'Eje Y'])
df['Cluster'] = labels.astype(str)

### Dispersión 2D con K-means

In [None]:
fig1 = go.Figure()

for i, grupo in enumerate(['0', '1']):
    fig1.add_trace(go.Scatter(
        x=df[df['Cluster'] == grupo]['Eje X'],
        y=df[df['Cluster'] == grupo]['Eje Y'],
        mode='markers',
        marker=dict(color=colors[i], opacity=0.7, size=8),
        name=f'Grupo {grupo}'
    ))

fig1.add_trace(go.Scatter(
    x=centroids[:, 0],
    y=centroids[:, 1],
    mode='markers',
    marker=dict(symbol='x', size=15, color='black', line=dict(width=2)),
    name='Centroides'
))

fig1.update_layout(
    title='Agrupamiento 2D con K-medias',
    xaxis_title='Característica 1',
    yaxis_title='Característica 2',
    width=1000,
    height=600,
    template='plotly_white'
)

fig1.show()

### Histograma + KDE por cluster

In [None]:
fig2 = go.Figure()

for i, cluster in enumerate(['0', '1']):
    valores_cluster = df[df['Cluster'] == cluster]['Eje X']
    
    fig2.add_trace(go.Histogram(
        x=valores_cluster,
        nbinsx=30,
        marker_color=colors[i],
        opacity=0.6,
        name=f'cluster {cluster} (Histograma)'
    ))
    
    # KDE
    kde = gaussian_kde(valores_cluster)
    x_valores = np.linspace(valores_cluster.min(), valores_cluster.max(), 500)
    fig2.add_trace(go.Scatter(
        x=x_valores,
        y=kde(x_valores) * 120,
        line=dict(color=colors[i], width=3),
        name=f'cluster {cluster} (KDE)'
    ))

fig2.update_layout(
    title='Distribución de valores por cluster',
    xaxis_title='Valor',
    yaxis_title='Densidad/Frecuencia',
    barmode='overlay',
    width=1000,
    height=600,
    template='plotly_white'
)

fig2.show()

### Gráfico de violín

In [None]:
fig3 = go.Figure()

for i, cluster in enumerate(['0', '1']):
    fig3.add_trace(go.Violin(
        x=df[df['Cluster'] == cluster]['Cluster'],
        y=df[df['Cluster'] == cluster]['Eje X'],
        box_visible=True,
        meanline_visible=True,
        points='all',
        marker_color=colors[i],
        name=f'cluster {cluster}',
        line_color=colors[i]
    ))

fig3.update_layout(
    title='Distribución por Cluster (Violín)',
    xaxis_title='Cluster',
    yaxis_title='Distribución de valores',
    width=1000,
    height=600,
    template='plotly_white',
    showlegend=True
)

fig3.show()

## Ejemplo 2

In [None]:
n_samples = 10000

data_uniform = np.random.uniform(20, 60, n_samples)
data_normal = np.random.normal(50, 5, n_samples)
data_multi = np.concatenate([np.random.normal(30, 5, n_samples//2), 
                             np.random.normal(60, 5, n_samples//2)])

df_uniform = pd.DataFrame({'value': data_uniform, 'dataset': 'Uniforme'})
df_multi = pd.DataFrame({'value': data_multi, 'dataset': 'Multimodal'})
df_normal = pd.DataFrame({'value': data_normal, 'dataset': 'Normal'})

df = pd.concat([df_uniform, df_normal, df_multi])

### Boxplot SIN labels

In [None]:
fig = px.box(df, 
             y='value', 
             x='dataset',
             color='dataset',
             title='Comparación de distribuciones: Uniforme, Normal y Multimodal',
             labels={'value': 'Valor', 'dataset': 'Tipo de distribución'},
             hover_data=['value'])

fig.update_layout(
    xaxis=dict(
        showticklabels=False,  # Oculta labels del eje X
        title_text=''          # Oculta título del eje X
    ),
    yaxis=dict(
        showticklabels=False,  # Oculta labels del eje Y
        title_text=''          # Oculta título del eje Y
    ),
    showlegend=False,         # Oculta la leyenda
    title_text='',            # Oculta el título
    margin=dict(l=20, r=20, t=20, b=20),  # Reduce márgenes
    width=1200,
    height=600,
)
fig.update_traces(showlegend=False)

fig.show()

### Boxplot con labels

In [None]:
fig = px.box(df, 
             y='value', 
             x='dataset',
             color='dataset',
             points='all',
             title='Comparación de distribuciones: Uniforme, Normal y Multimodal',
             labels={'value': 'Valor', 'dataset': 'Tipo de distribución'},
             hover_data=['value'])

fig.update_layout(
    yaxis_title='Valores',
    xaxis_title='Distribución',
    showlegend=False,
    width=1200,
    height=600,
    template='plotly_white'
)

fig.show()

### Gráfico de violín SIN labels

In [None]:
fig = px.violin(df, 
                y='value', 
                x='dataset',
                color='dataset',
                box=True,
                title='Comparación de distribuciones: Uniforme, Normal y Multimodal',
                labels={'value': 'Valor', 'dataset': 'Tipo de distribución'},
                hover_data=['value'])

fig.update_layout(
    xaxis=dict(
        showticklabels=False,  # Oculta labels del eje X
        title_text=''          # Oculta título del eje X
    ),
    yaxis=dict(
        showticklabels=False,  # Oculta labels del eje Y
        title_text=''          # Oculta título del eje Y
    ),
    showlegend=False,         # Oculta la leyenda
    title_text='',            # Oculta el título
    margin=dict(l=20, r=20, t=20, b=20),  # Reduce márgenes
    width=1200,
    height=600,
)
fig.update_traces(showlegend=False)

fig.show()

### Gráfico de violín con labels

In [None]:
fig = px.violin(df, 
                y='value', 
                x='dataset',
                color='dataset',
                box=True,
                points='all',
                title='Comparación de distribuciones: Uniforme, Normal y Multimodal',
                labels={'value': 'Valor', 'dataset': 'Tipo de distribución'},
                hover_data=['value'])

fig.update_layout(
    yaxis_title='Valores',
    xaxis_title='Distribución',
    showlegend=False,
    width=1200,
    height=600,
    template='plotly_white'
)

fig.show()