# Análisis Estadístico Descriptivo - Síndrome Visual Informático

Este notebook realiza un análisis estadístico descriptivo completo del conjunto de datos sobre el Síndrome Visual Informático (SVI), incluyendo análisis univariado y bivariado con visualizaciones.

## 1. Configuración y Carga de Datos

Importamos las bibliotecas necesarias y cargamos el conjunto de datos.

In [10]:
# Importar bibliotecas necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import os

# Configurar el directorio base
BASE_DIR = Path('d:/encuesta_fatiga_visual')

# Configurar paleta de colores (similar a Nature)
colors = ['#2166ac', '#4393c3', '#92c5de', '#d1e5f0', '#f7f7f7', '#fddbc7', '#f4a582', '#d6604d', '#b2182b']
sns.set_palette(sns.color_palette(colors))
sns.set_style("whitegrid")

# Establecer el estilo de las gráficas
plt.rcParams.update({
    'font.size': 10,
    'axes.labelsize': 12,
    'axes.titlesize': 14,
    'xtick.labelsize': 10,
    'ytick.labelsize': 10,
    'figure.titlesize': 16,
    'figure.dpi': 300,
    'savefig.dpi': 300,
    'savefig.bbox': 'tight'
})

# Cargar los datos
df = pd.read_csv(BASE_DIR / 'data/2_processed/df_models_synthetic.csv')

# Crear directorios si no existen
(BASE_DIR / 'stats').mkdir(exist_ok=True)
(BASE_DIR / 'output_graphs/univariado').mkdir(parents=True, exist_ok=True)
(BASE_DIR / 'output_graphs/bivariado').mkdir(parents=True, exist_ok=True)

## 2. Descripción de Variables y Etiquetas

Definimos los diccionarios de etiquetas para las variables categóricas y organizamos las variables por tipo.

In [11]:
# Definir diccionarios de etiquetas para variables categóricas
label_dict = {
    'sexo': {1: 'Masculino', 0: 'Femenino'},
    'estado_civil': {0: 'Soltero', 1: 'Casado', 2: 'Divorciado', 3: 'Viudo'},
    'ingresos_mensuales': {0: 'Menos de $3,000', 1: '$3,001 - $5,000', 
                          2: '$5,001 - $7,000', 3: 'Más de $7,000'},
    'condiciones_oculares': {1: 'Sí', 0: 'No'},
    'lentes': {1: 'Sí', 0: 'No'},
    'iluminacion': {1: 'Adecuada', 0: 'Inadecuada'},
    'frecuencia_de_pausas': {1: 'Frecuente', 2: 'Ocasional', 0: 'Nulo'},
    'uso_de_dispositivos': {0: 'menos de 1 hora', 1: '1 - 2 h', 
                          2: '2 - 4 h', 3: 'Mayor de 4h'},
    'distancia_hacia_el_monitor': {0: 'Menor de 30 cm', 1: '30 - 60 cm', 
                                 2: 'Mayor de 60 cm'},
    'svi': {1: 'Sí', 0: 'No'}
}

# Clasificar variables por tipo
numerical_vars = ['edad', 'experiencia_radiologia', 'tiempo_de_exposicion',
                 'duracion_de_jornada', 'puntaje_sindrome_visual_informatico']

categorical_vars = ['sexo', 'estado_civil', 'ingresos_mensuales', 'condiciones_oculares',
                   'lentes', 'iluminacion', 'frecuencia_de_pausas', 'uso_de_dispositivos',
                   'distancia_hacia_el_monitor', 'severidad_svi', 'svi']

# Mostrar información básica del dataset
print("Información del Dataset:")
print("-" * 50)
print(df.info())
print("\nEstadísticas básicas:")
print("-" * 50)
print(df.describe())

Información del Dataset:
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 64 columns):
 #   Column                               Non-Null Count  Dtype  
---  ------                               --------------  -----  
 0   edad                                 60 non-null     int64  
 1   experiencia_radiologia               60 non-null     float64
 2   tiempo_de_exposicion                 60 non-null     float64
 3   duracion_de_jornada                  60 non-null     float64
 4   sexo                                 60 non-null     int64  
 5   estado_civil                         60 non-null     int64  
 6   ingresos_mensuales                   60 non-null     int64  
 7   condiciones_oculares                 60 non-null     int64  
 8   lentes                               60 non-null     int64  
 9   iluminacion                          60 non-null     int64  
 10  frecuencia_de_pausas    

## 3. Análisis Univariado - Variables Numéricas

Calculamos estadísticas descriptivas y generamos visualizaciones para variables numéricas.

In [12]:
# Calcular estadísticas descriptivas para variables numéricas
numeric_stats = df[numerical_vars].describe()
numeric_stats.to_csv(BASE_DIR / 'stats/descriptive_stats.csv')

# Crear histogramas para variables numéricas
for var in numerical_vars:
    plt.figure(figsize=(10, 6))
    sns.histplot(data=df, x=var, kde=True)
    plt.title(f'Distribución de {var}')
    plt.xlabel(var.replace('_', ' ').title())
    plt.ylabel('Frecuencia')
    plt.savefig(BASE_DIR / f'output_graphs/univariado/hist_{var}.png')
    plt.close()

# Mostrar estadísticas descriptivas
print("Estadísticas Descriptivas para Variables Numéricas:")
print("-" * 70)
print(numeric_stats)

Estadísticas Descriptivas para Variables Numéricas:
----------------------------------------------------------------------
            edad  experiencia_radiologia  tiempo_de_exposicion  \
count  60.000000               60.000000             60.000000   
mean   33.200000                4.533333             12.066667   
std     5.180799                2.566252              2.985085   
min    25.000000                1.000000              8.000000   
25%    30.000000                2.775000              9.000000   
50%    33.000000                4.200000             13.000000   
75%    36.250000                5.525000             15.000000   
max    45.000000               12.200000             16.000000   

       duracion_de_jornada  puntaje_sindrome_visual_informatico  
count            60.000000                            60.000000  
mean             11.916667                            14.983333  
std               3.237972                             8.813494  
min               

## 4. Análisis Univariado - Variables Categóricas

Calculamos frecuencias y proporciones, y generamos visualizaciones para variables categóricas.

In [15]:
# Calcular frecuencias y proporciones para variables categóricas
categorical_stats = pd.DataFrame()

for var in categorical_vars:
    # Calcular frecuencias y proporciones
    freq_table = pd.DataFrame({
        'Frecuencia': df[var].value_counts(),
        'Porcentaje': df[var].value_counts(normalize=True) * 100
    })
    
    # Agregar etiquetas si están disponibles
    if var in label_dict:
        freq_table.index = freq_table.index.map(label_dict[var])
    
    # Guardar en el DataFrame general
    categorical_stats = pd.concat([categorical_stats, 
                                 freq_table.add_suffix(f'_{var}')], axis=1)

# Guardar estadísticas categóricas
categorical_stats.to_csv(BASE_DIR / 'stats/categorical_stats.csv')

# Crear gráficos de barras para variables categóricas
for var in categorical_vars:
    plt.figure(figsize=(10, 6))
    
    # Preparar datos para el gráfico
    if var in label_dict:
        # Crear una serie con las etiquetas mapeadas
        data = df[var].map(label_dict[var]).value_counts()
    else:
        data = df[var].value_counts()
    
    # Crear gráfico de barras usando directamente los datos procesados
    ax = data.plot(kind='bar')
    plt.title(f'Distribución de {var.replace("_", " ").title()}')
    plt.xlabel(var.replace('_', ' ').title())
    plt.ylabel('Frecuencia')
    
    # Agregar valores en las barras
    for i, v in enumerate(data):
        ax.text(i, v, str(v), ha='center', va='bottom')
    
    # Rotar etiquetas si son largas
    plt.xticks(rotation=45, ha='right')
    
    # Ajustar layout y guardar
    plt.tight_layout()
    plt.savefig(BASE_DIR / f'output_graphs/univariado/bar_{var}.png')
    plt.close()

# Mostrar estadísticas categóricas
print("Estadísticas para Variables Categóricas:")
print("-" * 70)
print(categorical_stats)

Estadísticas para Variables Categóricas:
----------------------------------------------------------------------
                 Frecuencia_sexo  Porcentaje_sexo  Frecuencia_estado_civil  \
Femenino                    32.0        53.333333                      NaN   
Masculino                   28.0        46.666667                      NaN   
Soltero                      NaN              NaN                     24.0   
Casado                       NaN              NaN                     21.0   
Divorciado                   NaN              NaN                      9.0   
Viudo                        NaN              NaN                      6.0   
$5,001 - $7,000              NaN              NaN                      NaN   
$3,001 - $5,000              NaN              NaN                      NaN   
Menos de $3,000              NaN              NaN                      NaN   
Más de $7,000                NaN              NaN                      NaN   
Sí                           N

## 5. Análisis Bivariado con SVI

Analizamos las relaciones entre las variables y el SVI (Síndrome Visual Informático).

In [17]:
# 1. Análisis de correlación y asociación

# 1.1 Correlaciones entre variables numéricas
correlation_matrix = df[numerical_vars].corr()
correlation_matrix.to_csv(BASE_DIR / 'stats/correlation_matrix.csv')

# Crear mapa de calor de correlaciones numéricas
plt.figure(figsize=(12, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='RdBu_r', center=0, fmt='.2f')
plt.title('Matriz de Correlación - Variables Numéricas')
plt.tight_layout()
plt.savefig(BASE_DIR / 'output_graphs/bivariado/correlation_heatmap_numeric.png')
plt.close()

# 1.2 Análisis de asociación para variables categóricas (V de Cramer)
categorical_vars_no_svi = [x for x in categorical_vars if x != 'svi']
n_cats = len(categorical_vars_no_svi)
cramer_matrix = pd.DataFrame(np.zeros((n_cats, n_cats)), 
                           index=categorical_vars_no_svi,
                           columns=categorical_vars_no_svi)

def cramers_v(var1, var2):
    confusion_matrix = pd.crosstab(var1, var2)
    chi2 = chi2_contingency(confusion_matrix)[0]
    n = confusion_matrix.sum().sum()
    min_dim = min(confusion_matrix.shape) - 1
    return np.sqrt(chi2 / (n * min_dim))

# Importar chi2_contingency
from scipy.stats import chi2_contingency

# Calcular V de Cramer para cada par de variables categóricas
for i, var1 in enumerate(categorical_vars_no_svi):
    for j, var2 in enumerate(categorical_vars_no_svi):
        if i > j:  # Solo calculamos la mitad inferior
            cramer_v = cramers_v(df[var1], df[var2])
            cramer_matrix.iloc[i, j] = cramer_v
            cramer_matrix.iloc[j, i] = cramer_v
        elif i == j:
            cramer_matrix.iloc[i, j] = 1.0

# Guardar matriz de asociación
cramer_matrix.to_csv(BASE_DIR / 'stats/cramer_v_matrix.csv')

# Crear mapa de calor para asociaciones categóricas
plt.figure(figsize=(12, 8))
sns.heatmap(cramer_matrix, annot=True, cmap='RdBu_r', center=0.5, fmt='.2f')
plt.title('Matriz de Asociación (V de Cramer) - Variables Categóricas')
plt.tight_layout()
plt.savefig(BASE_DIR / 'output_graphs/bivariado/correlation_heatmap_categorical.png')
plt.close()

# 2. Análisis por tipo de variable con respecto a SVI

# 2.1 Variables numéricas vs SVI
for var in numerical_vars:
    plt.figure(figsize=(10, 6))
    sns.violinplot(data=df, x='svi', y=var)
    plt.title(f'{var.replace("_", " ").title()} por SVI')
    plt.xlabel('SVI')
    if 'svi' in label_dict:
        plt.xticks([0, 1], ['No', 'Sí'])
    plt.ylabel(var.replace('_', ' ').title())
    plt.savefig(BASE_DIR / f'output_graphs/bivariado/violin_{var}_vs_svi.png')
    plt.close()

# 2.2 Variables categóricas vs SVI - Gráficos de barras apiladas
for var in categorical_vars_no_svi:
    plt.figure(figsize=(10, 6))
    
    # Calcular proporciones y aplicar etiquetas
    if var in label_dict:
        df_temp = df.copy()
        df_temp[var] = df_temp[var].map(label_dict[var])
        prop_data = pd.crosstab(df_temp[var], df_temp['svi'].map(label_dict['svi']), 
                               normalize='index') * 100
    else:
        prop_data = pd.crosstab(df[var], df['svi'].map(label_dict['svi']), 
                               normalize='index') * 100
    
    # Crear gráfico de barras apiladas
    ax = prop_data.plot(kind='bar', stacked=True)
    plt.title(f'Distribución de SVI por {var.replace("_", " ").title()}')
    plt.xlabel(var.replace("_", " ").title())
    plt.ylabel('Porcentaje')
    
    # Agregar porcentajes en las barras
    for c in ax.containers:
        ax.bar_label(c, fmt='%.1f%%', label_type='center')
    
    # Rotar etiquetas si son largas
    plt.xticks(rotation=45, ha='right')
    
    # Ajustar layout y guardar
    plt.tight_layout()
    plt.savefig(BASE_DIR / f'output_graphs/bivariado/bar_{var}_vs_svi.png')
    plt.close()

print("Análisis bivariado completado. Se han generado:")
print("1. Matrices de correlación/asociación:")
print("   - Correlación de Pearson para variables numéricas")
print("   - V de Cramer para variables categóricas")
print("2. Visualizaciones:")
print("   - Violin plots para variables numéricas vs SVI")
print("   - Gráficos de barras apiladas para variables categóricas vs SVI")
print("Todos los gráficos han sido guardados en los directorios correspondientes.")

Análisis bivariado completado. Se han generado:
1. Matrices de correlación/asociación:
   - Correlación de Pearson para variables numéricas
   - V de Cramer para variables categóricas
2. Visualizaciones:
   - Violin plots para variables numéricas vs SVI
   - Gráficos de barras apiladas para variables categóricas vs SVI
Todos los gráficos han sido guardados en los directorios correspondientes.


<Figure size 3000x1800 with 0 Axes>

<Figure size 3000x1800 with 0 Axes>

<Figure size 3000x1800 with 0 Axes>

<Figure size 3000x1800 with 0 Axes>

<Figure size 3000x1800 with 0 Axes>

<Figure size 3000x1800 with 0 Axes>

<Figure size 3000x1800 with 0 Axes>

<Figure size 3000x1800 with 0 Axes>

<Figure size 3000x1800 with 0 Axes>

<Figure size 3000x1800 with 0 Axes>