# Análisis de datos

In [1]:
import numpy as np
import pandas as pd
from tabulate import tabulate
from scipy import stats
import json
import os
import warnings

## Cargar los datos del archivo `data.csv`

### Leer el Dataset

In [2]:
# Cargar el dataset desde el archivo CSV
file_path = "../data/raw/data.csv"
df = pd.read_csv(file_path, header=None)

## Valores faltantes en el DataFrame

In [3]:
# Verificar si hay o no valores faltantes en cada columna
missing_values = df.isnull().sum()

# Mostrar el número de valores faltantes por columna
print("Valores faltantes por columna:")
print(missing_values)

# Verificar si hay alguna columna con valores faltantes
if missing_values.any():
    print("\n¡Advertencia! Hay columnas con valores faltantes en el dataset.")
else:
    print("\nNo hay valores faltantes en el dataset.")

Valores faltantes por columna:
0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
15    0
16    0
17    0
18    0
19    0
20    0
21    0
22    0
23    0
24    0
25    0
26    0
27    0
28    0
29    0
30    0
31    0
dtype: int64

No hay valores faltantes en el dataset.


## Nombre de las 30 características

| **Mean**     |                |                             | I     | **Error**    |                |                             | I     | **Worst**    |                  |                                |
|--------------|----------------|-----------------------------|-------|--------------|----------------|-----------------------------|-------|--------------|------------------|--------------------------------|
| Nombre Corto | Característica | Nombre de la Característica | **I** | Nombre Corto | Característica | Nombre de la Característica | **I** | Nombre Corto | Característica   | Nombre de la Característica    |
|--------------|----------------|-----------------------------|       |--------------|----------------|-----------------------------|       |--------------|------------------|--------------------------------|
| feat01       | feature01      | mean radius                 | **I** | feat11       | feature11      | radius error                | **I** |  feat21      | feature21        | worst radius                   |
| feat02       | feature02      | mean texture                | **I** | feat12       | feature12      | texture error               | **I** |  feat22      | feature22        | worst texture                  |
| feat03       | feature03      | mean perimeter              | **I** | feat13       | feature13      | perimeter error             | **I** |  feat23      | feature23        | worst perimeter                |
| feat04       | feature04      | mean area                   | **I** | feat14       | feature14      | area error                  | **I** |  feat24      | feature24        | worst area                     |
| feat05       | feature05      | mean smoothness             | **I** | feat15       | feature15      | smoothness error            | **I** |  feat25      | feature25        | worst smoothness               |
| feat06       | feature06      | mean compactness            | **I** | feat16       | feature16      | compactness error           | **I** |  feat26      | feature26        | worst compactness              |
| feat07       | feature07      | mean concavity              | **I** | feat17       | feature17      | concavity error             | **I** |  feat27      | feature27        | worst concavity                |
| feat08       | feature08      | mean concave points         | **I** | feat18       | feature18      | concave points error        | **I** |  feat28      | feature28        | worst concave points           |
| feat09       | feature09      | mean symmetry               | **I** | feat19       | feature19      | symmetry error              | **I** |  feat29      | feature29        | worst symmetry                 |
| feat10       | feature10      | mean fractal dimension      | **I** | feat20       | feature20      | fractal dimension error     | **I** |  feat30      | feature30        | worst fractal dimension        |

In [4]:
# Crear nombres cortos para las características
feature_names = [f'feat{str(i+1).zfill(2)}' for i in range(30)]

# Eliminar columna ID
df = df.drop([0], axis=1)  # El ID no aporta información

# Asignar nombres cortos a las columnas de características
df.columns = ['diagnosis'] + feature_names  # Concatenamos la lista

# Mostrar los primeros registros en formato tabla
print("\nPrimeros registros del dataset:\n")
print(tabulate(df.head(21), headers='keys', tablefmt='rst', showindex=True, floatfmt='.4f'))


Primeros registros del dataset:

  ..  diagnosis      feat01    feat02    feat03     feat04    feat05    feat06    feat07    feat08    feat09    feat10    feat11    feat12    feat13    feat14    feat15    feat16    feat17    feat18    feat19    feat20    feat21    feat22    feat23     feat24    feat25    feat26    feat27    feat28    feat29    feat30
   0  M             17.9900   10.3800  122.8000  1001.0000    0.1184    0.2776    0.3001    0.1471    0.2419    0.0787    1.0950    0.9053    8.5890  153.4000    0.0064    0.0490    0.0537    0.0159    0.0300    0.0062   25.3800   17.3300  184.6000  2019.0000    0.1622    0.6656    0.7119    0.2654    0.4601    0.1189
   1  M             20.5700   17.7700  132.9000  1326.0000    0.0847    0.0786    0.0869    0.0702    0.1812    0.0567    0.5435    0.7339    3.3980   74.0800    0.0052    0.0131    0.0186    0.0134    0.0139    0.0035   24.9900   23.4100  158.8000  1956.0000    0.1238    0.1866    0.2416    0.1860    0.2750    0.0890
   2  

## Información sobre el DataFrame

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 31 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   diagnosis  569 non-null    object 
 1   feat01     569 non-null    float64
 2   feat02     569 non-null    float64
 3   feat03     569 non-null    float64
 4   feat04     569 non-null    float64
 5   feat05     569 non-null    float64
 6   feat06     569 non-null    float64
 7   feat07     569 non-null    float64
 8   feat08     569 non-null    float64
 9   feat09     569 non-null    float64
 10  feat10     569 non-null    float64
 11  feat11     569 non-null    float64
 12  feat12     569 non-null    float64
 13  feat13     569 non-null    float64
 14  feat14     569 non-null    float64
 15  feat15     569 non-null    float64
 16  feat16     569 non-null    float64
 17  feat17     569 non-null    float64
 18  feat18     569 non-null    float64
 19  feat19     569 non-null    float64
 20  feat20    

## Mostrar información básica del dataset

In [6]:
# Mostrar información básica del dataset
print("Dimensiones del dataset:")
print(f"- Número de muestras: {df.shape[0]}")
print(f"- Número de características: {df.shape[1] - 1}")  # Restamos 1 para excluir 'diagnosis'

Dimensiones del dataset:
- Número de muestras: 569
- Número de características: 30


# Estadística descriptiva
Descripción de los datos de entrenamiento utilizando una serie de métricas que permiten describir las columnas del Dataset.

In [7]:
import os
# Vemos en que directorio estamos. Seguramente estaremos en:
# ............../perceptron/notebooks
print(os.getcwd())

/Users/apa/Documents/github/perceptron/notebooks


In [8]:
import sys
sys.path.append('..')  # Añade el directorio padre (logistic_regression) al path
from utils.statistical_functions import *

In [9]:
def calculate_metrics(df):
    """Calculate metrics for float columns."""
    # Select numeric columns (float64)
    numeric_columns = df.select_dtypes(include=['float64']).columns
    metrics = {}
    
    for col in numeric_columns:
        values = df[col].dropna().tolist()
        metrics[col] = {
            "Count": ft_count(values),
            "Mean": ft_mean(values),
            "Std": ft_std(values),
            "Min": ft_min(values),
            "25%": ft_percentile(values, 0.25),
            "50%": ft_median(values),
            "75%": ft_percentile(values, 0.75),
            "Max": ft_max(values),
            "IQR": ft_iqr(values),
            "Skewness": ft_skewness(values),
            "Kurtosis": ft_kurtosis(values),
            "CV": ft_cv(values)
        }
    
    return metrics

In [10]:
def print_metrics_table(metrics):
    """Print calculated metrics in a formatted table."""
    table_data = []
    headers = [""] + list(metrics.keys())
    
    metrics_to_display = [
        "Count", "Mean", "Std", "Min", "25%", "50%", "75%", "Max",
        "IQR", "Skewness", "Kurtosis", "CV"
    ]
    
    for metric in metrics_to_display:
        row = [metric]
        for col in metrics:
            value = metrics[col][metric]
            row.append(f"{value:.6f}" if isinstance(value, float) else f"{value}")
        table_data.append(row)
    
    print(tabulate(table_data, headers=headers, tablefmt="fancy_grid"))

In [11]:
def analyze_dataframe(df):
    """Analyze dataframe by loading and calculating metrics."""
    metrics = calculate_metrics(df)
    print_metrics_table(metrics)

analyze_dataframe(df)

╒══════════╤════════════╤════════════╤════════════╤═════════════╤════════════╤════════════╤════════════╤════════════╤════════════╤════════════╤════════════╤════════════╤════════════╤═══════════╤════════════╤════════════╤════════════╤════════════╤════════════╤════════════╤════════════╤════════════╤════════════╤═════════════╤════════════╤════════════╤════════════╤════════════╤════════════╤════════════╕
│          │     feat01 │     feat02 │     feat03 │      feat04 │     feat05 │     feat06 │     feat07 │     feat08 │     feat09 │     feat10 │     feat11 │     feat12 │     feat13 │    feat14 │     feat15 │     feat16 │     feat17 │     feat18 │     feat19 │     feat20 │     feat21 │     feat22 │     feat23 │      feat24 │     feat25 │     feat26 │     feat27 │     feat28 │     feat29 │     feat30 │
╞══════════╪════════════╪════════════╪════════════╪═════════════╪════════════╪════════════╪════════════╪════════════╪════════════╪════════════╪════════════╪════════════╪════════════╪══════════

## Análisis de Correlaciones

In [12]:
# Calcular correlaciones entre características (solo numéricas)
numeric_columns = df.select_dtypes(include=['float64']).columns
correlations = df[numeric_columns].corr()

# Identificar las características más correlacionadas
threshold = 0.95
high_corr = np.where(abs(correlations) > threshold)
high_corr = [(correlations.index[x], correlations.columns[y], correlations.iloc[x,y]) 
             for x, y in zip(*high_corr) if x != y]

# La correlación entre feat01 - feat03 es la misma que la que hay entre feat03 - feat01
# solo se imprime una de las dos, ya que son la misma
print("\nCaracterísticas altamente correlacionadas (|corr| > 0.95):")
# Obtener solo el triángulo superior de la matriz de correlación
upper_triangle = []
for i in range(len(correlations.columns)):
    for j in range(i + 1, len(correlations.columns)):
        corr = correlations.iloc[i, j]
        if abs(corr) > threshold:
            upper_triangle.append((
                correlations.columns[i],
                correlations.columns[j],
                corr
            ))

# Ordenar por valor absoluto de correlación
upper_triangle.sort(key=lambda x: abs(x[2]), reverse=True)

# Mostrar resultados ordenados
for feat1, feat2, corr in upper_triangle:
    print(f"{feat1} - {feat2}: {corr:.3f}")


Características altamente correlacionadas (|corr| > 0.95):
feat01 - feat03: 0.998
feat21 - feat23: 0.994
feat01 - feat04: 0.987
feat03 - feat04: 0.987
feat21 - feat24: 0.984
feat23 - feat24: 0.978
feat11 - feat13: 0.973
feat03 - feat23: 0.970
feat01 - feat21: 0.970
feat03 - feat21: 0.969
feat01 - feat23: 0.965
feat04 - feat21: 0.963
feat04 - feat24: 0.959
feat04 - feat23: 0.959
feat11 - feat14: 0.952


## Detección de Outliers
Los outliers o valores atípicos son observaciones que se encuentran inusualmente alejadas del resto de los datos.

### Método del Rango Intercuartílico (IQR)
Usamos el método del **Rango Intercuartílico** (IQR), que es una técnica robusta basada en cuartiles:
- calcula Q1 (percentil 25) y Q3 (percentil 75), y
- define como outliers aquellos valores que caen fuera del rango [Q1 - 1.5IQR, Q3 + 1.5IQR], donde IQR = Q3 - Q1.

In [13]:
def detect_outliers_irq(df, column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)][column]
    return len(outliers)

### Método del Z-scores
La regla de las Z-scores considera outliers los valores que están a más de 3 desviaciones estándar de la media. Este método asume que los datos siguen una distribución normal, donde aproximadamente el 99.7% de los datos deberían caer dentro de ±3 desviaciones estándar. Los Z-scores se calculan restando la media a cada valor y dividiendo por la desviación estándar, lo que nos da una medida estandarizada de qué tan lejos está cada punto de la media en términos de desviaciones estándar.

In [14]:
def detect_outliers_zscore(df, column, threshold=3):
    z_scores = (df[column] - df[column].mean()) / df[column].std()
    return len(df[abs(z_scores) > threshold])

### Comparar métodos de detección de Outliers

In [15]:
def compare_outlier_methods(df):
    # Preparar los datos para la tabla
    table_data = []
    for column in df.select_dtypes(include=['float64']).columns:
        n_outliers_iqr = detect_outliers_irq(df, column)
        n_outliers_zscore = detect_outliers_zscore(df, column)
        if n_outliers_iqr > 0 or n_outliers_zscore > 0:
            table_data.append([
                column,
                n_outliers_iqr,
                n_outliers_zscore,
                f"{(n_outliers_iqr/len(df)*100):.1f}%",
                f"{(n_outliers_zscore/len(df)*100):.1f}%"
            ])
    
    # Crear headers para la tabla
    headers = [
        "Característica",
        "Outliers (IQR)",
        "Outliers (Z-score)",
        "% IQR",
        "% Z-score"
    ]
    
    # Imprimir la tabla
    print("\nComparación de métodos de detección de outliers:")
    print(tabulate(table_data, headers=headers, tablefmt="fancy_grid"))

# Ejecutar la función
compare_outlier_methods(df)


Comparación de métodos de detección de outliers:
╒══════════════════╤══════════════════╤══════════════════════╤═════════╤═════════════╕
│ Característica   │   Outliers (IQR) │   Outliers (Z-score) │ % IQR   │ % Z-score   │
╞══════════════════╪══════════════════╪══════════════════════╪═════════╪═════════════╡
│ feat01           │               14 │                    5 │ 2.5%    │ 0.9%        │
├──────────────────┼──────────────────┼──────────────────────┼─────────┼─────────────┤
│ feat02           │                7 │                    4 │ 1.2%    │ 0.7%        │
├──────────────────┼──────────────────┼──────────────────────┼─────────┼─────────────┤
│ feat03           │               13 │                    7 │ 2.3%    │ 1.2%        │
├──────────────────┼──────────────────┼──────────────────────┼─────────┼─────────────┤
│ feat04           │               25 │                    8 │ 4.4%    │ 1.4%        │
├──────────────────┼──────────────────┼──────────────────────┼─────────┼────────

## Análisis por Clase
El análisis por clase identifica las diferencias más significativas en las características entre tumores malignos (M) y benignos (B).  
Al calcular y comparar las medias de cada característica para ambos grupos, podemos descubrir qué características muestran mayores diferencias porcentuales, lo que podría indicar cuáles son más útiles para distinguir entre casos malignos y benignos.

El código calcula para cada característica la media en tumores malignos y benignos, y luego calcula la diferencia porcentual entre estas medias.  
Solo muestra las características donde esta diferencia es mayor al 100% (un umbral arbitrario que podemos ajustar), lo que nos ayuda a identificar las características más discriminantes. Es especialmente útil para el preprocesamiento de datos y la selección de características, ya que nos indica qué variables podrían ser más importantes para nuestro modelo de clasificación.

In [16]:
def analyze_by_class(df):
    # Umbral del 100% establecido arbitrariamente
    threshold = 100
    
    print(f"\nEstadísticas básicas por clase (M vs B) con una diferencia superior al {threshold}%:")
    
    # Preparar los datos para la tabla
    table_data = []
    
    for feature in df.select_dtypes(include=['float64']).columns:
        mean_M = df[df['diagnosis'] == 'M'][feature].mean()
        mean_B = df[df['diagnosis'] == 'B'][feature].mean()
        diff_pct = ((mean_M - mean_B) / mean_B) * 100
        
        if abs(diff_pct) > threshold:  # Mostramos diferencias mayores al umbral
            table_data.append([
                feature,
                f"{mean_M:.3f}",
                f"{mean_B:.3f}",
                f"{diff_pct:.1f}%"
            ])
    
    # Ordenar por diferencia porcentual (último elemento de cada fila)
    table_data.sort(key=lambda x: float(x[3].strip('%')), reverse=True)
    
    headers = [
        "Característica",
        "Media Malignos (M)",
        "Media Benignos (B)",
        "Diferencia %"
    ]
    
    print(tabulate(table_data, headers=headers, tablefmt="fancy_grid"))

# Ejecutar el análisis
analyze_by_class(df)


Estadísticas básicas por clase (M vs B) con una diferencia superior al 100%:
╒══════════════════╤══════════════════════╤══════════════════════╤════════════════╕
│ Característica   │   Media Malignos (M) │   Media Benignos (B) │ Diferencia %   │
╞══════════════════╪══════════════════════╪══════════════════════╪════════════════╡
│ feat07           │                0.161 │                0.046 │ 249.1%         │
├──────────────────┼──────────────────────┼──────────────────────┼────────────────┤
│ feat14           │               72.672 │               21.135 │ 243.8%         │
├──────────────────┼──────────────────────┼──────────────────────┼────────────────┤
│ feat08           │                0.088 │                0.026 │ 242.1%         │
├──────────────────┼──────────────────────┼──────────────────────┼────────────────┤
│ feat27           │                0.451 │                0.166 │ 171.1%         │
├──────────────────┼──────────────────────┼──────────────────────┼────────────────

## Verificación de Balance de Clases Ampliado
El análisis de balance de clases es fundamental en problemas de clasificación, ya que un desequilibrio significativo entre las clases puede afectar al rendimiento del modelo.  
En este caso, analizamos la proporción entre tumores malignos (M) y benignos (B) en el dataset, calculando no solo el número absoluto y porcentaje de cada clase, sino también el ratio de balance entre ellas, considerando como "razonablemente balanceado" cuando el ratio entre la clase minoritaria y mayoritaria es superior a 0.8 (80%).

El código calcula el total de muestras, cuenta cuántas hay de cada clase (M y B), calcula sus porcentajes, y determina el ratio de balance dividiendo el número de casos de la clase minoritaria entre el número de casos de la clase mayoritaria.  
Es un análisis simple pero crucial, ya que un desbalance significativo podría requerir técnicas específicas durante el entrenamiento como sobremuestreo, submuestreo o pesos de clase personalizados.  

En este caso:
- El desbalanceo no es severo (tenemos 62.7% vs 37.3%).
- En datos médicos, este nivel de desbalanceo (0.59) es bastante común y manejable.

In [17]:
def analyze_class_balance(df):
    total = len(df)
    n_malignant = len(df[df['diagnosis'] == 'M'])
    n_benign = len(df[df['diagnosis'] == 'B'])
    
    print("\nAnálisis de balance de clases:")
    print(f"\tTotal de muestras: {total}")
    print(f"\t    - Muestras malignas (M): {n_malignant} ({n_malignant/total*100:.1f}%)")
    print(f"\t    - Muestras benignas (B): {n_benign} ({n_benign/total*100:.1f}%)")
    
    ratio = min(n_malignant, n_benign) / max(n_malignant, n_benign)
    print(f"\tRatio de balance: {ratio:.2f}")
    
    if ratio < 0.8:
        print("Las clases se encuentran ligeramente desbalanceadas.")
    else:
        print("Los datos están razonablemente balanceados")

# Ejecutar el análisis
analyze_class_balance(df)


Análisis de balance de clases:
	Total de muestras: 569
	    - Muestras malignas (M): 212 (37.3%)
	    - Muestras benignas (B): 357 (62.7%)
	Ratio de balance: 0.59
Las clases se encuentran ligeramente desbalanceadas.


## Resumen de Características más Discriminantes
El análisis de características discriminantes busca identificar qué variables son más efectivas para distinguir entre las clases (tumores malignos y benignos).  
El método utiliza la diferencia entre las medias de cada clase normalizada por la suma de sus desviaciones estándar, lo que proporciona una medida de "separación" entre clases.  
Cuanto mayor sea esta separación, mejor será esa característica para discriminar entre tumores malignos y benignos.

El código calcula para cada característica numérica un ratio de separación, usando la fórmula |mean_M - mean_B| / (std_M + std_B).  
Solo muestra las características cuyo ratio supera un umbral de 1.0, indicando una buena separación entre clases.  
Este análisis es valioso para la selección de características y para entender qué mediciones son más útiles en el diagnóstico, aunque podría beneficiarse de una presentación en forma de tabla ordenada usando tabulate, similar a los análisis anteriores.

In [18]:
def find_discriminative_features(df):
    print("\nCaracterísticas más discriminantes:")
    features = df.select_dtypes(include=['float64']).columns
    
    for feature in features:
        # Calcular el ratio de separación entre clases
        mean_M = df[df['diagnosis'] == 'M'][feature].mean()
        mean_B = df[df['diagnosis'] == 'B'][feature].mean()
        std_M = df[df['diagnosis'] == 'M'][feature].std()
        std_B = df[df['diagnosis'] == 'B'][feature].std()
        
        separation = abs(mean_M - mean_B) / (std_M + std_B)
        
        if separation > 1.0:  # Umbral arbitrario para características discriminantes
            print(f"{feature}: Separación = {separation:.2f}")

find_discriminative_features(df)


Características más discriminantes:
feat01: Separación = 1.07
feat03: Separación = 1.11
feat04: Separación = 1.03
feat08: Separación = 1.24
feat21: Separación = 1.24
feat23: Separación = 1.26
feat24: Separación = 1.13
feat28: Separación = 1.31


## Análisis de normalidad de las características
El análisis de normalidad evalúa si las características siguen una distribución normal, lo cual es un supuesto importante para muchos métodos estadísticos.  
Utiliza el test de Shapiro-Wilk, que es especialmente potente para muestras pequeñas y medianas, donde la hipótesis nula es que los datos siguen una distribución normal.  
Además del p-valor del test, se calculan la asimetría (skewness) y la curtosis para proporcionar información adicional sobre la forma de la distribución.

El código implementa este análisis utilizando la función `stats.shapiro` para cada característica numérica, considerando significativo un p-valor > 0.05.  
El test se complementa con el cálculo de asimetría (que mide la simetría de la distribución) y curtosis (que mide la "pesadez" de las colas), todo presentado en una tabla organizada usando tabulate.  
Este análisis es valioso para decidir si se necesitan transformaciones de datos o si se deberían utilizar métodos no paramétricos.

El resultado permite comprobar que ninguna característica sigue una distribución normal, lo cual es bastante común en datos biomédicos, y es una de las razones por las que posteriormente analizamos otros tipos de distribuciones como la log-normal, gamma, beta y Weibull.

In [19]:
def analyze_normality(df):
    # Preparar los datos para la tabla
    table_data = []
    alpha = 0.05  # nivel de significancia común
    
    for column in df.select_dtypes(include=['float64']).columns:
        # Realizar test de Shapiro-Wilk
        statistic, p_value = stats.shapiro(df[column])
        
        # Determinar si sigue una distribución normal
        is_normal = "Sí" if p_value > alpha else "No"
        
        # Añadir métricas de forma de la distribución
        skewness = df[column].skew()
        kurtosis = df[column].kurtosis()
        
        table_data.append([
            column,
            f"{statistic:.3f}",
            f"{p_value:.3e}",
            is_normal,
            f"{skewness:.3f}",
            f"{kurtosis:.3f}"
        ])
    
    # Crear headers para la tabla
    headers = [
        "Característica",
        "Estadístico",
        "p-valor",
        "¿Normal?",
        "Asimetría",
        "Curtosis"
    ]
    
    # Imprimir la tabla
    print("\nAnálisis de Normalidad (Test de Shapiro-Wilk):")
    print("H0: Los datos siguen una distribución normal")
    print("H1: Los datos no siguen una distribución normal")
    print(f"Nivel de significancia: {alpha}")
    print(tabulate(table_data, headers=headers, tablefmt="fancy_grid"))
    
    # Contar cuántas características siguen una distribución normal
    normal_count = sum(1 for row in table_data if row[3] == "Sí")
    print(f"\nResumen:")
    print(f"- {normal_count} características siguen una distribución normal")
    print(f"- {len(table_data) - normal_count} características no siguen una distribución normal")

# Ejecutar el análisis
analyze_normality(df)


Análisis de Normalidad (Test de Shapiro-Wilk):
H0: Los datos siguen una distribución normal
H1: Los datos no siguen una distribución normal
Nivel de significancia: 0.05
╒══════════════════╤═══════════════╤═══════════╤════════════╤═════════════╤════════════╕
│ Característica   │   Estadístico │   p-valor │ ¿Normal?   │   Asimetría │   Curtosis │
╞══════════════════╪═══════════════╪═══════════╪════════════╪═════════════╪════════════╡
│ feat01           │         0.941 │ 3.106e-14 │ No         │       0.942 │      0.846 │
├──────────────────┼───────────────┼───────────┼────────────┼─────────────┼────────────┤
│ feat02           │         0.977 │ 7.284e-08 │ No         │       0.65  │      0.758 │
├──────────────────┼───────────────┼───────────┼────────────┼─────────────┼────────────┤
│ feat03           │         0.936 │ 7.011e-15 │ No         │       0.991 │      0.972 │
├──────────────────┼───────────────┼───────────┼────────────┼─────────────┼────────────┤
│ feat04           │         

## Distribuciones para datos biomédicos
Para datos biomédicos y médicos, especialmente cuando se trata de mediciones continuas y positivas como dimensiones de células o características de tumores, las distribuciones más comunes suelen ser:
- Log-normal (muy común en datos biomédicos)
- Gamma
- Beta (para datos acotados entre 0 y 1)
- Weibull

Creamos un test que compruebe estas distribuciones usando la prueba de Kolmogorov-Smirnov.

Este código:
1. Prueba múltiples distribuciones comunes en datos biomédicos
2. Usa la prueba de Kolmogorov-Smirnov para evaluar el ajuste
3. Identifica la mejor distribución para cada característica
4. Proporciona un resumen de qué distribuciones son más comunes en el dataset

La prueba de Kolmogorov-Smirnov compara la distribución empírica de los datos con la distribución teórica propuesta. Un p-valor alto (>0.05) sugiere que los datos podrían seguir esa distribución.

Este análisis nos ayudará a:
1. Entender mejor la naturaleza de nuestros datos
2. Informar decisiones sobre transformaciones de datos
3. Seleccionar métodos estadísticos apropiados

In [20]:
def analyze_distributions(df):
    # Suprimimos específicamente los RuntimeWarning
    warnings.filterwarnings('ignore', category=RuntimeWarning)
    
    # Distribuciones a probar
    distributions = [
        ('Log-normal', stats.lognorm),
        ('Gamma', stats.gamma),
        ('Beta', stats.beta),
        ('Weibull', stats.weibull_min)
    ]
    
    table_data = []
    alpha = 0.05
    
    for column in df.select_dtypes(include=['float64']).columns:
        data = df[column]
        best_p_value = 0
        best_dist = "Ninguna"
        
        for dist_name, distribution in distributions:
            try:
                # Ajustar la distribución a los datos
                params = distribution.fit(data)
                # Realizar prueba Kolmogorov-Smirnov
                _, p_value = stats.kstest(data, distribution.cdf, args=params)
                
                if p_value > best_p_value:
                    best_p_value = p_value
                    best_dist = dist_name
                    
            except:
                continue
        
        fits_distribution = "Sí" if best_p_value > alpha else "No"
        
        table_data.append([
            column,
            best_dist,
            f"{best_p_value:.3e}",
            fits_distribution
        ])
    
    headers = [
        "Característica",
        "Mejor distribución",
        "p-valor (KS)",
        "¿Ajuste significativo?"
    ]
    
    print("\nAnálisis de distribuciones:")
    print("H0: Los datos siguen la distribución especificada")
    print(f"Nivel de significancia: {alpha}")
    print(tabulate(table_data, headers=headers, tablefmt="fancy_grid"))
    
    # Conteo de distribuciones
    dist_counts = {}
    for row in table_data:
        if row[3] == "Sí":
            dist_counts[row[1]] = dist_counts.get(row[1], 0) + 1
    
    print("\nResumen de mejores ajustes significativos:")
    for dist, count in dist_counts.items():
        print(f"- {dist}: {count} características")
    print(f"- No ajustan: {len(table_data) - sum(dist_counts.values())} características")
    
    return table_data  # Devolvemos table_data

# Ejecutar el análisis y guardar la información
table_data = analyze_distributions(df)


Análisis de distribuciones:
H0: Los datos siguen la distribución especificada
Nivel de significancia: 0.05
╒══════════════════╤══════════════════════╤════════════════╤══════════════════════════╕
│ Característica   │ Mejor distribución   │   p-valor (KS) │ ¿Ajuste significativo?   │
╞══════════════════╪══════════════════════╪════════════════╪══════════════════════════╡
│ feat01           │ Log-normal           │       0.1795   │ Sí                       │
├──────────────────┼──────────────────────┼────────────────┼──────────────────────────┤
│ feat02           │ Log-normal           │       0.996    │ Sí                       │
├──────────────────┼──────────────────────┼────────────────┼──────────────────────────┤
│ feat03           │ Log-normal           │       0.08469  │ Sí                       │
├──────────────────┼──────────────────────┼────────────────┼──────────────────────────┤
│ feat04           │ Log-normal           │       0.133    │ Sí                       │
├───────────

### Resultados obtenidos
- La distribución Log-normal domina claramente (20 características)
- Solo 2 características no se ajustan bien a ninguna distribución (feat08 y feat14)
- Hay una mezcla de otras distribuciones (Gamma, Weibull y Beta) para el resto

Esto es bastante típico en datos biomédicos, donde la distribución Log-normal es muy común porque:
1. Los datos son siempre positivos
2. Tienden a tener una cola larga hacia la derecha
3. El logaritmo de los datos suele seguir una distribución normal

Esta información puede ser útil para decidir transformaciones en el preprocesamiento, por ejemplo, aplicar una transformación logarítmica podría ser beneficioso para las características que siguen una distribución Log-normal.

#### Las dos características que no ajustan
Observación más detallada sobre las características que no ajustan (feat08 y feat14):

1. `feat08` (mean concave points) obtuvo un p-valor de 0.01596 con una distribución Gamma, lo cual está relativamente cerca del umbral de significancia (0.05). Esto sugiere que aunque no se ajusta perfectamente, no está extremadamente lejos de seguir una distribución Gamma.

2. `feat14` (area error) obtuvo un p-valor muy bajo de 0.009304 con una distribución Log-normal, indicando un peor ajuste. Es interesante notar que esta característica también apareció previamente en nuestro análisis con una cantidad significativa de outliers (65 outliers), lo que podría explicar su dificultad para ajustarse a una distribución teórica.

## Grabar las distribuciones en JSON
Vamos a grabar un archivo JSON con la distribución de probabilidad que sigue cada una de las 30 características.  
Esto será útil cuando tengamos que normalizar las características utilizando el método de media - desviación típica.  

Este código:

Crea un diccionario con cada característica y su distribución
Crea el directorio output si no existe
Guarda la información en formato JSON con indentación para mejor legibilidad
El archivo resultante se podrá leer fácilmente en el notebook de preprocesamiento

In [21]:
def save_distribution_info(table_data):
    # Crear diccionario con la distribución de cada característica
    distributions = {}
    for row in table_data:
        feature = row[0]
        distribution = row[1]
        is_significant = row[3]
        
        if is_significant == "Sí":
            distributions[feature] = distribution
        else:
            distributions[feature] = "No ajusta"
    
    # Crear el directorio output si no existe
    output_dir = "../output"
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
    
    # Guardar en JSON
    output_path = "../output/features.json"
    with open(output_path, 'w') as f:
        json.dump(distributions, f, indent=4)
    
    print(f"\nInformación de distribuciones guardada en: {output_path}")

# Ejecutar la función
save_distribution_info(table_data)


Información de distribuciones guardada en: ../output/features.json
