# Breve resumen Teorico del problema
El problema de la replicabilidad en la actualidad representa un desafío significativo, especialmente en el campo del machine learning, donde la variedad de modelos desarrollados es amplia y diversa. 

La existencia de múltiples modelos para resolver un mismo problema genera dificultades al intentar replicar los resultados, lo que afecta la validación y confiabilidad de los experimentos. Este tema es abordado de manera destacada en el artículo "Estimating Replicability of Classifier Learning Experiments", que analiza los retos y las estrategias para evaluar la consistencia y reproducibilidad de los experimentos en el aprendizaje de clasificadores. 

Existen varios factores específicos que complican la replicabilidad, como los conjuntos de datos sesgados, la variabilidad en la selección de hiperparámetros y las diferencias en el entorno de ejecución, incluyendo hardware, software y versiones de librerías. Para mitigar este problema, es fundamental establecer prácticas estandarizadas, tales como el uso de seeds para garantizar la reproducibilidad, compartir código y datos de manera abierta y seguir protocolos experimentales estrictos. La falta de replicabilidad no solo impacta la investigación académica, sino también la confianza en los modelos aplicados en situaciones del mundo real, con implicaciones que afectan tanto la ciencia como la industria.

La prueba t de Student es un análisis estadístico paramétrico que requiere que los datos analizados cumplan ciertas condiciones: deben ser variables de intervalos o razones y seguir una distribución normal. Además, las variables comparadas deben ser independientes entre sí. Por ejemplo, al medir niveles de depresión en grupos de hombres y mujeres o al comparar personas casadas con solteras, es fundamental que estas variables no estén relacionadas para asegurar resultados válidos en el análisis. 

Es importante señalar que existen diferentes versiones de la prueba t, como la prueba t para muestras independientes, la prueba t para muestras relacionadas (o emparejadas) y la prueba t para una sola muestra, dependiendo del tipo de comparación que se realice. La prueba también asume homogeneidad de varianza entre los grupos; si esta condición no se cumple, la prueba t de Welch puede ser más apropiada. 

Aunque la normalidad de los datos es una suposición clave, la prueba t puede ser relativamente robusta a pequeñas desviaciones, especialmente con muestras grandes. Asimismo, es útil considerar el cálculo del tamaño del efecto para evaluar la magnitud de la diferencia entre grupos, más allá de su significancia estadística.

La prueba t de Student tiene varias limitaciones. Asume que los datos siguen una distribución normal y que las varianzas de los grupos son iguales, lo que puede afectar la validez de los resultados si estas suposiciones no se cumplen. Además, es sensible al tamaño de la muestra, siendo menos confiable en muestras pequeñas. Solo es adecuada para muestras independientes, por lo que no debe usarse en datos emparejados. También puede ser influenciada por valores atípicos y no diferencia entre direcciones específicas de los cambios cuando se usa para dos colas. Estas limitaciones deben ser consideradas al aplicar la prueba t para obtener resultados precisos y válidos.

El test de McNemar es una prueba estadística diseñada para identificar cambios en variables categóricas, particularmente en situaciones donde se desea evaluar si existe una diferencia significativa en las proporciones de resultados antes y después de una intervención específica. Para llevar a cabo este análisis, se requieren dos mediciones: una toma de datos inicial previa a la intervención y una segunda medición posterior. El test de McNemar se aplica comúnmente en estudios de tipo antes-después y es particularmente útil cuando se evalúa el impacto de tratamientos, políticas o cualquier intervención en estudios de cohortes emparejadas o muestras dependientes.

La prueba es ideal para situaciones donde los datos categóricos son dicotómicos, es decir, con solo dos posibles valores (como "sí" o "no", "presente" o "ausente"). El objetivo principal es evaluar si la proporción de cambios en una dirección (por ejemplo, de "no" a "sí") difiere significativamente de la proporción de cambios en la dirección opuesta ("sí" a "no"). 

Esto la convierte en una herramienta valiosa para comparar resultados cuando los mismos individuos son evaluados en ambos momentos y, por lo tanto, sus respuestas están emparejadas. Además, el test de McNemar es no paramétrico, lo que lo hace robusto para muestras de tamaño pequeño y para datos que no cumplen con los supuestos de normalidad.

El test de McNemar tiene varias limitaciones. Solo es aplicable a datos con dos categorías, lo que restringe su uso en situaciones con más de dos opciones. Además, no mide la magnitud del cambio, solo la significancia de la diferencia en proporciones. Su efectividad también puede verse afectada por el tamaño de la muestra, ya que en muestras pequeñas puede tener baja potencia estadística. El test asume la independencia entre los pares de datos, lo que puede ser problemático si esta suposición no se cumple. Además, no distingue entre las direcciones de los cambios y no es adecuado para realizar múltiples comparaciones sin ajustar el nivel de significancia para evitar falsos positivos.


# Resumen de las tecnicas
Para esta práctica, se propone desarrollar dos clasificadores y comparar sus métricas de rendimiento utilizando la prueba t de Student y el test de McNemar.

Para garantizar la replicabilidad en esta práctica, hemos concluido que la mejor opción es utilizar la validación 5x2. Por lo tanto, para entrenar los dos modelos correspondientes, aplicaremos este método de validación en ambos casos.
## Resumen Tecnica: Test de McNeamar
como se realiza?
en que esta basada? (breve introduccion teorica)
puntos fuertes y debiles de esta tecnica
### ¿Cómo se realiza? 
El test de McNemar es una prueba estadística utilizada para comparar dos proporciones en datos emparejados, especialmente cuando se tiene información categórica con dos posibles resultados. Se emplea cuando se quiere evaluar si hay cambios significativos en las respuestas de los participantes antes y después de una intervención o entre dos condiciones de un mismo grupo. Para llevarlo a cabo, se utiliza una tabla de contingencia 2x2 con las siguientes categorías:

- A1B1: Casos en los que ambos grupos tienen la misma respuesta (antes y después o en ambas condiciones).
- A1B2: Casos en los que el grupo tenía una respuesta en el primer momento y otra diferente en el segundo.
- A2B1: Casos en los que el grupo tenía una respuesta diferente al principio y la misma al final.
- A2B2: Casos donde ambos grupos tienen respuestas diferentes.

El test se basa en la diferencia entre los casos A1B2 y A2B1, comparando el número de cambios en una dirección con el número de cambios en la otra dirección. La fórmula para calcular el estadístico  $ X^{2} $  es: $ X^{2} = \frac{(b-c)^{2}}{{b+c}}$, donde b y c son los valores de las categorías A1B2 y A2B1, respectivamente.

### ¿En qué está basado? 
El test de McNemar se basa en una distribución binomial y en la hipótesis de que, si no existe un cambio significativo entre las dos mediciones o condiciones, los cambios de categoría (de A1 a A2 o de B1 a B2) deben ser aproximadamente simétricos. Esta prueba es especialmente útil en estudios de medidas repetidas, como en investigaciones psicológicas, clínicas y de salud, donde se mide la misma variable en dos momentos diferentes o bajo dos condiciones distintas.

### Puntos fuertes:
- Simplicidad y aplicación directa: Es fácil de implementar cuando se tienen datos categóricos emparejados.
- Adecuado para datos pequeños: Funciona bien incluso con muestras pequeñas, a diferencia de otras pruebas estadísticas.
- Control de sesgo de selección: Al comparar resultados de la misma unidad de observación en dos momentos o condiciones, minimiza posibles sesgos.

### Puntos débiles:
- Restricciones en la estructura de los datos: Solo se utiliza con datos dicotómicos (dos categorías) y con muestras emparejadas.
- Sensibilidad limitada: No es adecuado para situaciones con muchas respuestas neutrales o indeterminadas, ya que solo se enfoca en los cambios significativos entre las categorías.
- Requiere un número adecuado de cambios: Si las diferencias entre las categorías son muy pequeñas (es decir, pocos casos en A1B2 y A2B1), los resultados pueden no ser significativos.

## Resumen Tecnica: Test de t de Student
### ¿Cómo se realiza? 
El test t de Student es una prueba estadística que se utiliza para comparar las medias de dos grupos y determinar si existe una diferencia significativa entre ellas. Existen dos versiones del test t:
- Test t para muestras independientes: Compara las medias de dos grupos independientes entre sí.
- Test t para muestras relacionadas (o apareadas): Compara las medias de dos grupos relacionados, como las mediciones de un mismo grupo antes y después de una intervención.
La fórmula básica para calcular el estadístico t es:

$  t = \frac{\overline{X_{1}} - \overline{X_2}}{\sqrt{\frac{s_{1}^{2}}{n_1} + \frac{s_{2}^2}{n_2}}} $

donde:
- $ \overline{X_1} $ y $ \overline{X_1} $ son las medias de los dos grupos.
- $ s_{1}^{2} $ y $ s_{2}^{2} $ son las varianzas de los dos grupos.
- $ n_1 $ y $ n_2 $ son los tamaños de las muestras.


El valor de t se compara con una distribución t de Student para determinar la significancia de la diferencia entre las medias.

### ¿En qué está basado?
El test t de Student se basa en la teoría de la estimación de la media de una población a partir de una muestra. Asume que los datos siguen una distribución normal y que las varianzas de las dos poblaciones que se comparan son iguales (en el caso del test t para muestras independientes). Este test se utiliza en contextos donde las muestras son relativamente pequeñas y la distribución normal de los datos se asume o se puede verificar.

### Puntos fuertes
- Facilidad de aplicación: Es ampliamente utilizado en muchos campos de investigación debido a su simplicidad y fiabilidad para comparar dos medias.
- Versatilidad: Puede aplicarse tanto a muestras independientes como relacionadas.
- Eficiencia con muestras pequeñas: A diferencia de otros test estadísticos, el test t es útil incluso cuando las muestras son pequeñas, siempre que se cumplan las suposiciones de normalidad.

### Puntos débiles
- Asume normalidad: Requiere que los datos se distribuyan de manera aproximadamente normal. Si los datos no cumplen esta suposición, los resultados pueden ser sesgados.
- Sensibilidad a varianzas desiguales: En el caso de muestras independientes, si las varianzas de los grupos no son iguales, el test puede ser inapropiado o menos preciso, aunque existen ajustes (como el test t de Welch).
- No adecuado para muestras grandes con varianzas desconocidas: En casos de muestras grandes, otros test como el análisis de varianza (ANOVA) podrían ser más apropiados si se comparan más de dos grupos.

## 5x2 crossvalidation


# Tecnicas utilizadas

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# https://www.kaggle.com/datasets/wenruliu/adult-income-dataset
df_all = pd.read_csv('../Datasets/adult.csv')
df = df_all.dropna()
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   age              48842 non-null  int64 
 1   workclass        48842 non-null  object
 2   fnlwgt           48842 non-null  int64 
 3   education        48842 non-null  object
 4   educational-num  48842 non-null  int64 
 5   marital-status   48842 non-null  object
 6   occupation       48842 non-null  object
 7   relationship     48842 non-null  object
 8   race             48842 non-null  object
 9   gender           48842 non-null  object
 10  capital-gain     48842 non-null  int64 
 11  capital-loss     48842 non-null  int64 
 12  hours-per-week   48842 non-null  int64 
 13  native-country   48842 non-null  object
 14  income           48842 non-null  object
dtypes: int64(6), object(9)
memory usage: 5.6+ MB


In [3]:
df.head()

Unnamed: 0,age,workclass,fnlwgt,education,educational-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
0,25,Private,226802,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,89814,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,336951,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,160323,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,103497,Some-college,10,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K


In [4]:
categorical_columns = ['workclass', 'education', 'marital-status','occupation', 'relationship', 'race', 'gender', 'native-country', 'income']

# Convertir las columnas de object a categóricas
for col in categorical_columns:
    df[col] = df[col].astype('category')  # Convertir a categórico

# Convertir categorías a enteros
for col in categorical_columns:
    df[col] = df[col].cat.codes  # Convertir a códigos numéricos

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype
---  ------           --------------  -----
 0   age              48842 non-null  int64
 1   workclass        48842 non-null  int8 
 2   fnlwgt           48842 non-null  int64
 3   education        48842 non-null  int8 
 4   educational-num  48842 non-null  int64
 5   marital-status   48842 non-null  int8 
 6   occupation       48842 non-null  int8 
 7   relationship     48842 non-null  int8 
 8   race             48842 non-null  int8 
 9   gender           48842 non-null  int8 
 10  capital-gain     48842 non-null  int64
 11  capital-loss     48842 non-null  int64
 12  hours-per-week   48842 non-null  int64
 13  native-country   48842 non-null  int8 
 14  income           48842 non-null  int8 
dtypes: int64(6), int8(9)
memory usage: 2.7 MB


In [5]:
from sklearn.preprocessing import StandardScaler

X = df.iloc[:, :-1].values  # Todas las columnas excepto la última
y = df.iloc[:, -1].values   # Solo la última columna

# Escalar las características (X)
scaler = StandardScaler()
X = scaler.fit_transform(X)


## Logistic Regression

In [None]:
from sklearn.model_selection import RepeatedKFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

# Configuración de 5x2 Cross-Validation
# n_repeats = 5  # Número de repeticiones
kf = RepeatedKFold(n_splits=2, n_repeats=5, random_state=42)  # KFold con 2 splits

# Modelo a evaluar
model = LogisticRegression()
svm_model = SVC(kernel='linear')  # Puedes probar también otros kernels como 'rbf'

# Lista para almacenar resultados
# scores_logistic = []
scores_svm = []

scores_logistic = cross_val_score(model, X, y, cv=kf)
scores_svm = cross_val_score(svm_model, X, y, cv=kf)

# Mostrar resultados finales
print("\nResultados 5x2:")
print("[LGR] Scores:", scores_logistic)
print("[LGR] Promedio de scores:", np.mean(scores_logistic))
print("****")
print("[SVM] Scores:", scores_svm)
print("[SVM] Promedio de scores:", np.mean(scores_svm))



Resultados 5x2:
[LGR] Scores: [0.82461816 0.82494574 0.82617419 0.82433152 0.82748454 0.82166987
 0.82691126 0.82310307 0.82371729 0.82523238]
[LGR] Promedio de scores: 0.8248188034888007
****
[SVM] Scores: [0.81823021 0.80873019 0.81176037 0.81425822 0.81544572 0.81118709
 0.8148315  0.81167847 0.81319356 0.81372589]
[SVM] Promedio de scores: 0.8133041235002662


# Descripcion de los resultados

# Conclusiones