<img width="300px" src="https://cachimbo.pe/wp-content/uploads/2022/10/1-19.jpg"></img>

#**Estadística con Python**
## **Tema: Estadística No Paramétrica y Datos Desbalanceados**
#### **Docente: Giron Rene Omar A.**

---------------

# Prueba de hipótesis No Paramétricas

## Para una muestra

Queremos comprobar si la mediana de los tiempos de reacción de un grupo de personas es diferente de 300 ms.


In [2]:
pip install scipy


Note: you may need to restart the kernel to use updated packages.


In [3]:
pip install --upgrade pip

Note: you may need to restart the kernel to use updated packages.


In [4]:
import numpy as np
from scipy.stats import binomtest

# Datos de tiempos de reacción (en ms)
data = np.array([310, 295, 305, 298, 300, 302, 308, 299, 297, 301])

# Hipótesis nula: la mediana es 300 ms
median_test_value = 300
signs = np.sign(data - median_test_value)
n_positive = np.sum(signs > 0)
n_negative = np.sum(signs < 0)

# Realizar la prueba de signos
p_value = binomtest(n_positive, n_positive + n_negative, 0.5)
print(f"Prueba de signos p-valor: {p_value}")

# Regla de decisión
alpha = 0.05  # Nivel de significancia
if p_value.pvalue < alpha:
    print("Rechazamos la hipótesis nula: la mediana es significativamente diferente de 300 ms.")
else:
    print("No rechazamos la hipótesis nula: no hay evidencia suficiente para decir que la mediana es diferente de 300 ms.")


Prueba de signos p-valor: BinomTestResult(k=5, n=9, alternative='two-sided', statistic=0.5555555555555556, pvalue=1.0)
No rechazamos la hipótesis nula: no hay evidencia suficiente para decir que la mediana es diferente de 300 ms.


## Para dos muestras

Queremos comparar los tiempos de reacción de dos grupos independientes de personas (grupo A y grupo B).[texto del enlace](https://)

In [5]:
import numpy as np
from scipy.stats import mannwhitneyu

# Datos de tiempos de reacción (en ms) para dos grupos
grupo_a = np.array([310, 295, 305, 298, 300])
grupo_b = np.array([302, 308, 299, 297, 301])

# Realizar la prueba de Mann-Whitney
stat, p_value = mannwhitneyu(grupo_a, grupo_b)
print(f"Prueba de Mann-Whitney p-valor: {p_value}")

# Regla de decisión
alpha = 0.05  # Nivel de significancia
if p_value < alpha:
    print("Rechazamos la hipótesis nula: hay una diferencia significativa entre los dos grupos.")
else:
    print("No rechazamos la hipótesis nula: no hay una diferencia significativa entre los dos grupos.")

Prueba de Mann-Whitney p-valor: 1.0
No rechazamos la hipótesis nula: no hay una diferencia significativa entre los dos grupos.


Queremos comparar los tiempos de reacción antes y después de un tratamiento en el mismo grupo de personas.

In [6]:
import numpy as np
from scipy.stats import wilcoxon

# Datos de tiempos de reacción antes y después del tratamiento
antes = np.array([310, 295, 305, 298, 300])
despues = np.array([305, 290, 310, 300, 295])

# Realizar la prueba de Wilcoxon
stat, p_value = wilcoxon(antes, despues)
print(f"Prueba de Wilcoxon p-valor: {p_value}")

# Regla de decisión
alpha = 0.05  # Nivel de significancia
if p_value < alpha:
    print("Rechazamos la hipótesis nula: hay una diferencia significativa entre los tiempos de reacción antes y después del tratamiento.")
else:
    print("No rechazamos la hipótesis nula: no hay una diferencia significativa entre los tiempos de reacción antes y después del tratamiento.")


Prueba de Wilcoxon p-valor: 0.625
No rechazamos la hipótesis nula: no hay una diferencia significativa entre los tiempos de reacción antes y después del tratamiento.


## Para más de dos muestras

Queremos comparar los tiempos de reacción de tres grupos independientes de personas (grupo A, grupo B y grupo C).

In [7]:
import numpy as np
from scipy.stats import kruskal

# Datos de tiempos de reacción (en ms) para tres grupos
grupo_a = np.array([310, 295, 305, 298, 300])
grupo_b = np.array([302, 308, 299, 297, 301])
grupo_c = np.array([300, 310, 295, 305, 298])

# Realizar la prueba de Kruskal-Wallis
stat, p_value = kruskal(grupo_a, grupo_b, grupo_c)
print(f"Prueba de Kruskal-Wallis p-valor: {p_value}")

# Regla de decisión
alpha = 0.05  # Nivel de significancia
if p_value < alpha:
    print("Rechazamos la hipótesis nula: hay una diferencia significativa entre los grupos.")
else:
    print("No rechazamos la hipótesis nula: no hay una diferencia significativa entre los grupos.")


Prueba de Kruskal-Wallis p-valor: 0.9924609943783124
No rechazamos la hipótesis nula: no hay una diferencia significativa entre los grupos.


Queremos comparar los tiempos de reacción en tres condiciones diferentes (condición 1, condición 2 y condición 3) en el mismo grupo de personas.

In [8]:
from scipy.stats import friedmanchisquare

# Datos de tiempos de reacción (en ms) en tres condiciones diferentes
condicion_1 = np.array([310, 295, 305, 298, 300])
condicion_2 = np.array([302, 308, 299, 297, 301])
condicion_3 = np.array([300, 310, 295, 305, 298])

# Realizar la prueba de Friedman
stat, p_value = friedmanchisquare(condicion_1, condicion_2, condicion_3)
print(f"Prueba de Friedman p-valor: {p_value}")

# Regla de decisión
alpha = 0.05  # Nivel de significancia
if p_value < alpha:
    print("Rechazamos la hipótesis nula: hay una diferencia significativa entre los grupos.")
else:
    print("No rechazamos la hipótesis nula: no hay una diferencia significativa entre los grupos.")

Prueba de Friedman p-valor: 0.8187307530779795
No rechazamos la hipótesis nula: no hay una diferencia significativa entre los grupos.


# Datos Desbalanceados

## UNDERSAMPLING

In [9]:
pip install imblearn





In [17]:
import numpy as np
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from imblearn.under_sampling import RandomUnderSampler
from imblearn.over_sampling import RandomOverSampler, SMOTE
from collections import Counter

# Crear un conjunto de datos desbalanceado, generar datos aleatorios desbalanceados
X, y = make_classification(n_samples=1000, n_classes=2, weights=[0.9, 0.1],
                           n_informative=3, n_redundant=1, flip_y=0,
                           n_features=20, n_clusters_per_class=1,
                           n_repeated=0, random_state=42)

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

print("Distribución original:", Counter(y_train))
print("Distribución original:", Counter(y_test))

Distribución original: Counter({0: 623, 1: 77})
Distribución original: Counter({0: 277, 1: 23})


## UNDERSAMPLING

In [11]:
from collections import Counter
from imblearn.under_sampling import RandomUnderSampler

rus = RandomUnderSampler(random_state=42, replacement=True)# fit predictor and target variable
x_rus, y_rus = rus.fit_resample(X_train, y_train)

print('original dataset shape:', Counter(y_train))
print('Resample dataset shape', Counter(y_rus))

original dataset shape: Counter({0: 623, 1: 77})
Resample dataset shape Counter({0: 77, 1: 77})


## OVERSAMPLING

In [12]:
from imblearn.over_sampling import RandomOverSampler

ros = RandomOverSampler(random_state=42)

# fit predictor and target variablex_ros,
x_ros, y_ros = ros.fit_resample(X_train, y_train)

print('Original dataset shape', Counter(y_train))
print('Resample dataset shape', Counter(y_ros))

Original dataset shape Counter({0: 623, 1: 77})
Resample dataset shape Counter({0: 623, 1: 623})


## SMOTE

In [18]:
# import library
from imblearn.over_sampling import SMOTE

smote = SMOTE(random_state=42)

# fit predictor and target variable
x_smote, y_smote = smote.fit_resample(X_train, y_train)

print('Original dataset shape', Counter(y_train))
print('Resample dataset shape', Counter(y_smote))

print('original dataset shape:', Counter(y_test))
#print('Resample dataset shape', Counter(y_rus))


Original dataset shape Counter({0: 623, 1: 77})
Resample dataset shape Counter({0: 623, 1: 623})
original dataset shape: Counter({0: 277, 1: 23})
