In [135]:
import random
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as st

In [136]:
df = pd.read_csv("iris.csv")

Segmentar el dataseet por las 3 especies

In [137]:
setosa = df[df['species'] == 'setosa']
versicolor = df[df['species'] == 'versicolor']
virginica = df[df['species'] == 'virginica']

In [138]:
ks_setosa, p_setosa = st.kstest(setosa['sepal_length'], 'norm', args=(setosa['sepal_length'].mean(), setosa['sepal_length'].std()))
ks_versicolor, p_versicolor = st.kstest(versicolor['sepal_length'], 'norm', args=(versicolor['sepal_length'].mean(), versicolor['sepal_length'].std()))
ks_virginica, p_virginica = st.kstest(virginica['sepal_length'], 'norm', args=(virginica['sepal_length'].mean(), virginica['sepal_length'].std()))

def is_normal(p_value):
    return "Es normal" if p_value > 0.05 else "No es normal"

def ks_test(specie_df):
    results = {}
    for column in specie_df.columns[:-1]: # Exclude 'species' column
        ks_stat, p_value = st.kstest(specie_df[column], 'norm', args=(specie_df[column].mean(), specie_df[column].std()))
        results[column] = (ks_stat, p_value, is_normal(p_value))
        
        print(f"{specie_df['species'].iloc[0]} - {column}: KS={ks_stat}, p={p_value}, {is_normal(p_value)}")
    return results

def shapiro_test(specie_df):
    results = {}
    for column in specie_df.columns[:-1]: # Exclude 'species' column
        stat, p_value = st.shapiro(specie_df[column])
        results[column] = (stat, p_value, is_normal(p_value))
        
        print(f"{specie_df['species'].iloc[0]} - {column}: W={stat}, p={p_value}, {is_normal(p_value)}")
    return results

print("\nPruebas de normalidad Kolmogorov-Smirnov para Setosa:")
ks_test(setosa)
print("\nPruebas de normalidad Kolmogorov-Smirnov para Versicolor:")
ks_test(versicolor)
print("\nPruebas de normalidad Kolmogorov-Smirnov para Virginica:")
ks_test(virginica)

print("\nPruebas de normalidad Shapiro-Wilk para Setosa:")
shapiro_test(setosa)
print("\nPruebas de normalidad Shapiro-Wilk para Versicolor:")
shapiro_test(versicolor)
print("\nPruebas de normalidad Shapiro-Wilk para Virginica:")
shapiro_test(virginica)



Pruebas de normalidad Kolmogorov-Smirnov para Setosa:
setosa - sepal_length: KS=0.11485990669608126, p=0.4889236515009082, Es normal
setosa - sepal_width: KS=0.1046775427493375, p=0.6063994576636074, Es normal
setosa - petal_length: KS=0.15339772542922858, p=0.17116431635423157, Es normal
setosa - petal_width: KS=0.34876021352999365, p=6.112604027547672e-06, No es normal

Pruebas de normalidad Kolmogorov-Smirnov para Versicolor:
versicolor - sepal_length: KS=0.09624091191683509, p=0.7071234035717402, Es normal
versicolor - sepal_width: KS=0.12066503937554096, p=0.4268879944935553, Es normal
versicolor - petal_length: KS=0.11712123583515, p=0.4642415222366043, Es normal
versicolor - petal_width: KS=0.14769884819804674, p=0.20411175624782862, Es normal

Pruebas de normalidad Kolmogorov-Smirnov para Virginica:
virginica - sepal_length: KS=0.11503428728233644, p=0.48699833606145904, Es normal
virginica - sepal_width: KS=0.12787168429870388, p=0.35646979248643473, Es normal
virginica - pet

{'sepal_length': (np.float64(0.971179397111026),
  np.float64(0.25831474614079086),
  'Es normal'),
 'sepal_width': (np.float64(0.9673905311257006),
  np.float64(0.18089604109069918),
  'Es normal'),
 'petal_length': (np.float64(0.9621864428612802),
  np.float64(0.10977536903223506),
  'Es normal'),
 'petal_width': (np.float64(0.9597714702389373),
  np.float64(0.08695418729093361),
  'Es normal')}

In [139]:
np.random.seed(42)

def confidence_intervals(specie_df, n=30):
    results = {}
    for column in specie_df.columns[:-1]:  # Exclude 'spe   cies' column
        muestra = specie_df[column].sample(n=n)
        media = np.mean(muestra)
        desviacion = np.std(muestra)
        
        lim_inf = media - st.norm.ppf(0.975) * (desviacion / np.sqrt(len(muestra)))
        lim_sup = media + st.norm.ppf(0.975) * (desviacion / np.sqrt(len(muestra)))
        
        results[column] = (lim_inf, lim_sup)
        
        print(f"Al 95% la media de {specie_df['species'].iloc[0]} para {column} está entre: {lim_inf:.3f} y {lim_sup:.3f}")
    return results

print("\nIntervalos de confianza para Setosa:")
confidence_intervals(setosa)
print("\nIntervalos de confianza para Versicolor:")
confidence_intervals(versicolor)
print("\nIntervalos de confianza para Virginica:")
confidence_intervals(virginica)


Intervalos de confianza para Setosa:
Al 95% la media de setosa para sepal_length está entre: 4.870 y 5.104
Al 95% la media de setosa para sepal_width está entre: 3.315 y 3.612
Al 95% la media de setosa para petal_length está entre: 1.424 y 1.543
Al 95% la media de setosa para petal_width está entre: 0.206 y 0.274

Intervalos de confianza para Versicolor:
Al 95% la media de versicolor para sepal_length está entre: 5.688 y 6.045
Al 95% la media de versicolor para sepal_width está entre: 2.646 y 2.854
Al 95% la media de versicolor para petal_length está entre: 4.096 y 4.418
Al 95% la media de versicolor para petal_width está entre: 1.253 y 1.394

Intervalos de confianza para Virginica:
Al 95% la media de virginica para sepal_length está entre: 6.344 y 6.789
Al 95% la media de virginica para sepal_width está entre: 2.822 y 3.071
Al 95% la media de virginica para petal_length está entre: 5.263 y 5.697
Al 95% la media de virginica para petal_width está entre: 1.996 y 2.177


{'sepal_length': (np.float64(6.344281358226289),
  np.float64(6.789051975107042)),
 'sepal_width': (np.float64(2.8221122505044947),
  np.float64(3.071221082828839)),
 'petal_length': (np.float64(5.262845582205175),
  np.float64(5.697154417794826)),
 'petal_width': (np.float64(1.996265627123997), np.float64(2.177067706209335))}

1.¿Cuáles intervalos por variable y especie se solapan?

Para la variable petal_width, los intervalos de confianza al 95% por especie son:
Setosa:      0.168 a 0.268
Versicolor:  1.162 a 1.386
Virginica:   1.890 a 2.198

Ninguno de los intervalos se solapan

2.¿Cuáles intervalos por variable y especie no se solapan?

Todos los pares de especies presentan intervalos distintos:
- Setosa vs Versicolor
- Setosa vs Virginica
- Versicolor vs Virginica

todos los intervalos no se solapan

3.¿Qué podemos decir de los intervalos que se solapan?

Como no hay intervalos que se solapen, podemos concluir que:
La variable petal_width permite distinguir claramente entre las tres especies de iris.
Es un buen predictor o clasificador para separar las especies o clasificarlas.