# Analisis ANOVA de un factor

In [None]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
from sklearn import datasets

#Usaremos los datos de Iris
iris = datasets.load_iris()
X = iris.data
y = iris.target

#tomamos los datos en un dataframe
df = pd.DataFrame(X, columns=iris.feature_names)
df['target'] = y




In [None]:
df.head()

In [None]:
df['target'].value_counts()

In [None]:
#agregamos el modelo
model = sm.OLS.from_formula('Q("sepal length (cm)") ~ C(target)', data=df).fit()
anova_table = sm.stats.anova_lm(model, typ=2)

print(anova_table)

### Comparacion entre grupos

In [None]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
from statsmodels.stats.multicomp import pairwise_tukeyhsd
from sklearn import datasets


iris = datasets.load_iris()
X = iris.data
y = iris.target


df = pd.DataFrame(X, columns=iris.feature_names)
df['target'] = y


model = sm.formula.ols('Q("sepal length (cm)") ~ C(target)', data=df).fit()
anova_table = sm.stats.anova_lm(model, typ=2)

#Prueba post hoc de Tukey
posthoc = pairwise_tukeyhsd(df['sepal length (cm)'], df['target'])
print(posthoc)


In [None]:
df.head()

In [None]:
#Para obtener los resultados con scypy
from scipy.stats import f_oneway

iris = datasets.load_iris()
X = iris.data
y = iris.target

#Se deben eparar datos por grupo
group1 = X[y == 0, 0] 
group2 = X[y == 1, 0] 
group3 = X[y == 2, 0] 

#Para obtener el ANOVA de una factor
f_statistic, p_value = f_oneway(group1, group2, group3)

print(f"F-statistic: {f_statistic}")
print(f"p-value: {p_value}")

In [None]:
#tabla resultados
data = {'Grupo': ['Grupo 1', 'Grupo 2', 'Grupo 3'],
        'Media': [np.mean(group1), np.mean(group2), np.mean(group3)],
        'Desviación Estándar': [np.std(group1), np.std(group2), np.std(group3)]}

pd.DataFrame(data)

In [None]:
#tomamos los datos en un dataframe
df = pd.DataFrame(X, columns=iris.feature_names)
df['target'] = y

In [None]:
#calculo de errores
overall_mean = df['sepal length (cm)'].mean()
ssg = len(group1) * (group1.mean() - overall_mean)**2 + len(group2) * (group2.mean() - overall_mean)**2 + len(group3) * (group3.mean() - overall_mean)**2
sse = ((len(group1) - 1) * group1.var()) + ((len(group2) - 1) * group2.var()) + ((len(group3) - 1) * group3.var())
sst = ssg + sse

In [None]:
print("SSG:", ssg)
print("SSE:", sse)
print("SST:", sst)

#### Que pasa si las varianzas no son iguales:

In [None]:
#Prueba de homogeneidad de varianzas (Levene)
from scipy.stats import levene
statistic, p_value = levene(group1, group2, group3)
print('Prueva levene (Estad):', statistic)
print('Prueva levene (P-valor):', p_value)

In [None]:
from statsmodels.formula.api import ols

#ANOVA con ajuste para varianzas no iguales
model = ols('Q("sepal length (cm)") ~ C(target)', data=df).fit(cov_type='HC3')
anova_table = sm.stats.anova_lm(model, typ=2)
#se utiliza para indicar que se aplique un ajuste para varianzas no iguales 
#utilizando la estimación de varianza heterocedástica HC3.

print(anova_table)

#### Para arreglos multidimencionales

In [None]:
#Para arreglos multidimencionales
import numpy
import scipy.stats
x1 = numpy.array([[1, 5, 5, 9, 5],[5, 15, 20, 5, 3],
                  [5, 2, 2, 3, 5],[2, 5, 3, 5, 4]])
x2 = numpy.array([[5, 10, 5, 20, 0],[10, 5, 2, 2, 30],
                  [15, 0, 5, 0, 3],[0, 2, 30, 3, 4]])
x3 = numpy.array([[5, 1, 1, 2, 30],[10, 1, 20, 2, 30],
                  [15, 2, 5, 3, 35],[2, 2, 3, 3, 4]])
f_statistic, p_value = scipy.stats.f_oneway(x1, x2, x3)
print(f"F-statistic: {f_statistic}")
print(f"p-value: {p_value}")

In [None]:
x1

# Analisis de correlacion

In [None]:
#Relacion city-mpg y highway-mpg
import matplotlib.pyplot as plt
from scipy.stats import pearsonr
#from sklearn.datasets import load_iris

df = pd.read_csv('auto.csv', delimiter=';')
df = df.replace('?', np.nan)
df = df.dropna()

city_mpg = df['city-mpg']
h_mpg = df['highway-mpg']

#correlacion 
correlacion, p_value = pearsonr(city_mpg, h_mpg)
print("Correlación:", correlacion)
print("Valor p:", p_value)

#Diagrama de dispersión
plt.scatter(city_mpg, h_mpg)
plt.xlabel('Rendimiento en MPG para la ciudad')
plt.ylabel('Rendimiento en MPG para la carretera')
plt.title('Diagrama de Dispersión')
plt.show()


In [None]:
import seaborn as sns

e_size = df['engine-size']
h_mpg = df['highway-mpg']

#correlacion 
correlacion, p_value = pearsonr(e_size, h_mpg)
print("Correlación:", correlacion)
print("Valor p:", p_value)

#Diagrama de dispersión
sns.regplot(x=e_size, y=h_mpg)
plt.xlabel('Tamaño del motor')
plt.ylabel('Rendimiento en carretera')
plt.title('Gráfico de Regresión')
plt.show()


## Análisis de regresión

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from scipy import stats
from statsmodels.graphics.gofplots import qqplot

In [None]:
galton = pd.read_csv('galton.csv')
galton.shape

In [None]:
galton.columns

In [None]:
galton.info()

In [None]:
#Análisis de correlación
plt.figure(figsize=(16, 6))
sns.heatmap(galton.corr(numeric_only=True), annot=True)

In [None]:
hijos = galton[galton['sex']=='M']
hijas = galton[galton['sex']=='F']

In [None]:
#Diagrama de dispersión
sns.regplot(x=hijas['father'], y=hijas['height'])
plt.xlabel('Altura del padre')
plt.ylabel('Altura de la hija')
plt.title('Gráfico de Regresión')
plt.show()

In [None]:
plt.figure(figsize=(16, 6))
sns.heatmap(hijos.corr(numeric_only=True), annot=True)

In [None]:
plt.figure(figsize=(16, 6))
sns.heatmap(hijas.corr(numeric_only=True), annot=True)

In [None]:
correlacion, p_value = pearsonr(hijas['mother'], hijas['height'])

In [None]:
correlacion

In [None]:
p_value

In [None]:
#Revision de las distribuciones de frecuencia
plt.hist(hijas['height'])

In [None]:
plt.hist(hijas['mother'])

In [None]:
#Regresion lineal simple, altura de los madres vs altura de las hijas
Y = hijas['height']
X = hijas['mother']
X = sm.add_constant(X)
X.head()

In [None]:
#Ejecucion del modelo
model = sm.OLS(Y, X, missing='drop')
model_result = model.fit()
model_result.summary()

#### Prueba de normalidad

In [None]:
#Histograma de residuos
sns.histplot(model_result.resid)

In [None]:
#Prueba de normalidad (Prueba de Shapiro-Wilk)
_, p_value_shapiro = stats.shapiro(model_result.resid)
print("\nPrueba de normalidad (Prueba de Shapiro-Wilk):")
print("Estadístico de prueba:", p_value_shapiro)

Resultado: Si el valor p es mayor que el umbral de significancia (por ejemplo, 0.05), se concluye que no hay suficiente evidencia para rechazar la hipótesis nula y se puede asumir que los residuos siguen una distribución normal. 

In [None]:
#QQ - plot
qqplot(model_result.resid, line='s')
plt.title('Gráfico QQ de los residuos')
plt.show()

#### Prueba de homogenidad de varianza

In [None]:
#(Prueba de Levene)
_, p_value_levene = stats.levene(y, model_result.predict(X))
print("Prueba de homogeneidad de varianza (Prueba de Levene):")
print("Estadístico de prueba:", p_value_levene)

Si el valor p es mayor que el nivel de significancia elegido, no se rechaza la hipótesis nula y se concluye que no hay suficiente evidencia para afirmar que las varianzas son diferentes

#### Prueba de independencia

In [None]:
# Análisis de residuos
plt.scatter(model_result.predict(X), model_result.resid)
plt.xlabel('Valores predichos')
plt.ylabel('Residuos')
plt.title('Análisis de residuos')
plt.axhline(y=0, color='r', linestyle='--')
plt.show()

In [None]:
#Prueba de autocorrelacion de durbin watson

In [None]:
durbin_watson = sm.stats.stattools.durbin_watson(model_result.resid)
print("Prueba de homogeneidad de varianza (Prueba de durbin watson):")
print("Estadístico de prueba:", durbin_watson)

Si esta cerca de 2 no existe autocorrelacion.
Si esta cerca de 0 o 4, indica autocorrelación positiva o negativa, respectivamente.

El modelo es estadisticamente significativo  
Los efectos de las variables independientes (altura de las madres) son estd. sign  
Se comprobó la normalidad de los residuos  
El estadistico de Levene no demuestra de forma concluyente q no exista Homosedasticidad  
El estadítico de DW no es concluyente sobre las autocorrelacion de los residuos  
El estadistico Rcuadrado es bastante bajo, 0.098  

Por lo expuesto, el modelo es muy débil además que puede no cumplir con todos los supuestos necesarios.
La altura de los hijos no depende solamente de la altura de las madres, deben incluirse tambien otros efectos para determinar o crear un modelo más preciso.