### Dependencias

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import scipy.stats as st
from scipy.stats import f_oneway
from scipy.stats import ttest_ind

### Leemos la base de datos a trabajar

In [2]:
iris = pd.read_csv('irisdata.csv')
iris.columns = ['sepal-lenght', 'sepal-width','petal-lenght', 'petal-width', 'class']
iris.head()

Unnamed: 0,sepal-lenght,sepal-width,petal-lenght,petal-width,class
0,4.9,3.0,1.4,0.2,Iris-setosa
1,4.7,3.2,1.3,0.2,Iris-setosa
2,4.6,3.1,1.5,0.2,Iris-setosa
3,5.0,3.6,1.4,0.2,Iris-setosa
4,5.4,3.9,1.7,0.4,Iris-setosa


### Tipos de pruebas:

#### 1) Distribución t de student

In [10]:
# Standard Error
se_lenght = iris['sepal-lenght'].std()/np.sqrt(10)
se_widtht = iris['sepal-width'].std()/np.sqrt(10)

# Standard Error Deviation
sed = np.sqrt((se_lenght**2)+(se_widtht**2))

# t de Studendt
t_stat = ((iris['sepal-lenght'].mean())-iris['sepal-width'].mean())/sed
t_stat

np.float64(9.459412621126999)

In [11]:
p = ttest_ind(iris['sepal-lenght'],iris['sepal-width'])
p

TtestResult(statistic=np.float64(36.513822839267014), pvalue=np.float64(1.2183336444822307e-111), df=np.float64(296.0))

Como el pvalue es un valor tan pequeño comparado con el valor absoluto de t por esto podemos concluír que nuestras distribuciones son diferentes, estamos rechazando nuestra hipótesis nula (h0) donde nuestra teoría inicial era que la distribución de ambas eran muy similares, o sea que la distribución de sepal-length es muy diferente a la diistribución de sepal-width 

#### 2) Coeficiente de Pearson

In [12]:
iris['sepal-lenght'].corr(iris['sepal-width'])

np.float64(-0.10378414795681824)

In [13]:
st.pearsonr(iris['sepal-lenght'],iris['sepal-width'])

PearsonRResult(statistic=np.float64(-0.10378414795681819), pvalue=np.float64(0.20782011930226643))

Como los valores de correlación y de pearson son tan bajos se concluye que no hay una correlación entre un valor y otro

#### 3) Análisis de la varianza (ANOVA)

In [14]:
f_oneway(iris['sepal-lenght'],iris['sepal-width'])

F_onewayResult(statistic=np.float64(1333.2592583373769), pvalue=np.float64(1.2183336444823118e-111))

como el valor pvalue es mucho menor que el resultado de ANOVA entonces rechazamos h0

### Repetimos para los petalos

#### 1) Distribución t de student

In [15]:
# Standard Error
se_lenght = iris['petal-lenght'].std()/np.sqrt(10)
se_widtht = iris['petal-width'].std()/np.sqrt(10)

# Standard Error Deviation
sed = np.sqrt((se_lenght**2)+(se_widtht**2))

# t de Studendt
t_stat = ((iris['petal-lenght'].mean())-iris['petal-width'].mean())/sed
t_stat

np.float64(4.237420707737746)

In [16]:
p = ttest_ind(iris['petal-lenght'],iris['petal-width'])
p

TtestResult(statistic=np.float64(16.356663485871238), pvalue=np.float64(2.756498612909419e-43), df=np.float64(296.0))

#### 2) Coeficiente de Pearson

In [17]:
iris['petal-lenght'].corr(iris['petal-width'])

np.float64(0.9623142989595621)

In [18]:
st.pearsonr(iris['petal-lenght'],iris['petal-width'])

PearsonRResult(statistic=np.float64(0.962314298959563), pvalue=np.float64(5.028786374929526e-85))

#### 3) Análisis de la varianza (ANOVA)

In [20]:
f_oneway(iris['petal-lenght'],iris['petal-width'])

F_onewayResult(statistic=np.float64(267.54044039003315), pvalue=np.float64(2.756498612909605e-43))