<a href="https://colab.research.google.com/github/DechiWords/Mathematic_and_Statistics/blob/main/Funciones_Estadisticas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Información previa

Las fórmulas son dadas en el siguiente libro.

Miller, I. Miller, M. Freund, J. (2000). *Estadística matemática con aplicaciones* (6a. ed.). PEARSON EDUCACIÓN.

[ESTADÍSTICA MATEMÁTICA CON APLICACIONES][1]

[1]: https://books.google.com.pe/books?id=1ffwJNjZWxsC&printsec=copyright&hl=es#v=onepage&q&f=false

En el siguiente link usted podrá visualizar las tablas estadísticas de referencia, estos valores, en particular de la distribución normal, $t$ de student, $\chi^2$ y $F$ de Fisher, son de gran interés para la resolución de ciertas formulas.

[TABLAS ESTADÍSTICAS][2]

[2]: http://verso.mat.uam.es/~pablo.fernandez/tablas_ProbI_2007-2008.pdf

Nosotros nos centraremos en este COLAB en la cola derecha de la curva de distribución.

La librería de Python que nos ayudará a obtener estos valores es **scipy.stats**. En el siguiente link se encuentra la información de dicha librería.

[scipy.stats][3]

[3]: https://docs.scipy.org/doc/scipy/reference/stats.html

La librería de Python que nos ayudará con calculos estadísticos como la media poblacional, muestra, etc. es la librería **statistics**. En el siguiente link se enuentra la información de dicha librería.

[statistics][4]

[4]: https://docs.python.org/3/library/statistics.html

***NOTA***

Las funciones presentadas en este cuaderno tienen como finalidad un uso educativo más que industrial pues existen paqueterías en Python que realizan estos trabajos de manera óptima. Sin embargo, estas mismas pueden ser modificadas por un Científico de Datos y ayudar a la optimización computacional de las mismas.

#Intervalos de confianza

## Intervalo de confianza

Una estimación de intervalo de $\theta$ es un intervalo de la forma

$$\hat{\theta}_1 < \theta < \hat{\theta}_2$$

Donde $\hat{\theta}_1$ y $\hat{\theta}_2$ son valores de variables aleatorias apropiadas. Por 'Apropiada' queremos decir que

$$P\left( \hat{\theta}_1 < \theta < \hat{\theta}_2 \right) = 1 - \alpha$$

Para alguna probabilidad especificada $1-\alpha$.

Para un valor especificado de $1-\alpha$ nos referimos a

$$\hat{\theta}_1 < \theta < \hat{\theta}_2$$

como **intervalo de confianza** de $(1-\alpha)100 \%$ para $\theta$.

Llamamos **grado de confianza** a $1-\alpha$.

Llamamos **límites de confianza** a $\hat{\theta}_1$ y $\hat{\theta}_2$.

Por ejemplo, sí deseamos un intervalo de confianza del $95\%$ tenemos que

$$\implies 1-\alpha = 0.95 \implies \alpha = 0.05$$

## Intervalo de confianza para la media de una muestra aleatoria de tamaño $n$

Sea $\bar{x}$ la media de una muestra aleatoria de tamaño $n$. 

Sí $n\geq 30$ o $\sigma^2$ es conocida entonces el intervalo de confianza para la media es

$$\bar{x}-z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}<\mu <\bar{x}+z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}$$

Sí $n\leq 29$ y $\sigma^2$ es desconocida entonces el intervalo de confianza para la media es

$$\bar{x}-t_{\frac{\alpha}{2},n-1}\frac{s}{\sqrt{n}}<\mu <\bar{x}+t_{\frac{\alpha}{2},n-1}\frac{s}{\sqrt{n}}$$

Con un margen de error de 

$$e = z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}$$

Tamaño de muestra necesario para estimar $\mu$ de 

$$n = \left(\frac{z_{\frac{\alpha}{2}}\cdot \sigma}{e}\right)^2$$

In [1]:
def IC_1_Media_Datos_Conocidos (Media,Desviacion,Alpha,n,Varianza_Poblacional):
  '''
  Media : Recibe el valor de la media de una muestra aleatoria.

  Desviacion : El valor de la desviacion, si la varianza poblacional es conocida
  entonces el valor ingresado es el raiz de la varianza poblacional. Si la varianza
  poblacional es desconocida entonces el valor ingresado es el valor de la desviacion
  de la muestra.

  n : Longitud de la muestra.

  Alpha : Probabilidad deseada. Este es un valor entre 0 y 1.

  Varianza_Poblacional : Es un valor booleano. True si la varianza poblacional
  es conocida, False en caso contrario.

  return.

  Una lista donde el primer elemento es el la cota inferior del intervalo de confianza,
  el segundo elemento es la cota superior del intervalo de confianza y el tercer
  elemento es un string que engloba el intervalo de confianza.
  '''
  from scipy.stats import norm,t
  from math import sqrt
  Z = norm.isf(Alpha/2)
  t_v = t.isf(Alpha/2,n-1)
  Div = Desviacion/sqrt(n)
  if Varianza_Poblacional == True or n>=30:
    Izq = Media - Z*Div
    Der = Media + Z*Div
    return [Izq,Der,str(Izq)[0:8]+' <M< '+str(Der)[0:8]]
  elif Varianza_Poblacional == False and n<=29:
    Izq = Media - t_v*Div
    Der = Media + t_v*Div
    return [Izq,Der,str(Izq)[0:8]+' <M< '+str(Der)[0:8]]

**EJEMPLO**

Ejemplo 11.1 del libro.

In [2]:
IC_1_Media_Datos_Conocidos(64.3,15,0.025*2,20,True)[2]

'57.72608 <M< 70.87391'

In [3]:
def IC_1_Media_Datos_Desconocidos (Data,Alpha,Varianza_Poblacional):
  '''
  Data : Es una lista que contiene los datos de la muestra.

  Alpha : Probabilidad deseada. Este es un valor entre 0 y 1.

  Varianza_Poblacional : Es un valor booleano. True si la varianza poblacional
  es conocida, False en caso contrario.

  return.

  Una lista donde el primer elemento es el la cota inferior del intervalo de confianza,
  el segundo elemento es la cota superior del intervalo de confianza y el tercer
  elemento es un string que engloba el intervalo de confianza.
  '''
  from scipy.stats import norm,t
  from math import sqrt
  from statistics import mean, stdev
  Media = mean(Data)
  n = len(Data)
  Z = norm.isf(Alpha/2)
  t = t.isf(Alpha/2,n-1)
  if Varianza_Poblacional == True:
    Varianza = float(input('Ingresa el valor de la varianza poblacional : '))
    Desviacion = sqrt(Varianza)
    Izq = Media - Z*(Desviacion/sqrt(n))
    Der = Media + Z*(Desviacion/sqrt(n))
    return [Izq,Der,str(Izq)[0:8]+' <M< '+str(Der)[0:8]]
  elif n>= 30:
    Desviacion = stdev(Data) #DESVIACION MUESTRAL
    Izq = Media - Z*(Desviacion/sqrt(n))
    Der = Media + Z*(Desviacion/sqrt(n))
    return [Izq,Der,str(Izq)[0:8]+' <M< '+str(Der)[0:8]]
  else: 
    Desviacion = stdev(Data) #DESVIACION MUESTRAL
    Izq = Media - t_v*(Desviacion/sqrt(n))
    Der = Media + t_v*(Desviacion/sqrt(n))
    return [Izq,Der,str(Izq)[0:8]+' <M< '+str(Der)[0:8]]

**EJEMPLO**

Ejemplo 11.3 del libro

In [4]:
Data = [17,13,18,19,17,21,29,22,16,28,21,15,26,23,24,20,8,17,17,21,32,18,25,22,16,10,20,22,19,14,30,22,12,24,28,11]
IC_1_Media_Datos_Desconocidos(Data,0.025*2,False)[2]

'18.04359 <M< 21.78973'

## Intervalo de confianza para diferencia de medias

Sean $n_1,n_2$ dos muestras aleatorias de tamaño $n_1,n_2$ de dos poblaciones normales con varianzas conocidas $\sigma_1^2, \sigma_2^2$.

El intervalo de confianza para $\mu_1 - \mu_2$ es : 

Sí $n_1, n_2$ son mayores o iguales a 30 o tenemos que $\sigma_1^2$ y $\sigma_2^2$ son conocidas

$$\left(\bar{x_1}-\bar{x_2}\right)\pm z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}$$

Sí $n_1, n_2$ son menores o iguales a 29 y las varianzas $\sigma_1^2,\sigma_2^2$ son desconocidas pero iguales

$$\left(\bar{x_1}-\bar{x_2}\right)\pm t_{\frac{\alpha}{2},n_1+n_2-2}\cdot S_p\cdot \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}$$

Donde

$$S_p = \sqrt{\frac{(n_1-1)\cdot s_1^2+(n_2-1)\cdot s_2^2}{n_1+n_2-2}}$$

Para determinar si las varianzas poblacionales son iguales, aun siendo desconocidas, hay que verificar el intervalo de confianza para la razón de dos varianzas. Sí el 1 está en el intervalo entonces las varianzas son iguales aun siendo desconocidas y, por tanto es matemáticamente correcto proceder por el segundo método.

In [5]:
def IC_2_Media_Datos_Conocidos (Media_1,Varianza_1,n_1,Media_2,Varianza_2,n_2,Alpha,Varianza_Poblacional):
  '''
  Media_1 : El valor de la media de la primer poblacion

  Media_2 : El valor de la media de la segunda poblacion

  Varianza_1 : El valor de la varianza de la primer poblacion. Si la varianza de la poblacion es conocida
  entonces el valor ingresado es el valor de la varianza poblacional.

  Varianza_2 : El valor de la varianza de la segunda poblacion. Si la varianza de la poblacion es conocida
  entonces el valor ingresado es el valor de la varianza poblacional.

  n_1 : Longitud de la primer poblacion

  n_2 : Longitud de la segunda poblacion

  Alpha : Probabilidad deseada. Es un valor entre 0 y 1.

  Varianza_Poblacional : Es un valor booleano. True si las varianzas de las poblaciones son conocidas, False
  si son desconocidas pero iguales.

  return.

  Una lista que contiene 4 elementos. El primer elemento es la cota inferior del intervalo de confianza,
  el segundo elemento es la cota superior del intervalo de confianza, el tercer elemento es el intervalo de confianza
  y el cuarto elemento es la conclusion del intervalo de confianza.
  '''
  from scipy.stats import norm,t
  from math import sqrt
  Z = norm.isf(Alpha/2)
  t_v = t.isf(Alpha/2,n_1+n_2-2)
  if Varianza_Poblacional == True or (n_1 >= 30 and n_2 >= 30):
    Raiz = sqrt( (Varianza_1/n_1) + (Varianza_2/n_2) )
    Izq = (Media_1-Media_2) - Z*Raiz
    Der = (Media_1-Media_2) + Z*Raiz
    if Izq<0 and 0<Der:
      Mensaje = 'Media_1 = Media_2'
    elif Izq<0 and Der<0:
      Mensaje = 'Media_1 < Media_2'
    elif 0<Izq and 0<Der:
      Mensaje = 'Media_1 > Media_2'
    return [Izq,Der,str(Izq)[0:8]+' <M_1 - M_2< '+str(Der)[0:8],Mensaje]
  elif Varianza_Poblacional == False and (n_1 <= 29 and n_2 <= 29):
    S_p = S_p_Function(n_1,n_2,Varianza_1,Varianza_2)
    Raiz = sqrt( (1/n_1) + (1/n_2) )
    Izq = (Media_1-Media_2) - t_v*S_p*Raiz
    Der = (Media_1-Media_2) + t_v*S_p*Raiz
    if Izq<0 and 0<Der:
      Mensaje = 'Media_1 = Media_2'
    elif Izq<0 and Der<0:
      Mensaje = 'Media_1 < Media_2'
    elif 0<Izq and 0<Der:
      Mensaje = 'Media_1 > Media_2'
    return [Izq,Der,str(Izq)[0:8]+' <M_1 - M_2< '+str(Der)[0:8],Mensaje]

**EJEMPLO**

Los datos se obtuvieron del siguiente video: 

https://www.youtube.com/watch?v=vcV_-KSzy0M&t=45s

In [6]:
#DATOS
Media_Sindicalizada = 20.75
Desviacion_Sindicalizada = 2.25
Longitud_Sindicalizada = 40
Media_No_Sindicalizada = 19.80
Desviacion_No_Sindicalizada = 1.90
Longitud_No_Sindicalizada = 45

#INTERVALO DE CONFIANZA
IC_2_Media_Datos_Conocidos(Media_Sindicalizada,(Desviacion_Sindicalizada)**2,Longitud_Sindicalizada,
                           Media_No_Sindicalizada,(Desviacion_No_Sindicalizada)**2,Longitud_No_Sindicalizada,
                           0.1,False)[2]

'0.202026 <M_1 - M_2< 1.697973'

In [7]:
#CONCLUSION
IC_2_Media_Datos_Conocidos(Media_Sindicalizada,(Desviacion_Sindicalizada)**2,Longitud_Sindicalizada,
                           Media_No_Sindicalizada,(Desviacion_No_Sindicalizada)**2,Longitud_No_Sindicalizada,
                           0.1,False)[3]

'Media_1 > Media_2'

In [8]:
def S_p_Function (n_1,n_2,V_1,V_2):
  from math import sqrt
  Numerador = (n_1-1)*V_1 + (n_2-1)*V_2
  Denominador = n_1 + n_2 - 2
  return sqrt(Numerador/Denominador)

def IC_2_Media_Datos_Desconocidos (Data_1,Data_2,Alpha,Varianza_Poblacional):
  '''
  Data_1 : Los datos de la primer poblacion.

  Data_2 : Los datos de la segunda poblacion.

  Alpha : Probabilidad deseada. Es un valor entre 0 y 1.

  Varianza_Poblacional : Es un valor booleano. True si las varianzas de las poblaciones son conocidas, False
  si son desconocidas pero iguales.

  return.

  Una lista que contiene 4 elementos. El primer elemento es la cota inferior del intervalo de confianza,
  el segundo elemento es la cota superior del intervalo de confianza, el tercer elemento es el intervalo de confianza
  y el cuarto elemento es la conclusion del intervalo de confianza.
  '''
  from scipy.stats import norm,t
  from math import sqrt
  from statistics import mean, variance
  n_1 = len(Data_1)
  n_2 = len(Data_2)
  Media_1 = mean(Data_1)
  Media_2 = mean(Data_2)
  Z = norm.isf(Alpha/2)
  t_v = t.isf(Alpha/2,n_1+n_2-2)
  if Varianza_Poblacional == True:
    Varianza_1 = float(input('Ingresa la varianza de la primer poblacion : '))
    Varianza_2 = float(input('Ingresa la varianza de la segunda poblacion : '))
    Raiz = sqrt( (Varianza_1/n_1) + (Varianza_2/n_2) )
    Izq = (Media_1-Media_2) - Z*Raiz
    Der = (Media_1-Media_2) + Z*Raiz
    if Izq<0 and 0<Der:
      Mensaje = 'Media_1 = Media_2'
    elif Izq<0 and Der<0:
      Mensaje = 'Media_1 < Media_2'
    elif 0<Izq and 0<Der:
      Mensaje = 'Media_1 > Media_2'
    return [Izq,Der,str(Izq)[0:8]+' <M_1 - M_2< '+str(Der)[0:8],Mensaje]
  elif n_1 >= 30 and n_2 >= 30:
    Varianza_1 = variance(Data_1) #VARIANZA MUESTRAL
    Varianza_2 = variance(Data_2) #VARIANZA MUESTRAL
    Raiz = sqrt( (Varianza_1/n_1) + (Varianza_2/n_2) )
    Izq = (Media_1-Media_2) - Z*Raiz
    Der = (Media_1-Media_2) + Z*Raiz
    if Izq<0 and 0<Der:
      Mensaje = 'Media_1 = Media_2'
    elif Izq<0 and Der<0:
      Mensaje = 'Media_1 < Media_2'
    elif 0<Izq and 0<Der:
      Mensaje = 'Media_1 > Media_2'
    return [Izq,Der,str(Izq)[0:8]+' <M_1 - M_2< '+str(Der)[0:8],Mensaje]
  elif Varianza_Poblacional == False and (n_1 <= 29 and n_2 <= 29):
    Varianza_1 = variance(Data_1) #VARIANZA MUESTRAL
    Varianza_2 = variance(Data_2) #VARIANZA MUESTRAL
    S_p = S_p_Function(n_1,n_2,Varianza_1,Varianza_2)
    Raiz = sqrt( (1/n_1) + (1/n_2) )
    Izq = (Media_1-Media_2) - t_v*S_p*Raiz
    Der = (Media_1-Media_2) + t_v*S_p*Raiz
    if Izq<0 and 0<Der:
      Mensaje = 'Media_1 = Media_2'
    elif Izq<0 and Der<0:
      Mensaje = 'Media_1 < Media_2'
    elif 0<Izq and 0<Der:
      Mensaje = 'Media_1 > Media_2'
    return [Izq,Der,str(Izq)[0:8]+' <M_1 - M_2< '+str(Der)[0:8],Mensaje]

**EJEMPLO**

Los datos se obtuvieron en el siguiente video.

https://www.youtube.com/watch?v=aMOINMuUXVc&ab_channel=Estad%C3%ADstica%C3%BAtil


In [9]:
#DATOS
T1 = [76,85,74,78,82,75,82]
T2 = [57,67,55,64,61,63,63]

#INTERVALO DE CONFIANZA
IC_2_Media_Datos_Desconocidos(T1,T2,0.1,False)[2]

'13.45683 <M_1 - M_2< 21.40030'

In [10]:
#CONCLUSION
IC_2_Media_Datos_Desconocidos(T1,T2,0.1,False)[3]

'Media_1 > Media_2'

## Intervalo de confianza para proporciones

Sea $\theta$ el parámetro de la binomial siendo esta nuestra proporción.

Sí $n$ es la muestra total y $x$ es muestra pequeña de $n$ con $x\leq 30$ entonces tenemos que el intervalo de confianza para la proporción $\theta$ es

$$\hat{\theta}\pm z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{\theta}(1-\hat{\theta})}{n}}$$

Donde $\hat{\theta} = \frac{x}{n}$.

Llamamos margen de error a 

$$e = z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{\theta}(1-\hat{\theta})}{n}}$$

Si necesitamos el tamaño de muestra para estimar $\theta$ con un margen de error $e$ e información previa

$$n = \frac{z_{\frac{\alpha}{2}}^2\cdot \hat{\theta}(1-\hat{\theta})}{e^2}$$

Sin información previa

$$n^{'}=\frac{z_{\frac{\alpha}{2}}^2}{4e^2}$$

In [11]:
def IC_1_Proporcion (X,n,Alpha):
  '''
  X : Numero de exitos de la muestra

  n : Longitud de la muestra

  Alpha : Probabilidad deseada. Es un numero entre 0 y 1.
  '''
  from math import sqrt
  from scipy.stats import norm
  Z = norm.isf(Alpha/2)
  Theta = X/n
  Izq = Theta - Z*sqrt( (Theta*(1-Theta))/n )
  Der = Theta + Z*sqrt( (Theta*(1-Theta))/n )
  return [Izq,Der,str(Izq)[0:8]+' <Theta< '+str(Der)[0:8]]

**EJEMPLO**

Ejemplo 11.7 del libro

In [12]:
IC_1_Proporcion(136,400,0.025*2)[2]

'0.293577 <Theta< 0.386422'

## Intervalos de confianza para una diferencia de proporciones

Sí $x_1, x_2$ son variables aleatorias binomiales con parámetros $n_1, \theta_1$ y $n_2,\theta_2$ respectivamente, donde $n_1$ y $n_2$ son mayores o iguales a 30 y $\hat{\theta}_1 = \frac{x_1}{n_1}$, $\hat{\theta}_2 = \frac{x_2}{n_2}$. 

El intervalo de confianza para $\theta_1-\theta_2$ es

$$\left(\hat{\theta}_1 - \hat{\theta}_2 \right)\pm z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{\theta}_1 (1-\hat{\theta}_1)}{n_1} + \frac{\hat{\theta}_2 (1-\hat{\theta}_2)}{n_2}}$$

In [13]:
def IC_2_Proporcion (x_1,n_1,x_2,n_2,Alpha):
  '''
  x_1 : Exitos de la muestra de la poblacion 1

  n_1 : Longitud de la muestra de la poblacion 1

  x_2 : Exitos de la muestra de la poblacion 2

  n_2 : Longitud de la muestra de la poblacion 2

  Alpha : Probabilidad deseada. Es un valor entre 0 y 1
  '''
  from math import sqrt
  from scipy.stats import norm
  Theta_1 = x_1/n_1
  Theta_2 = x_2/n_2
  Z = norm.isf(Alpha/2)
  Raiz = sqrt( ( (Theta_1*(1-Theta_1)) /n_1 ) + ( (Theta_2*(1-Theta_2)) /n_2 ) )
  Izq = (Theta_1 - Theta_2) - Z*Raiz
  Der = (Theta_1 - Theta_2) + Z*Raiz
  if Izq<0 and 0<Der:
    Mensaje = 'Theta_1 = Theta_2'
  elif Izq<0 and Der<0:
    Mensaje = 'Theta_1 < Theta_2'
  elif 0<Izq and 0<Der:
    Mensaje = 'Theta_1 > Theta_2'
  return [Izq,Der,str(Izq)[0:8]+' <Theta_1 - Theta_2< '+str(Der)[0:8],Mensaje]

**EJEMPLO**

Ejemplo 11.9 del libro.

In [14]:
#DATOS
Total_Hombres = 200
Exitos_Hombres = 132
Total_Mujeres = 159
Exitos_Mujeres = 90

#INTERVALO DE CONFIANZA
IC_2_Proporcion(Exitos_Hombres,Total_Hombres,Exitos_Mujeres,Total_Mujeres,0.005*2)[2]

'-0.03905 <Theta_1 - Theta_2< 0.226983'

In [15]:
#CONCLUSION
IC_2_Proporcion(Exitos_Hombres,Total_Hombres,Exitos_Mujeres,Total_Mujeres,0.005*2)[3]

'Theta_1 = Theta_2'

## Intervalo de confianza para varianzas

Sea $n$ una muestra aleatoria de tamaño $n$ de una población normal, el intervalo de confianza de $\sigma^2$ es

$$\frac{(n-1)s^2}{\chi^2_{\frac{\alpha}{2},n-1}} < \sigma^2 < \frac{(n-1)s^2}{\chi^2_{1-\frac{\alpha}{2},n-1}}$$

Si queremos la desviación estandar

$$\sqrt{\frac{(n-1)s^2}{\chi^2_{\frac{\alpha}{2},n-1}}} < \sigma < \sqrt{\frac{(n-1)s^2}{\chi^2_{1-\frac{\alpha}{2},n-1}}}$$

In [16]:
def IC_1_Varianza_Datos_Conocidos (n,s,Alpha):
  '''
  n : Longitud de la muestra aleatoria

  s : Desviacion de la muestra

  Alpha : Probabilidad deseada. Un valor entre 0 y 1.
  '''
  from scipy.stats import chi2
  Chi_Izq = chi2.isf(Alpha/2,n-1)
  Chi_Der = chi2.isf(1-(Alpha/2),n-1)
  Izq = ((n-1)*(s**2))/Chi_Izq
  Der = ((n-1)*(s**2))/Chi_Der
  return [Izq,Der,str(Izq)[0:8]+' <sigma^2< '+str(Der)[0:8]]

**EJEMPLO**

Ejemplo 11.10 del libro

In [17]:
IC_1_Varianza_Datos_Conocidos(16,2.2,0.01)[2]

'2.213325 <sigma^2< 15.77946'

In [18]:
def IC_1_Varianza_Datos_Desconocidos (Data,Alpha):
  '''
  Data : Lista que contiene los datos a analizar.

  Alpha : Probabilidad deseada. Un valor entre 0 y 1.
  '''
  from scipy.stats import chi2
  from statistics import variance
  Varianza = variance(Data)
  n = len(Data)
  Chi_Izq = chi2.isf(Alpha/2,n-1)
  Chi_Der = chi2.isf(1-(Alpha/2),n-1)
  Izq = ((n-1)*Varianza)/Chi_Izq
  Der = ((n-1)*Varianza)/Chi_Der
  return [Izq,Der,str(Izq)[0:8]+' <sigma^2< '+str(Der)[0:8]]

**EJEMPLO**

Los datos se obtuvieron en el siguiente video

https://www.youtube.com/watch?v=Pw66ZHxzAF4

In [19]:
Data = [6.0,6.4,7.0,5.8,6.0,5.8,5.9,6.7,6.1,6.5,6.3,5.8]

IC_1_Varianza_Datos_Desconocidos(Data,0.05)[2]

'0.077060 <sigma^2< 0.442682'

## Intervalo de confianza para razón de dos varianzas

Sean $n_1, n_2$ muestras aleatorias independientes de poblaciones normales, el intervalo de confianza de $\frac{\sigma_1^2}{\sigma_2^2}$ es 

$$\frac{s_1^2}{s_2^2}\cdot \frac{1}{F_{\frac{\alpha}{2},n_1-1,n_2-1}}<\frac{\sigma_1^2}{\sigma_2^2}<F_{\frac{\alpha}{2},n_2-1,n_1-1}$$

Decimos que $\sigma_1^2 = \sigma_2^2$ sí el intervalo de confianza contiene al 1.

In [20]:
def IC_2_Varianza_Datos_Conocidos (n_1,s_1,n_2,s_2,Alpha):
  '''
  n_1 : Longitud de la muestra 1

  s_1 : desviacion de la muestra 1

  n_2 : Longitud de la muestra 2

  s_2 : desviacion de la muestra 2

  Alpha : Probabilidad deseada. Un valor entre 0 y 1
  '''
  from scipy.stats import f
  F_Izq = f.isf(Alpha/2,n_1-1,n_2-1)
  F_Der = f.isf(Alpha/2,n_2-1,n_1-1)
  Div = (s_1/s_2)**2
  Izq = Div*(1/F_Izq)
  Der = Div*F_Der
  if Izq < 1 and 1 < Der:
    Mensaje = 'Las varianzas son iguales'
  else:
    Mensaje = 'No podemos argumentar que las varianzas sean iguales'
  return [Izq,Der,str(Izq)[0:8]+' <(Sigma_1^2)/(Sigma_2^2)< '+str(Der)[0:8],Mensaje]

**EJEMPLO**

Ejemplo 11.11 del libro


In [21]:
#DATOS
n1 = 10
n2 = 8
Desviacion1 = 0.5
Desviacion2 = 0.7

#INTERVALO DE CONFIANZA
IC_2_Varianza_Datos_Conocidos(n1,Desviacion1,n2,Desviacion2,0.02)[2]

'0.075937 <(Sigma_1^2)/(Sigma_2^2)< 2.863706'

In [22]:
#CONCLUSION
IC_2_Varianza_Datos_Conocidos(n1,Desviacion1,n2,Desviacion2,0.02)[3]

'Las varianzas son iguales'

In [23]:
def IC_2_Varianza_Datos_Desconocidos (Data_1,Data_2,Alpha):
  '''
  Data_1 : Lista que contiene los datos de la primer muestra

  Data_2 : Lista que contiene los datos de la segunda muestra

  Alpha : Probabilidad deseada. Un valor entre 0 y 1
  '''
  from scipy.stats import f
  from statistics import stdev
  F_Izq = f.isf(Alpha/2,len(Data_1)-1,len(Data_2)-1)
  F_Der = f.isf(Alpha/2,len(Data_2)-1,len(Data_1)-1)
  Div = (stdev(Data_1)/stdev(Data_2))**2
  Izq = Div*(1/F_Izq)
  Der = Div*F_Der
  if Izq < 1 and 1 < Der:
    Mensaje = 'Las varianzas son iguales'
  else:
    Mensaje = 'No podemos argumentar que las varianzas sean iguales'
  return [Izq,Der,str(Izq)[0:8]+' <(Sigma_1^2)/(Sigma_2^2)< '+str(Der)[0:8],Mensaje]

**EJEMPLO**

Los datos se obtuvieron en el siguiente video

https://www.youtube.com/watch?v=SzXfVJbPh-0


In [24]:
#DATOS
Gasolina = [34,36,39,31,33,26,45,34,39,38,37]
Gas = [33,41,39,32,29,28,33,34,25,28,36,33,35]

#INTERVALO DE CONFIANZA
IC_2_Varianza_Datos_Desconocidos(Gasolina,Gas,0.1)[2]

'0.436251 <(Sigma_1^2)/(Sigma_2^2)< 3.498973'

In [25]:
#CONCLUSION
IC_2_Varianza_Datos_Desconocidos(Gasolina,Gas,0.1)[3]

'Las varianzas son iguales'

#Prueba de hipótesis

##Prueba de hipótesis

A continuación definiremos ciertos conceptos necesarios para la estructura de las siguiente fórmulas.

**Hipótesis estadística**

Es una afirmación acerca de la distribución de una o más variables aleatorias

**Hipótesis simple**

Es una hipótesis estadística que especifica por completo la forma de distribución

**Hipótesis compuesta**

Es una hipótesis estadística que no especifíca por completo la forma de distribución

**Hipótesis nula**

Es la hipótesis que queremos probar, denotada comúnmente como $H_0$

**Hipótesis alternativa**

Es la hipótesis contraria a la nula, denotada comúnmente como $H_1$

**Error tipo 1**

Rechazar la hipótesis nula siendo verdadera, se denota como $\alpha$

**Error tipo 2**

Aceptar la hipótesis nula siendo falsa, denotada como $\beta$

**Prueba de una hipótesis estadística**

Para probar una hipótesis nula contra una alternativa, se utiliza un estadístico de prueba generando una región de rechazo y aceptación para $H_0$

Plantear una hipótesis nula es

$$H_0 : \theta = \theta_0$$

Plantear una hipótesis alternativa es una de las siguientes opciones.

$$H_1 : \theta < \theta_0$$
$$H_1 : \theta > \theta_0$$
$$H_1 : \theta \neq \theta_0$$

##Prueba de hipótesis para una media

Dada una muestra aleatoria de tamaño $n$ tomada de una población normal.

### Prueba $Z$

Condiciones de la prueba $Z$.

|Condición|Descripción|
|--|--|
|1|Población normal y $\sigma^2$ conocida|
|2|Población no normal pero $n\geq 30$|
|3|$\sigma^2$ desconocida pero $n\geq 30$, entonces considere $s = \sigma$|

Prueba $Z$

|Hipótesis Nula ($H_0$)|Hipótesis Alternativa ($H_1$)|Se rechaza $H_0$ sí|Estadístico de prueba|
|--|--|--|--|
|$$H_0 : \mu = \mu_0$$|$$H_1 : \mu > \mu_0$$|$$z\geq z_{\alpha}$$|$$z = \frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}$$|
|$$H_0 : \mu = \mu_0$$|$$H_1 : \mu < \mu_0$$|$$z\leq -z_{\alpha}$$|$$z = \frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}$$|
|$$H_0 : \mu = \mu_0$$|$$H_1 : \mu \neq \mu_0$$|$$|z|\geq z_{\alpha/2}$$|$$z = \frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}$$|

In [26]:
def PH_1_Media_Z (Bar_X,M_0,Sigma,n,Alpha,Var_Pob,H_A):
  '''
  Bar_X : Media de la muestra

  M_0 : Media a comparar

  Sigma : Desviacion de la muestra

  n : Longitud de la muestra

  Alpha : Probabilidad deseada. Un valor entre 0 y 1

  Var_Pob : Un valor booleano. Si es True entonces la varianza poblacional
  es conocida, False en otro caso.

  H_A : Recibe el valor 1, 2 o 3 segun sea el caso de la hipotesis alternativa
  a realizar. Si es 1 entonces la hipotesis alternativa es Mu > Mu_0, si es 2
  entonces la hipotesis alternativa es Mu < Mu_0 y si es 3 entonces la hipotesis
  alternativa es Mu != Mu_0
  '''
  from scipy.stats import norm
  from math import sqrt
  Estadistico_Prueba = (Bar_X - M_0)/(Sigma/sqrt(n))
  if H_A == 1:
    Z = norm.isf(Alpha)
    if Estadistico_Prueba >= Z:
      return [Estadistico_Prueba,Z,'Rechazamos la hipotesis nula']
    else:
      return [Estadistico_Prueba,Z,'No rechazamos la hipotesis nula']
  elif H_A == 2:
    Z = -norm.isf(Alpha)
    if Estadistico_Prueba <= Z:
      return [Estadistico_Prueba,Z,'Rechazamos la hipotesis nula']
    else:
      return [Estadistico_Prueba,Z,'No rechazamos la hipotesis nula']
  elif H_A == 3:
    Z = norm.isf(Alpha/2)
    if abs(Estadistico_Prueba) >= Z:
      return [abs(Estadistico_Prueba),Z,'Rechazamos la hipotesis nula']
    else:
      return [abs(Estadistico_Prueba),Z,'No rechazamos la hipotesis nula']

**EJEMPLO**

Ejemplo 13.2 del libro

In [27]:
PH_1_Media_Z(Bar_X = 21819,M_0 = 22000, Sigma = 1295,n = 100,Alpha = 0.05,Var_Pob = False,H_A = 2)[2]

'No rechazamos la hipotesis nula'

In [28]:
print('Estadistico de prueba',PH_1_Media_Z(Bar_X = 21819,M_0 = 22000, Sigma = 1295,n = 100,Alpha = 0.05,Var_Pob = False,H_A = 2)[0],
      '\nValor de Z',PH_1_Media_Z(Bar_X = 21819,M_0 = 22000, Sigma = 1295,n = 100,Alpha = 0.05,Var_Pob = False,H_A = 2)[1])

Estadistico de prueba -1.3976833976833978 
Valor de Z -1.6448536269514729


### Prueba $t$

Condiciontes de la prueba $t$

|Condicion|Descripción|
|---------|-----------|
|1|Se aplica cuando el tamaño de muestra es menor a 30 y $\sigma^2$ es desconocida|

Prueba $t$

|Hipótesis nula $(H_0)$|Hipótesis alternativa $(H_1)$|Se rechaza $H_0$ sí|Estadístico de prueba|
|--|--|--|--|
|$$H_0 : \mu = \mu_0$$|$$H_1 : \mu > \mu_0$$|$$t\geq t_{\alpha,n-1}$$|$$t = \frac{\bar{x}-\mu_0}{s/\sqrt{n}}$$|
|$$H_0 : \mu = \mu_0$$|$$H_1 : \mu < \mu_0$$|$$t\leq -t_{\alpha,n-1}$$|$$t = \frac{\bar{x}-\mu_0}{s/\sqrt{n}}$$|
|$$H_0 : \mu = \mu_0$$|$$H_1 : \mu \neq \mu_0$$|$$|t|\geq t_{\alpha/2,n-1}$$|$$t = \frac{\bar{x}-\mu_0}{s/\sqrt{n}}$$|

In [29]:
def PH_1_Media_t (Bar_X,M_0,Sigma,n,Alpha,H_A):
  '''
  Bar_X : Media de la muestra

  M_0 : Media a comparar

  Sigma : Desviacion de la muestra

  n : Longitud de la muestra

  Alpha : Probabilidad deseada. Un valor entre 0 y 1

  H_A : Recibe el valor 1, 2 o 3 segun sea el caso de la hipotesis alternativa
  a realizar. Si es 1 entonces la hipotesis alternativa es Mu > Mu_0, si es 2
  entonces la hipotesis alternativa es Mu < Mu_0 y si es 3 entonces la hipotesis
  alternativa es Mu != Mu_0
  '''
  from scipy.stats import t
  from math import sqrt
  Estadistico_Prueba = (Bar_X-M_0)/(Sigma/sqrt(n))
  if H_A == 1:
    t_v = t.isf(Alpha,n-1)
    if Estadistico_Prueba >= t_v:
      return [Estadistico_Prueba,t_v,'Rechazamos la hipotesis nula']
    else:
      return [Estadistico_Prueba,t_v,'No rechazamos la hipotesis nula']
  elif H_A == 2:
    t_v = -t.isf(Alpha,n-1)
    if Estadistico_Prueba <= t_v:
      return [Estadistico_Prueba,t_v,'Rechazamos la hipotesis nula']
    else:
      return [Estadistico_Prueba,t_v,'No rechazamos la hipotesis nula']
  elif H_A == 3:
    t_v = t.isf(Alpha/2,n-1)
    if abs(Estadistico_Prueba) >= t_v:
      return [abs(Estadistico_Prueba),t_v,'Rechazamos la hipotesis nula']
    else:
      return [abs(Estadistico_Prueba),t_v,'No rechazamos la hipotesis nula']

**EJEMPLO**

Los datos se obtuvieron del siguiente video

https://www.youtube.com/watch?v=muHwIBu6s8Y&ab_channel=MaestroGustavo

In [30]:
from statistics import mean,stdev
Datos = [88,82,81,87,80,78,79,89,83,88,79,85,81,77,78,85]

#CONCLUSION
PH_1_Media_t(Bar_X=mean(Datos),M_0=87,Sigma=stdev(Datos),n=len(Datos),Alpha=0.05,H_A=2)[2]

'Rechazamos la hipotesis nula'

In [31]:
#ESTADISTICO DE PRUEBA Y VALOR DE t
print('Estadistico de prueba',PH_1_Media_t(Bar_X=mean(Datos),M_0=87,Sigma=stdev(Datos),n=len(Datos),Alpha=0.05,H_A=2)[0],
      '\nValor de t',PH_1_Media_t(Bar_X=mean(Datos),M_0=87,Sigma=stdev(Datos),n=len(Datos),Alpha=0.05,H_A=2)[1])

Estadistico de prueba -4.4813663795877225 
Valor de t -1.7530503556925552


## Prueba de hipótesis para dos medias

Dadas dos muestras aleatorias independientes de tamaños $n_1$ y $n_2$ tomadas de poblaciones normales con $\sigma_1^2$ y $\sigma_2^2$ conocidas.

### Prueba $Z$

Condiciones para la prueba $Z$

|Condición|Descripción|
|--|--|
|1|Poblaciones normales y $\sigma_1^2,\sigma_2^2$ conocidas|
|2|$$n_1,n_2 \geq 30$$|

Prueba $Z$

|Hipótesis nula $(H_0)$|Hipótesis alternativa $(H_1)$|Se rechaza $H_0$ sí|Estadístico de prueba|
|--|--|--|--|
|$$H_0 : \mu_1 - \mu_2 = \delta$$|$$H_1 : \mu_1 - \mu_2 > \delta$$|$$z\geq z_{\alpha}$$|$$z = \frac{(\bar{x_1}-\bar{x_2})-\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }}$$|
|$$H_0 : \mu_1 - \mu_2 = \delta$$|$$H_1 : \mu_1 - \mu_2 < \delta$$|$$z\leq -z_{\alpha}$$|$$z = \frac{(\bar{x_1}-\bar{x_2})-\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }}$$|
|$$H_0 : \mu_1 - \mu_2 = \delta$$|$$H_1 : \mu_1 - \mu_2 \neq \delta$$|$$|z|\geq z_{\alpha/2}$$|$$z = \frac{(\bar{x_1}-\bar{x_2})-\delta}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }}$$|

Sí deseamos saber si una media es mayor, menor o distinta de otra media hacemos $\delta = 0$

In [32]:
def PH_2_Media_Z (Bar_X_1,Varianza_1,n_1,Bar_X_2,Varianza_2,n_2,Delta,Alpha,H_A):
  '''
  Bar_X_i : Media de la muestra i

  Delta : Valor a comparar

  Varianza_i : Varianza de la muestra i

  n_i : Longitud de la muestra i

  Alpha : Probabilidad deseada. Un valor entre 0 y 1

  H_A : Recibe el valor 1, 2 o 3 segun sea el caso de la hipotesis alternativa
  a realizar. Si es 1 entonces la hipotesis alternativa es Mu_1 > Mu_0, si es 2
  entonces la hipotesis alternativa es Mu_1 < Mu_0 y si es 3 entonces la hipotesis
  alternativa es Mu_1 != Mu_0
  '''
  from scipy.stats import norm
  from math import sqrt
  Estadistico_Prueba = ((Bar_X_1 - Bar_X_2) - Delta)/sqrt((Varianza_1/n_1)+(Varianza_2/n_2))
  if H_A == 1:
    Z = norm.isf(Alpha)
    if Estadistico_Prueba >= Z:
      return [Estadistico_Prueba,Z,'Rechazamos la hipotesis nula']
    else:
      return [Estadistico_Prueba,Z,'No rechazamos la hipotesis nula']
  elif H_A == 2:
    Z = -norm.isf(Alpha)
    if Estadistico_Prueba <= Z:
      return [Estadistico_Prueba,Z,'Rechazamos la hipotesis nula']
    else:
      return [Estadistico_Prueba,Z,'No rechazamos la hipotesis nula']
  elif H_A == 3:
    Z = norm.isf(Alpha/2)
    if abs(Estadistico_Prueba) >= Z:
      return [abs(Estadistico_Prueba),Z,'Rechazamos la hipotesis nula']
    else:
      return [abs(Estadistico_Prueba),Z,'No rechazamos la hipotesis nula']

**EJEMPLO**

Los datos se obtuvieron del siguiente video

https://www.youtube.com/watch?v=8HLhlN1BDjA&ab_channel=MaestroGustavo

In [33]:
Media_Colegio_A = 135
Varianza_Colegio_A = 19**2
n_Colegio_A = 50
Media_Colegio_B = 141
Varianza_Colegio_B = 27**2
n_Colegio_B = 63
Delta = 0
Alpha = 0.05
H_A = 2 #VEREMOS SI LA MEDIA DEL COLEGIO B ES MAYOR A LA DEL COLEGIO A

In [34]:
#CONCLUSION
PH_2_Media_Z(Bar_X_1 = Media_Colegio_A,Varianza_1=Varianza_Colegio_A,
             n_1=n_Colegio_A,Bar_X_2=Media_Colegio_B,
             Varianza_2=Varianza_Colegio_B,n_2=n_Colegio_B,
             Delta=Delta,Alpha=Alpha,H_A=H_A)[2]

'No rechazamos la hipotesis nula'

In [35]:
#ESTADISTICO DE PRUEBA Y VALOR DE Z
print('Estadistico de prueba',PH_2_Media_Z(Bar_X_1 = Media_Colegio_A,Varianza_1=Varianza_Colegio_A,
             n_1=n_Colegio_A,Bar_X_2=Media_Colegio_B,
             Varianza_2=Varianza_Colegio_B,n_2=n_Colegio_B,
             Delta=Delta,Alpha=Alpha,H_A=H_A)[0],'\nValor de Z',PH_2_Media_Z(Bar_X_1 = Media_Colegio_A,Varianza_1=Varianza_Colegio_A,
             n_1=n_Colegio_A,Bar_X_2=Media_Colegio_B,
             Varianza_2=Varianza_Colegio_B,n_2=n_Colegio_B,
             Delta=Delta,Alpha=Alpha,H_A=H_A)[1])

Estadistico de prueba -1.3841123751530606 
Valor de Z -1.6448536269514729


### Prueba $t$

Condiciones para la prueba $t$

|Condición|Descripción|
|--|--|
|1|$n_1,n_2$ son menores o iguales a 29 y $\sigma_1^2,\sigma_2^2$ son desconocidas pero iguales|

Prueba $t$

|Hipótesis nula $(H_0)$|Hipótesis alternativa $(H_1)$|Se rechaza $H_0$ sí|Estadístico de prueba|
|--|--|--|--|
|$$H_0 : \mu_1 - \mu_2 = \delta$$|$$H_1 : \mu_1 - \mu_2 > \delta$$|$$t \geq t_{\alpha,n_1+n_2-2}$$|$$t = \frac{(\bar{x_1}-\bar{x_2})-\delta}{S_p\cdot \sqrt{\frac{1}{n_1} + \frac{1}{n_2} }}$$|
|$$H_0 : \mu_1 - \mu_2 = \delta$$|$$H_1 : \mu_1 - \mu_2 < \delta$$|$$t \leq -t_{\alpha,n_1+n_2-2}$$|$$t = \frac{(\bar{x_1}-\bar{x_2})-\delta}{S_p\cdot \sqrt{\frac{1}{n_1} + \frac{1}{n_2} }}$$|
|$$H_0 : \mu_1 - \mu_2 = \delta$$|$$H_1 : \mu_1 - \mu_2 \neq \delta$$|$$|t| \geq t_{\alpha/2,n_1+n_2-2}$$|$$t = \frac{(\bar{x_1}-\bar{x_2})-\delta}{S_p\cdot \sqrt{\frac{1}{n_1} + \frac{1}{n_2} }}$$|

Donde

$$S_p = \sqrt{\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2} }$$

Sí deseamos saber si una media es mayor, menor o distinta de otra media hacemos $\delta = 0$

In [36]:
#HACEMOS USO DE LA FUNCION ANTERIOR DEFINIDA S_p_Function

def PH_2_Media_t (Bar_X_1,Varianza_1,n_1,Bar_X_2,Varianza_2,n_2,Delta,Alpha,H_A):
  '''
  Bar_X_i : Media de la muestra i

  Delta : Valor a comparar

  Varianza_i : Varianza de la muestra i

  n_i : Longitud de la muestra i

  Alpha : Probabilidad deseada. Un valor entre 0 y 1

  H_A : Recibe el valor 1, 2 o 3 segun sea el caso de la hipotesis alternativa
  a realizar. Si es 1 entonces la hipotesis alternativa es Mu_1 > Mu_0, si es 2
  entonces la hipotesis alternativa es Mu_1 < Mu_0 y si es 3 entonces la hipotesis
  alternativa es Mu_1 != Mu_0
  '''
  from scipy.stats import t
  from math import sqrt
  Estadistico_Prueba = ( (Bar_X_1-Bar_X_2) - Delta ) / (S_p_Function(n_1,n_2,Varianza_1,Varianza_2)*sqrt( (1/n_1)+(1/n_2) ) ) 
  if H_A == 1:
    t_v = t.isf(Alpha,n_1+n_2-2)
    if Estadistico_Prueba >= t_v :
      return [Estadistico_Prueba,t_v,'Rechazamos la hipotesis nula']
    else:
      return [Estadistico_Prueba,t_v,'No rechazamos la hipotesis nula']
  elif H_A == 2:
    t_v = -t.isf(Alpha,n_1+n_2-2)
    if Estadistico_Prueba <= t_v:
      return [Estadistico_Prueba,t_v,'Rechazamos la hipotesis nula']
    else:
      return [Estadistico_Prueba,t_v,'No rechazamos la hipotesis nula']
  elif H_A == 3:
    t_v = t.isf(Alpha/2,n_1+n_2-2)
    if abs(Estadistico_Prueba)>= t_v:
      return [abs(Estadistico_Prueba),t_v,'Rechazamos la hipotesis nula']
    else:
      return [abs(Estadistico_Prueba),t_v,'No rechazamos la hipotesis nula']

**EJEMPLO**

Los datos se obtuvieron del siguiente video

https://www.youtube.com/watch?v=8K7QbatdrIA

In [37]:
from statistics import mean, variance
Mujeres = [12,11,14,13,13,14,13,12,14,12]
Hombres = [13,10,11,12,13,12,10,12]
Mujeres_n = len(Mujeres)
Hombres_n = len(Hombres)
Mujeres_Media  = mean(Mujeres)
Hombres_Media  = mean(Hombres)
Mujeres_Varianza = variance(Mujeres)
Hombres_Varianza = variance(Hombres)
#QUEREMOS PROBAR QUE LA MEDIA DE LAS MUJERES ES MAYOR AL DE LOS HOMBRES

In [38]:
PH_2_Media_t(Bar_X_1=Mujeres_Media,Varianza_1=Mujeres_Varianza,n_1=Mujeres_n,Bar_X_2=Hombres_Media,Varianza_2=Hombres_Varianza,n_2=Hombres_n,Delta=0,Alpha=0.05,H_A = 1)[2]

'Rechazamos la hipotesis nula'

In [39]:
print('Estadistico de prueba',PH_2_Media_t(Bar_X_1=Mujeres_Media,Varianza_1=Mujeres_Varianza,n_1=Mujeres_n,Bar_X_2=Hombres_Media,Varianza_2=Hombres_Varianza,n_2=Hombres_n,Delta=0,Alpha=0.05,H_A = 1)[0],
      '\nValor de t',PH_2_Media_t(Bar_X_1=Mujeres_Media,Varianza_1=Mujeres_Varianza,n_1=Mujeres_n,Bar_X_2=Hombres_Media,Varianza_2=Hombres_Varianza,n_2=Hombres_n,Delta=0,Alpha=0.05,H_A = 1)[1])

Estadistico de prueba 2.2452663402200597 
Valor de t 1.7458836762762404


## Prueba de hipótesis para una varianza

|Hipótesis nula $(H_0)$|Hipótesis alternativa $(H_1)$|Se rechaza $H_0$ sí|Estadístico de prueba|
|--|--|--|--|
|$$H_0 : \sigma^2 = \sigma_0^2$$|$$H_1 : \sigma^2 > \sigma_0^2$$|$$\chi^2 \geq \chi^2_{\alpha,n-1}$$|$$\chi^2 = \frac{(n-1)s^2}{\sigma_0^2}$$|
|$$H_0 : \sigma^2 = \sigma_0^2$$|$$H_1 : \sigma^2 < \sigma_0^2$$|$$\chi^2 \leq \chi^2_{1-\alpha,n-1}$$|$$\chi^2 = \frac{(n-1)s^2}{\sigma_0^2}$$|
|$$H_0 : \sigma^2 = \sigma_0^2$$|$$H_1 : \sigma^2 \neq \sigma_0^2$$|$$\chi^2 \geq \chi^2_{\alpha/2,n-1}$$|$$\chi^2 = \frac{(n-1)s^2}{\sigma_0^2}$$|

In [40]:
def PH_1_Varianza (n,Varianza_0,Varianza,Alpha,H_A):
  '''
  n : Longitud de la muestra

  Varianza_0 : Varianza a comparar.

  Varianza : Valor de la varianza muestral.

  Alpha : Probabilidad deseada. Un valor entre 0 y 1

  H_A : Recibe el valor 1, 2 o 3 segun sea el caso de la hipotesis alternativa
  a realizar. Si es 1 entonces la hipotesis alternativa es Var > Var_0, si es 2
  entonces la hipotesis alternativa es Var < Var_0 y si es 3 entonces la hipotesis
  alternativa es Var != Var_0
  '''
  from scipy.stats import chi2
  Estadistico_Prueba = ((n-1)*Varianza)/Varianza_0
  if H_A == 1:
    Chi_2 = chi2.isf(Alpha,n-1)
    if Estadistico_Prueba >= Chi_2:
      return [Estadistico_Prueba,Chi_2,'Rechazamos la hipotesis nula']
    else:
      return [Estadistico_Prueba,Chi_2,'No rechazamos la hipotesis nula']
  elif H_A == 2:
    Chi_2 = chi2.isf(1-Alpha,n-1)
    if Estadistico_Prueba <= Chi_2:
      return [Estadistico_Prueba,Chi_2,'Rechazamos la hipotesis nula']
    else:
      return [Estadistico_Prueba,Chi_2,'No rechazamos la hipotesis nula']
  elif H_A == 3:
    Chi_2 = chi2.isf(Alpha/2,n-1)
    if Estadistico_Prueba >= Chi_2:
      return [Estadistico_Prueba,Chi_2,'Rechazamos la hipotesis nula']
    else:
      return [Estadistico_Prueba,Chi_2,'No rechazamos la hipotesis nula']

**EJEMPLO**

Los datos se obtuvieron del siguiente video

https://www.youtube.com/watch?v=qrtBrueW_sE

In [41]:
PH_1_Varianza(n = 20,Varianza_0=18,Varianza = 22.63,Alpha = 0.01, H_A = 1)[2]

'No rechazamos la hipotesis nula'

In [42]:
print('Estadistico de prueba',PH_1_Varianza(n = 20,Varianza_0=18,Varianza = 22.63,Alpha = 0.01, H_A = 1)[0],
      '\nValor de Chi^2',PH_1_Varianza(n = 20,Varianza_0=18,Varianza = 22.63,Alpha = 0.01, H_A = 1)[1])

Estadistico de prueba 23.88722222222222 
Valor de Chi^2 36.19086912927005


##Prueba de hipótesis para dos varianzas

Dadas dos muestras aleatorias independientes de tamaño $n_1$ y $n_2$ tomadas de poblaciones normales.

|Hipótesis nula $(H_0)$|Hipótesis alternativa $(H_1)$|Se rechaza $H_0$ sí|
|--|--|--|
|$$H_0 : \sigma_1^2 = \sigma_2^2$$|$$H_1 : \sigma_1^2 > \sigma_2^2$$ | $$\frac{s_1^2}{s_2^2}\geq f_{\alpha,n_1-1,n_2-1}$$|
|$$H_0 : \sigma^2 = \sigma_0^2$$|$$H_1 : \sigma_1^2 < \sigma_2^2$$|$$\frac{s_2^2}{s_1^2}\geq f_{\alpha,n_2-1,n_1-1}$$|
|$$H_0 : \sigma^2 = \sigma_0^2$$|$$H_1 : \sigma^2 \neq \sigma_0^2$$|$$\text{Sí }s_1^2>s_2^2\implies \frac{s_1^2}{s_2^2}\geq f_{\alpha/2,n_1-1,n_2-1}$$ $$ $$$$\text{Sí }s_2^2>s_1^2\implies \frac{s_2^2}{s_1^2}\geq f_{\alpha/2,n_2-1,n_1-1}$$|

In [43]:
def PH_2_Varianza (Varianza_1,n_1,Varianza_2,n_2,Alpha,H_A):
  '''
  Varianza_1 : Varianza de la muestra 1

  n_1 : Longitud de la muestra 1

  Varianza_2 : Varianza de la muestra 2

  n_2 : Longitud de la muestra 2

  Alpha : Probabilidad deseada. Un valor entre 0 y 1

  H_A :  Recibe el valor 1, 2 o 3 segun sea el caso de la hipotesis alternativa
  a realizar. Si es 1 entonces la hipotesis alternativa es Var_1 > Var_2, si es 2
  entonces la hipotesis alternativa es Var_1 < Var_2 y si es 3 entonces la hipotesis
  alternativa es Var_1 != Var_2
  '''
  from scipy.stats import f
  Estadistico_Prueba_1 = Varianza_1/Varianza_2
  Estadistico_Prueba_2 = Varianza_2/Varianza_1
  if H_A == 1:
    f_v = f.isf(Alpha,n_1-1,n_2-1)
    if Estadistico_Prueba_1>=f_v:
      return [Estadistico_Prueba_1,f_v,'Rechazamos la hipotesis nula']
    else:
      return [Estadistico_Prueba_1,f_v,'No rechazamos la hipotesis nula']
  elif H_A == 2:
    f_v = f.isf(Alpha,n_2-1,n_1-1)
    if Estadistico_Prueba_2>=f_v:
      return [Estadistico_Prueba_2,f_v,'Rechazamos la hipotesis nula']
    else:
      return [Estadistico_Prueba_2,f_v,'No rechazamos la hipotesis nula']
  elif H_A == 3:
    if Varianza_1 > Varianza_2:
      f_v = f.isf(Alpha/2,n_1-1,n_2-1)
      if Estadistico_Prueba_1>=f_v:
        return [Estadistico_Prueba_1,f_v,'Rechazamos la hipotesis nula']
      else:
        return [Estadistico_Prueba_1,f_v,'No rechazamos la hipotesis nula']
    elif Varianza_2 > Varianza_1:
      f_v = f.isf(Alpha/2,n_2-1,n_1-1)
      if Estadistico_Prueba_2>=f_v:
        return [Estadistico_Prueba_2,f_v,'Rechazamos la hipotesis nula']
      else:
        return [Estadistico_Prueba_2,f_v,'No rechazamos la hipotesis nula']

**EJEMPLO**

Ejemplo 13.7 del libro

In [44]:
#CONCLUSION
PH_2_Varianza(Varianza_1=19.2,n_1=13,Varianza_2=3.5,n_2=16,Alpha = 0.02,H_A = 3)[2]

'Rechazamos la hipotesis nula'

In [45]:
#ESTADISTICO DE PRUEBA Y VALORD DE F
print('Estadistico de prueba',PH_2_Varianza(Varianza_1=19.2,n_1=13,Varianza_2=3.5,n_2=16,Alpha = 0.02,H_A = 3)[0],
      '\nValor de F',PH_2_Varianza(Varianza_1=19.2,n_1=13,Varianza_2=3.5,n_2=16,Alpha = 0.02,H_A = 3)[1])

Estadistico de prueba 5.485714285714286 
Valor de F 3.6662397836079657


## Pruebas concerniente a proporciones (muestra grande)

Note que

* $n$ es el número de repeticiones del experimento, además $n\geq 30$

* $x$ número de éxitos observados en las $n$ repeticiones

|Hipótesis nula $(H_0)$|Hipótesis alternativa $(H_1)$|Se rechaza $H_0$ sí|Estadístico de prueba|
|--|--|--|--|
|$$H_0 : \theta = \theta_0$$|$$H_1 : \theta > \theta_0$$|$$z\geq z_{\alpha}$$|$$z = \frac{x-n\theta_0}{\sqrt{n\theta_0(1-\theta_0)}}$$|
|$$H_0 : \theta = \theta_0$$|$$H_1 : \theta < \theta_0$$|$$z\leq -z_{\alpha}$$|$$z = \frac{x-n\theta_0}{\sqrt{n\theta_0(1-\theta_0)}}$$|
|$$H_0 : \theta = \theta_0$$|$$H_1 : \theta \neq \theta_0$$|$$|z|\geq z_{\alpha/2}$$|$$z = \frac{x-n\theta_0}{\sqrt{n\theta_0(1-\theta_0)}}$$|

In [46]:
def PH_Proporcion_MG (n,x,Theta_0,Alpha,H_A):
  '''
  n : Numero de repeticiones

  x : Numero de exitos en las n repeticiones

  Theta_0 : Proporcion a comparar

  Alpha : Probabilidad deseada. Un valor entre 0 y 1

  H_A : Recibe el valor 1, 2 o 3 segun sea el caso de la hipotesis alternativa
  a realizar. Si es 1 entonces la hipotesis alternativa es Theta > Theta_0, si es 2
  entonces la hipotesis alternativa es Theta < Theta_0 y si es 3 entonces la hipotesis
  alternativa es Theta != Theta_0
  '''
  from scipy.stats import norm
  from math import sqrt
  Estadistico_Prueba = (x-(n*Theta_0))/sqrt((n*Theta_0)*(1-Theta_0))
  if H_A == 1:
    Z = norm.isf(Alpha)
    if Estadistico_Prueba >= Z:
      return [Estadistico_Prueba,Z,'Rechazamos la hipotesis nula']
    else:
      return [Estadistico_Prueba,Z,'No rechazamos la hipotesis nula']
  elif H_A == 2:
    Z = -norm.isf(Alpha)
    if Estadistico_Prueba <= Z:
      return [Estadistico_Prueba,Z,'Rechazamos la hipotesis nula']
    else:
      return [Estadistico_Prueba,Z,'No rechazamos la hipotesis nula']
  elif H_A == 3:
    Z = norm.isf(Alpha/2)
    if abs(Estadistico_Prueba) >= Z:
      return [abs(Estadistico_Prueba),Z,'Rechazamos la hipotesis nula']
    else:
      return [abs(Estadistico_Prueba),Z,'Rechazamos la hipotesis nula']

**EJEMPLO**

Ejemplo 13.9 del libro

In [47]:
#CONCLUSION
PH_Proporcion_MG(n = 200,x = 22,Theta_0=0.20,Alpha = 0.01,H_A = 2)[2]

'Rechazamos la hipotesis nula'

In [48]:
print('Estadistico de prueba',PH_Proporcion_MG(n = 200,x = 22,Theta_0=0.20,Alpha = 0.01,H_A = 2)[0],
      '\nValor de Z',PH_Proporcion_MG(n = 200,x = 22,Theta_0=0.20,Alpha = 0.01,H_A = 2)[1])

Estadistico de prueba -3.181980515339464 
Valor de Z -2.3263478740408408


#Prueba de bondad y ajuste.

Para realizar la prueba de bondad y ajuste, según desee el investigador, se anexa el siguiente link de la librería Scipy que contiene las pruebas estadísticas y sus diversas variantes.

[Statistical functions][1]

[1]: https://docs.scipy.org/doc/scipy/reference/stats.html

Pondremos de ejemplo algunas distribuciones.

Recordemos que aquí tenemos dos hipótesis

$$H_0 : \text{ El conjunto de datos observados proviene de una distribución dada}$$

$$H_1 : \text{ El conjunto de datos observados proviene de otra distribución}$$

In [49]:
#PROBEMOS SI EL SIGUIENTE CONJUNTO VIENE DE UNA POBLACION Poisson

#LOS DATOS SE OBTUVIERON DEL EJEMPLO 13.12 DEL LIBRO
Data = [18,53,103,107,82,46,18,10,2,1]

## Prueba Kolmogorov-Smirnov

In [50]:
#IMPORTAMOS

from scipy.stats import kstest

Esta función regresa dos cosas:

1. El estadístico Kolmogorov-Smirnov

2. El p-valor

Mediante el p-valor es posible determinar si el conjunto de datos proviene de una distribución o no.

$$\text{Sí p-valor}\geq \alpha\implies \text{ Aceptamos la hipótesis nula}$$

$$\text{Sí p-valor}< \alpha\implies \text{ Rechazamos la hipótesis nula}$$

El primer argumento de la función debe ser los datos a analizar y el segundo el nombre de la distribución, este nombre debe ir acorde a como está escrito en la librería scipy.

In [51]:
#TOMEMOS DATOS DE UNA DISTRIBUCION UNIFORME
from random import uniform

In [52]:
if kstest(list(uniform(0,1) for i in range (100)),'uniform')[1] >= 0.01:
  print('Los datos tienen una distribucion uniforme','\nP-Valor',kstest(list(uniform(0,1) for i in range (100)),'uniform')[1])
else:
  print('Los datos no tienen una distribucion uniforme')

Los datos tienen una distribucion uniforme 
P-Valor 0.9955932636130662


## Prueba de Anderson-Darling

In [53]:
#IMPORTAMOS 

from scipy.stats import anderson

Esta función regresa tres cosas:

1. El estadístico de Anderson-Darling

2. Valores críticos

3. Nivel de significancia

Las distribuciones a comparar disponibles son:

* Normal ('norm')

* Exponencial ('expon')

* Logistica ('logistic')

* Gumbel ('gumbel')

Los valores críticos son

normal/exponenential
15%, 10%, 5%, 2.5%, 1%

logistic
25%, 10%, 5%, 2.5%, 1%, 0.5%

Gumbel
25%, 10%, 5%, 2.5%, 1%

In [54]:
from random import expovariate

In [55]:
#VERIFICAMOS CON LA NORMAL
anderson(list(expovariate(lambd = 1.5) for j in range (10000)),dist='norm')

AndersonResult(statistic=455.1253768743318, critical_values=array([0.576, 0.656, 0.787, 0.918, 1.092]), significance_level=array([15. , 10. ,  5. ,  2.5,  1. ]))

In [56]:
#VERIFICAMOS CON LA EXPONENCIAL
anderson(list(expovariate(lambd = 1.5) for j in range (10000)),dist='expon')

AndersonResult(statistic=1.066828704730142, critical_values=array([0.922, 1.078, 1.341, 1.606, 1.957]), significance_level=array([15. , 10. ,  5. ,  2.5,  1. ]))

# Tablas $r\times c$

El análisis de tablas $r\times c$ se usa para determinar la relación entre dos variables categóricas.

Tenemos de hipótesis

$$H_0 : \text{ Las variables son independientes},i.e, \theta_{ij} = \theta_{i\circ}\cdot \theta_{\circ j}$$

$$H_1 : \text{ Las variables son dependientes},i.e, \theta{ij} \neq \theta_{i\circ}\cdot \theta_{\circ j}$$

Donde el estadístico de prueba es

$$\chi^2 = \sum_{i=1}^r\sum_{j=1}^c\frac{\left(f_{ij}-e_{ij}\right)^2}{e_{ij}}$$

Con $r,c$ el número de filas y columnas respectivamente, $e_{ij}=\frac{f_{i\circ}f_{\circ j}}{f},\forall i,jj$

La región de rechazo es

$$\chi^2 \geq \chi^2_{\alpha,(r-1)(c-1)}$$

Definimos la siguiente notación

1. $f_{ij} :$  frecuencia observada en $ij$

2. $f_{i\circ} :$ frecuencia observada en el i-ésimo renglón

3. $f_{\circ j} :$ frecuencia observada en el j-ésima columna

4. $f :$ frecuencia total

5. $\theta_{ij} :$ Probabilidad del elemento $ij$

6. $\theta_{i\circ} :$ Probabilidad en el i-ésimo renglón

7. $\theta_{\circ j} :$ Probabilidad en el j-ésima columna

Una deficiencia del análisis ji cuadrada de una tabla $r\times c$ es que no toma en consideración un posible orden de los renglones y/o columnas.

In [57]:
def RxC (DF,Alpha):
  '''
  DF : Data Frame que contiene exclusivamente datos numericos no NaN.

  Alpha : Probabilidad deseada. Un valor entre 0 y 1.

  return

  Una lista donde el primer elemento es el estadistico de prueba, el segundo el valor de la chi cuadrada y el tercero la conclusion.
  '''
  from scipy.stats import chi2
  import pandas as pd
  Chi_2 = chi2.isf(Alpha, (len(DF.index)-1)*(len(DF.columns)-1) )
  Frecuencias_io = list(DF.sum(axis=1)) #SUMAMOS CADA FILA Y LA AGREGAMOS A UNA LISTA
  Frecuencias_oj = list(DF.sum(axis=0)) #SUMAMOS CADA COLUMNA Y LO AGREGAMOS A UNA LISTA
  F = sum(list(DF.sum())) #SUMAMOS TODO EL DATA FRAME
  Frecuencias_Esperadas = []
  #CADA F_oj ES MULTIPLICADA POR CADA F_io Y DIVIDIO ENTRE F
  for j in range (len(Frecuencias_oj)):
    Frecuencias_Esperadas.append( list( (Frecuencias_oj[j]*Frecuencias_io[i])/F  for i in range (len(Frecuencias_io))) ) 
  Dic = {}
  for k in range (len(Frecuencias_Esperadas)):
    Dic[k] = Frecuencias_Esperadas[k]
  #DF CON LAS FRECUENCIAS ESPERADAS
  DF_Frecuencias_Esperadas = pd.DataFrame(Dic)
  E_P=[]
  for j2 in range (len(DF.columns)):
    E_P.append( list( (DF.iloc[:,j2][i2]-DF_Frecuencias_Esperadas.iloc[:,j2][i2])**2/DF_Frecuencias_Esperadas.iloc[:,j2][i2] for i2 in range (len(DF.index)) ) )
  #LA VARIABLE Estadistico_Prueba CONTIENE SUMAS PARCIALES DEL ESTADISTICO DE PRUEBA
  Estadistico_Prueba = list( sum(E_P[i3]) for i3 in range (len(E_P)))
  if sum(Estadistico_Prueba) >= Chi_2:
    return [sum(Estadistico_Prueba),Chi_2,'Rechazamos la hipotesis nula']
  else:
    return [sum(Estadistico_Prueba),Chi_2,'No rechazamos la hipotesis nula']

**EJEMPLO**

Ejemplo 13.11 del libro

In [59]:
import pandas as pd
Tabla = pd.DataFrame({'Baja':[63,58,14],'Promedio':[42,61,47],'Alta':[15,31,29]}, index = ['Bajo','Promedio','Alto'])
Tabla

Unnamed: 0,Baja,Promedio,Alta
Bajo,63,42,15
Promedio,58,61,31
Alto,14,47,29


In [61]:
#CONCLUSION
RxC(Tabla,0.01)[2]

'Rechazamos la hipotesis nula'

In [63]:
#ESTADISTICO DE PRUEBA Y VALOR DE CHI2
print('Estadistico de prueba',RxC(Tabla,0.01)[0],'\nValor de Chi^2',RxC(Tabla,0.01)[1])

Estadistico de prueba 32.13985185185185 
Valor de Chi^2 13.276704135987625
