<a href="https://colab.research.google.com/github/fzambran/EstadisticasCienciaDeDatos/blob/main/est_ds_python_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Estadística Inferencial II

**Estadísticas para la Ciencia de Datos con Python**</br>
**Escuela de Informática y Telecomunicaciones**</br>
**Duoc UC**

---

Uno de los desafíos importantes del Científico de Datos, es utilizar las herramientas estadísticas de manera correcta, y para ello es necesario conocer las distribuciones de probabilidad y sus propiedades. En esta sesión veremos las distribuciones más utilizadas en el análisis de datos, y cómo utilizarlas para realizar test de hipótesis.

De momento hemos visto las distribuciones T de Student y Normal, y cómo utilizarlas para realizar test de hipótesis. En esta sesión veremos nuevas distribuciones, con el fin de incorporar nuevos test de hipótesis a nuestro repertorio.

### Distribución Bernoulli

* La distribución Bernoulli es una distribución de probabilidad **discreta** (su dominio es 0 o 1).
* Tiene un único parámetro $p$, que es la probabilidad de éxito.
* Un experimento de Bernoulli se caracteriza por ser dicotómico, esto es, sólo son posibles dos resultados. A uno de estos se denomina éxito y tiene una probabilidad de ocurrencia $p$, y al otro, fracaso, con una probabilidad $q = 1 - p$, de ocurrencia.
* Se utiliza la función `bernoulli.pmf(k, p)` de `scipy.stats` para generar una distribución Bernoulli.
* El ejemplo clásiico de Bernoulli es el lanzamiento de una moneda, donde el resultado puede ser cara o sello.

In [None]:
from scipy.stats import bernoulli

# ME SALE CARA : 1
# NO SALE CARA : 0

bernoulli.pmf(k=1, p=0.5)

0.5

### Distribución Binomial

* La distribución Binomial es una distribución de probabilidad **discreta** (su dominio son los números naturales) que cuenta el número de éxitos en una secuencia de $n$ ensayos de Bernoulli independientes entre sí, con una probabilidad fija $p$ de ocurrencia del éxito entre los ensayos.
* En la distribución binomial el anterior experimento se repite $n$ veces, de forma independiente. En otras palabras:
    * El experimento consiste en $n$ repeticiones del mismo proceso.
    * Cada repetición del experimento sólo puede tener dos resultados posibles, que denominaremos éxito y fracaso.
    * La probabilidad de éxito, $p$, es constante en todas las repeticiones del experimento.
    * Las repeticiones del experimento son independientes entre sí, es decir, el resultado de una repetición no influye en los resultados de las otras.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import binom
import ipywidgets as widgets

# Función para graficar la distribución binomial
def plot_binomial_distribution(n, p):
    x = np.arange(0, n + 1)
    y = binom.pmf(x, n, p)

    plt.bar(x, y)
    plt.title(f'Distribución Binomial (n={n}, p={p})')
    plt.xlabel('Número de Éxitos')
    plt.ylabel('Probabilidad')
    plt.show()

# Crear controles interactivos
n_slider = widgets.IntSlider(value=10, min=1, max=50, step=1, description='n:')
p_slider = widgets.FloatSlider(value=0.5, min=0, max=1, step=0.05, description='p:')

# Crear widget interactivo
interactive_plot = widgets.interactive(plot_binomial_distribution, n=n_slider, p=p_slider)

# Mostrar widget interactivo
display(interactive_plot)


interactive(children=(IntSlider(value=10, description='n:', max=50, min=1), FloatSlider(value=0.5, description…

* Se utiliza la función `binom.pmf(k, n, p)` del módulo `stats` de `scipy` para calcular la probabilidad de que ocurran $k$ éxitos en $n$ ensayos, con una probabilidad de éxito $p$.
* `pmf`: Probability Mass Function (Función de Masa de Probabilidad).
* Por ejemplo, si lanzamos una moneda 10 veces, y queremos saber la probabilidad de que salga cara 3 veces, podemos utilizar la distribución binomial para calcular dicha probabilidad. En este caso, $n = 10$, $p = 0.5$ y $k = 3$.

In [None]:
binom.pmf(k=3, n=10, p=0.5)


0.1171875

* Y si quisieramos saber la probabilidad de que salga cara 3 o menos veces, podemos utilizar la función `binom.cdf(k, n, p)`. En este caso, $n = 10$, $p = 0.5$ y $k = 3$.
* `cdf`: Cumulative Distribution Function (Función de Distribución Acumulada).

In [None]:
binom.cdf(k=3, n=10, p=0.5)

0.171875

Recordar que al ser una distribución de probabilida discreta, se puede obtener la probabilidad puntual de que ocurra un evento. A diferencia de las distribuciones continuas: al ser infinitos los valores posibles, la probabilidad puntual es cero, por lo que se utiliza la nocion de densidad en estos casos.

### Distribución Poisson

* La distribución de Poisson es una distribución de probabilidad **discreta** (su dominio son los números naturales) que expresa, a partir de una frecuencia de ocurrencia media, la probabilidad de que ocurra un determinado número de eventos durante cierto período de tiempo.
* La distribución de Poisson se aplica a aquellos procesos en los que se dan un número de eventos por unidad de tiempo.



In [None]:
from scipy.stats import poisson

# Función para graficar la distribución Poisson
def plot_poisson_distribution(lmbda):
    x = np.arange(0, 21)
    y = poisson.pmf(x, lmbda)

    plt.bar(x, y)
    plt.title(f'Distribución Poisson (λ={lmbda:0.2f})')
    plt.xlabel('Número de Eventos')
    plt.ylabel('Probabilidad')
    plt.show()

# Crear control interactivo
lmbda_slider = widgets.FloatSlider(value=2, min=0.1, max=20, step=0.1, description='λ:')

# Crear widget interactivo
interactive_plot = widgets.interactive(plot_poisson_distribution, lmbda=lmbda_slider)

# Mostrar widget interactivo
display(interactive_plot)


interactive(children=(FloatSlider(value=2.0, description='λ:', max=20.0, min=0.1), Output()), _dom_classes=('w…

* Se utiliza la función `poisson.pmf(k, mu)` del módulo `stats` de `scipy` para calcular la probabilidad de que ocurran $k$ eventos en un período de tiempo, con una frecuencia de ocurrencia media $\mu$.
* Por ejemplo, si en promedio se producen 2 accidentes de tránsito por día, ¿cuál es la probabilidad de que ocurran 3 accidentes de tránsito en un día? En este caso, $\mu = 2$ y $k = 3$.

In [None]:
poisson.pmf(k=3, mu=2)

0.18044704431548358

* ¿Y cuál es la probabilidad de que ocurran 4 accidentes o más en un día?


$$
P(X\geq4)=1-P(X\leq 3)
$$

In [None]:
1 - poisson.cdf(k=3, mu=2)

0.14287653950145296

### Distribución Exponencial

* La distribución exponencial es una distribución de probabilidad **continua** (su dominio son los números reales positivos con el 0) que describe la ocurrencia de tiempos entre eventos en un proceso de Poisson, es decir, un proceso en el que los eventos ocurren continuamente e independientemente a una tasa promedio.
* Cuenta con un parámetro $\lambda$ que representa la tasa promedio de ocurrencia de los eventos.
* Notar que a diferencia de las distribuciones anteriores, la distribución exponencial es una distribución continua, por lo que la probabilidad puntual de que ocurra un evento es cero. En este caso, se utiliza la noción de densidad de probabilidad.
* En el ejemplo de los accidentes, la distribución exponencial describe el tiempo entre accidentes, pero no el número de accidentes en un período de tiempo.

In [None]:
from scipy.stats import expon

# Función para graficar la distribución exponencial
def plot_exponential_distribution(rate):
    x = np.linspace(0, 10, 1000)
    y = expon.pdf(x, scale=1/rate)

    plt.plot(x, y)
    plt.title(f'Distribución Exponencial (Tasa Promedio = {rate:0.2})')
    plt.xlabel('Valor')
    plt.ylabel('Densidad de Probabilidad')
    plt.show()

# Crear control interactivo
rate_slider = widgets.FloatSlider(value=1, min=0.1, max=5, step=0.1, description='Tasa Promedio:')

# Crear widget interactivo
interactive_plot = widgets.interactive(plot_exponential_distribution, rate=rate_slider)

# Mostrar widget interactivo
display(interactive_plot)

interactive(children=(FloatSlider(value=1.0, description='Tasa Promedio:', max=5.0, min=0.1), Output()), _dom_…

* Se utiliza la función `expon.cdf(x, scale=1/mu)` del módulo `stats` de `scipy` para calcular la probabilidad de que ocurra un evento en un período de tiempo, con una frecuencia de ocurrencia media $\mu$.
* Veamos un ejemplo de uso de la distribución exponencial, siguiendo con el ejemplo de los accidentes, si en promedio se producen 3 accidentes de tránsito por día, ¿cuál es la probabilidad de que ocurra un accidente de tránsito en las próximas 2 horas? En este caso, $\mu = 3$ y $x = 2/24$.

In [None]:
expon.cdf(x=2/24, scale=1/3)

0.22119921692859515

Podemos calcular el valor de densidad de probabilidad para un valor de $x$ utilizando la función `expon.pdf(x, scale=1/mu)`. Sin embargo, recordar que este valor no representa la probabilidad puntual de que ocurra un evento, ya que la distribución exponencial es una distribución continua.

### Distribución Chi-cuadrado

* La distribución Chi-cuadrado $\chi^2$ es una distribución de probabilidad **continua** (su dominio son los números reales positivos) que se utiliza en estadística para diferentes propósitos, como por ejemplo, para contrastar la independencia entre variables, o para contrastar la bondad de ajuste de un modelo.
* Cuenta con un parámetro $\nu$ que representa los grados de libertad de la distribución.
* Existe una conexión interesante con la distribución normal: si $X_1, X_2, \ldots, X_n$ son variables aleatorias independientes e idénticamente distribuidas con distribución normal estándar, entonces la variable aleatoria $\chi^2$ con $n$ grados de libertad definida por:

$$\chi^2_n = X_1^2 + X_2^2 + \ldots + X_n^2$$

In [None]:
from scipy.stats import chi2
import ipywidgets as widgets
from IPython.display import display

# Función para graficar la distribución Chi-cuadrado
def plot_chi_square_distribution(df):
    x = np.linspace(0, 20, 1000)
    y = chi2.pdf(x, df)

    plt.plot(x, y)
    plt.title(f'Distribución Chi-cuadrado (df={df:0.2f})')
    plt.xlabel('Valor')
    plt.ylabel('Densidad de Probabilidad')
    plt.show()

# Crear control interactivo
df_slider = widgets.FloatSlider(value=2, min=1, max=20, step=0.1, description='Grados de Libertad:')

# Crear widget interactivo
interactive_plot = widgets.interactive(plot_chi_square_distribution, df=df_slider)

# Mostrar widget interactivo
display(interactive_plot)

interactive(children=(FloatSlider(value=2.0, description='Grados de Libertad:', max=20.0, min=1.0), Output()),…

### Test Chi-cuadrado de Independencia

$$
X^2 = \sum_{i=1}^k \frac{(O_i - E_i)^2}{E_i}
$$

* El test de Chi-cuadrado es un test de hipótesis que se utiliza para contrastar la independencia entre variables categóricas, o para contrastar la bondad de ajuste de un modelo.
* El test de Chi-cuadrado se basa en la distribución Chi-cuadrado, y cuenta con un parámetro $\nu$ que representa los grados de libertad de la distribución.
* Para un ejemplo de uso, carguemos la base de datos que utilizamos la clase anterior.

In [None]:
!mkdir data
!wget https://raw.githubusercontent.com/estebanrucan/bases-de-datos/main/StudentsPerformance.csv
!mv StudentsPerformance.csv data/

--2023-10-18 23:39:23--  https://raw.githubusercontent.com/estebanrucan/bases-de-datos/main/StudentsPerformance.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.111.133, 185.199.110.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.111.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 72036 (70K) [text/plain]
Saving to: ‘StudentsPerformance.csv’


2023-10-18 23:39:24 (2.69 MB/s) - ‘StudentsPerformance.csv’ saved [72036/72036]



In [None]:
import pandas as pd

data = pd.read_csv("./data/StudentsPerformance.csv")
data_muestra = data.sample(n=100, random_state=2023)
data_muestra.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
847,male,group D,high school,standard,none,64,54,50
874,female,group C,bachelor's degree,free/reduced,none,43,62,61
471,female,group C,high school,standard,none,63,69,74
476,male,group E,bachelor's degree,standard,completed,76,62,66
764,male,group D,some college,standard,none,60,63,59


Supongamos que nos interesa estudiar si existe un efecto en la cantidad de becados según el género. Tomemos una muestra aleatoria de 100 estudiantes y realicemos una tabla de contingencia entre ambas variables.

In [None]:
pd.crosstab(data_muestra["gender"], data_muestra["lunch"])

lunch,free/reduced,standard
gender,Unnamed: 1_level_1,Unnamed: 2_level_1
female,16,28
male,15,41


* Para ello, se puede utilizar el test de Chi-cuadrado, que tiene las siguientes hipótesis:
$$
H_0: \text{No existe una relación entre las variables de estudio}\\
H_1: \text{Si existe una relación entre las variables de estudio}
$$
* Para realizar el test de Chi-cuadrado, podemos utilizar la función `chisq_test()` del módulo `testing` de ESTYP.



In [None]:
#%pip install estyp

Collecting estyp
  Downloading estyp-0.9.3-py3-none-any.whl (34 kB)
Collecting scikit-learn>=1.3.0 (from estyp)
  Downloading scikit_learn-1.3.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (10.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m10.8/10.8 MB[0m [31m64.0 MB/s[0m eta [36m0:00:00[0m
Collecting kmodes>=0.12.2 (from estyp)
  Downloading kmodes-0.12.2-py2.py3-none-any.whl (20 kB)
Installing collected packages: scikit-learn, kmodes, estyp
  Attempting uninstall: scikit-learn
    Found existing installation: scikit-learn 1.2.2
    Uninstalling scikit-learn-1.2.2:
      Successfully uninstalled scikit-learn-1.2.2
Successfully installed estyp-0.9.3 kmodes-0.12.2 scikit-learn-1.3.1


In [None]:
from estyp.testing import chisq_test

chisq_test(x=data_muestra["gender"], y=data_muestra["lunch"])


    [1m[4mPearson's Chi-squared test with Yates' continuity correction[0m
    X-squared = 0.6564 | df = 1 | p-value = 0.4178
    alternative hypothesis: true frequencies are not equal to expected frequencies

En este caso el valor-p es mayor a 0.05, lo que quiere decir que hay una concordancia entre $H_0$ y los datos, por lo que no se rechaza $H_0$. En otras palabras, hay evidencia estadística hacia que no existiría una relación entre las variables.

### Test de Proporciones

$$
Z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(
    1-p_0)}{n}}}
$$

* El test de proporciones es un test de hipótesis que se utiliza para contrastar si la proporción de una población es igual a un valor específico.
* El test de proporciones se basa en las propiedades de la distribución binomial, y cuenta con un parámetro $p$ que representa la proporción de la población.
* Las hipótesis del test en el caso en que se estudia desigualdad de la proporción es:
$$
H_0: \text{La proporción de la población es igual a $p_0$}\\
H_1: \text{La proporción de la población es distinta a $p_0$}
$$
Y es análogo para los casos en que se estudia si la proporción es mayor o menor a un valor específico.

* El estadístico de Hipótesis $Z$ sigue una distribución normal estándar (media 0 y varianza 1). Sin embargo, para el cálculo del valor-p, se utiliza una propiedad que conecta la distribución Chi-cuadrado con la distribución normal.
* Por ejemplo, estudiemos si la proporción de estudiantes que aprobaron el examen de matemáticas es mayor a 0.5. Para ello, se puede utilizar la función `prop_test()` del módulo `testing` de ESTYP.

In [None]:
from estyp.testing import prop_test

aprueba = data_muestra["math score"] >= 60
cantidad_aprobados = aprueba.value_counts()
print(cantidad_aprobados)

# H_0: prop <= 0.5
# H_1: prop > 0.5

prop_test(cantidad_aprobados, p=0.5, alternative="greater")

True     70
False    30
Name: math score, dtype: int64



    [1m[4m1-sample test for equality of proportions with continuity correction[0m
    X-squared = 15.2100 | df = 1 | p-value = <0.0001
    alternative hypothesis: the true proportion is greater than 0.5000
    95 percent confidence interval:
     0.614961 1.000000
    sample estimates:
      proportion(s): 0.700000
    

En este caso, hay una discordancia entre los datos y $H_0$, por lo que se rechaza $H_0$. En otras palabras, hay evidencia estadística hacia que la proporción de estudiantes que aprobaron el examen de matemáticas es mayor a 50%.

### Distribución F de Fisher

* La distribución F de Fisher es una distribución de probabilidad **continua** (su dominio son los reales positivos).
* Se utiliza para contrastar la igualdad de varianzas de dos poblaciones normales.
* Cuenta con dos parámetros $\nu_1$ y $\nu_2$ que representan los grados de libertad de la distribución.
* Existe una conexión interesante con la distribución Chi-cuadrado: si $X_1$ y $X_2$ son variables aleatorias independientes con distribución Chi-cuadrado con $\nu_1$ y $\nu_2$ grados de libertad, respectivamente, entonces la variable aleatoria $F$ con $\nu_1$ y $\nu_2$ grados de libertad definida por:

$$
F = \frac{X_1/\nu_1}{X_2/\nu_2}
$$

In [None]:
from scipy.stats import f

# Función para graficar la distribución F de Fisher
def plot_fisher_distribution(df1, df2):
    x = np.linspace(0, 5, 1000)
    y = f.pdf(x, df1, df2)

    plt.plot(x, y)
    plt.title(f'Distribución F de Fisher (df1={df1:0.2f}, df2={df2:0.2f})')
    plt.xlabel('Valor')
    plt.ylabel('Densidad de Probabilidad')
    plt.show()

# Crear controles interactivos
df1_slider = widgets.FloatSlider(value=2, min=1, max=10, step=0.1, description='Grados de Libertad (df1):')
df2_slider = widgets.FloatSlider(value=2, min=1, max=10, step=0.1, description='Grados de Libertad (df2):')

# Crear widget interactivo
interactive_plot = widgets.interactive(plot_fisher_distribution, df1=df1_slider, df2=df2_slider)

# Mostrar widget interactivo
display(interactive_plot)

interactive(children=(FloatSlider(value=2.0, description='Grados de Libertad (df1):', max=10.0, min=1.0), Floa…

### Test F de Fisher

$$
F = \frac{S_1^2}{S_2^2}
$$
donde $S_1^2$ y $S_2^2$ son las varianzas muestrales de las poblaciones 1 y 2, respectivamente.

* El test F de Fisher es un test de hipótesis que se utiliza para contrastar si las varianzas de dos poblaciones son iguales.
* Se basa en la distribución F de Fisher, y cuenta con dos parámetros $\nu_1$ y $\nu_2$ que representan los grados de libertad de la distribución. Dependen de la cantidad de observaciones de cada muestra.
* Las hipótesis del test son:
$$
H_0: \text{Las varianzas de las poblaciones son iguales}\\
H_1: \text{Las varianzas de las poblaciones son distintas}
$$

Como ejemplo, estudiemos si la variabilidad de las notas de matemáticas es igual a la variabilidad de las notas de lectura. Para ello, se puede utilizar la función `var_test()` del módulo `testing` de ESTYP.

In [None]:
from estyp.testing import var_test

var_test(x=data_muestra["math score"], y=data_muestra["reading score"])


    [1m[4mF test to compare two variances[0m
    F = 1.1366 | df = {'x': 149, 'y': 149} | p-value = 0.4355
    alternative hypothesis: true ratio of variances is not equal to 1
    95 percent confidence interval:
     0.823382 1.568931
    sample estimates:
      ratio of variances: 1.136586
    

En este caso, hay una concordancia entre los datos y $H_0$, por lo que no se rechaza $H_0$. En otras palabras, hay evidencia estadística hacia que la variabilidad de las notas de matemáticas es igual a la variabilidad de las notas de lectura.

También podemos estudiar si la variabilidad de los puntajes de lectura es menor a la variabilidad de los puntajes de escritura.


In [None]:
var_test(x=data_muestra['reading score'], y=data_muestra['writing score'], alternative='less')
# H_0: var x >= var y
# H_1: var x < var y


    [1m[4mF test to compare two variances[0m
    F = 0.8639 | df = {'x': 149, 'y': 149} | p-value = 0.1864
    alternative hypothesis: true ratio of variances is less than 1
    95 percent confidence interval:
     0.000000 1.132071
    sample estimates:
      ratio of variances: 0.863884
    

En este caso, el valor-p es mayor a 0.05, por lo que hay una concordancia entre los datos y $H_0$, por lo que no se rechaza $H_0$. En otras palabras, hay evidencia estadística hacia que la variabilidad de los puntajes de lectura es mayor o igual a la variabilidad de los puntajes de escritura.

### Test de Kolmogorov-Smirnov

* El test de Kolmogorov-Smirnov es un test de hipótesis que se utiliza para contrastar si dos muestras provienen de la misma distribución.
* Lo que hace es comparar la función de distribución empírica de las muestras con la función de distribución teórica de la distribución que se está contrastando.
* También se puede reemplazar una de las muestras por una distribución teórica, y contrastar si la otra muestra proviene de dicha distribución. Esto es útil para contrastar si una muestra proviene de una distribución normal, por ejemplo.
* Las hipótesis del test son:

$$
H_0: \text{Las muestras provienen de la misma distribución.} \\
H_1: \text{Las muestras provienen de distribuciones distintas.}
$$

* En Python, se puede utilizar la función `ks_1samp()` del módulo `stats` de `scipy` para realizar el test de Kolmogorov-Smirnov entre una muestra y una distribución teórica.

In [None]:
from scipy.stats import ks_1samp
from scipy.stats import norm

# H_0: la muestra proviene desde la distribución
# H_1: la muestra no proviene desde la distribución

ks_1samp(data_muestra["math score"], norm.cdf)

KstestResult(statistic=1.0, pvalue=0.0, statistic_location=24, statistic_sign=-1)

El valor-p de este test es menor a 0.05, por lo que hay una discordancia entre los datos y $H_0$, por lo que se rechaza $H_0$. En otras palabras, hay evidencia estadística hacia que la muestra no proviene de una distribución normal.

La próxima clase, veremos el modelo estadístico de regresión lineal, y cómo utilizarlo para realizar inferencia estadística.

### Ejercicios de Práctica

Utilice las distribuciones de probabilidad y test de hipótesis para resolver los siguientes ejercicios. Trabaje con un nivel de significancia de 0.05 si corresponde.

**1.** La información respecto al proceso de vacunación muestra niveles altos de adherencia en Chile. Sin embargo, en países europeos han tenido problemas dado el alto nivel de rechazo a vacunarse. Datos muestran que en Francia el 55 % de los adultos mayores de residencias geriatricas han rechazado vacunarse. Suponga que un TENS ("vacunador") concurre a una residencia geriatrica en Francia, donde residen 35 adultos mayores, con solo 12 dosis.

Suponiendo que cada adulto mayor decide vacunarse o no de manera independiente. ¿Cuál es la probabilidad de que todos los adultos mayores que deseen vacunarse puedan hacerlo?.

In [None]:
# Responda aquí


**2.** En un supermercado, llegan en promedio 100 clientes por hora, cálcule:
* ¿Cuál es la probabilidad de que lleguen 110 clientes en una hora?
* ¿Cuál es la probabilidad de que lleguen menos de 90 clientes en una hora?
* ¿Cuál es la probabilidad de que lleguen entre 90 y 110 clientes en una hora?

In [None]:
# Responda aquí


**3.** Considerando el supermercado anterior, ¿Cuál es la probabilidad de que llege un cliente en 30 segundos?

In [None]:
# Responda aquí


**4.** Considere la base de datos `ENS_reducida.xlsx` con los resultados de la Encuesta de Salud Aplicada el año 2018. Construya una tabla de contingencia entre ambas variables y luego realice un test de hipótesis para estudiar si existe asociación entre el nivel de educación y ser fumador.

In [None]:
# Responda aquí


**5.** Los resultados de la encuesta a nivel poblacional el año 2015 indicaron que el 20% de las personas practicaba al menos un deporte. Estudie si el total de personas que practican al menos un deporte ha aumentado en 2018.

In [None]:
# Responda aquí


**6.** Estudie si la variabilidad de la presión sistólica en fumadores es menor a la variabilidad de la presión sistólica en no fumadores.

In [None]:
# Responda aquí
