<a href="https://colab.research.google.com/github/sithneyus/lightsable/blob/master/Estad%C3%ADstica%20Descriptiva.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Teoría muestral (Inferencia estadística).

La inferencia estadıstica es el proceso de deducir las propiedades de una poblacion a partir de muestras.

La inferencia estadıstica se divide en:

- **Estimación** que se enfoca en estimar los valores especıficos correspondientes a los parametros de una poblacion. Es decir, se busca calcular los valores de los parametros. 

## Estimación.

- Una **muestra aleatoria** es una selección de algunos miembros de la población tal que cada miembro es independientemente elegido y tiene una probabilidad conocida no nula de ser elegido. 

- Una **muestra aleatoria simple** es una muestra aleatoria en la cual cada miembro del grupo tiene
la misma probabilidad de ser elegido.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
with open('datosInicial.txt') as f:
    x=[]
    for line in f: 
        x.append(float(line))

En la lista x tenemos a nuestra población objetivo, ahora obtendremos tres muestras aleatorias usando la función random.choice() de numpy. 

In [None]:
m1=np.random.choice(x,50)
m2=np.random.choice(x,50)
m3=np.random.choice(x,50)

In [None]:
plt.plot(m1)
plt.plot(m2)
plt.plot(m3)

In [None]:
plt.hist(m1)

In [None]:
plt.hist(m2)

In [None]:
plt.hist(m3)

Estas muestras son muestras aleatorias simples, es decir cada elemento de x tiene la misma probabilidad de ser elegido.

Una ***estadística*** es la cantidad, correspondiente a un parámetro, obtenida de una muestra.

Ahora veamos cuales son las estadísticas de nuestras muestras, es decir la media y desviación estándar de cada muestra.

In [None]:
print(np.mean(m1),np.std(m1,ddof=1),'\n',np.mean(m2),np.std(m2,ddof=1),'\n',np.mean(m3),np.std(m3,ddof=1))

In [None]:
plt.figure(figsize=(12,7))#ancho,alto
sns.boxplot(x=None, data=m1, orient="h")

In [None]:
plt.figure(figsize=(12,7))#ancho,alto
sns.boxplot(x=None, data=m2, orient="h")

In [None]:
plt.figure(figsize=(12,7))#ancho,alto
sns.boxplot(x=None, data=m3, orient="h")

Ahora veamos cómo cambian estás estimaciones si modificamos la probabilidad de las muestras aleatorias, esto es si no son muestras aleatorias simples. 

Para esto necesitamos asignar una probabilidad a cada elemento de x. Supongamos que nos interesa asignarles una probabilidad gaussiana, entonces debemos usar la función de probabilidad de la distribución normal para obtener las probabilidades de los elementos de x.

$f(x,\mu,\sigma)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$.

Veamos como se crea una lista con números aleatorios normalmente distribuidos.

In [None]:
g=np.random.normal(0, 0.5, size=10000)

Ahora su histograma.

In [None]:
plt.hist(g,bins=50)

Una distribución relacionada a la normal, pero que es diferente en su tipo, es la distribución binomial. 

Veamos cómo se ve el histograma de una distribución binomial.

In [None]:
binom = np.random.binomial(500, 0.5, size=10000)

In [None]:
plt.hist(binom,bins=50)

Ahora podemos usar alguna de estas distribuciones para crear muestras aleatorias que no sean simples. 

A continuación usaremos la distribución normal. Para lo cual vamos a definir la media y la varianza de nuestra distribución normal o gaussiana.

In [None]:
med=0.0
varianza=1.0

In [None]:
p=[]
denom=np.sqrt(2.0*np.pi*varianza)
d=(2.0*varianza)
for i in range(len(x)):
    f=np.exp(-float(x[i]-med)**2/d)/denom
    p.append(f)

Ahora p es una lista que contiene las probabilidades asignadas por una gaussiana de media 0 y varianza 1.

In [None]:
len(p)

Documentación [random.choice()](https://het.as.utexas.edu/HET/Software/Numpy/reference/generated/numpy.random.choice.html)

Ahora se puede usar p para crear muestras aleatorias tales que la probabilidad de elegir un elemento de la población es normal.

In [None]:
s1=np.random.choice(x,50,p)
s2=np.random.choice(x,50,p)
s3=np.random.choice(x,50,p)

In [None]:
len(s1)

In [None]:
plt.hist(s1)

In [None]:
plt.hist(s2)

In [None]:
plt.hist(s3)

In [None]:
print(np.mean(s1),np.std(s1,ddof=1),'\n',np.mean(s2),np.std(s2,ddof=1),'\n',np.mean(s3),np.std(s3,ddof=1))

In [None]:
sns.boxplot(x=None, data=s1, orient="h")

In [None]:
sns.boxplot(x=None, data=s2, orient="h")

In [None]:
sns.boxplot(x=None, data=s3, orient="h")

### Distribuciones muestrales

La distribución muestral de una estadística es la distribución de esa estadística cuando se deriva de una muestra aleatoria de tamaño $n$.

Crear una lista de muestras aleatorias tomadas del conjunto $x$ 

In [None]:
medias=[]
desvs=[]
for i in range(50):
    t=np.random.choice(x,30)
    medias.append(np.mean(t))
    desvs.append(np.std(t,ddof=1))

In [None]:
np.mean(medias),np.mean(desvs)

In [None]:
plt.hist(medias)

Es momento de practicar.

### Ejercicios en clase.

1. Usando $x$ calcular la distribución de:

- Medianas.
- Varianzas.

2. Usando los datos de desempleo, crear:

- Una lista con el promedio mundial por año. Analizar la lista obtenida usando la estadística descriptiva vista hasta ahora.
- Muestras aleatorias simples y analizar la distribución muestral de las medias. 
- Discutir algunas posibles interpretaciones de los resultados.