# Análisis estadístico de datos.  #
* Estadística Descriptiva.
* Teoría muestral. 
* Estimación estadística. 
* Decisión estadística. 
* Aprendizaje estadístico.


<a href="https://colab.research.google.com/github/sithneyus/lightsable/blob/master/Estad%C3%ADstica%20Descriptiva.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

La **estadística** es una área de conocimiento que trata con la colección, análisis, interpretación y presentación de datos.

La **estadística descriptiva** es el cálculo de varias medidas estadísticas y el uso de gráficas y tablas para organizar y resumir información.

# Introducción a la estadística descriptiva. #

Algunos conceptos básicos.

**Población**. También denominada población objetivo, de referencia o de estudio, es el conjunto que se 
desea estudiar. Comprende a todos los miembros de interés y en muchas ocasiones no está disponible en 
su totalidad para ser analizada.

Un ***parámetro*** es una propiedad numérica de una población.

Empezaremos usando una lista de números de la cual calcularemos

- el rango, 
- la media, 
- la mediana, 
- la moda, 
- la varianza y 
- la desviación estándar,
- los z-scores,
- los percentiles y cuartiles,
- la boxplot.

Para poder calcular cualquier propiedad de un conjunto de datos es necesario conocer la definición de 
dicha propiedad. Así, tenemos que 

### Teoría {
El $\color{red}{\text{rango}}$ es la diferencia entre el número mayor y el número menor. Esto es, si los datos son $dat=\{x_1,x_2,\ldots,x_n\}$, entonces

$rango(dat)=max(dat)-min(dat)$


### Teoría {
La $\color{red}{\text{media}}$ de un conjunto de números $\{x_1,\ldots,x_n\}$ está dada por

$\bar{x}=\frac{1}{n}\left(x_1+x_2+\cdots+x_n\right)=\frac{1}{n}\sum_{i=1}^n x_i.$

### }

La media es una cantidad cuyo valor es una medida alrededor de la cual la mayoría de los demás números 
están ubicados (suponiendo una distribución normal que se verá más adelante).

Primero resulta útil importar los paquetes que usaremos:

In [None]:
from numpy import *
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import statistics as st

Seaborn es una librería de Python para visualización de datos basada en matplotlib. Provee una interface de alto nivel para crear graficos estadísticos informativos y atractivos.

[seaborn homepage](https://seaborn.pydata.org/index.html)

Primero cargaremos los datos de un archivo.

In [None]:
with open('datosInicial.txt') as f:
    d=[]
    for line in f: 
        d.append(float(line))

Ahora vamos a calcular el rango y la media usando directamente las definiciones:

In [None]:
ma=max(d)
mi=min(d)
print(ma,mi)
rango=ma-mi
print(rango)

In [None]:
n=len(d)
xb=sum(d)/float(n) #La funcion sum realiza la sumatoria de los elementos de la lista x
print(xb)

Ahora podemos calcular las dos principales medidas de dispersión: la varianza y la desviación estándar. 

### Teoría {
La $\color{red}{\text{varianza}}$ de un conjunto de números $\{x_1,\ldots,x_n\}$ está dada por

$s=\frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^2.$

Y la $\color{red}{\text{desviación estándar}}$ es

$de=\sqrt{s}.$

### }

In [None]:
s=0.0
for i in d:
    s=s+(i-xb)**2
s=s/(n)
print("Varianza = ",s)
de=sqrt(s)
print('Desv. est. = ',de)

## Ahora usando numpy.


In [None]:
med=mean(d)
print(med,xb)

In [None]:
varianza=var(d)
print(varianza,s)
des=std(d)
print(des,de)

Con estos resultados confirmamos que los resultados obtenidos con las funciones de numpy coinciden con las obtenidas de manera directa implementando las fórmulas de estadística.

## Conclusión

Siempre que sea necesario hacer un cálculo numérico, después de leer la teoría al respecto hay que investigar si ya hay algún paquete de python que lo realice. Esto permite ahorrar tiempo y esfuerzo.


## Interpretación de los resultados.

Ya que conocemos la media y la desviación estándar de un conjunto de datos, debemos tener en mente qué es lo que significan. Para esto, veamos primero el histograma de nuestro conjunto de datos. 

### Teoría {
Un $\color{red}{\text{histograma}}$ es una gráfica que muestra las clases (en que se dividen los datos) en el eje $x$ y las frecuencias en el eje $y$.
### }

La forma de construir los bins depende del rango de nuestros datos, pero por el momento usaremos la opción automática de la función.

In [None]:
plt.hist(d, bins='auto', edgecolor='k')
plt.show()


La altura de cada rectángulo representa la frecuencia del bin correspondiente al valor sobre el cual está la base del rectángulo. Así podemos ver que los bins más frecuentes están alrededor de 100. Esto es lo que nos indica el valor de la media que obtuvimos anteriormente. 

Esto es, la media es el valor alrededor del cual están la mayoría de los datos. Por otra parte la desviación estándar es la media de las distancias de los datos con respecto a la media de los datos.

Hay otros dos parámetros que se pueden calcular para describir estadísticamente un conjunto de datos. Estos son la mediana y la moda.

### Teoría {

Sea $A=\{a_1,a_2,\ldots,a_n\}$, entonces 

$
mediana(A)=\begin{cases}
a_{(n+1)/2} & \text{ si } n\mod 2 \neq 0 \\
\frac{a_{k}+a_{k+1}}{2} & \text{ si } n\mod 2=0.  
\end{cases}
$

con $k=n/2$.
### }

In [None]:
print(median(d))

La mediana resulta un parámetro importante ya que permite checar una propiedad muy simple que caracteriza a las distribuciones normales. En toda distribución normal se tiene que 

$mediana=media$

In [None]:
print(med)

Aunque ambas son similares en su valor entero, no son lo suficientemente cercanas para garantizar que tenemos datos de una distribución normal.

### Teoría {

La $\color{red}{\text{moda}}$ es el valor más frecuente de la sucesión.

### }

Para calcular la moda se puede usar una función del paquete "statistics".

In [None]:
print(st.mode(d))

El $\color{red}{\text{coeficiente de variación}}$ está dado por

$CV=\frac{s}{\bar{x}}$

In [None]:
cv=100*(des/med)

In [None]:
cv

In [None]:
med,min(d),max(d)

In [None]:
abs(des-min(d))/med

In [None]:
w=[90,100,110]
wp=mean(w)
wde=std(w)
w,wp,wde

In [None]:
suma=0
for i in w:
    suma=suma+(i-wp)**2
vari=suma/2
desvi=sqrt(vari)
desvi

¡¿Qué pasó?! 

Esta diferencia entre la varianza nos daría un diferencia también en el coeficiente de variación.

In [None]:
100*(wde/wp),100*(desvi/wp)

In [None]:
wde2=std(w,ddof=1)
wde2

In [None]:
w2=[80,90,100,110,120]
w2p=mean(w)
w2de=std(w,ddof=1)
cv2=w2de/w2p
w2,w2p,w2de,cv2

[varianza de numpy](https://het.as.utexas.edu/HET/Software/Numpy/reference/generated/numpy.var.html)

In [None]:
import scipy as sp

El $\color{red}{\text{z-score}}$ de un dato $x$ es el número de desviaciones estándar, por arriba o por abajo, a las que está $x$. Está dado por

$z=\frac{x-\bar{x}}{s}$

In [None]:
z=[]
for i in d:
    z.append((i-med)/des)

In [None]:
plt.figure(figsize=(15,7))#ancho,alto
plt.plot(z, 'o')

In [None]:
plt.hist(z,bins='auto',edgecolor='k')
plt.show()

In [None]:
max(z),min(z)

Los $\color{red}{\text{percentiles}}$ son valores que dividen un conjunto de datos ordenados en 100 partes iguales. El p-ésimo percentil de un conjunto de datos es un valor tal que al menos p por ciento de las observaciones toman este valor o menos y al menos (100-p) por ciento de las observaciones toman este valor o más.

In [None]:
min(d),max(d)

In [None]:
percentile(d,10)

In [None]:
Q1=quantile(d,0.25)

In [None]:
Q3=quantile(d,0.75)

In [None]:
Q1,Q3

In [None]:
IQR=Q3-Q1

In [None]:
IQR

Una $\color{red}{\text{boxplot}}$ es una grafica en la cual se construye una caja de Q1 a Q3 la cual contiene el 50% de los datos. Se dibujan dos lineas, llamadas bigotes. La primera desde el dato mínimo hasta Q1 y la segunda desde Q3 hasta el dato máximo. Además se dibuja una linea dentro de la caja perpendicular a los bigotes que corresponde a la mediana.

In [None]:
plt.figure(figsize=(12,7))#ancho,alto
sns.boxplot(x=None, data=d, orient="h")

# El caso del desempleo #

Vamos a explorar un archivo de datos que contiene información sobre el desempleo a nivel mundial.

In [None]:
datos=pd.read_csv("desempleo_mundial.csv", index_col=0)

In [None]:
datos.head()

Estos datos corresponden al porcentaje anual de la población en situación de desempleo en un periódo de 1991 a 2010.

In [None]:
datos.loc['Angola']

In [None]:
plt.figure(figsize=(15,7))#ancho,alto
plt.plot(datos.loc['Angola'])
plt.plot(datos.loc['Albania'])

In [None]:
mean(datos.loc['Angola']),median(datos.loc['Angola'])

¿Una diferencia tan clara entre la media y la mediana nos permite afirmar que no es una distribución normal? Ahora veamos la desviación estándar.

In [None]:
std(datos.loc['Angola'])

In [None]:
plt.hist(datos.loc['Angola'],bins='auto',edgecolor='k')
plt.show()

In [None]:
plt.hist(datos.loc['Angola'],bins=7,edgecolor='k')
plt.show()

Vamos a empezar analizando que tan bien se pueden echar volados usando python. Para lo cual necesitamos un generador de números aleatorios. Un paquete que da algunas funciones para lograr dicho objetivo es el siguiente:

# Pequeño experimento con aleatorios #

In [None]:
import random

Ahora vamos a definir una función que genere 100 números aleatorios en el intervalo $[0,1)$ y contará cuantos cumplen que su valor sea menor o igual a $1/2$. Para lo cual usaremos la función random(), ver [random.](https://docs.python.org/3/library/random.html)

In [None]:
def soles():
    s = 0
    for i in range(100):
        if random.random() <= 0.5:
            s+=1
    return s

In [None]:
for i in range(10):
    print(soles())

Es interesante determinar cuántos soles aparecen en $n$ ensayos de 100 volados. La siguiente función nos permitirá realizar esta prueba.

In [None]:
def volados(n):
    ensayos = []
    for i in range(n):
        ensayos.append(soles())
    return(sum(ensayos)/n)

Esta función regresa el promedio de soles en $n$ ensayos.

In [None]:
volados(10),volados(10^2),volados(10^3),volados(10^4),volados(10^5)

In [None]:
volados(10),volados(10^2),volados(10^3),volados(10^4),volados(10^5)

Idealmente deberíamos obtener 50 soles y  50 águilas. Sin embargo los resultados anteriores no dejan del todo claro que nuestro generador de aleatorios cumpla con el caso ideal. Además inspeccionar números no parece ser una buena estrategia.

Así, podemos crear un histograma que nos muestre cuantos soles, en promedio, obtenemos al lanzar $100$ volados, luego $200,\ldots,100000$ 

In [None]:
d=[]
for i in range(1,1001):
    d.append(volados(i))

In [None]:
data=pd.Series(d)
data.plot.hist(grid=True)#, bins=20)
plt.grid(axis='x')

El resultado indica que en la mayoría de los volados se obtienen aproximadamente 50 soles.

Sin embargo, podemos analizar un poco más a fondo este resultado.

In [None]:
r1=0
r2=0
for i in d:
    if(i <= 50):
        r1+=1
    else:
        r2+=1
print(r1,r2)

In [None]:
r1=0
r2=0
for i in d:
    if(i <= 51 and i>=49):
        r1+=1
    else:
        r2+=1
print(r1,r2)

In [None]:
r1=0
r2=0
for i in d:
    if(i <= 52 and i>=48):
        r1+=1
    else:
        r2+=1
print(r1,r2)

# Vinos #

## Con numpy y como lista ##

In [None]:
import csv

In [None]:
with open("winemag-data-less.csv", "r", encoding="latin-1") as f:
    wines = list(csv.reader(f))

In [None]:
wines[:]

In [None]:
vinos=[]

In [None]:
for l in wines:
    vinos.append(l[4])

In [None]:
vinos.pop(0)

In [None]:
scores = [float(w) for w in vinos]

In [None]:
mean(scores)

In [None]:
std(scores)

In [None]:
plt.hist(scores)
plt.show()

## Con Pandas ##

In [None]:
vin = pd.read_csv("winemag-data-less.csv")

Veamos la estructura de nuestro conjunto de datos.

In [None]:
vin.head()

Hay que eliminar la primer columna.

In [None]:
vin=vin.drop("Unnamed: 0", axis=1)

Veamos los tipos de nuestras columnas.

In [None]:
vin.info()

Veamos los primeros datos de la columna points.

In [None]:
vin['points'][:].head()

Ahora veamos una descripción estadística de points.

In [None]:
vin['points'].describe()

La varianza de pandas sí divide entre $n-1$. Ver la [documentación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.var.html)

Ahora podemos ver otra columna.

In [None]:
vin['country'][:].head()

Si deseamos ver un solo renglón.

In [None]:
print(vin.loc[0])

Podemos crear una lista con los índices de los vinos cuya puntuación sea mayor que media.

In [None]:
temp=vin.index[vin['points']>vin['points'].mean()].tolist()

In [None]:
len(temp),len(vin)

In [None]:
for i in range(5):
    print(vin.loc[temp[i]])
    print('---------------------------')

# Housing #

In [None]:
df = pd.read_csv("MELBOURNE_HOUSE_PRICES_LESS.csv")

In [None]:
df.head()

In [None]:
df.info()

In [None]:
promedio = df['Price'].mean()

In [None]:
promedio

In [None]:
mediana= df['Price'].median()

In [None]:
mediana

In [None]:
desvest= df['Price'].std()

In [None]:
desvest

In [None]:
sns.set(style="whitegrid")

In [None]:
plt.figure(figsize=(12,8))
ax = sns.boxplot(x='Price', data=df, orient="v")

In [None]:
plt.figure(figsize=(12,8))
ax = sns.boxplot(x='Type', y='Price', data=df, orient="v")

Para eliminar renglones que no tienen datos:

In [None]:
filter_data = df.dropna(subset=['Price'])

In [None]:
plt.figure(figsize=(14,8))
sns.distplot(filter_data['Price'], kde=False)

Vamos a crear una serie que contenga el conteo de los valores únicos.

In [None]:
type_counts = df['Type'].value_counts()

In [None]:
type_counts

Ahora podemos crear un dataframe, para lo cual necesitamos el siguiente formato.

In [None]:
{'house_type': type_counts}

Creamos el dataframe deseado usando como indice los valores t, h, u.

In [None]:
df2 = pd.DataFrame({'house_type': type_counts}, 
                     index = ['t', 'h', 'u']
                   )

In [None]:
df2

Ahora podemos crear una grafica circular.

In [None]:
df2.plot.pie(y='house_type', figsize=(10,10), autopct='%1.1f%%')

In [None]:
sns.set(style='darkgrid')

In [None]:
plt.figure(figsize=(10,7))
ax = sns.countplot(x='Regionname', data=df)

In [None]:
plt.figure(figsize=(10,7))
ax = sns.countplot(x='Regionname', data=df)
ax.set_xticklabels(ax.get_xticklabels(), rotation=90)
plt.tight_layout()

# Revistas científicas #

In [None]:
rc = pd.read_csv("scimagojr2018PhysicsandAstronomy.csv",delimiter=";", decimal=",")

In [None]:
rc.head()

In [None]:
rc.info()

In [None]:
rc['Total Docs. (2018)'].describe()

In [None]:
datEst=rc['Total Docs. (2018)'].describe()

In [None]:
datEst['mean'],datEst['std'],datEst['std']/datEst['mean']

In [None]:
plt.figure(figsize=(10,7))
sns.distplot(rc['Total Docs. (2018)'])

In [None]:
t=pd.DataFrame({'docs':rc['Total Docs. (2018)']})

In [None]:
t.mean()[0]

In [None]:
def momBasicos(l):
    m=[]
    t=pd.DataFrame({'temp':l})
    m.append(t.mean()[0])
    m.append(t.median()[0])
    m.append(t.std()[0])
    m.append(t.max()[0])
    m.append(t.min()[0])
    return m

In [None]:
descEstTotDocs=momBasicos(rc['Total Docs. (2018)'])

In [None]:
descEstTotDocs

In [None]:
rc['H index'].describe()

In [None]:
descEstHindex=momBasicos(rc['H index'])

In [None]:
descEstHindex

In [None]:
rc.loc[rc['H index'].idxmax()]

In [None]:
rc.loc[rc['H index'].idxmin()]

## Grafica circular ##

In [None]:
tipos = rc['Type'].value_counts()

In [None]:
tipos

In [None]:
{'Tipo_revista': tipos}

In [None]:
rc2 = pd.DataFrame({'Tipo_revista': tipos}, 
                   index = ['journal', 'conference and proceedings', 'book series', 'trade journal'])

In [None]:
rc2

In [None]:
rc2.plot.pie(y='Tipo_revista', figsize=(10,10), autopct='%1.1f%%')

## Grafica de conteos ##

In [None]:
filter_data = rc.dropna(subset=['Total Docs. (2018)'])

In [None]:
plt.figure(figsize=(10,7))#ancho,alto
ax = sns.countplot(x='Country', data=rc)
ax.set_xticklabels(ax.get_xticklabels(), rotation=90)
plt.tight_layout()