# Estadística

Es la rama de las matemáticas que estudia la variabilidad, así como el **proceso aleatorio que la genera siguiendo leyes de probabilidad.**

La estadística es útil para una amplia variedad de ciencias empíricas **(la que entiende los hechos creando representaciones de la realidad)**, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad. Además, se usa en áreas de negocios o instituciones gubernamentales con el objetivo de **describir** el conjunto de datos obtenidos para la toma de decisiones, o bien para realizar generalizaciones sobre las características observadas.

La estadística se divide en dos grandes áreas:

- **Estadística descriptiva**: Se dedica a la **descripción, visualización y resumen** de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos **numérica o gráficamente**. Su objetivo es organizar y describir las características sobre un conjunto de datos con el propósito de facilitar su aplicación, generalmente con el apoyo de gráficas, tablas o medidas numéricas.

    - Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar.
    - Ejemplos gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros.
    

- **Estadística inferencial**: Se dedica a la generación de los **modelos, inferencias y predicciones** asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar **patrones en los datos** y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas sí/no (prueba de hipótesis), estimaciones de unas características numéricas **(estimación)**, pronósticos de futuras observaciones, descripciones de asociación **(correlación)** o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen análisis de varianza, series de tiempo y minería de datos. **Su objetivo es obtener conclusiones útiles para lograr hacer deducciones acerca de la totalidad de todas las observaciones hechas, basándose en la información numérica.**

# Sampling

![alt text](https://upload.wikimedia.org/wikipedia/commons/b/bf/Simple_random_sampling.PNG)

One reason we need statistics is because we'd like to **make statements about a general population based only on a subset - a *sample* - of the data**. This can be for practical reasons, to reduce costs, or can be inherently necessary because of the nature of the problem. For example, it's not possible to collect data on "everyone who ever had a headache", so people wanting to study headaches will have to somehow get a group of people and try to generalize based on that.

What's the right way to build that group? If a drug company decides to only ask its employees if their headache drug works, does that have any problems?


In [None]:
import numpy as np
import pandas as pd
import random

population = range(100)
sample = random.sample(population, 10)
print(sample)

## Conceptos básicos de la estadística descriptiva

En *[estadística descriptiva](https://es.wikipedia.org/wiki/Estad%C3%ADstica_descriptiva)* se utilizan distintas medidas para intentar describir las propiedades de nuestros datos, algunos de los conceptos básicos, son:

* **Media aritmética**: La [media aritmética](https://es.wikipedia.org/wiki/Media_aritm%C3%A9tica) es el valor obtenido al sumar todos los *[datos](https://es.wikipedia.org/wiki/Dato)* y dividir el resultado entre el número total elementos. Se suele representar con la letra griega $\mu$. Si tenemos una [muestra](https://es.wikipedia.org/wiki/Muestra_estad%C3%ADstica) de $n$ valores, $x_i$, la *media aritmética*, $\mu$, es la suma de los valores divididos por el numero de elementos; en otras palabras:
$$\mu = \frac{1}{n} \sum_{i}x_i$$


* **Desviación respecto a la media**: La desviación respecto a la media es la diferencia en valor absoluto entre cada valor de la variable estadística y la media aritmética.
$$D_i = |x_i - \mu|$$


* **Varianza**: La [varianza](https://es.wikipedia.org/wiki/Varianza) es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística. La varianza intenta describir la dispersión de los *[datos](https://es.wikipedia.org/wiki/Dato). Básicamente representa lo que varían los datos*. **Como está elevada al cuadrado, la varianza no puede tener las mismas unidades que los datos**. Una varianza elevada significa que los datos están más dispersos. Mientras que un valor bajo, indica que los datos están próximos a la media. Se representa como $\sigma^2$. 
$$\sigma^2 = \frac{\sum\limits_{i=1}^n(x_i - \mu)^2}{n} $$


* **Desviación típica**: La [desviación típica](https://es.wikipedia.org/wiki/Desviaci%C3%B3n_t%C3%ADpica) es la raíz cuadrada de la varianza. Se representa con la letra griega $\sigma$.
$$\sigma = \sqrt{\frac{\sum\limits_{i=1}^n(x_i - \mu)^2}{n}} $$


* **Moda**: La <a href="https://es.wikipedia.org/wiki/Moda_(estad%C3%ADstica)">moda</a> es el valor que tiene mayor frecuencia absoluta. Se representa con $M_0$


* **Mediana**: La <a href="https://es.wikipedia.org/wiki/Mediana_(estad%C3%ADstica)">mediana</a> es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor. Se representa con $\widetilde{x}$.


* **Correlación**: La [correlación](https://es.wikipedia.org/wiki/Correlaci%C3%B3n) trata de establecer la relación o **dependencia que existe entre las dos variables que intervienen en una distribución bidimensional**. Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre ellas. La correlación es **positiva** cuando los valores de las variables aumenta juntos; y es **negativa** cuando un valor de una variable se reduce cuando el valor de la otra variable aumenta.


* **Covarianza**: La [covarianza](https://es.wikipedia.org/wiki/Covarianza) es el equivalente de la varianza aplicado a una variable bidimensional. Es la media aritmética de los productos de las desviaciones de cada una de las variables respecto a sus medias respectivas.La covarianza indica el sentido de la correlación entre las variables; Si $\sigma_{xy} > 0$ la correlación es directa; Si $\sigma_{xy} < 0$ la correlación es inversa.

$$\sigma_{xy} = \frac{\sum\limits_{i=1}^n(x_i - \mu_x)(y_i -\mu_y)}{n}$$

La diferencia con la correlación es que los coeficientes de correlación están estandarizados (-1 a 1), por lo que una relación perfecta da como resultado un coeficiente de 1. La convarianza no, va desde infinito a menos inifinito. **Es muy útil para entender la dirección de la relación entre dos variables**^.


* **Valor atípico (Outlier)**: Un [valor atípico](https://es.wikipedia.org/wiki/Valor_at%C3%ADpico) es una observación que se aleja demasiado de la moda; esta muy lejos de la tendencia principal del resto de los *[datos](https://es.wikipedia.org/wiki/Dato)*. Pueden ser causados por errores en la recolección de *[datos](https://es.wikipedia.org/wiki/Dato)* o medidas inusuales. Generalmente se recomienda eliminarlos del [conjunto de datos](https://es.wikipedia.org/wiki/Conjunto_de_datos).


1. https://towardsdatascience.com/a-quick-guide-on-descriptive-statistics-using-pandas-and-seaborn-2aadc7395f32

2. https://www.tutorialspoint.com/python_pandas/python_pandas_descriptive_statistics.htm

## Cálculos Manuales

### Datos

En una clínica infantil se ha ido anotando, durante un mes, el número de metros que cada
niño anda, seguido y sin caerse, el primer día que comienza a caminar, obteniéndose la tabla de información
adjunta:

- número de metros 1 2 3 4 5 6 7 8
- número de niños 2 6 10 5 10 3 2 2


Se pide:
1. Tabla de frecuencias. Diagrama de barras para frecuencias absolutas, relativas y acumuladas.
2. Mediana, media aritmética, moda y cuartiles.
3. Varianza y desviación típica.
4. ¿Entre qué dos valores se encuentra, como mínimo, el 75% de las observaciones?

1. Convertimos los datos en objetos de python

In [None]:
ls_metros = [1, 2, 3, 4, 5, 6, 7, 8]
ls_cont_ninos = [2, 6, 10, 5, 10, 3, 2, 2]

1.1 Calculamos las tablas de frecuencia

In [None]:
df_freq = pd.DataFrame({'x_i': ls_metros, 'n_i':ls_cont_ninos})
df_freq

1.1.1 Frecuencia acumulada

La frecuencia absoluta nos da información acerca de la cantidad de veces que se repite un suceso al realizar un número determinado de experimentos aleatorios. Para hallar la frecuencia absoluta acumulada, no tendríamos más que acumular las frecuencias absolutas. Esta se denomina con las letras N_i.

Más info: https://economipedia.com/definiciones/frecuencia-absoluta.html

In [None]:
df_freq['N_i'] = df_freq['n_i'].cumsum()
df_freq

1.1.2 Frecuencia relativa

Para calcular la frecuencia relativa antes es necesario calcular la frecuencia absoluta. Sin ella no podríamos obtener la frecuencia relativa. La frecuencia relativa se representa con las letras hi y su fórmula de cálculo es la siguiente:

$$
f_i = \dfrac{f_i}{N}
$$

$f_i$    = Frecuencia relativa de la observación i-ésima

$n_i$     = Frecuencia absoluta de la observación i-ésima

N    = Número total de observaciones de la muestra

Más info: https://economipedia.com/definiciones/frecuencia-relativa.html

In [None]:
N = df_freq['n_i'].sum()
print(N)

df_freq['f_i'] = df_freq['n_i'] / N
df_freq

1.2.3 Frecuencia relativa acumulada

los datos se ordenan de menor a mayor y se colocan en una tabla. Una vez hecho esto, la frecuencia relativa acumulada se obtiene de ir sumando las frecuencias relativas de una clase o grupo de la muestra con la anterior (primer grupo + segundo grupo, primer grupo + segundo grupo + tercer grupo y así sucesivamente hasta llegar a acumular del primer grupo al último).

In [None]:
df_freq['F_i'] = df_freq['f_i'].cumsum()
df_freq

In [None]:
df_freq['F_i'].plot(marker='o')

2. Calculamos manualmente los valores que nos piden

2.1 Mediana

Para calcular la mediana es importante que los datos estén ordenados de menor a mayor, o al contrario de menor a mayor. Esto es, que tengan un orden. La mediana, junto con la media y la varianza es un estadístico muy ilustrativo de una distribución. Al contrario que la media que puede estar desplazada hacia un lado o a otro, según la distribución, la mediana siempre se sitúa en el centro de esta.

Cálculo:

Primer valor con frecuencia acumulada mayor o igual que 50%

In [None]:
df_freq[df_freq['F_i'] > 0.5].iloc[0][['x_i', 'F_i']]

In [None]:
mediana = df_freq[df_freq['F_i'] > 0.5].iloc[0][['x_i']].values[0]
mediana

In [None]:
print(ls_metros, ls_cont_ninos)

In [None]:
[1] * 2

In [None]:
ls_sample = []
for idx in range(len(ls_metros)):
    ls_reps = [ls_metros[idx]] * ls_cont_ninos[idx]
    ls_sample = ls_sample + ls_reps

In [None]:
len(ls_sample) == N

In [None]:
np.median(ls_sample)

In [None]:
df_sample = pd.DataFrame({'x':ls_sample})
df_sample.median()

2.2 La media

Dado que sabemos las veces que aparece cada valor porque conocemos los valores y las frecuencias, la media se calcula como:
$$
media = \dfrac{x_1 * n_ 1 + x_1 * n_2 + ...}{n_1 + n_2 + ...}
$$

In [None]:
avg = (df_freq['x_i'] * df_freq['n_i']).sum() / N
print(avg)

In [None]:
df_sample.mean()

In [None]:
np.mean(ls_sample)

In [None]:
print(ls_sample)

In [None]:
np.sum(ls_sample) / len(ls_sample)

2.3 Moda

Valor que más aparece en la distribución. En este caso hay 2.

In [None]:
mode = df_freq[df_freq['n_i'] == df_freq['n_i'].max()]['x_i'].values

In [None]:
df_sample.mode().values.reshape(-1,)

In [None]:
print(ls_sample)

In [None]:
ls_freq = []
ls_sample_unique = list(set(ls_sample))
for num in ls_sample_unique:
    ls_freq.append(ls_sample.count(num))

mx = max(ls_freq)

ls_mode = []
for idx in range(len(ls_sample_unique)):
    if ls_freq[idx] == mx:
        ls_mode.append(ls_sample_unique[idx])

ls_mode

In [None]:
ls_mode = []
mx = max(ls_fre)
for val, cnt in ls_freq:
    if cnt >= mx:
        mx = cnt
    else:
        continue
mx

2.4 Cuartiles

Valores que dejan a la izquierda el 25% y el 75% de la distribución acumulada.

In [None]:
q3 = df_freq[df_freq['F_i'] > .75].iloc[0]['x_i']
q3

In [None]:
q1 = df_freq[df_freq['F_i'] > .25].iloc[0]['x_i']
q1

In [None]:
def get_perc(df, pct):
    return df[df['F_i'] > pct].iloc[0]['x_i']

get_perc(df_freq, .75)

Mostramos las gráficas

In [None]:
import matplotlib.pyplot as plt
fig, ax = plt.subplots(1, 3, figsize=(30, 10))
df_freq.plot(x='x_i', y='n_i', kind='bar', ax=ax[0], title="Frecuencias absolutas")
ax[0].text(2, 10.2, 'Moda', ha='center', fontsize=14, color='red')
ax[0].text(4, 10.2, 'Moda', ha='center', fontsize=14, color='red')
ax[0].text(3, 5.6, 'Mediana', ha='center', fontsize=14, color='red')

df_freq.plot(x='x_i', y='f_i', kind='bar', ax=ax[1], title="Frecuencias relativas")

df_freq.plot(x='x_i', y='F_i', kind='line', style='-p', ms=10, color='red', ax=ax[2],  title="Frecuencias relativas acumuladas")
ax[2].bar(x=df_freq['x_i'], height=df_freq['F_i'], alpha=.7)

for axx in ax:
    axx.tick_params('both', labelsize=16, rotation=0)
    axx.set_title(axx.get_title(), fontsize=24)

fig.suptitle("Representación tabla de frecuencias", fontsize=24);

3. Varianza y desviación típica

$$
\sigma^2 = \dfrac{\displaystyle{\sum_{i=1}^{N}} (x_i - \hat{x})^2}{N}
$$

In [None]:
(1 - avg)**2

In [None]:
df_freq['D_i^2'] = (df_freq['x_i'] - avg) ** 2
df_freq

In [None]:
var = (df_freq['D_i^2'] * df_freq['n_i']).sum() / (N - 1)
var

In [None]:
df_sample.var()

In [None]:
print(ls_sample)

In [None]:
desv = []
for nums in ls_sample:
    desv.append((nums - avg)**2)

std = sum(desv) / (N-1)
std

In [None]:
std = np.mean(desv) * (N / (N -1))
std

4. Teorema de Chebyshev


Sea k el número de desviaciones estándar
$$
P[|x| > k] \leq \dfrac{1}{k^2}
$$

$$
P[-k \leq x \leq k] \leq 1 - \dfrac{1}{k^2}
$$

Despejamos:

$$
\dfrac{1}{k^2} \leq 1 - p
$$

$$
k^2 \geq \dfrac{1}{1-p}
$$

$$
k \geq \sqrt{\dfrac{1}{1-p}}
$$

Por lo tanto, si fijamos la probabilidad al 0.75, despejando k se tiene:


### Ejemplos en Python

Calcular los principales indicadores de la *[estadística descriptiva](https://es.wikipedia.org/wiki/Estad%C3%ADstica_descriptiva)* con [Python](http://python.org/) es muy fácil!.

In [None]:
import pandas as pd
import numpy as np

Creamos unos datos de prueba

In [None]:
poblacion = pd.Series({"Madrid": 6685471, "Galicia": 2698764, "Murcia": 1494442, "Andalucia": 8446561})
superficie = pd.Series([8028, 29575, 11314, 87599], index = ["Madrid", "Galicia", "Murcia", "Andalucia"])

df = pd.DataFrame({"Poblacion": poblacion, "Superficie": superficie})
df

In [None]:
array1D = df['Poblacion'].values
print(array1D)

array2D = df.values
print(array2D)

Usamos las funciones estadísticas de numpy.

### Media
Empezamos a calcularlas para el array de 1D

In [None]:
print(array1D.mean())
print(np.mean(array1D))

Y para el array de 2D

In [None]:
print(array2D.mean())
print(np.mean(array2D))

In [None]:
df.mean()

In [None]:
print(array2D.mean(axis = 1)) # Media por fila
print(array2D.mean(axis = 0)) # Media por columna

### Varianza

In [None]:
# Varianza en 1D
print(np.var(array1D))
print(array1D.var())

In [None]:
print(np.var(array2D, 1)) # Por fila
print(np.var(array2D, 0)) # Por columna

### Desviación típica

<table align="left">
 <tr><td width="80"><img src="../../imagenes/ejercicio.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>Ejercicio desviación típica</h3>
         
<ol>
    <li>Calcula la desviación típica para array1D</li>
    <li>Calcula la desviación típica para array2D</li>
    <li>Calcula la desviación típica para array2D, por filas</li>
    <li>Calcula la desviación típica para array2D, por columnas</li>
</ol>
         
 </td></tr>
</table>

In [None]:
# 1.
print(np.std(array1D))

# 2.
print(np.std(array2D))

# 3. 
print(np.std(array2D, 1))

# 4.
print(np.std(array2D, 0))

### Mediana
Junto con la media y la varianza, son estadísticos que miden la distribución de la variable.

In [None]:
array1D.sort()
array1D

In [None]:
(array1D[1] + array1D[2])/2

In [None]:
np.median(array1D)

In [None]:
print(np.median(array2D, 1))

### Moda
Para el calculo de la moda se usa el el módulo `stats` dentro del paquete de `scipy`. `scipy` es el ecosistema de paquetes open source para matemáticas, ciencia e ingeniería. Algunos de los paquetes que se incluyen en este ecosistemas son `numpy`, `pandas` o `matplotlib`.

In [None]:
from scipy import stats

In [None]:
# Creamos nuevo array con las preferencias vacacionales españolas
array1D_vacas = np.array(['Canarias', 'Baleares', 'País Vasco', 'Canarias', 'Madrid', 'País Vasco', 'Canarias',
                      'Canarias', 'Madrid', 'Barcelona', 'Baleares', 'Galicia', 'Baleares', 'Baleares', 'Canarias'])

# Creamos otro array numerico con los ratings de peliculas de una pagina web
array1D_pelis = np.array([4,3,2,3,2,3,4,4,1,4,2,1,3,2,3,2,2,4,2,1,2])

In [None]:
print(stats.mode(array1D_vacas))
moda_vacas = stats.mode(array1D_vacas)

In [None]:
print(moda_vacas.mode)
print(moda_vacas.count)

In [None]:
print(stats.mode(array1D_pelis))

In [None]:
import seaborn as sns
sns.countplot(array1D_vacas)

### Correlacion
Se trata de un indicador de dependencia lineal entre dos variables. Se calcula el [coeficiente de Pearson](https://es.wikipedia.org/wiki/Coeficiente_de_correlación_de_Pearson#:~:text=En%20estadística%2C%20el%20coeficiente%20de,de%20medida%20de%20las%20variables.). El rango de valores del coeficiente va de [-1, 1]. Cuanto más cercano a 1, mayor es la relación lineal creciente entre las variables, lo mismo con -1, pero decreciente. Y cuanto más cercano a 0, más independientes son las variables.

Veamos un ejemplo con la distancia recorrida vs gasolina gastada

In [None]:
distancia = np.array([100, 150, 125, 150, 170, 210, 220, 240, 255, 270, 300, 333, 340,349, 356, 400, 425, 434, 478, 532, 529])
gasolina = np.array([22, 20, 22,33, 25, 31,37, 32, 36, 41, 44, 50,39, 45, 55, 53, 57, 60, 66, 68, 69])

np.corrcoef(distancia, gasolina)

In [None]:
d_mean = np.mean(distancia)
g_mean = np.mean(gasolina)

d_std = np.std(distancia)
g_std = np.std(gasolina)

print(d_mean, d_std)
print(g_mean, g_std)

In [None]:
(len(distancia)/ len(distancia) - 1)

In [None]:
#  cov = ((100 - d_mean)*(22 - g_mean) + (150 - d_mean)*(20 - g_mean) + ... )/n
cov = np.sum((distancia - d_mean) * (gasolina - g_mean))  / (len(distancia))
corr_manual = cov / (d_std * g_std)
corr_manual

In [None]:
np.corrcoef(distancia, gasolina)

In [None]:
sns.regplot(distancia, gasolina)

Comprobemos ahora para dos variables con una dependencia lineal inversa. Peso de un coche vs velocidad

In [None]:
peso = np.array([1500, 1200, 1700, 1800, 1100, 2000, 2200])
velocidad = np.array([190, 200, 180, 175, 220, 160, 150])

np.corrcoef(peso, velocidad)

In [None]:
sns.regplot(peso, velocidad)

Y ahora dos variables que no se parecen en nada.

In [None]:
# Horas examen teleco
horas = np.array([30, 50, 25, 67, 110, 43])
calif = np.array([3, 6, 1, 1, 3, 4])

np.corrcoef(horas, calif)

In [None]:
sns.scatterplot(horas, calif)

Veremos en un DataFrame la matriz de correlación.

### Covarianza
Con la covarianza también obtenemos un indicador de la relación lineal entre las variables, aunque en este caso no está estandarizado. Sí que nos va a servir para ver la dirección de la relación entre ambas variables.

In [None]:
np.cov(distancia, gasolina)

In [None]:
np.corrcoef(distancia, gasolina)

In [None]:
np.cov(distancia, gasolina)[0, :] / np.var(distancia) /((len(gasolina)/(len(gasolina) - 1)))

In [None]:
np.cov(distancia, gasolina)[1, :] / np.var(gasolina)

## DataFrame de pandas
Para este ejemplo usaremos el [dataset de boston](https://scikit-learn.org/stable/datasets/index.html#boston-house-prices-dataset), incluido en el paquete de `sklearn`

In [None]:
from sklearn.datasets import load_boston
boston_df = pd.DataFrame(load_boston()["data"],columns=load_boston()["feature_names"])
boston_df["target"] = load_boston()["target"]
boston_df.head()

Si queremos un resumen completo de los estadísticos básicos.

In [None]:
boston_df.describe()

In [None]:
boston_df['target'].describe()

In [None]:
# Numero filas
print(boston_df.shape[0])

# Columnas
print(boston_df.shape[1])

## Estadísticos básicos DataFrame

In [None]:
boston_df.sum()

In [None]:
# Sum a nivel fila
boston_df.sum(axis = 1)

In [None]:
boston_df[['CRIM', 'DIS']].sum()

In [None]:
boston_df.mean()

In [None]:
print(boston_df['CRIM'].sum())
print(boston_df['CRIM'].mean())
print(boston_df['CRIM'].var())
print(boston_df['CRIM'].std())

In [None]:
print(boston_df.cumsum())

In [None]:
boston_df.cumsum()

## Matriz de correlacion

In [None]:
boston_df.corr()['target'].abs().sort_values(ascending=False)

In [None]:
boston_df.corr()['target'].sort_values()

In [None]:
import matplotlib.pyplot as plt
plt.figure(figsize=(10,10))
sns.heatmap(boston_df.corr(),vmin=-1, vmax=1, center=0,
            cmap=sns.diverging_palette(145, 280, s=85, l=25, n=7),
            square=True, linewidths=.5)

In [None]:
sns.lmplot(x="target", y="LSTAT", data=boston_df, fit_reg=True)

In [None]:
sns.lmplot(x="target", y="NOX", data=boston_df, fit_reg=True)

## Histogramas y Distribuciones

Muchas veces los indicadores de la *[estadística descriptiva](https://es.wikipedia.org/wiki/Estad%C3%ADstica_descriptiva)* no nos proporcionan una imagen clara de nuestros *[datos](https://es.wikipedia.org/wiki/Dato)*.  Por esta razón, siempre es útil complementarlos con gráficos de las distribuciones de los *[datos](https://es.wikipedia.org/wiki/Dato)*, que describan con qué frecuencia aparece cada valor. La representación más común de una distribución es un [histograma](https://es.wikipedia.org/wiki/Histograma), que es un gráfico que muestra la frecuencia o probabilidad de cada valor. El [histograma](https://es.wikipedia.org/wiki/Histograma) muestra las frecuencias como un gráfico de barras que indica cuan frecuente un determinado valor ocurre en el [conjunto de datos](https://es.wikipedia.org/wiki/Conjunto_de_datos). El eje horizontal representa los valores del [conjunto de datos](https://es.wikipedia.org/wiki/Conjunto_de_datos) y el eje vertical representa la frecuencia con que esos valores ocurren.

Las distribuciones se pueden clasificar en dos grandes grupos:

1. Las **[distribuciones continuas](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_de_probabilidad_continua)**, que son aquellas que presentan un número infinito de posibles soluciones. Dentro de este grupo vamos a encontrar a las distribuciones: 
    * [normal](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_normal),
    * [gamma](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_gamma),
    * [chi cuadrado](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_%CF%87%C2%B2), 
    * [t de Student](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_t_de_Student), 
    * [pareto](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_de_Pareto),
    * entre otras

2. Las **distribuciones discretas**, que son aquellas en las que la variable puede pude tomar un número determinado de valores. Los principales exponenetes de este grupo son las distribuciones: 
    * [poisson](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_de_Poisson),
    * [binomial](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_binomial),
    * [hipergeométrica](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_hipergeom%C3%A9trica),
    * [bernoulli](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_de_Bernoulli)
    * entre otras

Veamos algunos ejemplos graficados con la ayuda de [Python](http://python.org/).

In [None]:
# Histograma
boston_df['target'].hist()

In [None]:
boston_df['target'].describe()

### Distribución normal

La [distribución normal](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_normal) es una de las principales distribuciones, ya que es la que con más frecuencia aparece aproximada en los fenómenos reales. Tiene una forma acampanada y es simétrica respecto de un determinado parámetro estadístico. Con la ayuda de [Python](http://python.org/) la podemos graficar de la siguiente manera:

In [None]:
# Graficos embebidos.
#%matplotlib inline 

In [None]:
import matplotlib.pyplot as plt # importando matplotlib
import seaborn as sns # importando seaborn

# parametros esteticos de seaborn
sns.set_palette("deep", desat=.6)
sns.set_context(rc={"figure.figsize": (8, 4)})

In [None]:
mu, sigma = 0, 0.1 # media y desvio estandar
s = np.random.normal(mu, sigma, 1000) #creando muestra de datos

In [None]:
sns.displot(s, kde=True)

In [None]:
# histograma de distribución normal.
cuenta, cajas, ignorar = plt.hist(s, 30, normed=True)
normal = plt.plot(cajas, 1/(sigma * np.sqrt(2 * np.pi)) *
         np.exp( - (cajas - mu)**2 / (2 * sigma**2) ),
         linewidth=2, color='r')

### Distribuciones simétricas y asimétricas

**Una distribución es simétrica cuando moda, mediana y media coinciden aproximadamente en sus valores**. Si una distribución es simétrica, existe el mismo número de valores a la derecha que a la izquierda de la media, por tanto, el mismo número de desviaciones con signo positivo que con signo negativo.

Una distribución tiene [asimetria](https://es.wikipedia.org/wiki/Asimetr%C3%ADa_estad%C3%ADstica) positiva (o a la derecha) si la "cola" a la derecha de la media es más larga que la de la izquierda, es decir, si hay valores más separados de la media a la derecha. De la misma forma una distribución tiene [asimetria](https://es.wikipedia.org/wiki/Asimetr%C3%ADa_estad%C3%ADstica) negativa (o a la izquierda) si la "cola" a la izquierda de la media es más larga que la de la derecha, es decir, si hay valores más separados de la media a la izquierda.

Las distribuciones asimétricas suelen ser problemáticas, ya que la mayoría de los métodos estadísticos suelen estar desarrollados para distribuciones del tipo [normal](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_normal). Para salvar estos problemas se suelen realizar transformaciones a los datos para hacer a estas distribuciones más simétricas y acercarse a la [distribución normal](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_normal).  

In [None]:
# Dibujando la distribucion Gamma
x = stats.gamma(3).rvs(5000)
gamma = plt.hist(x, 70, histtype="stepfilled", alpha=.7)

In [None]:
stats.skew(x)

En este ejemplo podemos ver que la [distribución gamma](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_gamma) que dibujamos tiene una [asimetria](https://es.wikipedia.org/wiki/Asimetr%C3%ADa_estad%C3%ADstica) positiva. Si la cola estuviese hacia la izquerda, la asimetría sería negativa.

In [None]:
# Calculando la simetria con scipy
stats.skew(x)

## Cuartiles y diagramas de cajas

Los **[cuartiles](https://es.wikipedia.org/wiki/Cuartil)** son los tres valores de la variable estadística que dividen a un [conjunto de datos](https://es.wikipedia.org/wiki/Conjunto_de_datos) ordenados en cuatro partes iguales. Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. Q2 coincide con la <a href="https://es.wikipedia.org/wiki/Mediana_(estad%C3%ADstica)">mediana</a>.

Los [diagramas de cajas](https://es.wikipedia.org/wiki/Diagrama_de_caja) son una presentación visual que describe varias características importantes al mismo tiempo, tales como la dispersión y simetría. Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente. Estos gráficos nos proporcionan abundante información y son sumamente útiles para encontrar [valores atípicos](https://es.wikipedia.org/wiki/Valor_at%C3%ADpico) y comparar dos [conjunto de datos](https://es.wikipedia.org/wiki/Conjunto_de_datos). 


<img alt="diagrama de cajas" title="Diagrama de cajas" src="https://miro.medium.com/max/18000/1*2c21SkzJMf3frPXPAR_gZA.png" width="600">

In [None]:
# Ejemplo de grafico de cajas en python

datos_1 = np.random.normal(100, 10, 200)
datos_2 = np.random.normal(80, 30, 200)
datos_3 = np.random.normal(90, 20, 200)
datos_4 = np.random.normal(70, 25, 200)

datos_graf = [datos_1, datos_2, datos_3, datos_4]

# Creando el objeto figura
fig = plt.figure(1, figsize=(9, 6))

# Creando el subgrafico
ax = fig.add_subplot(111)

# creando el grafico de cajas
bp = ax.boxplot(datos_graf)

# visualizar mas facile los atípicos
for flier in bp['fliers']:
    flier.set(marker='o', color='red', alpha=0.5)
# los puntos aislados son valores atípicos

In [None]:
# usando seaborn
sns.boxplot(datos_graf, names=["grupo1", "grupo2", "grupo3", "grupo 4"],
            color="PaleGreen")