# Distribuciones

Aqui se presenta uno de los conceptos más fundamentales de la estadística: la distribución.
Comenzaremos con las **tablas de frecuencias**, que representan los valores de un conjunto de datos y el número de veces que aparece cada uno de ellos, y las utilizaremos para explorar los datos de la Encuesta Nacional de Crecimiento Familiar (NSFG).

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## Tablas de frecuencias

Una forma de describir una variable es mediante una **tabla de frecuencias**, que contiene los valores de la variable y sus **frecuencias**, es decir, el número de veces que aparece cada valor.
Esta descripción se denomina **distribución** de la variable.



Para representar distribuciones, se proporciona diferentes funciones que podemos utilizar para calcular y trazar tablas de frecuencias, PMF & CDF.

In [None]:
def from_seq(seq, name=None, normalize=True, sort=True, ascending=True, dropna=True, na_position="last", convert_to="PMF"):
  """Crea un PMF a partir de una secuencia de valores.
  Args:
      seq: iterable
      normalize: si se debe normalizar la serie (i.e, Pmf), por defecto True
      sort: si se debe ordenar la serie por valores, por defecto True
      ascending: si se debe ordenar en orden ascendente, por defecto True
      dropna: si se deben eliminar los valores NaN, por defecto True
      na_position: si es 'first', coloca los NaNs al principio;
                  si es 'last', coloca los NaNs al final.
      convert_to: si es 'FreqTab', Crea una tabla de frecuencia;
                  si es 'PMF' (default), crea una funcion de masa de probabilidad;
                  si es 'CDF', crea una función de distribución acumulada.

  Returns: pd.Series
  """
  if convert_to == "FreqTab":
    normalize=False

  # compute the value counts
  series = pd.Series(seq, name=name).value_counts(normalize=normalize, sort=sort, dropna=dropna)

  # sort in place, if desired
  if sort:
    series.sort_index(inplace=True, ascending=ascending, na_position=na_position)

  if convert_to == "CDF":
    series = np.cumsum(series)

  return series

def get_qs(Tab):
    """Obtener las cantidades.

    Returns: NumPy array
    """
    return Tab.index.values

def get_ps(Tab):
    """Obtener las probabilidades/frecuencias.

    Returns: NumPy array
    """
    return Tab.values

def plot_bar(Tab, xlabel="x", ylabel="y", title="tittle"):
    """Crea un gráfico de barras.

    Args:
        kwargs: se pasa a plt.bar
    """
    qs = get_qs(Tab)
    ps = get_ps(Tab)

    plt.bar(qs, ps)

    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    plt.title(title)

Para mostrar cómo funciona, comenzaremos con una pequeña lista de valores.

In [None]:
t = [1.0, 2.0, 2.0, 3.0, 5.0]

Se proporciona un método llamado `from_seq` que toma una secuencia y  utilizando el parametro `convert_to` creamos una dataframe que representara nuestra tabla de frecuencia (`ftab`).

In [None]:
ftab = from_seq(t, convert_to="FreqTab")
ftab

Un dataframe `FreqTab` es un tipo de `Series` de Pandas que contiene valores y sus frecuencias.
En este ejemplo, el valor `1.0` corresponde a la frecuencia 1, el valor `2.0` corresponde a la frecuencia 2, etc.

Tambien proporcionamos un método llamado `plot_bar` que traza la tabla de frecuencias como un `gráfico de barras`.

In [None]:
plot_bar(ftab, xlabel='Valor', ylabel='Frecuencia', title='Gráfica de Barras de Frecuencia')
plt.show()

Dado que un `FreqTab` es un `Series` de Pandas, podemos utilizar el operador de corchetes para buscar un valor y obtener su frecuencia.

In [None]:
ftab[2.0].item()

In [None]:
ftab[3.0].item()

In [None]:
try:
  ftab[4.0].item()
except:
  print("Elemento no encontrado")

Podemos usar la funcion `get_qs` en el dataframe `ftab`; `qs` significa **"quantities (cantidades)"**, aunque técnicamente no todos los valores son cantidades.

In [None]:
get_qs(ftab)

También podemos usar la funcion `get_ps` que devuelve las frecuencias; aunque `ps` significa **"probabilities (probabilidades)"** en este caso que trabajamos con una tabla de frecuencia, hace referencia a las `frecuencias`.

In [None]:
get_ps(ftab)

El dataframe `FreqTab` proporciona un método `items` que podemos utilizar para recorrer los pares cantidad-frecuencia:

In [None]:
for x, freq in ftab.items():
    print(x, "->", freq)



---

## PMFs

Un objeto `Pmf` es similar a un `FreqTab`, pero contiene probabilidades en lugar de frecuencias.
Por lo tanto, una forma de crear un `Pmf` es partir de un `FreqTab`.
Por ejemplo, aquí hay un `FreqTab` que representa la distribución de valores en una secuencia corta.

La suma de las frecuencias es el tamaño de la secuencia original.

In [None]:
n = ftab.sum()
n.item()

Si dividimos las frecuencias por `n`, representan proporciones, en lugar de recuentos.

In [None]:
pmf = ftab / n
pmf

Este resultado indica que el 20 % de los valores de la secuencia son 1, el 40 % son 2, y así sucesivamente.

También podemos considerar estas proporciones como probabilidades en el siguiente sentido: si elegimos un valor aleatorio de la secuencia original, la probabilidad de que elijamos el valor 1 es 0.2, la probabilidad de que elijamos el valor 2 es 0.4, y así sucesivamente.

Como hemos dividido por `n`, la suma de las probabilidades es 1, lo que significa que esta distribución está **normalizada**.

In [None]:
pmf.sum().item()

El dataframe `FreqTab` normalizado representa una **función de masa de probabilidad** (PMF), llamada así porque las probabilidades asociadas a valores discretos también se denominan **"masas de probabilidad"**.



## Una manera mas facil...

En la funcoin `from_seq`, el parametro `convert_to` proporciona la opcion `PMF` que representa una función de masa de probabilidad, por lo que, en lugar de crear un dataframe `FreqTab` y luego normalizarlo, podemos crear un dataframe `PMF` directamente.

In [None]:
ftab = from_seq(t, convert_to="PMF")
ftab

Los dataframe `Pmf` y `FreqTab` son similares en muchos aspectos.
Para buscar la probabilidad asociada a un valor, podemos utilizar el operador de corchetes.

In [None]:
pmf[2].item()

Puede modificar un `Pmf` existente asignando o modificando la probabilidad asociada a un valor:

In [None]:
pmf[2] = 0.2
pmf

In [None]:
pmf[2] += 0.3
pmf

In [None]:
pmf[2] *= 0.5
pmf

**NOTA.** Si modifica un `Pmf`, es posible que el resultado no se normalice, es decir, que las probabilidades ya no sumen 1.

In [None]:
pmf.sum().item()

Al igual que un objeto `FreqTab`, un objeto `Pmf` tiene un atributo `qs` que accede a las **cantidades** y un atributo `ps` que accede a las **probabilidades**.

También tiene un método `bar` que traza el `Pmf` como un gráfico de barras y un método `plot` que lo traza como un gráfico de líneas.

In [None]:
pmf = from_seq(t, convert_to="PMF")
pmf

In [None]:
get_qs(pmf)

In [None]:
get_ps(pmf)

## Media (valor esperado)

Dado el `Pmf`, aún podemos calcular la media, pero el proceso es diferente: tenemos que multiplicar las probabilidades y las cantidades y sumar los productos.

In [None]:
mean = np.sum(get_ps(pmf) * get_qs(pmf)) # mean = 1 * 0.2 + 2 * 0.4 + 3 * 0.2 + 5 * 0.2
mean.item()

Observe que *no* tenemos que dividir por `n`, porque ya lo hicimos cuando normalizamos el `Pmf`.


Observe lo que si tratamos de utilizar el metodo `mean` del dataframe de `pandas` por si solo.

In [None]:
pmf.mean().item()

Podemos utilizar funcion `mean` de `numpy` en la lista de numeros original `t = [1.0, 2.0, 2.0, 3.0, 5.0]` en que se hace lo mismo para mostrar la equivalencia de resultados

In [None]:
np.mean(t).item()

## Varianza

Dado un `Pmf`, podemos calcular la varianza calculando la desviación de cada cantidad con respecto a la media.

In [None]:
deviations = get_qs(pmf) - mean
deviations

A continuación, multiplicamos las **desviaciones al cuadrado** por las **probabilidades** y **sumamos los productos**.

In [None]:
var = np.sum(get_ps(pmf) * deviations**2)
var.item()

In [None]:
#Desviacion estandar

np.sqrt(var).item()

El método `var` hace lo mismo o el método `std` de `numpy`.

In [None]:
np.var(t).item()

In [None]:
np.std(t).item()

Podemos usar `stats` de `scipy`, que proporciona un método `mode` que encuentra el valor con la probabilidad más alta.

In [None]:
from scipy import stats

stats.mode(t)

# EJERCICIOS

---
---
# Datos NSFG

Cuando empieces a trabajar con un nuevo conjunto de datos, te sugiero que explores las variables que planeas utilizar una por una, y una buena forma de empezar es mirando las tablas de frecuencia.

Como ejemplo, veamos los datos de la Encuesta Nacional de Crecimiento Familiar (NSFG).

Para los ejercicios, cargaremos el archivo de mujeres encuestadas del NSFG, que contiene una fila por cada mujer encuestada.

In [None]:
from os.path import basename, exists

try:
    import statadict
except ImportError:
    %pip install statadict

try:
    import empiricaldist
except ImportError:
    %pip install empiricaldist

def download(url):
    filename = basename(url)
    if not exists(filename):
        from urllib.request import urlretrieve

        local, _ = urlretrieve(url, filename)
        print("Downloaded " + local)

download("https://github.com/AllenDowney/ThinkStats/raw/v3/nb/nsfg.py")
download("https://github.com/AllenDowney/ThinkStats/raw/v3/nb/thinkstats.py")
download("https://github.com/AllenDowney/ThinkStats/raw/v3/data/2002FemResp.dct")
download("https://github.com/AllenDowney/ThinkStats/raw/v3/data/2002FemResp.dat.gz")

El libro de códigos para el archivo de mujeres encuestadas se encuentra en <https://ftp.cdc.gov/pub/Health_Statistics/NCHS/Dataset_Documentation/NSFG/Cycle6Codebook-Female.pdf>.

El módulo `nsfg.py` proporciona una función que lee el archivo de mujeres encuestadas, limpia algunas de las variables y devuelve un `DataFrame`.



In [None]:
from nsfg import read_fem_resp

resp = read_fem_resp()
resp.shape

Este `DataFrame` contiene 3092 columnas, pero solo utilizaremos algunas de ellas.

### Ejercicio 1

Comenzaremos con `totincr`, que registra los ingresos totales de la familia del encuestado, codificados con un valor del 1 al 14.
Puede consultar el libro de códigos del archivo de encuestados para ver qué nivel de ingresos representa cada valor.

```
TOTINCR (4831 - 4832)

Value Label           Total
1     UNDER $5000     299
2     $5000-$7499     301
3     $7500-$9999     266
4     $10,000-$12,499 421
5     $12,500-$14,999 445
6     $15,000-$19,999 559
7     $20,000-$24,999 583
8     $25,000-$29,999 606
9     $30,000-$34,999 607
10    $35,000-$39,999 468
11    $40,000-$49,999 647
12    $50,000-$59,000 658
13    $60,000-$74,999 623
14    $75,000 OR MORE 1160

Total 7643
```

Cree un objeto `FreqTab` para representar la distribución de esta variable y represéntela en un **gráfico de barras**. Asegurese que la **cuenta de los distintos valores** corresponda con el archivo de encuestados.

In [None]:
# Tu codigo va aqui

### Ejercicio 2

Elabora una tabla de frecuencias de la columna «paridad», `parity`, que registra el número de hijos que tiene cada encuestado.

**¿Cómo describirías la forma de esta distribución?**


In [None]:
# Tu codigo va aqui

```
# Tu respuesta va aqui
```

### Ejercicio 3

Investigamos si las mujeres con ingresos más altos o más bajos tienen más hijos.
Utilice el método de consulta para seleccionar a los encuestados con los ingresos más altos (nivel 14).


Trace la tabla de frecuencias de `parity` solo para los encuestados con ingresos altos.

In [None]:
# Tu codigo va aqui

Compara la `media` de `parity` de las encuestadas con ingresos altos y las demás. Utiliza el metodo de `valor esperado`.

In [None]:
# Tu codigo va aqui

In [None]:
# Tu codigo va aqui

**¿Estos resultados muestran que las personas con ingresos más altos tienen menos hijos, o se te ocurre otra explicación para la diferencia aparente?**

Para ver si esto realmente es cierto podemos verificar esta diferencia calculando el **efecto Cohen** ([1](https://statisticsbyjim.com/basics/cohens-d/), [2](https://datatab.net/tutorial/effect-size-independent-t-test)), **verificar estas fuentes**.

$$
Cohens\_diff = \frac{\mu_1 - \mu_2}{\sigma_{pooled}}
$$

Calcula el tamaño del **efecto de Cohen** para esta diferencia.

* **¿Cómo se compara con la diferencia en la duración del embarazo para los primeros bebés y los demás?**
* **¿Estos resultados muestran que las personas con ingresos más altos tienen menos hijos realmente?**

In [None]:
def cohen_effect_size(group1, group2):
  # Tu codigo va aqui

  return diff / np.sqrt(pooled_var)

In [None]:
# Tu codigo va aqui

```
# Tu respuesta va aqui
```

### Ejercicio 4

Seleccione la columna `numbabes`, que registra el *número de bebés nacidos vivos* de cada encuestado.
Cree un objeto `FreqTab` y muestre las frecuencias de los valores de esta columna.
Compruebe que coinciden con las frecuencias del [libro de códigos](https://ftp.cdc.gov/pub/Health_Statistics/NCHS/Dataset_Documentation/NSFG/Cycle6Codebook-Female.pdf).

* **¿Hay algún valor atipico que deba sustituirse por `NaN` u omitirse?**


A continuación, cree un objeto `Pmf` y represéntelo en un gráfico de barras.

* **¿La distribución es simétrica, sesgada hacia la izquierda o sesgada hacia la derecha?**

In [None]:
# Tu codigo va aqui

In [None]:
# Tu codigo va aqui

In [None]:
# Tu codigo va aqui