## Estadística

La estadística es la ciencia que se encarga de recolectar, organizar, resumir y analizar datos para después obtener conclusiones a partir de ellos. 

De manera general, la estadística puede ser dividida en dos grandes áreas:
- **Estadística descriptiva.**
- **Estadística inferencial.**

**La estadística descriptiva** es una colección de métodos para la organización, resumen y presentación de datos. 

**La estadística inferencial** utiliza algunas técnicas que nos ayudan a conocer, con determinado grado de confianza, cierta información de una **población** con base en la información de la muestra obtenida.

## Estadística Descriptiva

El objetivo principal de la **estadística descriptiva** es, valga la redundancia, describir la información que hemos recopilado. Entre las técnicas/herramientas más utilizadas por la **estadística descriptiva** para describir datos tenemos:
- **Tablas.**
- **Graficos.**
- **Medidas de tendencia central.**
- **Medidas de dispersión.**

Ejemplos donde se aplica la **estadística descriptiva**:

- Los datos del Censo de población de un año determinado.
- Fichas de alumnos de un instituto.
- Los goles de un equipo de fútbol.

### Conceptos Básicos

**1. Población**
La población es un conjunto bien definido sobre el que se observa o puede observarse una cierta característica.


**2. Individuo**
Se llama individuo a cada uno de los elementos de la población. Estos elementos no tienen por qué ser necesariamente personas.

**3. Muestra, tamaño**
Una muestra es un conjunto de individuos de la población que refleja las características de ésta lo mejor posible.

**4. Variable estadística:**
Característica que se desea estudiar. Las distintas observaciones de la variable constituyen los datos de la investigación. 

**5. Variables cualitativas:**
Son datos que no son valores numéricos. 

**6. Variables cuantitativas:** 
Los datos que son valores numéricos.
- **Discretas**: Los datos son números enteros.
- **Continuas**: Los datos pueden tomar cualquier valor real.

![estaadistica_01.png](attachment:estaadistica_01.png)

### Escala de las variables

**Escala nominal:**
Modalidades sin ningún orden ni jerarquía entre ellas. (No podemos realizar operaciones aritméticas entre ellas).

**Escala ordinal:**
Modalidades con algún tipo de orden entre ellas.

**Escala de intervalos:**
Se puede cuantificar numéricamente la distancia entre 2 observaciones.

**Escala de proporción:**
Se puede cuantificar numéricamente la distancia entre 2 observaciones y fijar un punto de origen como cero absoluto.

### Etapas de un estudio estadístico

Un análisis estadístico se lleva a cabo siguiendo éstas etapas habituales:

**1. Planteamiento del problema:**

Definir el objetivo de la investigación y precisar el universo o población.

**2. Recogida de la información:**

Recolectar los datos necesarios relacionados al problema de investigación.

**3. Análisis descriptivo:**

Resumir los datos disponibles para extraer la información relevante en el estudio.

**4. Inferencia estadística:**

Suponer un modelo para toda la población partiendo de los datos analizados para obtener conclusiones generales.

**5. Diagnóstico:**

Verificar la validez de los supuestos del modelo que nos han permitido interpretar los datos y llegar a conclusiones sobre la población.

![estadistica_02.png](attachment:estadistica_02.png)

## Exploratory Data Analysis (EDA)

Supongamos que tenemos un conjunto de datos numéricos $x_1,x_2,x_3,x_4...,x_n$, que representan mediciones de alguna variable de interés.

Para conocer algunas características globales de esta variable se pueden calcular ciertas medidas o tendencias.

### Medidas de tendencia central:

**1. Media aritmética (Promedio)**

Es el número obtenido al dividir la suma de todos los valores de la variable entre el número total de observaciones.

$$ \overline{x}=\frac{\sum_{i=1}^{n} x_i}{n} $$

También podemos encontrar la media aritmética por clase en caso de que los datos se encuentren agrupados.

In [4]:
import numpy as np

np.mean(np.array([10, 9, 8, 7, 6, 5]))

7.5

**2. Mediana**

Dada una distribución de frecuencias con los valores ordenados de menor a mayor llamamos mediana y la representamos por $Me$ al valor de la variable, qué deja a su izquierda el mismo número de frecuencias que a su derecha.

$M_E = x_{(k)}$ Para $n$ impar.


$M_E = \frac{ x_{(k)}+ x_{(k+1)}}{2}$ Para $n$ par.

In [3]:
np.median(np.array([10, 9, 8, 5 ,7 ,6]))

7.5

In [None]:
[6,7,8,9,10]

**3. Moda**

La moda es el valor de la variable que más veces se repite, y en consecuencia en una distribución de frecuencias es el valor de variable que viene afectada por la máxima frecuencia de la distribución. 

In [14]:
from scipy import stats

x = stats.mode(np.array([1, 1, 2, 2, 2, 3, 3, 3]))

x

  x = stats.mode(np.array([1, 1, 2, 2, 2, 3, 3, 3]))


ModeResult(mode=array([2]), count=array([3]))

In [15]:
moda = x[0][0]
moda

2

### Medidas de posición no central (Cuantiles)

Los cuantiles son aquellos valores de la muestra, que ordenados de menor a mayor, dividen a la distribución en partes, de tal manera que cada una de ellas contiene el mismo número de frecuencias.

**1. Cuartiles (Qi)**:

Son valores de la variable que dividen a la distribución en 4 partes, cada una de las cuales engloba el 25 % de las mismas. Se denotan de la siguiente forma: 

- **Q1** es el primer cuartil que deja a su izquierda el 25% de los datos y a su derecha 75% de los datos.
- **Q2** es el segundo cuartil que deja a su izquierda el 50% de los datos y a su derecha 50% de los datos.
- **Q3** es el tercer cuartil que deja a su izquierda el 75% de los datos y a su derecha 25% de los datos. 

In [25]:
np.quantile(a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9,10, 11]), 
            q = 0.5, 
            interpolation = "lower")

5

**2. Deciles (Di):**

Son los valores de la variable que dividen a la distribución en partes iguales, cada una de las cuales engloba el 10 % de los datos. En total habrá 9 deciles. (Q2 = D5 = Median)

In [26]:
np.quantile(a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]), 
            q = 0.40,
            interpolation = "lower")

4

**3. Centiles o Percentiles (Pi):**

Son los valores que dividen a la distribución en 100 partes iguales, cada una de las cuales engloba el 1 % de las observaciones. 

En total habrá 99 percentiles. (Q2 = D5 = Me = P50)

In [27]:
np.quantile(a = range(200),
            q = 0.02,
            interpolation = "lower")

3

### Medidas de dispersión 

Sirven para medir la dispersión de los datos, es decir, cómo de separados están unos de otros.

**1. Rango:**

Se define como la diferencia entre el máximo y el mínimo valor de la variable.

$$ R = max(x_i) - min (x_i)$$

In [29]:
np.max(np.array([9, 7, 5, 4, 2]))

9

In [30]:
np.min(np.array([9, 7, 5, 4, 2]))

2

In [28]:
np.max(np.array([9, 7, 5, 4, 2])) - np.min(np.array([9, 7, 5, 4, 2]))

7

**2. Varianza**

La varianza mide la mayor o menor dispersión de los valores de la variable respecto a la media aritmética. 

Cuanto mayor sea la varianza mayor dispersión existirá y por lo tanto menor representatividad tendrá la media aritmética.

$$ \mathbf{S^2} = \frac{1}{n} \sum_{i=1}^{n} x_{i}^{2}- \overline{x}^2$$

In [31]:
np.var(np.array([1, 1, 1, 3, 3, 3, 5, 5, 5, 5, 5, 6, 6]))

3.254437869822485

**3. Desviación estándar**

Cuantifica la dispersión de los valores que se alejan de la media aritmética, al igual que la varianza; pero la desviación estándar es la raíz cuadrada de la varianza.

$$ \mathbf{S} = \sqrt( \frac{1}{n} \sum_{i=1}^{n} x_{i}^{2}- \overline{x}^2)$$

In [33]:
np.std(np.array([1, 1, 1, 3, 3, 3, 5, 5, 5, 5, 5, 6, 6]))

1.8040060614705498

In [34]:
np.sqrt(np.var(np.array([1, 1, 1, 3, 3, 3, 5, 5, 5, 5, 5, 6, 6])))

1.8040060614705498

In [None]:
################################################################################################################################