Análisis Exploratorio de Datos
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia


---

# Introducción

<img src="images/04-analisis-exploratorio/ana-expl.jpg" width=600>

En el análisis exploratorio de datos se busca obtener información de interés de la población a partir de una muestra que es representativa de la población. En términos más formales, se usa para generar hipótesis sobre los datos, tales como:

* Ubicación del centro de los datos.
* Dispersión de los datos.
* Distribución de probabilidades de los datos.
* Relaciones entre los datos.

Uno de los objetivos fundamentales en estadística es estimar el valor de un parámetro de la población mediante un estadístico calculado sobre la muesta. 

Existen dos aproximaciones para estimar características de la población:

* Estimación de intervalos de confianza: usualmente para estadísticos calculados sobre la muestra de datos.  

* Pruebas de hipótesis: para propiedades más complejas de la población, como por ejemplo su distribución de probabilidades o relaciones de dependencia entre variables.

# Definiciones Básicas

**Población:** Colección de objetos o individuos sobre los cuales se desea obtener información de interés.

**Parámetro:** Un número que resume una propiedad o característica de la población entera. 

**Muestra:** Grupo obtenido aleatoriamente que es representativo de la población.

**Estadístico:** Un número que resume una propiedad o característica de la muestra. 

**Tipos de datos:**

* Continuos (flotante, numérico)
* Discretos (enteros)
* Categóricos (enumeraciones, fctores, valores nominales).
* Binarios (Indicadores, lógicos)
* Ordinales (Categóricos con un ordenamiento explícito, factores ordenados).

**Datos rectagulares:** Datos organizados en una tabla.
* Feature: característica, atributo, entrada, predictor, variable independiente.
* Outcome: resultado, variable dependiente, respuesta, objetivo, salida.
* Registro: fila en una tabla de datos, también conocida como caso, ejemplo, instancia, observación, patrón o muestra.

## Medidas o estimaciones de localización

**Media o promedio muestral:**  Valor "típico" de los datos.

$$\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$$

**Media ponderada:** 

$$\bar{x} = \frac{1}{\sum_{i=1}^n w_i} \sum_{i=1}^n w_i x_i$$

**Outlier o valor atípico:** Valores extremadamente distantes del resto de los datos. En algunos casos se pueden definir en términos de la media y la desviación estándar de la muestra; por ejemplo, se considera outliers aquellas observaciones distantes más de 3.5$\sigma$ de la media. 

**Media truncada:** Se calcula la media sobre los datos después de eliminar los $p$ datos más pequeños y los $p$ datos más grandes. Si $x_{(1)}$, $x_{2}$, ..., $x_{(n)}$ representan los datos ordenados, donde $x_{(1)}$ es el dato más pequeño y $x_{(n)}$ el más grande, entonces la media truncada se calcula como:

$$\frac{1}{n-2p} \sum_{i=1+p}^{n-p} x_i$$


**Mediana:** es el valor $x_{((n+1)/2)}$ cuando se ordenan los datos. Es una aproximación robusta (no influenciada por datos atípicos o distribuciones asimétricas.

## Medidas o estimaciones de dispersión o variabilidad

**Desviación:** diferencia entre el valor observado y el valor estimado de localización. En modelado sus sinónimos son errores o residuales.

**Rango:** diferencia entre el valor más grande y más pequeño de la muestra de los datos.

**Varianza muestral:**

$$s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2$$

**Desviación estándar muestral:** es $s$.

**Desviación media absoluta (MAD):** norma L1 o distancia de Manhattan.

$$\text{MAD} = \frac{1}{n} \sum_{i=1}^n |x_i - \bar{x}|$$

**Desviación absoluta de la mediana:** Ya que la varianza y la desviación media absoluta no son robusta a outliers, se puede realizar un estimado de la desviación usando la mediana $m$ de la muestra:

$$\text{Mediana}(|x_1 - m|,\; |x_2 - m|,\;...,\;|x_n - m|)$$ 


También es posible computar la varianza muestral truncada en analogía a la media truncada.

**Estadísticos de orden:** Métricas calculadas sobre los datos ordenados.

**Percentil $p$:** Valor para el cual el $p$ por ciento de los datos son menores o iguales. 

**Cuartil inferior:** Valor para el cual el 25% de las observaciones son más pequeñas (percentil del 25%).

**Cuartil superior:** Valor para el cual el 25% de las observaciones son más grandes (percentil del 75%).

**Rango intercuartil (IQR):**

$$\text{IQR} = \text{Cuartil superior} - \text{Cuartil inferior}$$

**Coeficiente de variación (CV):**

$$\text{CV} = 100 \times \frac{S}{\bar{x}}$$

**Ejercicio.--** verifique los siguientes resultados para cada clase, utilizando los datos que aparecen al final de este archivo.

         ancho            largo       Clase 
     Min.   : 8.590   Min.   :11.66   A:50  
     1st Qu.: 9.435   1st Qu.:13.32   B: 0  
     Median :10.070   Median :14.11   C: 0  
     Mean   :10.106   Mean   :14.10         
     3rd Qu.:10.742   3rd Qu.:14.69         
     Max.   :12.610   Max.   :17.81 
 
          ancho           largo        Clase 
     Min.   :10.18   Min.   : 5.640   A: 0  
     1st Qu.:11.79   1st Qu.: 6.925   B:50  
     Median :12.87   Median : 7.960   C: 0  
     Mean   :12.99   Mean   : 7.801         
     3rd Qu.:14.11   3rd Qu.: 8.555         
     Max.   :16.23   Max.   :10.110
 
          ancho           largo       Clase 
     Min.   :11.20   Min.   : 8.88   A: 0  
     1st Qu.:13.25   1st Qu.:14.34   B: 0  
     Median :14.19   Median :15.66   C:50  
     Mean   :14.02   Mean   :15.77         
     3rd Qu.:14.63   3rd Qu.:17.17         
     Max.   :15.96   Max.   :19.44 

# Análisis de la distribución de los datos

**Boxplot o diagrama de caja y bigotes:** gráfico que representa la distribución de los datos. En la siguiente figura se presentan dichos diagramas para los datos que aparecen en el archivo `muestra.csv`. La caja central representa el rango intercuartil; la línea central en la caja corresponde a la mediana de los datos; los "bigotes" se extienden hasta el dato más lejano en cada dirección, sin supera 1.5 (u otro valor) veces el rango intercuartil. Los puntos representan valores en los datos que son más lejanos de 1.5 veces el rango intercuartil y podrían ser considerados outliers.   

<img src="images/04-analisis-exploratorio/boxplot.jpg" width=600>

---
**Ejercicio.--** Reproduzca las gráficas anteriores.

---

**Diagrama de violin:** Diagrama similar a un boxplot pero muestra el estimado de la densidad de probabilidad.

<img src="images/04-analisis-exploratorio/vioplot.jpg" width=550>

**Histograma:** Es un diagrama que representa la cantidad de datos que contiene cada segmento en que se divide el rango de la variable analizada.

<img src="images/04-analisis-exploratorio/hist.jpg" width=800>

---
**Ejercicio.--** Reproduzca las gráficas anteriores.

---

**Estimado no paramétrico de la función de densidad de probabilidad:** Es una aproximación a la fdp real de la población que se obtiene al ubicar un kernel en cada dato. 

<img src="images/04-analisis-exploratorio/kde.jpg" width=600>

# Datos binarios y categóricos

En el caso de datos categóricos y binarios es suficiente con las siguientes métricas o gráficos:

* Moda: El valor más frecuente en los datos.
* Valor esperado para categorías asociadas con valores numéricos.
* Gráficos de barra para presentar la frecuencia o proporción de cada categoría.
* Gráficos de torta: para presentar la frecuecia o proporcion de cada categoría respecto al todo.

# Correlación

**Coeficiente de correlación:** Métrica que representa la dependencia entre una variable y otra. El coeficiente de correlación de Pearson $r$ entre dos variables $x$ y $y$ se calcula como:

$$r=\frac{\sum_{i=1}^n  (x_i - \bar{x}) (y_i - \bar{y})}
         {(n-1)\; s_X \; s_Y}$$


La correlación va entre $-1$ (correlación perfecta negativa) y $+1$ (correlación perfecta positiva). Un valor de $0$ indica que no hay correlación.

**Matriz de correlación:** Matriz donde cada fila y cada columna corresponde a una variable, y los elementos corresponden a la correlación entre las respectivas variables.

# Relaciones entre dos o más variables

**Diagrama de dispersión:** Gráfico en que en el eje $X$ corresponde a una variable, mientras que el eje $Y$ corresponde a otra. Se usa para visualizar relaciones de dependencia. 

<img src="images/04-analisis-exploratorio/pairs.jpg" width=600>

**Gráfico de hexágonos (hexagonal binning plot):** Cuando los diagramas de dispersión contienen muchos datos se hacen demasiado densos impidiendo la visualización. En este caso, el espacio $X$-$Y$ del gráfico es dividido en hexágonos que cuentan la cantidad de puntos que caen en ellos; en este gráfico, el color de cada hexágono representa la cantidad de puntos en él (un ejemplo es presentado [aquí](https://mathematica.stackexchange.com/questions/28149/implementing-hexagon-binning-in-mathematica)). 

**Variables categóricas:** Se usa una tabla de contingencia.

---

        #  Ancho (x1)  Largo x(2).  Clase
        1       10,67       14,70       A
        2        9,74       13,79       A
        3       10,23       14,30       A
        4       11,17       15,53       A
        5       10,41       15,08       A
        6       11,14       14,45       A
        7       10,12       12,95       A
        8        9,58       13,76       A
        9       11,16       15,21       A
       10       10,08       13,53       A
       11        9,96       13,31       A
       12        9,17       12,41       A
       13       11,52       16,01       A
       14       11,27       15,41       A
       15        8,72       11,66       A
       16       11,30       15,11       A
       17        9,70       13,56       A
       18        8,69       11,81       A
       19       10,99       16,28       A
       20       10,82       14,41       A
       21        8,90       11,87       A
       22        9,38       13,68       A
       23       10,06       14,02       A
       24        9,95       14,43       A
       25       10,39       14,61       A
       26       11,03       14,53       A
       27       11,18       15,31       A
       28       10,45       14,55       A
       29       10,72       15,66       A
       30        9,91       13,92       A
       31        8,59       12,96       A
       32       10,15       14,47       A
       33        9,99       13,83       A
       34       10,75       14,09       A
       35        9,31       13,37       A
       36        9,06       13,11       A
       37        9,42       13,56       A
       38       12,61       17,81       A
       39        9,03       12,05       A
       40       10,14       15,41       A
       41        9,56       14,13       A
       42       12,10       15,96       A
       43        9,48       14,67       A
       44        9,07       12,59       A
       45       10,18       13,42       A
       46        9,22       12,73       A
       47        9,03       13,03       A
       48        9,49       13,15       A
       49        9,58       14,14       A
       50       10,12       14,60       A
       51       10,87        6,91       B
       52       11,95        6,05       B
       53       12,77        7,97       B
       54       13,25        8,03       B
       55       14,42        9,25       B
       56       16,03        9,88       B
       57       12,23        6,97       B
       58       13,24        8,58       B
       59       10,88        6,15       B
       60       15,85        9,51       B
       61       11,63        7,28       B
       62       13,41        8,35       B
       63       11,71        6,37       B
       64       12,49        7,60       B
       65       14,46        8,21       B
       66       15,00       10,11       B
       67       12,24        7,16       B
       68       13,68        8,12       B
       69       15,06        8,47       B
       70       12,78        8,74       B
       71       14,21        7,59       B
       72       14,45        8,97       B
       73       13,45       10,10       B
       74       11,70        5,71       B
       75       13,65        7,95       B
       76       11,73        6,99       B
       77       12,84        9,00       B
       78       12,30        7,06       B
       79       12,90        8,33       B
       80       13,74        8,29       B
       81       11,95        6,87       B
       82       12,07        8,48       B
       83       12,45        8,12       B
       84       11,57        6,44       B
       85       13,54        8,67       B
       86       13,79        7,60       B
       87       14,38        8,48       B
       88       11,18        5,92       B
       89       10,50        5,64       B
       90       15,21        8,06       B
       91       10,76        5,88       B
       92       12,65        7,27       B
       93       13,35        7,87       B
       94       10,46        6,64       B
       95       14,24        7,45       B
       96       15,65        8,94       B
       97       10,18        6,36       B
       98       16,23        9,77       B
       99       11,03        6,73       B
      100       13,52        9,14       B
      101       13,27       13,92       C
      102       14,40       16,58       C
      103       14,50       17,39       C
      104       14,20       16,70       C
      105       14,62       17,22       C
      106       13,05       12,20       C
      107       14,43       16,31       C
      108       13,51       15,12       C
      109       14,63       17,00       C
      110       15,36       16,95       C
      111       14,24       17,55       C
      112       13,82       15,46       C
      113       14,52       18,90       C
      114       15,43       19,00       C
      115       14,58       17,01       C
      116       12,87       14,26       C
      117       15,37       18,91       C
      118       15,61       19,00       C
      119       15,12       17,84       C
      120       13,64       15,49       C
      121       15,12       16,51       C
      122       14,93       18,94       C
      123       14,36       14,94       C
      124       13,22       14,57       C
      125       15,13       18,92       C
      126       13,13       13,06       C
      127       15,96       19,44       C
      128       14,19       15,60       C
      129       12,12       11,36       C
      130       13,04       13,08       C
      131       15,48       19,05       C
      132       14,07       15,72       C
      133       11,20        8,88       C
      134       14,21       15,87       C
      135       14,22       16,54       C
      136       13,71       15,61       C
      137       13,09       14,94       C
      138       13,76       16,03       C
      139       13,99       14,07       C
      140       12,64       13,60       C
      141       15,13       18,25       C
      142       12,42       12,40       C
      143       13,19       13,51       C
      144       13,24       14,85       C
      145       12,99       13,81       C
      146       14,66       15,51       C
      147       13,94       14,83       C
      148       13,36       15,05       C
      149       14,19       16,43       C
      150       13,33       14,21       C

---

Análisis Exploratorio de Datos
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia
