In [None]:
IRdisplay::display_html("
<style>
.output_png {
        display: table-cell;
        text-align: center;
        vertical-align: middle;
    }
</style>")

# Análisis de Datos - Introducción

## Objetivos de la unidad
- Conocer el proceso general de adquisición de conocimiento a partir de bases de datos. 
- Comprender las diferencias entre modelamiento fenomenológico y modelamiento a partir de datos.
- Comprender los problemas de plantear hipótesis a partir de datos, sin contar con modelos fenomenológicos. 
- Comprender los problemas del compromiso sesgo-varianza y el principio de parsimonia.


## Desde 13283 a 13222

### ¿Qué aprendimos en Inferencia y Modelos Estadísticos
1. Modelamiento
2. Análisis estadístico
3. Muestreo estadístico
4. Estimación estadística
5. Decisión estadística
6. Estadística no paramétrica
7. Análisis de varianza
8. Regresión estadística


### ¿Qué significa ciencia de datos?

**Conceptos importantes**

- **Datos:** Hechos o medidas que describen característicasde objetos, eventos o personas, es la materia prima de lacual se obtendrá la información.
- **Información:** Datos procesados y presentados en formaadecuada, de interés para un observador en un tiempo determinado.
- **Conocimiento:** Información procesada para emitir juicios que llevan a conclusiones.
- **Meta-conocimiento:** Reglas  que  permiten  obtener conocimiento.


Por lo cual la ciencia de datos busca extraer conocimiento a partir de datos (masivos). En la actualidad, se asocia el término *big data*, para explicitar la abundancia, generación y variedad de datos.

### Obtención de Conocimientode Bases de Datos - *Knowledge Discovery in Database (KDD)*

> “Proceso no trivial de identificación válido, novedoso, potencialmente útil y esencialmente entendible  de obtención de **patrones** de los datos”.

En donde la obtención de patrones indica: relaciones, correlaciones, tendencias, descripción de eventos raros, etc.

1. Establecer objetivos del KDD.
2. Obtención de datos.
3. Preprocesamiento: selección de datos, limpieza de datos (filtrado), enriquecimiento y codificación.
4. Minería de datos


### ¿Qué busca el aprendizaje automático?

- Identificar grupos o anomalías
- Clasificación
- Predicción


## R como tu amigo para los datos

> R es un entorno y lenguaje de programación con un enfoque al análisis estadístico. R nació como una reimplementación de software libre del lenguaje S, adicionado con soporte para alcance estático. Se trata de uno de los lenguajes de programación más utilizados en investigación científica, siendo además muy popular en los campos de aprendizaje automático (machine learning), minería de datos, investigación biomédica, bioinformática y matemáticas financieras. A esto contribuye la posibilidad de cargar diferentes bibliotecas o paquetes con funcionalidades de cálculo y graficación. [Wikipedia](https://es.wikipedia.org/wiki/R_%28lenguaje_de_programaci%C3%B3n%29)

Para la asignatura trabajaremos con este hermoso lenguaje, por lo cual deben instalar R y RStudio (IDE).

In [None]:
columns = c("area", "perimeter", "compactness", "length", "width", "AC", "lengthGroove", "class")
url = "https://www.dl.dropboxusercontent.com/s/wrexlo5im3g5ioi/seeds_dataset.csv"
seeds = read.csv(url, header = F, sep=",", col.names = columns)
seeds$class = factor(seeds$class, levels = c(1,2,3), labels = c("Kama", "Rosa", "Canadian"))

In [None]:
head(seeds)

In [None]:
tail(seeds)

In [None]:
mean(seeds$perimeter)

In [None]:
sd(seeds$perimeter)

In [None]:
var(seeds$perimeter)

In [None]:
cor(seeds$width, seeds$area)

In [None]:
summary(seeds)

In [None]:
library(ggpubr)

## Técnicas básicas 

### Regresión lineal

**Regresión** consiste en ajustar un modelo parámetrico que sea capaz de predecir $y$ dado $x$.

$$f_{\theta}: y \to x$$

Entonces tenemos que:
- $x$ variable independiente, entrada, característica, predictor
- $y$ variable dependiente, salida, respuesta, objetivo
- Tanto $x$ como $y$ son variables continuas
- $\theta$ son los parámetros del modelo.

#### ¿Cuándo se habla de regresión lineal?

- Cuando se tiene un conjunto de $M$ tuplas ($x_i$, $y_i$) $\forall i = 1, 2, 3, ... , M$
- Cuando se realiza un **ajuste** para encontrar el el valor óptimo de $\theta$ en función de los datos.
- Si $f_\theta$ es lineal l en sus parámetros se puede escribir como un sistema lineal de $M$ ecuaciones.
- Si el sistema es rectangular lo podemos resolver con Mínimos Cuadrados:

$$ min_\theta \sum^{M}_{i=1} (y_i - f_\theta (x_i))^2$$


### En la práctica:

En la práctica se maneja:

1. Hipótesis con parámetros $\theta_i$.
$$h_\theta(x) = \theta_0 + \theta_1x$$
2. Escoger $\theta_0$ y $\theta_1$ que ajuste $h_\theta(x)$lo mas cercano a $y$ para nuestro conjunto de ejemplos $(x, y)$, respecto a nuestra función de costos.

$$J_{\theta_0, \theta_1} = min_\theta \sum^{M}_{i=1} (y_i - (\theta_0 + \theta_1x_i))^2 $$

In [None]:
h_1 = function(x) { return(1.5 + 0 * x)}
h_2 = function(x) { return(0 + 0.5 * x)}
h_3 = function(x) { return(1 + 0.5 * x)}
x = c(0:6)

h = data.frame(x, 
               h_1 = h_1(x), 
               h_2 = h_2(x), 
               h_3 = h_3(x))

In [None]:
options(repr.plot.width=15, repr.plot.height=5)
ggline(h, 
       "x", 
       y = c("h_1", "h_2", "h_3"), 
       combine=T,  
       ylim=c(0,4),  
       xlim=c(0,6)
      )

Se tiene respectivamente:

$$h_1(x) = 1.5 + 0x$$
$$h_2(x) = 0 + 0.5x$$
$$h_3(x) = 1 + 0.5x$$

## Ejemplo: 

Si queremos buscar de que valor será el **área** de nuestras semillas con respecto al **ancho**, tendríamos que:

- Las $M$ tuplas: 210
- Identificar variable de entrada ($x$): ancho.
- Identificar variable de salida ($y$): área.
- Encontrar la recta que se ajuste a nuestros datos a partir $h(\theta)$


In [None]:
options(repr.plot.width=15, repr.plot.height=10)
ggscatter(seeds, "width", "area")

In [None]:
rl.seeds = lm(area ~ width, seeds)
rl.seeds

In [None]:
summary(rl.seeds)

In [None]:
area.predict.fome = -9.5212 + 7.4783 * seeds$width
area.predict.bkn = predict(rl.seeds)

In [None]:
head(area.predict.fome)

In [None]:
head(area.predict.bkn)

In [None]:
seeds.predictions = data.frame(
    area = c(seeds$area, area.predict.fome), 
    width = c(seeds$width, seeds$width),
    type = c(rep("real", 210), rep("pred", 210)))

In [None]:
options(repr.plot.width=15, repr.plot.height=10)
ggscatter(seeds.predictions, "width", "area", color="type")

In [None]:
ggscatter(seeds, 
          "width", 
          "area", 
          add = "reg.line",
          conf.int = TRUE)

### Modelos lineales en sus parámetros y en sus entradas

#### Recta

Si $x$ es unidimensional $$ y =\theta_0 + \theta_1 x $$


##### Plano

Si $\vec x =(x_1, x_2)$ es bidimensional $$ y = \theta_0 + \theta_1 x_1 + \theta_2 x_2 $$

#### Hiperplano

Si $\vec x = (x_1, x_2, \ldots, x_d)$ es d-dimensional $$ y = \theta_0 + \sum_{k=1}^d \theta_k x_k $$

### Regresión logística

El modelo de regresión logística surge del deseo de modelar las probabilidades posteriores de las clases $K$ a través de funciones lineales en $x$, mientras que al mismo tiempo se asegura de que sumen una y permanezcan en $[0, 1]$. Entonces consiste en un métoo para aprender una mapeo entre una o más **variables continuas** (atributos) hacia una **variable binaria** (objetivo).

$$ y_i \leftarrow f_\theta(x_i) = \mathcal{S} \left(\theta_0 + \sum_{j=1}^M \theta_j x_{ij}\right) $$

donde $\mathcal{S}(z) = \frac{1}{1+\exp(-z)} \in [0, 1]$ se conoce como función logística o sigmoid.

Entonces tenemos que:
- $x$ variable independiente, entrada, característica, predictor
- $y$ variable dependiente, salida, respuesta, objetivo (etiqueta)
- $\theta$ son los parámetros del modelo.

#### ¿Cuándo se habla de regresión logística?

- Cuando se tiene un conjunto de $M$ tuplas ($x_i$, $y_i$) $\forall i = 1, 2, 3, ... , M$
- Cuando se realiza un **ajuste** para encontrar el el valor óptimo de $\theta$ en función de los datos.

#### ¿Qué función de costo es apropiada en este caso?

Tipicamente se usa la **Entropía Cruzada Binaria**

$$
L(\theta) = \sum_{i=1}^N  -y_i \log( f_\theta(\vec x_i) ) - (1-y_i) \log(1 - f_\theta(\vec x_i))
$$

#### Sigmoide

$$\mathcal{S}(z) = \frac{1}{1+\exp(-z)}$$

In [None]:
h_1 = function(x, y) { return(-1 + 2*x*y)}
h_2 = function(x, y) { return(0 + 3*x*y)}
h_3 = function(x, y) { return(1 + -(4)*x*y)}
x = c(-6:6)
y = c(rep(0, 6), rep(1, 7))

h = data.frame(x = x,
               y = y,
               h_1 = 1./(1 + exp(-h_1(x, y))), 
               h_2 = 1./(1 + exp(-h_2(x, y))), 
               h_3 = 1./(1 + exp(-h_3(x, y))))

In [None]:
options(repr.plot.width=15, repr.plot.height=5)
ggline(h, 
       "x", 
       y = c("h_1", "h_2", "h_3"), 
       combine=T
      )

#### Ejemplo:
- Saber a que clase pertenecen las semillas respecto a su ancho.

In [None]:
seeds.binary = seeds[seeds$class == "Canadian" | seeds$class == "Rosa", ]
seeds.binary$class_ = as.integer(seeds.binary$class) - 2

In [None]:
# Esto es justo lo que no hay que hacer
ggscatter(seeds.binary, "width", "class_", color="class")

In [None]:
rlog.seeds = glm(class ~ width, seeds, family = "binomial")
rlog.seeds

In [None]:
summary(rlog.seeds)


### Métricas: Evaluando un clasificador binario

La salida de este clasificador es un valor en el rango $[0, 1]$


- True positives (TP): Es clase (1) y lo clasifico como (1)
- True negative (TN): Es clase (0) y lo clasifico como (0)
- False positives (FP): Es clase (0) y lo clasifico como (1): Error tipo I
- False negative (FN): Es clase (1) y lo clasifico como (0): Error tipo II

A partir de estas métricas se construye la tabla de confusión del clasificador

|Real/Predicho|Positivo| Negativo |
|-|-|-|
| Positivo | TP | FP |
| Negativo | FN | TN |

En base a estas métricas se construyen otras 
$$ \text{Recall} = \frac{TP}{TP + FN} $$ 



> **TPR (Tasa de Verdaderos Positivos):** La proporción de positivos correctamente clasificados respecto al total de positivos. Tambien conocida como $sensitividad$.

$$ \text{FPR} = \frac{FP}{TN + FP} = 1 - \frac{TN}{TN + FP} $$


> **FPR (Tasa de Falsos Positivos)**: La proporción de negativos incorrectamente clasificados respecto al total de negativos. También representada como $1 - especificidad$


$$ \text{Accuracy} = \frac{TP+TN}{TP + FP + FN+ TN} $$

> **Accuracy:** La proporción de ejemplos correctamente clasificados

$$ \text{f1-score} = \frac{2*\text{Recall}*\text{Precision}}{\text{Recall} + \text{Precision}} $$

> **f1-score:** Media armónica entre Recall y Precision asumiendo igual ponderación

**Nota:** Si las clases son desbalanceadas entonces f1-score es más aconsejable que accuracy


### Validación cruzada

Método para conocer como se comportará el el modelo en términos de predicción con datos futuros. 


> ... cross-validation typically estimates well only the expected prediction error. (Pág. 241. The Elements of Statistical Learning)


![cv](https://4.bp.blogspot.com/-rtu5FnXZPBM/VFgRiSfR4aI/AAAAAAAABOA/SI2cawyRCuc/s1600/validacioncruzada_5.jpg)


### Resumen y más

Un modelo con más parámetros es más flexible pero también más complejo

> Complejidad: grados de libertad de un modelo

Un exceso de flexibilidad no es bueno. Podría ocurrir que el modelo se ajuste al ruido

> Sobreajuste: Ocurre cuando el modelo "memoriza" los datos

Cuando esto ocurre el modelo pierde capacidad de generalización

> Generalización: Capacidad de predecir adecuadamente datos no usados en el ajuste

Tres maneras de evitar el sobreajuste y mejorar la capacidad de generalización

- Usar modelos de baja complejidad
- Escoger la complejidad mediante pruebas de validación
- Usar **regularización**

####  Regularización

Consiste en agregar una **penalización** adicional al problema

El ejemplo clásico es pedir que la solución tenga norma mínima
$$ \min_x \|Ax-b\|_2^2 + \lambda \|x\|_2^2 $$

En este caso la solución es
$$ \hat x = (A^T A + \lambda I)^{-1} A^T b $$

que se conoce como **ridge regression** o **regularización de Tikhonov**

$\lambda$ es un **hiper-parámetro** del modelo y debe ser escogido por el usuario (usando validación).


## Problemas tipo PEP