<img src="logo.png">

# Transformaciones estadísticas

Todas las geometrías (las que hemos visto y las que no) contienen un parámetro interno con el cual no hemos trabajao. El parámetro **stat**, que siempre tiene algún valor por default.

Este se refiere a qué transformación de los datos se hará con ella.

Por ejemplo, ``geom_point`` tiene el parámetro ``stat`` con valor por default ``"identity"``: visualizemos el consumo de combustible en carretera, hwy, por clase de automóvil:

```r
ggplot(data=mpg) +
    geom_point(mapping=aes(x=class,y=hwy),
               stat="identity")
```

<img src="im59.png">

Observamos que se obtiene lo mismo especificando el stat con "identity" que sin haber utilizado el stat. Pero si en lugar de querer ver los puntos como tal queremos ver cuántos puntos hay en cada clase, podemos cambiar la transformación estadística por un conteo:

```r
ggplot(data=mpg) +
    geom_point(mapping=aes(x=class),
               stat="count")
```

<img src="im60.png">

De esta manera, tenemos dos formas de pedirle a ggplot que nos realice el gráfico:

- **Con capas geométricas**: Utilizando directamente la geometría que nos interesa.
- **Con capas de transformación**: Haciendo explícita la transformación estadística que queremos.

## Estadísticas y geometrías

Por una parte, las geometrías controlan la manera en que queremos que los datos se vean, en tanto las estadísticas controlan la manera en que los datos son transformados.

Por ejemplo, ``geom_line`` muestra los datos como líneas y ``geom_point()`` lo hace como puntos. 

La cuestión es que toda geometría tiene asociada una transformación estadística por default. Para ver cuál es la transformación que se tiene por default siempre puedes ver la documentación:

```r
?geom_point  
?geom_line 
?geom_smooth 
```

La transformación "identity" **no realiza** transformaciones de los datos. Los presenta tal como vienen. Esa es la razón por la cual cuando hacemos un ``geom_point()`` o un ``geom_line()`` los puntos y las líneas aparecen exactamente como están en los datos. Por otra parte, cuando aplicamos un ``geom_smooth()`` los datos se presentan transformados "suavemente"

```r
ggplot(data=mpg,mapping=aes(x=cty,y=hwy)) +
    geom_point() +
    geom_line() +
    geom_smooth()     
```

<img src="im61.png">

Hagamos un cambio en la transformación de ``geom_point``

```r
ggplot(data=mpg,mapping=aes(x=cty,y=hwy)) +
    geom_point(stat="smooth",color="blue") +
    geom_point(alpha=0.2)
```

<img src="im62.png">


O bien, ahora modiquemos la transformación de ``geom_smooth``

```r
ggplot(data=mpg,mapping=aes(x=cty,y=hwy)) +
    geom_smooth(stat="identity",color="blue") +
    geom_smooth()
```

<img src="im63.png">

Los ejemplos anteriores, y todos los que hemos hecho desde la primera sesión, han obedecido a la manera de capas geométricas para indicarle a ggplot cómo queremos el gráfico.

Pero como dijimos, también es posible hacerlo utilzando capas estadísticas.

De esta forma, así como cada geometría tiene asociada una transformación estadística por default, al revés también se cumple: cada transformación estadística tiene una geometría asociada por default:

- ``stat_smooth`` tiene asociada la geometría ``geom_smooth``
- ``stat_count`` tiene asociada la geometría ``geom_bar``
- ``stat_sum`` tiene asociada la geometría ``geom_point``

Por ejemplo:

```r
ggplot(data=mpg,mapping=aes(x=cty,y=hwy)) +
    stat_smooth()
```

<img src="im64.png">

**Observación:** así como las capas geométricas aceptan la data o las aestéticas por dentro, las capas estadísticas también lo aceptan.

Veamos otro ejemplo:

```r
ggplot(data=mpg) +
    stat_count(mapping=aes(x=cty))
```

<img src="im65.png">


O bien, utilizando la estadística de suma:

```r
ggplot(data=mpg) +
    stat_sum(mapping=aes(x=cty,y=hwy))
```

<img src="im66.png">

Esta transformación reemplaza los puntos superpuestos con un punto cuyo tamaño refleja el número de observaciones en ese punto. Cuantos más puntos superpuestos haya en una coordenada específica, mayor será el tamaño del símbolo. Es comúnmente utilizada con gráficos de puntos cuando los datos tienen muchas observaciones con los mismos valores de x e y

## Transformaciones interesantes

Pasemos ahora a ver algunas transformaciones de interés.

### stat_smooth (geom_smooth)

Sirve cuando queremos visualizar de manera "suave" nuestros datos.

```r
#### Con geom_smooth
ggplot(data=mpg,mapping=aes(x=cty,y=hwy)) +
    geom_point() +
    geom_smooth(color="blue")
```

```r
#### Con stat_smooth
ggplot(data=mpg,mapping=aes(x=cty,y=hwy)) +
    geom_point() +
    stat_smooth(color="blue")
```

<img src="im67.png">

Trabajemos ahora con la tabla **oxboys.csv** de nuestro repositorio de datos.

```r
ggplot(data=oxboys,
       mapping=aes(x=edad,y=estatura,group=sujeto)) +
  geom_line() +
  geom_point()
```

<img src="im68.png">

Añadamos una geometría suave:

```r
ggplot(data=oxboys,
       mapping=aes(x=edad,y=estatura,group=sujeto)) +
  geom_line(color="blue") +
  geom_point() +
  geom_smooth(color="red") +
```

<img src="im69.png">

Dicha geometría se está tomando los valores por defecto de la función ``ggplot``. Si cambiamos de lugar el grupo, obtendremos una "suavizacion conjunta" de todos los datos.

```r
ggplot(data=oxboys,
       mapping=aes(x=edad,y=estatura)) +
  geom_line(mapping=aes(group=sujeto),
            color="blue") +
  geom_point(mapping=aes(group=sujeto)) +
  geom_smooth(color="red") +
```

<img src="im70.png">

### stat_unique (geom_point)

La transformación "unique" sirve para evitar repeticiones:

```r
#### Con valores repetidos:
ggplot(data=mpg,mapping=aes(x=class,y=hwy)) +
    geom_point(alpha=0.3)
```

<img src="im71.png">

Sin valores repetidos (dos maneras):

```r
#### Sin valores repetidos desde el estadístico de la geometría
ggplot(data=mpg,mapping=aes(x=class,y=hwy)) +
    geom_point(alpha=0.3,
               stat="unique")
```

```r
#### Sin valores repetidos desde una capa estadística
ggplot(data=mpg,mapping=aes(x=class,y=hwy)) +
    stat_unique(alpha=0.3)
```

<img src="im72.png">

### stat_summary (geom_pointrange)

Esta toma como input una función, como el promedio, el máximo, el mínimo, etc. de un conjunto de valores, y lo calcula para ese conjunto de puntos. Por defecto, la función que tiene es ``mean_se``: calcula la media y la desviación estándar, y luego muestra la media - desviación y media + desviación.

La geometría que utiliza es la ``geom_pointrange`` que básicamente es un punto y un segmento de recta. 

```r
ggplot(data=mpg,mapping=aes(x=class,y=hwy)) +
    geom_point(alpha=0.3)
    stat_summary(color="red")
```

<img src="im73.png">

Así, podemos graficar, por ejemplo la media:

```r
################################################################
#######       En R       #######################################
################################################################

ggplot(data=mpg,mapping=aes(x=class,y=hwy)) +
    geom_point(alpha=0.3) +
    stat_summary(fun=mean,
                 color="red",
                 size=0.5)
```

```python
################################################################
#######    En Python     #######################################
################################################################

ggplot(data=mpg,mapping=aes(x="class",y="hwy")) +
    geom_point(alpha=0.3) +
    stat_summary(fun_data="mean_se",
                 color="red",
                 size=0.5)
```

<img src="im74.png">

O bien, lo podemos controlar desde las geometrías:

```r
################################################################
#######       En R       #######################################
################################################################

ggplot(data=mpg,mapping=aes(x=class,y=hwy)) +
  geom_point(alpha=0.3) +
  geom_point(stat="summary",
             fun=mean,
             color="red",
             size=3)
```

```python
```python
################################################################
#######    En Python     #######################################
################################################################

ggplot(data=mpg,mapping=aes(x="class",y="hwy")) +
  geom_point(alpha=0.3) +
  geom_point(stat="summary",
             fun_y=np.mean,
             color="red",
             size=3)
```
<img src="im75.png">

## Aestésticas calculadas

Ya sabemos que una transformación estadística transforma los datos y devuelve un valor. Este valor es gestionado en algún lugar y puedes accesar a él. 

Por ejemplo, cuando utilizamos una geometría de histograma (``geom_histogram``), que utiliza una estadística de bins por default (``stat_bin``) se nos generan cuatro valores: 

- ``count``: número de elementos en cada bin
- ``density``: densidad de los elementos en cada bin, por lo que integra 1
- ``ncount`` conteo en cada bin pero escalado al máximo=1. Es decir

$$\frac{\mbox{#elementos en cada bin}}{\max(\mbox{#elementos en cada bin})}$$

- ``ndensity`` densidad en cada bin pero escalado al máximo=1. 

Esto es lo que se conoce como **variables calculadas**. 

```
?geom_histogram
```

Veamos unos ejemplos:

```r
ggplot(data=mpg,mapping=aes(x=displ)) +
    geom_histogram()
```

<img src="im76.png">

Observemos que el eje Y presenta un "count" que nosotros no le indicamos. Esa es la variable calculada que está aplicando el ``stat_bin`` por default.

Esto es lo mismo que pedirle una aestética al eje Y basada en una columna calculada:

```r
ggplot(data=mpg,mapping=aes(x=displ)) +
    geom_histogram(mapping=aes(y=..count..)) # En Python es "..count.."
```

```r
ggplot(data=mpg,mapping=aes(x=displ)) +
    geom_histogram(mapping=aes(y=stat(count))) # En Python es "stat(count)"
```

<img src="im77.png">
