<img src="logo.png">

# Geometrías de densidades.

Pasamos a estudiar nuestras siguientes geometrías: las de distribución, las cuales sirven para observar informacion probabilística de la distribución estadística de los datos.

 ## Histogramas y polígonos de frecuencia.
 
Comencemos con histogramas y polígonos de frecuencia. Ambos tipos de gráfico nos sirven para observar la distribución de los datos en una sola variable continua, dividiendo el eje X en *bins* y contando cuántos datos caen dentro de cada bin.

Vamos a trabajar con la tabla **sismos.csv** de nuestro repositorio.

**Histogramas**

Grafiquemos un histograma sencillo. En los histogramas, la única aestética obligatoria es x que, recordemos, debe ser una variable continua. En el eje Y tendremos el conteo de elementos que están dentro de cada bin.

```r
ggplot(data=sismos,mapping=aes(x=Magnitud)) +
  geom_histogram()
```

<img src="im78.png">

El número de bins se pueden controlar con el parámetro ``bins``

Cuando se trabaja con histogramas, algo importante a considerar es el ancho de cada bin. Este puede ser ajustado con el parámetro ``binwidth``

```r
ggplot(data=sismos,mapping=aes(x=Magnitud)) +
  geom_histogram(binwidth=0.1)
```

<img src="im79.png">

Alternativamente, también se le puede indicar mediante ``breaks`` las fronteras de los bins:

```r
################################################################
#######       En R       #######################################
################################################################
ggplot(data=sismos,mapping=aes(x=Magnitud)) +
  geom_histogram(breaks=seq(0.25,8.25,0.1))
```

```python
################################################################
#######    En Python     #######################################
################################################################
(ggplot(data=sismos,mapping=aes(x="Magnitud")) +
  geom_histogram(breaks=np.arange(0.25,8.35,0.1)))
```
<img src="im80.png">


Esta última técnica es particularmente útil cuando requieres también conocer las frecuencias:

```r
################################################################
#######       En R       #######################################
################################################################

sismos$intervalo <- cut(sismos$Magnitud, 
                        breaks = seq(0.25,8.25,0.1),
                        right = FALSE)                        
conteos <- table(sismos$intervalo)
as.data.frame(conteos)
```

```python
################################################################
#######    En Python     #######################################
################################################################
sismos['intervalo'] = pd.cut(sismos['Magnitud'],
                             bins=np.arange(0.25,8.35,0.1),
                             right=False)
conteos = sismos['intervalo'].value_counts().sort_index()
conteos_df = conteos.reset_index()
conteos_df.columns = ['intervalo', 'conteo']
```


**Polígonos de frecuencias**

Una manera equivalente para observar las frecuencias de una variable continua es mediante los polígonos de frecuencias. En lugar de presentar la información en forma de barras, esta geometría lo hace con líneas:

```r
ggplot(data=sismos,mapping=aes(x=Magnitud)) +
  geom_freqpoly()
```

<img src="im81.png">

De esta manera, incluso podemos observar ambos gráficos:

```r
ggplot(data=sismos,mapping=aes(x=Magnitud)) +
  geom_histogram() +
  geom_freqpoly()
```

<img src="im82.png">

Como todas las demás geometrías, estas admiten agrupar para diferenciar mediante alguna otra variable. En particular, esta diferenciación se nota mejor con los polígonos de frecuencias:

```r
ggplot(data=sismos,mapping=aes(x=Magnitud,group=placas)) +
  geom_histogram(fill=placas)
```
<img src="im83.png">

```r
ggplot(data=sismos,mapping=aes(x=Magnitud,group=placas)) +
  geom_histogram(color=placas)
```

<img src="im84.png">

## Geometrías de densidad

Otra forma de visualizar la distribución de los datos es utilizando la geometría de densidad, que se trata de una versión suavizada de la geometría de polígonos de frecuencia.

```r
ggplot(data=sismos,mapping=aes(x=Magnitud)) +
  geom_density()
```

<img src="im85.png">

De nuevo, podemos separar por grupos. Además, esta geometría acepta tanto relleno como color:

```r
ggplot(data=sismos,mapping=aes(x=Magnitud)) +
  geom_density(mapping=aes(fill=placas))
```

<img src="im86.png">

No obstante, usualmente conviene utilizar transparencias o facetas verticales:

```r
ggplot(data=sismos,mapping=aes(x=Magnitud)) +
  geom_density(mapping=aes(fill=placas),
               alpha=0.3)
```

<img src="im87.png">

```r
ggplot(data=sismos,mapping=aes(x=Magnitud)) +
  geom_density(mapping=aes(fill=placas),
               alpha=0.3) +
  facet_wrap(~placas,
             ncol=1)
```

<img src="im88.png">

En esta última aprovechamos que cada densidad tiene su color y así podemos eliminar el significado de los colores:

```r
ggplot(data=sismos,mapping=aes(x=Magnitud)) +
  geom_density(mapping=aes(fill=placas),
               alpha=0.3) +
  facet_wrap(~placas,
             ncol=1) +
  theme(legend.position="none")  #recuerda que en Python es legend_position
```

<img src="im89.png">

## Boxplots

Ahora imaginemos la siguiente situacion: para cada placa (que es una variable discreta), grafiquemos todas las magnitudes con una gran transparencia para visualizar en qué medidas se concentran más las magnitudes:

```r
ggplot(data=sismos,mapping=aes(x=placas,y=Magnitud)) +
  geom_point(alpha=0.01)
```

<img src="im90.png">

Al tener tantos datos en cada categoría, una manera mejor de presentar la información es con gráficos de cajas. Estos gráficos también nos permiten tener una buena idea de la distribución de los datos, además de mostrarnos mas estadísticas:

```r
ggplot(data=sismos,mapping=aes(x=placas,y=Magnitud)) +
  geom_boxplot()
```

<img src="im91.png">

Cada línea dentro de cada caja representa las medianas de los datos. Los límites de la cajas son el 1er y 3er quantil. Las líneas fuera de las cajas son el rango intercuartílico. Y los puntos son las observaciones anómalas (outliers).

Los boxplots tienen varios parámetros para mejorar su presentación. Por ejemplo, el ancho ``width``

```r
ggplot(data=sismos,mapping=aes(x=placas,y=Magnitud)) +
  geom_boxplot(width=0.4)
```

<img src="im92.png">

O bien, podemos pedir que el ancho dependa del número de observaciones. Así, clases con mayor número de renglones tendrán un ancho mayor.

```r
ggplot(data=sismos,mapping=aes(x=placas,y=Magnitud,fill=placas)) +
  geom_boxplot(varwidth=TRUE, #recuerda que en Python es True
               show.legend = FALSE, #recuerda que en Python es show_legend
               alpha=0.5)
```

<img src="im94.png">

Incluso, podemos cambiar el color de las líneas caja, **que siempre es el mismo que el de la línea que de mediana**, junto con los outliers:

```r
ggplot(data=sismos,mapping=aes(x=placas,
                               y=Magnitud,
                               fill=placas,
                               color=placas)) +
  geom_boxplot(varwidth=TRUE, #recuerda que en Python es True
               show.legend = FALSE, #recuerda que en Python es show_legend
               alpha=0.5)
```

<img src="im95.png">

En este sentido, los outliers se puede tratar de manera independiente.

Por ejemplo, **manejar su color a un color fijo**

```r
ggplot(data=sismos,mapping=aes(x=placas,
                               y=Magnitud,
                               fill=placas,
                               color=placas)) +
  geom_boxplot(varwidth=TRUE, #recuerda que en Python es True
               show.legend = FALSE, #recuerda que en Python es show_legend
               outlier.color = "black", # En Python es outlier_color
               alpha=0.5)
```

<img src="im96.png">

Por ejemplo, **manejar su color a un color fijo y una transparencia fija**

```r
ggplot(data=sismos,mapping=aes(x=placas,
                               y=Magnitud,
                               fill=placas,
                               color=placas)) +
  geom_boxplot(varwidth=TRUE, #recuerda que en Python es True
               show.legend = FALSE, #recuerda que en Python es show_legend
               outlier.color = "black", # En Python es outlier_color
               outlier.alpha = 0.01, # En Python es outlier_alpha
               alpha=0.5)
```

<img src="im97.png">

O incluso que el color de los outliers sea una aestética:

```r
ggplot(data=sismos,mapping=aes(x=placas,
                               y=Magnitud,
                               fill=placas,
                               color=placas,
                               outlier.color = placas)) + # En Python es outlier_color
  geom_boxplot(varwidth=TRUE, #recuerda que en Python es True
               show.legend = FALSE, #recuerda que en Python es show_legend
               outlier.alpha = 0.01, # En Python es outlier_alpha
               alpha=0.5)
```

<img src="im98.png">

Supogamos que ahora queremos añadir también las medias.

Una manera posible es utilizando una capa estadística con una geometría de crossbar. 

```r
################################################################
#######       En R       #######################################
################################################################

gplot(sismos, aes(x = placas, y = Magnitud)) +
    geom_boxplot(mapping=aes(fill=placas),
                 varwidth=TRUE) +
    stat_summary(fun = mean, 
                 geom = "crossbar",
                 ymin=-1,
                 ymax=-1,
                 fatten=0.5,
                 width = 0.8,
                 color = "red")
```

```python
################################################################
#######    En Python     #######################################
################################################################

(ggplot(sismos, aes(x = "placas", y = "Magnitud")) +
  geom_boxplot(mapping=aes(fill="placas"),
               varwidth=True,
               ) +
  stat_summary(fun_y = np.mean, 
               geom = "crossbar",
               ymin=-1,
               ymax=-1,
               fatten=0.5,
               width = 0.8,
               color = "red")) 
```

<img src="im99.png">


Combinando todo lo expuesto anteriormente:

```r
################################################################
#######       En R       #######################################
################################################################

ggplot(sismos, aes(x = placas, y = Magnitud)) +
    geom_boxplot(mapping=aes(color=placas,
                             fill=placas),
                 varwidth=TRUE,
                 alpha=0.5,
                 outlier.alpha = 0.1,
                 size=0.3) +
    stat_summary(geom = "crossbar",
                 fun = mean, 
                 fatten=0.5,
                 width = 0.9,
                 mapping=aes(color=placas),
                 linetype = "dashed") +
    theme(legend.position = "None")
```

```python
################################################################
#######    En Python     #######################################
################################################################

(ggplot(sismos, aes(x = "placas", y = "Magnitud")) +
  geom_boxplot(mapping=aes(color="placas",
                           fill="placas"),
               varwidth=True,
               alpha=0.5,
               outlier_alpha = 0.1,
               size=0.3) +
  stat_summary(geom = "crossbar",
               fun_y = np.mean, 
               ymin=-1,
               ymax=-1,
               fatten=0.5,
               width = 0.9,
               mapping=aes(color="placas"),
               linetype = "dashed")) +
  theme(legend_position = "none")
```

<img src="im100.png">