<img src="logo.png">

# Gráficos de puntos

Ya hemos tenido oportunidad de trabajar con geometrías de puntos. Pero veamos un poco más sobre ellas.

- Sabemos que podemos hacer gráficos de puntos conectados. Basta con utilizar también geometrías lineales.

- Además, cuando en un gráfico de puntos, el tamaño depende de alguna columna, se le llama gráfico de burbujas.

Vamos a trabajar con la tabla **starwars_humanos.csv** que está en nuestro repositorio.

```r
################################################################
#######       En R       #######################################
################################################################

library(tidyverse)
setwd("C:\\Users\\Usuario\\Documents\\scidata\\24_vis_r_py\\trabajos")
humanos = read.csv("starwars_humanos.csv")
```

```python
################################################################
#######    En Python     #######################################
################################################################

import pandas as pd
from plotnine import *
import os

os.chdir("C:\\Users\\Usuario\\Documents\\scidata\\24_vis_r_py\\trabajos")
humanos = pd.read_csv("starwars_humanos.csv")
```

Hagamos un gráfico de puntos simple del peso vs la estatura

```r
ggplot(data=humanos,mapping=aes(x=mass,y=height)) +
  geom_point(size=4)
```

<img src="im41.png">

Observemos que tenemos un problema de *superposición* (zonas donde los puntos se aglomeran).

Para tratar este problema, tenemos dos opciones: utilizar transparencias o dar un *escalofrío* a los puntos:

**Con transparencia**

```r
ggplot(data=humanos,mapping=aes(x=mass,y=height)) +
  geom_point(size=4,alpha=0.5)
```

<img src="im42.png">


**Con escalofríos**

```r
ggplot(data=humanos,mapping=aes(x=mass,y=height)) +
  geom_jitter(size=4)
```

<img src="im43.png">

Para apreciar mejor los efectos anteriores, usemos ambas técnicas:

```r
ggplot(data=humanos,mapping=aes(x=mass,y=height)) +
  geom_point(size=4,alpha=0.5) +
  geom_jitter(alpha=0.5)
```

<img src="im44.png">

Observemos la columna ``imc`` (índice de masa corporal), $imc=10000*\frac{peso}{estatura^2}$

```r
humanos["imc"]
```

Como podrá notarse, es una columna de tipo de datos continuos.

A su vez, la columna ``categoria_imc`` es una columna de tipo discreto (sirve para clasificar).

```r
humanos["categoria_imc"]
```

Estas clases se corresponenden a los siguientes intervalos:

| Intervalo | Clase |
|-----------|-----------|
| (0,18.5)   | Bajo    |
| [18.5,25)  | Normal  |
| [25,30)    | Alto    |
| [30,35)    | Obeso   |
| [35,...)| Obesidad extrema|


## Coloreado con columna de tipo continuo

Vamos a colorear respecto del IMC:

```r
ggplot(data=humanos,mapping=aes(x=mass,y=height)) +
  geom_point(mapping=aes(color=imc),
             size=4)
```

<img src="im45.png">

Para el control de colores en el caso continuo, tenemos los siguientes opciones:

**Definir nuestros valores bajos y altos**

Podemos pedir los colores para los extremos de la columna

```r
### Utilizamos scale_color_gradient

ggplot(data=humanos,mapping=aes(x=mass,y=height)) +
  geom_point(mapping=aes(color=imc),
             size=4) +
  scale_color_gradient(low="green",high="blue")
```

<img src="im46.png">

Además, podemos definir un color intermedio junto con el valor intermedio:

```r
## scale_color_gradient2
#### Define color bajo, alto y medio

ggplot(data=humanos,mapping=aes(x=mass,y=height)) +
  geom_point(mapping=aes(color=imc),
             size=4) +
  scale_color_gradient2(low="green",mid="red",high="blue",midpoint=27)
```

<img src="im47.png">

**Definir nuestra propia paleta**

Podemos definir nuestros propios colores mediante una paleta

```r
################################################################
#######       En R       #######################################
################################################################

mi_paleta = c("royalblue","forestgreen","gold","darkorange","firebrick")

ggplot(data=humanos,mapping=aes(x=mass,y=height)) +
  geom_point(mapping=aes(color=imc),
             size=4) +
  scale_color_gradientn(colors=mi_paleta)
```

```python
################################################################
#######    En Python     #######################################
################################################################

mi_paleta = ["royalblue","forestgreen","gold","darkorange","firebrick"]

(
ggplot(data=humanos,mapping=aes(x="mass",y="height")) +
  geom_point(mapping=aes(color="imc"),
             size=4) +
  scale_color_gradientn(colors=mi_paleta)
)
```

<img src="im48.png">

**En R hay otra opción**

En **R** tenemos una técnica más: utilizar paletas preexistentes.

Estas son rainbow, heat.colors, terrain.colors, topo.colors y cm.colors

```r
################################################################
#######       En R       #######################################
################################################################

ggplot(data=humanos,mapping=aes(x=mass,y=height)) +
  geom_point(mapping=aes(color=imc),
             size=4) +
  scale_color_gradientn(colors=heat.colors(3)) #el número 3 significa utilizar tres colores de esa paleta
```

<img src="im49.png">

## Coloreado con columna de tipo discreto

Vamos a colorear respecto de ``categoria_imc``:

```r
ggplot(data=humanos,mapping=aes(x=mass,y=height)) +
  geom_point(mapping=aes(color=categoria_imc),
             size=4) 
```

<img src="im50.png">

Nuevamente, utilizando la técnica de crear nuestra propia paleta, podemos controlar los colores. Aunque en este caso utilizamos ``scale_color_manual(values=...)``

```r
################################################################
#######       En R       #######################################
################################################################

mi_paleta = c("royalblue","forestgreen","gold","darkorange","firebrick")

ggplot(data=humanos,mapping=aes(x=mass,y=height)) +
  geom_point(mapping=aes(color=categoria_imc),
             size=4) +
  scale_color_manual(values=mi_paleta)
```

```python
################################################################
#######    En Python     #######################################
################################################################

mi_paleta = ["royalblue","forestgreen","gold","darkorange","firebrick"]

(
ggplot(data=humanos,mapping=aes(x="mass",y="height")) +
  geom_point(mapping=aes(color="categoria_imc"),
             size=4) +
  scale_color_manual(values=mi_paleta)
)
```

<img src="im51.png">

O bien, tal como sucedió con **R**, también podemos utilizar escalas predefinidas

```r
################################################################
#######       En R       #######################################
################################################################

ggplot(data=humanos,mapping=aes(x=mass,y=height)) +
  geom_point(mapping=aes(color=categoria_imc),
             size=4) +
  scale_color_manual(values=heat.colors(5))
```
<img src="im52.png">

**Importante.** Los colores en R y Python se pueden definir con formato hexadecimal. Es decir, algo como #F6E00C

Siempre que utilices una columna discreta para el color, puedes definirla utilando dicha ventaja y **Power Point**

```r
################################################################
#######       En R       #######################################
################################################################

paleta_calor = c("#F6E00C","#FCB018","#FA6310","#FE4315","#B21D16")
```

```python
################################################################
#######    En Python     #######################################
################################################################

paleta_calor = ["#F6E00C","#FCB018","#FA6310","#FE4315","#B21D16"]
```

**Orden de las categorías con datos categóricos**

Como puede verse en los códigos anteriores, la leyenda de ``categoria_imc`` no aparece ordenada (nos gustaría visualizar desde la categoría baja hasta la obesidad extrema).

Para controlar esto, podemos decirle tanto a R como Python cómo queremos que tome el orden explícito en la columna de ``categoría_imc``

```r
################################################################
#######       En R       #######################################
################################################################

humanos$categoria_imc <- factor(humanos$categoria_imc, 
                                levels = c("bajo",
                                           "normal",
                                           "alto",
                                           "obeso",
                                           "obesidad extrema"), 
                                ordered = TRUE)

ggplot(data=humanos,mapping=aes(x=mass,y=height)) +
  geom_point(mapping=aes(color=categoria_imc),
             size=4) +
  scale_color_manual(values=heat.colors(5),
                     name="Categoría IMC")
```

```python
################################################################
#######    En Python     #######################################
################################################################

humanos['categoria_imc'] = pd.Categorical(humanos['categoria_imc'], 
                                          categories=["bajo",
                                                      "normal",
                                                      "alto",
                                                      "obeso",
                                                      "obesidad extrema"],
                                          ordered=True)

(
ggplot(data=humanos,mapping=aes(x="mass",y="height")) +
  geom_point(mapping=aes(color="categoria_imc"),
             size=4) +
  scale_color_manual(values= paleta_calor) #la paleta calor la construimos mas arriba
)
```

<img src="im53.png">