<img src="logo.png">

# Escalas

Las escalas controlan cómo se mapean los datos estéticos a las características visuales de un gráfico, como los colores, tamaños, formas y posiciones de los elementos gráficos. Cuando creas un gráfico, generalmente asignas valores de tus datos a diferentes estéticas (como el eje x, el eje y, el color, etc.). Las escalas son las que determinan cómo se hace esa asignación.

De esta manera, las escalas toman tus datos y los convierten en algo que se puede ver, como los colores, tamaños, posiciones, o formas, además de objetos que te permiten interpretar mejor los datos, como las leyendas y los ejes. Estos últimos (ejes y leyendas) también son llamados *guías*.

<img src="im113.png">

**Una aestética, una escala...** Toda aestética está asociada con una escala. Por ejemplo, notemos lo siguiente: 

```r
class(mpg$cyl) #En Python es mpg["cyl"].dtype
```

Obtendremos que la columna *número de cilindros* es de tipo números enteros, y por lo tanto se interpretará de manera numérica, lo que implica que se interprete como columna de tipo continuo. De esta manera en el siguiente código:

```r
ggplot(data=mpg,mapping=aes(x=cty,y=hwy,color=cyl)) + 
  geom_point()
```

tendremos que el color se interpretará con una paleta continua.

Así, se generan tres escalas, una por cada aestética mapeada:

- ``x=cty``: como **cty** es continua, se genera una escala en X continua: ``scale_x_continuous``
- ``y=hwy``: como **hwy** es continua, se genera una escala en Y continua: ``scale_y_continuous``
- ``color=cyl``: como **cyl** es numérica, entonces es continua y se genera una escala de colores continua: ``scale_color_continuous``

De hecho, el código anterior equivale a escribir:

```r
ggplot(data=mpg,mapping=aes(x=cty,y=hwy,color=cyl)) + 
  geom_point() +
  scale_x_continuous() +
  scale_y_continuous() +
  scale_color_continuous()
```

<img src="im114.png">

De esta manera, se generan tres guías: el eje horizontal, el eje vertical y la barra de colores:

<img src="im115.png">

Como las guías son creadas a partir de las escalas, entonces si queremos cambiar algo en alguna guía, debemos cambiar algo en la escala que la creó: el nombre de la guía, el rango de los datos, etc.

Es muy importante notar el tipo de columna que se está mapeando. Por ejemplo, **cyl** es una variable numérica y por lo tanto, como hemos dicho, se mapeará como si fuera continua. No obstante, el número de cilindros en nuestra tabla solo es 4,5,6 y 8, así que realmente se debería tratar de una variable discreta (una columna de categorías). De esta manera, si en lugar de tomar el color desde ``cyl`` lo hicieramos desde ``factor(cyl)``, entonces la escala ``scale_color_continuous()`` ya no estaría relacionada con el color de los puntos. En cambio, la escala asociada sería ``scale_color_discrete()``

Entonces los siguientes dos códigos harán exactamente lo mismo:

```r
ggplot(data=mpg,mapping=aes(x=cty,y=hwy,color=factor(cyl))) + 
  geom_point()
```

```r
ggplot(data=mpg,mapping=aes(x=cty,y=hwy,color=factor(cyl))) + 
  geom_point() +
  scale_x_continuous() +
  scale_y_continuous() +
  scale_color_discrete()
```

<img src="im116.png">

Como sabemos por experiencia, ggplot y plotnine son lo suficientemente inteligentes para crear las escales, y por lo tanto las guías, a través de los mapeos de columnas. No obstante, podemos hacer cambios si lo requerimos especificando algunos parámetros dentro de las escalas.

```r
ggplot(data=mpg,mapping=aes(x=cty,y=hwy,color=cyl)) + 
  geom_point() +
  scale_color_continuous(name="Número de \ncilindros")
```

<img src="im117.png">

Incluso, **en R** es posible cambiar el tipo de escala:

```r
ggplot(data=mpg,mapping=aes(x=cty,y=hwy,color=cyl)) + 
  geom_point() +
  scale_color_binned(name="Número de \ncilindros")
```

<img src="im118.png">

Es importante comentar que en caso de tener varias escalas iguales, por default el algoritmo se queda con la información de la última.

```r
ggplot(data=mpg,mapping=aes(x=cty,y=hwy,color=cyl)) + 
  geom_point() +
  scale_color_continuous(name="Número de \ncilindros") +
  scale_color_continuous(name="Pongamos un nombre")
```

<img src="im119.png">

## Tipos de escala

Existen muchísimas escalas (más de 130), así que aprender todas es una tarea casi imposible. Sin embargo, casi todas sus capas tienen un esquema general: 

- Todas comienzan con **scale_** 
- Sigue el nombre de la aestética: ``color_``, ``shape_``, ``x_``, ``y_``, ``alpha_``, ``fill_``, ``linetype_``, etc
- El nombre de la escala: ``continuous``, ``discrete``, etc

A su vez, podemos clasificar las escalas de manera general en 
- escalas de posición: usualmente se encargan de los ejes X y Y 
- escalas de color: se encargan de colores y rellenos
- otras escalas.

## Escalas de posición

### Escala de posición continua

Cuando mapeamos una columna continua a una posición, utilizamos generalmente las escalas ``scale_x_continuous`` y ``scale_y_continuous``. Aunque también existen ``scale_x_log10``, ``scale_y_log10``, ``scale_x_reverse``, ``scale_y_reverse``, ``scale_x_sqrt`` y ``scale_y_sqrt``.

Para entender estas escalas, creemos un gráfico general para ir probandolas:

```r
p = ggplot(data=mpg,mapping=aes(x=cty,y=hwy)) + geom_point()
p
```

<img src="im120.png">

```r
######### CAMBIAR EL NOMBRE
p + scale_x_continuous(name="Rendimiento en \nciudad")
```

<img src="im121.png">

```r
######### CAMBIAR LAS TICK
p + scale_x_continuous(name="Rendimiento en \nciudad",
                       breaks=c(10,20,30))  # en Python es  breaks=[10,20,30]
```

<img src="im122.png">

```r
######### ELIMINAR LOS EJES MENORES
p + scale_x_continuous(name="Rendimiento en \nciudad",
                       breaks=c(10,20,30), # en Python es  breaks=[10,20,30]
                       minor_breaks = NULL)  # en Python es minor_breaks = None  
```

<img src="im123.png">

```r
######### CAMBIAR LOS EJES MENORES
p + scale_x_continuous(name="Rendimiento en \nciudad",
                       breaks=c(10,20,30), # en Python es  breaks=[10,20,30]
                       minor_breaks = c(15,17,23))  # en Python es minor_breaks = [15,17,23]  
```

<img src="im124.png">

```r
######### ESPECIFICAR EL NÚMERO DE BREAKS, aunque en realidad hace una aproximación
p + scale_x_continuous(name="Rendimiento en \nciudad",
                       n.breaks=5)  # en Python no existe esta opción  
```

<img src="im125.png">

```r
######### CAMBIAR LAS ETIQUETAS DE LAS TICKS
p + scale_x_continuous(name="Rendimiento en \nciudad",
                       breaks = c(10,20,30), # en Python es breaks = [10,20,30]
                       labels = c("a","b","c"))    # en Python es labels=["a","b","c"]
```

<img src="im126.png">

```r
######### CAMBIAR EL RANGO DE LA GRÁFICA
p + scale_x_continuous(name="Rendimiento en \nciudad",
                       breaks = c(10,20,30), # en Python es breaks = [10,20,30]
                       labels = c("a","b","c"), # en Python es labels=["a","b","c"]
                       limits = c(-15,40))    # en Python es limits = [-15,40]
```

<img src="im127.png">

```r
######### CAMBIAR EL RANGO DE LA GRÁFICA SIN ALGUNO DE LOS LÍMITES SUPERIOR O INFERIOR
p + scale_x_continuous(name="Rendimiento en \nciudad",
                       breaks = c(10,20,30), # en Python es breaks = [10,20,30]
                       labels = c("a","b","c"), # en Python es labels=["a","b","c"]
                       limits = c(NA,40))    # en Python es limits = [None,40]
```

<img src="im128.png">

Otro parámetro interesante es hacer una transformación en el tipo de escala:

```r
######### CAMBIAR EL RANGO DEL EJE X POR UNA ESCALA LOGARÍTMICA
p + scale_x_continuous(name="Rendimiento en \nciudad",
                       trans = "log10")
```

<img src="im129.png">

```r
######### INVERTIR EL RANGO DEL EJE X 
p + scale_x_continuous(name="Rendimiento en \nciudad",
                       trans = "reverse")
```

<img src="im130.png">

### Escala de posición discreta

Por otra parte, si mapeamos una posición discreta, tenemos ``scale_x_discrete`` y ``scale_y_discrete``.

Definamos un gráfico de base para trabajar:

```r
q = ggplot(mpg,mapping=aes(x=class,y=hwy)) + geom_point(size=3)
q
```

<img src="im131.png">

```r
######### CAMBIAR LAS TICK
q + scale_x_discrete(name="Clase",
                     breaks=c("compact","midsize","subcompact"))  # en Python: breaks=["compact","midsize","subcompact"]
```

<img src="im132.png">

```r
######### CAMBIAR LAS LÍMITES (que en realidad es lo mismo que cambiar los breaks)
q + scale_x_discrete(name="Clase",
                     limits=c("compact","subcompact"))  # en Python: limits=["compact","subcompact"]
```

<img src="im133.png">

```r
######### CAMBIAR LAS LABELS 
q + scale_x_discrete(name="Clase",
                     labels=c("a","b","c","d","e","f","g"))  # en Python: labels=["a","b","c","d","e","f","g"]
```

<img src="im134.png">

## Escalas de color

### Escala de color continua

Si la variable por la que iluminemos es continua, utilizamos ``scale_color_continuous`` o ``scale_fill_continuous``, además de las que ya hemos tenido oportunidad de trabajar: ``scale_..._gradient``, ``scale_..._gradient2`` y ``scale_..._gradientn``. 

```r
ggplot(data=mpg, mapping=aes(x=cty,y=hwy,color=cyl)) +
    geom_point()
```

<img src="im135.png">

### Escala de color discreta

Si la variable por la que iluminemos es discreta, utilizamos ``scale_color_discrete`` o ``scale_fill_discrete``. Pero también contamos con ``scale_..._hue`` y ``scale_..._grey``.

```r
ggplot(data=mpg, mapping=aes(x=cty,y=hwy,color=factor(cyl))) +
    geom_point() +
    scale_color_discrete()
```

<img src="im136.png">

## Escalas manuales

Todas las escalas discretas anteriores se pueden *programar* manualmente: ``scale_..._manual``. Esto es especialmente útil cuando quieres especificar tus propio conjunto de mapeos desde los datos. Por ejemplo:

- Especificar tus propios colores en una escala discreta.

```r
ggplot(data=mpg, mapping=aes(x=cty,y=hwy,color=factor(cyl))) + 
    geom_point() + 
    scale_color_manual(values = c("red","orange","pink","blue"))  # en Python es values = ["red","orange","pink","blue"]
```

<img src="im137.png">

- Especificar tus propios niveles de transparencia.

```r
ggplot(data=mpg, mapping=aes(x=cty,y=hwy,color=factor(cyl),alpha=factor(cyl))) + 
    geom_point() + 
    scale_color_manual(values = c("red","orange","pink","blue")) + # Python: values = ["red","orange","pink","blue"]
    scale_alpha_manual(values = c(0.25,0.50,0.75,1)) # en Python es values = [0.25,0.50,0.75,1]
```

<img src="im138.png">

- Especificar tus propios niveles de forma.

```r
ggplot(data=mpg, mapping=aes(x=cty,y=hwy,color=factor(cyl),shape=factor(cyl))) + 
    geom_point() + 
    scale_color_manual(values = c("red","orange","pink","blue")) + # Python: values = ["red","orange","pink","blue"]
    scale_shape_manual(values = c(5,7,8,9)) # en Python es values = [5,7,8,9]
```

<img src="im139.png">

```r
ggplot(data=mpg, mapping=aes(x=cty,y=hwy,color=factor(cyl),shape=factor(cyl))) + 
    geom_point() + 
    scale_color_manual(values = c("red","orange","pink","blue")) + # Python: values = ["red","orange","pink","blue"]
    scale_shape_manual(values = c("x","o","*",5)) # en Python es values = ["x","o","*",5]
```

<img src="im140.png">

- Etc.

## Escalas de identidad

Una manera interesante de hacer mapeos es cuando nuestra tabla ya contiene la información como la queremos mapear. Por ejemplo, considera la siguiente tabla:

| col1 | col2 | sexo | color_sexo |
|------|------|------|------------|
|  1   | 0.28 |  h   |    blue    |
|  2   | 0.78 |  m   |    red     |
|  3   | 0.40 |  m   |    red     |
|  4   | 0.88 |  h   |    blue    |
|  5   | 0.94 |  h   |    blue    |
|  6   | 0.04 |  m   |    red     |

```r
################################################################
#######       En R       #######################################
################################################################

mis_datos = data.frame(col1 = 1:6,
                       col2 = c(0.28,0.78,0.40,0.88,0.94,0.04),
                       sexo = c("h","m","m","h","h","m"),
                       color_sexo = c("blue","red","red","blue","blue","red"))

mis_datos
```

```python
################################################################
#######    En Python     #######################################
################################################################

mis_datos = pd.DataFrame({
    'col1': [1, 2, 3, 4, 5, 6],
    'col2': [0.28, 0.78, 0.40, 0.88, 0.94, 0.04],
    'sexo': ['h', 'm', 'm', 'h', 'h', 'm'],
    'color_sexo': ['blue', 'red', 'red', 'blue', 'blue', 'red']
})

mis_datos
```

Nota que la columna ``color_sexo`` contiene los colores con los que queremos iluminar, los cuales dependen de la columna ``sexo``:

```r
ggplot(data=mis_datos,mapping=aes(x=col1,y=col2,color=color_sexo)) + geom_point()
```

<img src="im141.png">

Pero, **utilizando una escala de color identidad**, podemos indicarle que tome los colores explícitamente desde dicha columna:

```r
ggplot(data=mis_datos,mapping=aes(x=col1,y=col2,color=color_sexo)) + 
  geom_point() +
  scale_color_identity()  
```

<img src="im142.png">

No obstante, por default no se coloca la leyenda. Para colocarla y customizarla a nuestro gusto, la alimentamos con parámetros:

```r
ggplot(data=mis_datos,mapping=aes(x=col1,y=col2,color=color_sexo)) + 
  geom_point() +
  scale_color_identity(guide="legend",
                       name="Sexo",
                       labels=c("Hombre","Mujer"))  # En Python: labels=["Hombre","Mujer"]
```

<img src="im143.png">