# Laboratorio 1 - Gráficos
Prof. Andrés Arguedas

XS0300 - Estadística para Biología I

## 1. Conjunto de datos de aves
Estos datos corresponden a 97 observaciones de 2 especies de aves en 2 localidades distintas. Para cada una de estas aves se midieron una serie de variables: el largo, alto y ancho del pico, además del largo del ala, cola, tarso, juanete y su peso.

<p><a href="https://commons.wikimedia.org/wiki/File:Sooty-capped_Bush-tanager.jpg#/media/Archivo:Sooty-capped_Bush-tanager.jpg"><img src="https://upload.wikimedia.org/wikipedia/commons/thumb/1/1d/Sooty-capped_Bush-tanager.jpg/1200px-Sooty-capped_Bush-tanager.jpg" alt="Sooty-capped Bush-tanager.jpg"></a><br>De <a rel="nofollow" class="external text" href="https://www.flickr.com/photos/7457894@N04">Jerry Oldenettel</a> - originally posted to <a href="//commons.wikimedia.org/wiki/Flickr" class="mw-redirect" title="Flickr">Flickr</a> as <a rel="nofollow" class="external text" href="https://www.flickr.com/photos/7457894@N04/2308450870">DSC_5075a.jpg</a>, <a href="https://creativecommons.org/licenses/by-sa/2.0" title="Creative Commons Attribution-Share Alike 2.0">CC BY-SA 2.0</a>, <a href="https://commons.wikimedia.org/w/index.php?curid=3878999">Enlace</a></p>

<p><a href="https://commons.wikimedia.org/wiki/File:Black-billed_Nightingale-thrush.jpg#/media/Archivo:Black-billed_Nightingale-thrush.jpg"><img src="https://upload.wikimedia.org/wikipedia/commons/thumb/2/24/Black-billed_Nightingale-thrush.jpg/1200px-Black-billed_Nightingale-thrush.jpg" alt="Black-billed Nightingale-thrush.jpg"></a><br>De <a rel="nofollow" class="external text" href="https://www.flickr.com/photos/7457894@N04">Jerry Oldenettel</a> - originally posted to <a href="//commons.wikimedia.org/wiki/Flickr" class="mw-redirect" title="Flickr">Flickr</a> as <a rel="nofollow" class="external text" href="https://www.flickr.com/photos/7457894@N04/2307608219">DSC_5055a.jpg</a>, <a href="https://creativecommons.org/licenses/by-sa/2.0" title="Creative Commons Attribution-Share Alike 2.0">CC BY-SA 2.0</a>, <a href="https://commons.wikimedia.org/w/index.php?curid=3882594">Enlace</a></p>

Leamos el archivo `aves.csv`:

In [None]:
library(readr)
library(dplyr)
library(magrittr)
aves <- read_csv("data/aves.csv")

In [None]:
aves

1. Relación entre largo del ala y pico 

Analicemos la relación entre el largo del ala y el largo del pico de las aves. Ya que las dos variables son continuas se puede hacer un diagrama de dispersión:

```r
plot(variable del eje y ~ variable del eje x)
```

In [None]:
plot(aves$Ala ~ aves$Largo.pico, main = "Gráfico de dispersión entre el largo del ala y pico", 
     xlab = "Largo del pico", ylab = "Largo del ala", pch = 16)

In [None]:
library(ggplot2)
aves %>% ggplot(aes(x = Largo.pico, y = Ala)) +
geom_point() +
labs(title = "Gráfico de dispersión entre el largo del ala y pico",
     x = "Largo del pico",
     y = "Largo del ala") +
theme_bw()

2. Gráficos según especie

En el gráfico anterior se estan mezcladas las dos especies, lo cual puede hacer que se introduzca ruido en los datos. Para eliminar este ruido, se pueden hacer gráficos para cada especie, separando el conjunto de datos según la especie, o haciendo un solo gráfico coloreando los puntos según la especie.

Primero, vamos a hacer gráficos separados para cada una de las especies.

In [None]:
aves %>% ggplot(aes(x = Largo.pico, y = Ala)) +
    facet_wrap(~ Especie) +
    geom_point() +
    labs(title = "Gráfico de dispersión entre el largo del ala y pico, según especie",
         x = "Largo del pico",
         y = "Largo del ala") +
    theme_bw()

In [None]:
aves %>% ggplot(aes(x = Largo.pico, y = Ala, color = Especie)) +
    geom_point() +
    labs(title = "Gráfico de dispersión entre el largo del ala y pico, según especie",
         x = "Largo del pico",
         y = "Largo del ala") +
    theme_bw()

3. Matriz de gráficos de dispersión

Podemos ver todos los gráficos de dispersión entre pares de variables usando un comando como el siguiente:

In [None]:
pairs(Ala ~ Largo.pico + Tarso  + Alto.pico + Ancho.pico, data = aves, 
      main = "Matriz de Gráficos de Dispersión", pch = 16)

In [None]:
library(GGally)
aves %>% select(-Localidad, -Especie, -Juanete, -Cola, -Peso) %>% ggpairs()

Tiene el problema que con muchas variables los gráficos individuales se vuelven muy pequeños y cuesta leerlos.

## 2. Conjunto de datos: Mermeladas

Se evalua la preferencia de 3 mermeladas con diferentes cantidades de aditivos de sabor. Participaron 5 panelistas (jueces) y usaron una escala de 1 a 20 para evaluar el nivel de preferencia por el sabor de cada mermelada  (1 = le disgusta extremadamente, 20 = le gusta extremadamente).

Leer datos de mermeladas.csv (es decir pasarlos de formato .csv a la memoria en R):

In [None]:
mermeladas <- read_csv("data/mermeladas.csv")

In [None]:
mermeladas

Note que tanto 'Mermelada' y 'Panel' no son variables cuantitativas, por lo tanto no son de clase numéricas. Hay que cambiarlas a variables de clase factor:

In [None]:
mermeladas %<>% mutate(Mermelada = factor(Mermelada),
                       Panel = factor(Panel))

Veamos que se haya hecho el cambio en el conjunto de datos:

In [None]:
mermeladas

1. Gráfico de dispersión de la calificación de los jueces por cada mermelada

In [None]:
plot(mermeladas$Preferencia ~ mermeladas$Panel, ylim = c(0, 23), pch = 16,
     main = "La preferencia de los 5 panelistas segun mermelada")

In [None]:
mermeladas %>% ggplot(aes(x = Panel, y = Preferencia)) +
    geom_boxplot() +
    labs(title = "La preferencia de los 5 panelistas segun mermelada",
         x = "Panel",
         y = "Preferencia") +
    theme_bw()

3. Asignar colores a cada uno de los tipos de mermelada en el gráfico de dispersión y una línea que une los puntos:

In [None]:
M1 <- subset(mermeladas, Mermelada == 1)
M2 <- subset(mermeladas, Mermelada == 2)
M3 <- subset(mermeladas, Mermelada == 3)

### 3. Asignar colores a cada uno de los tipos de mermelada en el gráfico de dispersión
### y una línea que une los puntos:

plot(mermeladas$Preferencia ~ mermeladas$Panel, ylim = c(0, 21), pch = 16,
     main = "La preferencia de los 5 panelistas según mermelada")
points(M1$Preferencia ~ M1$Panel, type = "b", col = 2, pch = 16)
points(M2$Preferencia ~ M2$Panel, type = "b", col = 3, pch = 16)
points(M3$Preferencia ~ M3$Panel, type = "b", col = 4, pch = 16)
legend("topright", c("Mermelada1", "Mermelada2", "Mermelada3"), col = c(2, 3, 4), pch = 16)


In [None]:
mermeladas %>% ggplot(aes(x = Panel, y = Preferencia, 
                          group = Mermelada, color = Mermelada)) +
    geom_point() +
    geom_line() +
    theme_bw()

## 3. Conjunto de datos: Venados

Se quieren comparar los largos de las patas delantera y trasera izquierdas de 10 venados para determinar si hay una tendencia en relación con la ubicación de la pata.   Los venados son de diferentes tamaños y para cada venado, el largo de la pata  trasera está correlacionado con el largo de la pata delantera (si un venado  tiene una pata trasera larga también tendrá una pata delantera larga). Resulta  más conveniente tomar las medidas de ambas patas para cada venado, y comparar ambas medidas respetando la pertenencia del par de patas un mismo individuo.

Empezamos por leer los datos de venados.csv 

In [None]:
venados <- read_csv("data/venados.csv")

In [None]:
venados

1. Gráficos de dispersión del tamaño de la patas por venado

In [None]:
plot(venados$Delantera ~ venados$Venado, type = "b", col = 2, pch = 16, ylim = c(min(venados$Delantera, venados$Trasera),
                                                                 max(venados$Delantera, venados$Trasera) + 5),
     main = "Gráfico \n Longitud de las patas delanteras y traseras por Venado",
     ylab = "Largo de la pata")
points(venados$Trasera ~ venados$Venado, type = "b", col = 3, pch = 16)
legend("topright", c("Delantera", "Trasera"), col = c(2, 3), pch = 16)

In [None]:
library(tidyr)

venados %<>% mutate(Venado = factor(Venado))

venados %>% pivot_longer(-Venado, names_to = "Pata", values_to = "Largo") %>%
    ggplot(aes(x = Venado, y = Largo, group = Pata, color = Pata)) +
    geom_point() +
    geom_line() +
    labs(title = "Longitud de las patas delanteras y traseras por Venado",
         x = "Venado",
         y = "Largo de la pata") +
    theme_bw()

## 4. Conjunto de datos: Matapalo

Para predecir la presencia de matapalo según el DAP (diámetro a la altura del pecho) se tomaron datos de 92 árboles con DAP menores a 1.51m. Se registró también el género de cada árbol.

Leer datos de matapalo.csv:

In [None]:
matapalo <- read_csv("data/matapalo.csv")

In [None]:
matapalo

In [None]:
matapalo %<>% rename(DAP = `DAP (m)`) %>% mutate(GENERO = factor(GENERO),
                                                 MATAPALO = factor(MATAPALO))
matapalo

1. Gráficos de barras


**TODO: ORDENAR LAS BARRAS DE MAYOR A MENOR**

In [None]:
matapalo %>% ggplot(aes(x = GENERO)) +
    geom_bar() +
    theme_bw()

2. Frecuencia de la presencia de matapalo

In [None]:
matapalo %>% ggplot(aes(x = MATAPALO)) +
    geom_bar() +
    scale_x_discrete(labels = c("No", "Si")) +
    labs(title = "Distribución de frecuencia de la presencia de matapalo",
         x = "Presencia de matapalo",
         y = "Frecuencia") +
    theme_bw()

## 5. Volviendo a aves

Volviendo al conjunto de datos Aves, Construyamos gráficos de barras compuestas. Se desea construir un gráfico que logra representar la distribución de las especies segun la localidad en la que se encontraron.

In [None]:
aves

De nuevo, `Localidad` debería ser una variable nominal, no numérica, por lo que necesitamos cambiarla:

In [None]:
aves %<>% mutate(Localidad = factor(Localidad, labels = c("C.Muerte","Irazu","Barva","Poas")))

In [None]:
aves

In [None]:
aves %>% ggplot(aes(x = Localidad, fill = Especie)) +
    geom_bar(position = "dodge") +
    labs(title = "Gráfico de distribución de las aves por especie según la localidad",
         x = "Localidad",
         y = "Frecuencia") +
    theme_bw()

In [None]:
aves %>% ggplot(aes(x = Localidad, fill = Especie)) +
    geom_bar(position = "stack") +
    labs(title = "Gráfico de distribución de las aves por especie según la localidad",
         x = "Localidad",
         y = "Frecuencia") +
    theme_bw()

In [None]:
aves %>% ggplot(aes(x = Localidad, fill = Especie)) +
    geom_bar(position = "fill") +
    labs(title = "Gráfico de distribución de las aves por especie según la localidad",
         x = "Localidad",
         y = "Proporción") +
    theme_bw()

Note que, en este caso, la información se puede presentar de forma tabular o gráfica. ¿Qué ventajas y desventajas tiene cada forma de presentar los datos? ¿Cuales diferencias ve entre los últimos tres gráficos de barras que hicimos?