<img src="logo.png">

# Geometrías de barras

Hablemos ahora de las geometrías de barras. Un gráfico de barras es una representación gráfica de datos categóricos en la que las categorías se muestran en el eje horizontal (eje X), y la frecuencia o cantidad de cada categoría se representa mediante barras en el eje vertical (eje Y). La altura (o longitud, en el caso de barras horizontales) de cada barra es proporcional al valor que representa.

Los gráficos de barras son útiles para comparar diferentes categorías o grupos de datos de manera clara y visualmente intuitiva.

Es **importante** entender la diferencia entre los gráficos de barras y los histogramas. Aunque ambos trabajan con barras, recuerda que en el histograma representamos una variable continua

De hecho, técnicamete hablando, ``geom_histogram`` tiene un stat de ``stat_bin()``, lo cual significa que *binea* la variable continua y *cuenta* cuántos elementos caen en cada bin, en tanto que ``geom_bar`` tiene un stat de ``stat_count()``, por lo cual simplemente *cuenta*. De hecho, es posible "alimentar" al ``geom_bar`` con una variabla continua, pero el resultado será algo extraño.


Para verlo, consideremos la tabla **tabla_bar.csv** del repositorio de datos que se muestra a continuación:

| cat   |   val |
|:------|------:|
| e     |  0.6  |
| d     |  0.57 |
| e     |  0.08 |
| d     |  0.04 |
| d     |  0.64 |
| a     |  0.93 |
| e     |  0.6  |
| e     |  0.56 |
| a     |  0.53 |
| a     |  0.99 |
| c     |  0.51 |
| b     |  0.68 |
| b     |  0.6  |
| c     |  0.24 |
| b     |  0.26 |
| d     |  0.73 |
| c     |  0.45 |
| e     |  0.18 |
| b     |  0.75 |
| b     |  0.1  |

Hagamos un histograma coloreando de blanco los bordes de las barras:

```r
ggplot(data=tabla_bar,mapping=aes(x=val)) +
    geom_histogram(color="white")
```

<img src="im145.png">

Ahora hagamos un gráfico de barras con la misma información:

```r
ggplot(data=tabla_bar,mapping=aes(x=val)) +
    geom_bar()
```

<img src="im146.png">

Como dijimos, lo más usual en los gráficos de barras es que la variable X sea categórica. Volvamos a la tabla **sismos.csv** de nuestro repositorio.

En un gráfico de barras común, el stat es ``stat_count()``, de modo que únicamente se necesita dar el valor del eje X. El resultado nos dirá cuántos renglones de la tabla corresponden a cada categoría.

```r
ggplot(data=sismos,mapping=aes(x=Placas)) +
    geom_bar()
```

<img src="im147.png">



## Tipos de gráficos de barras

Ahora bien, en realidad existen dos maneras de crear nuestros gráficos de barras. Todo depende de la manera en que nuestras tablas estén estructuradas.

Consideremos las siguientes dos tablas:

Frutas:
| tipo    |
|---------|
| manzana |
| manzana |
| naranja |
| manzana |
| naranja |

Frutas_contadas:
| tipo    |  total |
|---------|--------|
| manzana |      3 |
| naranja |      2 |

```r
################################################################
#######       En R       #######################################
################################################################

frutas = data.frame(tipo = c("manzana", "manzana", "naranja", "manzana", "naranja"))
frutas_contadas = data.frame(tipo = c("manzana", "naranja"),total = c(3, 2))
```

```python
################################################################
#######    En Python     #######################################
################################################################

frutas = pd.DataFrame({'tipo': ["manzana", "manzana", "naranja", "manzana", "naranja"]})
frutas_contadas = pd.DataFrame({'tipo': ["manzana", "naranja"],'total': [3, 2]})
```

Como puedes observar, ambas tablas tienen exactamente la misma información, pero se presentan de manera diferente. La primera me da la información de cuántas frutas tengo, colocando en cada renglón una fruta. La segunda muestra directamente cuántos frutas hay de cada tipo.

En otras palabra, en la segunda tabla tengo las clases de frutas de manera **contada** y en la primera no. De esta manera, cuando la información no se presenta con las clases contadas utilizaremos un ``geom_bar()``, que recordemos tiene un stat de ``stat_count()``. En cambio, cuando la información presenta las clases contadas utilizaremos un ``geom_col()``, cuyo stat es ``stat_identity``. En este segundo caso, obviamente requerimos indicar la columna de las clases (eje X) y **además la columna donde está el conteo** (el eje Y).

```r
ggplot(data=frutas,mapping=aes(x=tipo)) +
    geom_bar()
```

<img src="im148.png">

```r
ggplot(data=frutas_contadas,mapping=aes(x=tipo,y=total)) +
    geom_col()
```

<img src="im149.png">

## Varias categorías

Muchas veces queremos hacer gráficos de barras para mostrar la frecuencia no solo de una categoría (como el tipo de frutas, o las placas tectónicas), sino que queremos cruzar la información con otra variable categórica.

Por ejemplo, en la tabla **common_flights.csv** que está en nuestro repositorio, tenemos las columnas 

| year | month | day | dep_time | sched_dep_time | dep_delay | arr_time | sched_arr_time | arr_delay | carrier | flight | tailnum | origin | dest | air_time | distance | hour | minute | time_hour          |
|------|-------|-----|----------|----------------|-----------|----------|----------------|-----------|---------|--------|---------|--------|------|----------|----------|------|--------|-------------------|
| 2013 | 1     | 1   | 517      | 515            | 2         | 830      | 819            | 11        | UA      | 1545   | N14228  | EWR    | IAH  | 227      | 1400     | 5    | 15     | 2013-01-01 05:00:00|
| 2013 | 1     | 1   | 533      | 529            | 4         | 850      | 830            | 20        | UA      | 1714   | N24211  | LGA    | IAH  | 227      | 1416     | 5    | 29     | 2013-01-01 05:00:00|
| 2013 | 1     | 1   | 542      | 540            | 2         | 923      | 850            | 33        | AA      | 1141   | N619AA  | JFK    | MIA  | 160      | 1089     | 5    | 40     | 2013-01-01 05:00:00|
| 2013 | 1     | 1   | 544      | 545            | -1        | 1004     | 1022           | -18       | B6      | 725    | N804JB  | JFK    | BQN  | 183      | 1576     | 5    | 45     | 2013-01-01 

Esta tabla contiene información de los 15 destinos más comunes en vuelos durante 2013 que salieron desde los aeropuertos JFK, LaGuardia y Newark de Nueva York.

Veamos cuántos vuelos aportaron cada una de las aerolíneas:

```r

vuelos_comunes = read.csv("common_flights.csv")  # en Python: vuelos_comunes = pd.read_csv("common_flights.csv")

ggplot(data=vuelos_comunes,mapping=aes(x=carrier)) +
  geom_bar()
```

<img src="im150.png">

Podemos preguntarnos por cuántos vuelos salieron de cada uno de los tres aeropuertos de Nueva York:

```r
ggplot(data=vuelos_comunes,mapping=aes(x=origin)) +
  geom_bar()
```

<img src="im151.png">

Aparentemente, Newark y JFK tienen aproximadamente la misma cantidad de vuelos.

Pero veamos más de cerca... observemos hacia dónde fueron los principales destinos:

```r
ggplot(data=vuelos_comunes,mapping=aes(x=origin,fill=dest)) +
  geom_bar()
```

<img src="im152.png">

Como puede notarse, a simple vista no es sencillo distinguir entre los colores. Utilicemos la siguiente paleta de viridis con 15 elementos:

```r
################################################################
#######       En R       #######################################
################################################################

paleta_viridis = c("#440154", "#482677", "#3e4989", "#31688e", "#26828e", "#1f9e89", "#35b779", "#6ace5c", "#9cda54", "#d1e21f", "#f4e61a", "#f7d917", "#fcba0a", "#fc8d22", "#f84c3b")
```

```python
################################################################
#######       En Python  #######################################
################################################################

paleta_viridis = ["#440154", "#482677", "#3e4989", "#31688e", "#26828e", "#1f9e89", "#35b779", "#6ace5c", "#9cda54", "#d1e21f", "#f4e61a", "#f7d917", "#fcba0a", "#fc8d22", "#f84c3b"]
```

Y vamos a utilizarla en la escala de relleno:

```r
ggplot(data=vuelos_comunes,mapping=aes(x=origin,fill=dest)) +
  geom_bar() +
  scale_fill_manual(values=paleta_viridis)
```

<img src="im153.png">

Ha mejorado la presentación. 

Por otra parte, recordemos que podemos utilizar las posiciones en geometrías de barras. Por ejemplo, para observar los porcentajes en lugar de los conteos:

```r
ggplot(data=vuelos_comunes,mapping=aes(x=origin,fill=dest)) +
  geom_bar(position=position_fill()) +
  scale_fill_manual(values=paleta_viridis)
```

<img src="im154.png">

O bien, utilizar barras adyacentes con una posición de dodge:

```r
ggplot(data=vuelos_comunes,mapping=aes(x=origin,fill=dest)) +
  geom_bar(position=position_dodge(preserve="single")) +
  scale_fill_manual(values=paleta_viridis)
```

<img src="im155.png">

Consideremos ahora la población de cada Entidad de México. Dicha información la tenemos en nuestro repositorio en el archivo **poblacion_superficie_mexico_2020.csv**.

| Entidad             | Población Total | Superficie (km²) |
|---------------------|-----------------|------------------|
| Aguascalientes      | 1,434,630       | 5,618            |
| Baja California     | 3,769,020       | 71,450           |
| Baja California Sur | 798,447         | 73,909           |
| Campeche            | 928,363         | 57,724           |
| Chiapas             | 5,543,828       | 73,689           |
| Chihuahua           | 3,801,487       | 247,455          |
| Ciudad de México    | 9,209,944       | 1,495            |
| Coahuila            | 3,146,771       | 151,563          |
| Colima              | 731,391         | 5,626            |
| Durango             | 1,832,650       | 123,451          |
| Guanajuato          | 6,228,170       | 30,607           |
| Guerrero            | 3,533,251       | 63,794           |
| Hidalgo             | 3,082,841       | 20,822           |
| Jalisco             | 8,348,131       | 78,595           |
| México              | 17,427,795      | 22,351           |
| Michoacán           | 4,879,919       | 58,599           |
| Morelos             | 1,971,520       | 4,892            |
| Nayarit             | 1,285,190       | 27,815           |
| Nuevo León          | 5,611,512       | 64,220           |
| Oaxaca              | 4,132,148       | 93,757           |
| Puebla              | 6,583,278       | 34,290           |
| Querétaro           | 2,279,632       | 11,699           |
| Quintana Roo        | 1,871,562       | 42,361           |
| San Luis Potosí     | 2,822,235       | 61,138           |
| Sinaloa             | 3,036,939       | 57,377           |
| Sonora              | 2,954,915       | 179,503          |
| Tabasco             | 2,395,272       | 24,738           |
| Tamaulipas          | 3,650,607       | 79,631           |
| Tlaxcala            | 1,342,977       | 4,016            |
| Veracruz            | 8,059,475       | 71,856           |
| Yucatán             | 2,320,894       | 39,524           |
| Zacatecas           | 1,622,138       | 75,439           |


Como puedes ver, en esta tabla la población ya está contada, de modo que para visualizar utilizamos ``geom_col()`` y ahora sí **debemos dar tanto la aestética de x como la de y**:

```r

## En python: poblacion = pd.read_csv("poblacion_superficie_mexico_2020.csv", encoding = "utf8")
poblacion = read.csv("poblacion_superficie_mexico_2020.csv",fileEncoding="utf8")

ggplot(data=poblacion, mapping=aes(x=Entidad,y=Poblacion)) +
  geom_col()
```

<img src="im156.png">

Podemos observar que los nombres de las entidades no se observan claramente. Ya sabemos que esto puede mejorarse aplicando ángulos, aunque una solución más elegante sería invertir los ejes:

```r
ggplot(data=poblacion, mapping=aes(x=Entidad,y=Poblacion)) +
  geom_col() +
  coord_flip()
```

<img src="im157.png">


Incluso muchas veces puede convenir ordenar de mayor a menor para mejorar la claridad:

```r
################################################################
#######       En R       #######################################
################################################################

auxiliar = poblacion$Entidad[order(poblacion$Poblacion)]

poblacion$Entidad = factor(poblacion$Entidad,
                              levels = auxiliar,
                              ordered = TRUE)

ggplot(data=poblacion, mapping=aes(x=Entidad,y=Poblacion)) +
  geom_col() +
  coord_flip()
```

```python
################################################################
#######    En Python     #######################################
################################################################

auxiliar = poblacion['Entidad'].iloc[np.argsort(poblacion['Poblacion'].values)].values

poblacion['Entidad'] = pd.Categorical(poblacion['Entidad'], categories=auxiliar, ordered=True)

(ggplot(data=poblacion, mapping=aes(x="Entidad",y="Poblacion")) +
  geom_col() +
  coord_flip())
```

<img src="im158.png">

Finalmente, podemos asignar colores a las barras. 

Para ello, utilizemos la siguiente paleta cividis. Se trata de una tabla que encontramos en nuestro repositorio, con el nombre de **cividis_paleta.csv**, la cual consta de 1 columna llamada ``colores`` con 256 filas.

```r
################################################################
#######       En R       #######################################
################################################################

auxiliar = poblacion$Entidad[order(poblacion$Poblacion)]

poblacion$Entidad = factor(poblacion$Entidad,
                              levels = auxiliar,
                              ordered = TRUE)

### leemos cividis
mi_cividis = read.csv("cividis_paleta.csv")
### seleccionamos los 32 colores que requerimos
mis_colores = mi_cividis$colores[seq(1,256,256/32)]

ggplot(data=poblacion, mapping=aes(x=Entidad,y=Poblacion,
                                   fill=factor(-Poblacion))) +
  geom_col() +
  scale_fill_manual(values = mis_colores,
                    guide = NULL) +
  coord_flip()
```

```python
################################################################
#######    En Python     #######################################
################################################################

auxiliar = poblacion['Entidad'].iloc[np.argsort(poblacion['Poblacion'].values)].values

poblacion['Entidad'] = pd.Categorical(poblacion['Entidad'], categories=auxiliar, ordered=True)


### leemos cividis
mi_cividis = pd.read_csv("cividis_paleta.csv")
### seleccionamos los 32 colores que requerimos
mis_colores = mi_cividis.colores[[int(x) for x in np.arange(1,256,256/32)]]

(ggplot(data=poblacion, mapping=aes(x="Entidad",y="Poblacion",
                                   fill="factor(-Poblacion)")) +
  geom_col() +
  scale_fill_manual(values = mis_colores,
                    guide = None) +
  coord_flip())
```

<img src="im159.png">