<img src="logo.png">

# Geometrías de barras

Hablemos ahora de las geometrías de barras. Un gráfico de barras es una representación gráfica de datos categóricos en la que las categorías se muestran en el eje horizontal (eje X), y la frecuencia o cantidad de cada categoría se representa mediante barras en el eje vertical (eje Y). La altura (o longitud, en el caso de barras horizontales) de cada barra es proporcional al valor que representa.

Los gráficos de barras son útiles para comparar diferentes categorías o grupos de datos de manera clara y visualmente intuitiva.

Es **importante** entender la diferencia entre los gráficos de barras y los histogramas. Aunque ambos trabajan con barras, recuerda que en el histograma representamos una variable continua

De hecho, técnicamete hablando, ``geom_histogram`` tiene un stat de ``stat_bin()``, lo cual significa que *binea* la variable continua y *cuenta* cuántos elementos caen en cada bin, en tanto que ``geom_bar`` tiene un stat de ``stat_count()``, por lo cual simplemente *cuenta*. De hecho, es posible "alimentar" al ``geom_bar`` con una variabla continua, pero el resultado será algo extraño.


Para verlo, consideremos la tabla **tabla_bar.csv** del repositorio de datos que se muestra a continuación:

| cat   |   val |
|:------|------:|
| e     |  0.6  |
| d     |  0.57 |
| e     |  0.08 |
| d     |  0.04 |
| d     |  0.64 |
| a     |  0.93 |
| e     |  0.6  |
| e     |  0.56 |
| a     |  0.53 |
| a     |  0.99 |
| c     |  0.51 |
| b     |  0.68 |
| b     |  0.6  |
| c     |  0.24 |
| b     |  0.26 |
| d     |  0.73 |
| c     |  0.45 |
| e     |  0.18 |
| b     |  0.75 |
| b     |  0.1  |

Hagamos un histograma coloreando de blanco los bordes de las barras:

```r
ggplot(data=tabla_bar,mapping=aes(x=val)) +
    geom_histogram(color="white")
```

<img src="im145.png">

Ahora hagamos un gráfico de barras con la misma información:

```r
ggplot(data=tabla_bar,mapping=aes(x=val)) +
    geom_bar()
```

<img src="im146.png">

Como dijimos, lo más usual en los gráficos de barras es que la variable X sea categórica. Volvamos a la tabla **sismos.csv** de nuestro repositorio.

En un gráfico de barras común, el stat es ``stat_count()``, de modo que únicamente se necesita dar el valor del eje X. El resultado nos dirá cuántos renglones de la tabla corresponden a cada categoría.

```r
ggplot(data=sismos,mapping=aes(x=Placas)) +
    geom_bar()
```

<img src="im147.png">



## Tipos de gráficos de barras

Ahora bien, en realidad existen dos maneras de crear nuestros gráficos de barras. Todo depende de la manera en que nuestras tablas estén estructuradas.

Consideremos las siguientes dos tablas:

Frutas:
| tipo    |
|---------|
| manzana |
| manzana |
| naranja |
| manzana |
| naranja |

Frutas_contadas:
| tipo    |  total |
|---------|--------|
| manzana |      3 |
| naranja |      2 |

```r
################################################################
#######       En R       #######################################
################################################################

frutas = data.frame(tipo = c("manzana", "manzana", "naranja", "manzana", "naranja"))
frutas_contadas = data.frame(tipo = c("manzana", "naranja"),total = c(3, 2))
```

```python
################################################################
#######    En Python     #######################################
################################################################

frutas = pd.DataFrame({'tipo': ["manzana", "manzana", "naranja", "manzana", "naranja"]})
frutas_contadas = pd.DataFrame({'tipo': ["manzana", "naranja"],'total': [3, 2]})
```

Como puedes observar, ambas tablas tienen exactamente la misma información, pero se presentan de manera diferente. La primera me da la información de cuántas frutas tengo, colocando en cada renglón una fruta. La segunda muestra directamente cuántos frutas hay de cada tipo.

En otras palabra, en la segunda tabla tengo las clases de frutas de manera **contada** y en la primera no. De esta manera, cuando la información no se presenta con las clases contadas utilizaremos un ``geom_bar()``, que recordemos tiene un stat de ``stat_count()``. En cambio, cuando la información presenta las clases contadas utilizaremos un ``geom_col()``, cuyo stat es ``stat_identity``. En este segundo caso, obviamente requerimos indicar la columna de las clases (eje X) y **además la columna donde está el conteo** (el eje Y).

```r
ggplot(data=frutas,mapping=aes(x=tipo)) +
    geom_bar()
```

<img src="im148.png">

```r
ggplot(data=frutas_contadas,mapping=aes(x=tipo,y=total)) +
    geom_col()
```

<img src="im149.png">

## Dos categorías

Muchas veces queremos hacer gráficos de barras para mostrar la frecuencia no solo de una categoría (como el tipo de frutas, o las placas tectónicas), sino que queremos cruzar la información con otra variable categórica.

Por ejemplo, 