# Histogramas de Frecuencia

Un histograma es similar a un gráfico de barras (en apariencia), pero en lugar de comparar categorías o buscar tendencias en el tiempo, cada barra representa cómo se distribuyen los datos en una única categoría.
Cada una de las barras va a representar un rango continuo de datos o el número de frecuencias un dato en particular.

¿Para qué se usan los histogramas? Generalmente se usa para ver el comportamiento de alguna variable y si se repite dentro de un rango. A veces en vez de usar histogramas se usan los *polígonos de frecuencias*, que es casi lo mismo pero en vez de usar barras se usa una línea.


**Construyendo un diagrama de frecuencias**

A diferencia de los otros tipos de plots que hemos visto que se pueden plotear directamente, con los histogramas hay que hacer algunos pasos extra.



1.   Determinar los intervalos a representar, de tal manera que no se solapen
2.   Calcular la frecuencia de cada intervalo.
3.   Dibujar el histograma, una vez que ya encontraron los intervalos y cuántos elementos hay en cada uno entonces sí ya se puede dibujar propiamente el histograma



---

Afortunadamente en Numpy nos da una idea de cómo es que se emplea la función hist para plotear, se puede hacer relativamente sencillo, y necesitaremos dos parámetros: El conjunto de datos y los intervalos que vamos a querer, a estos se les llaman **bins**




In [None]:
# Paqueterías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# ._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._
# Realizar un histograma de frecuencia
edades = [12, 15, 13, 12, 18, 20, 19, 20, 13, 12, 13, 17, 15, 16, 13, 14, 13, 17, 19]
# ._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._

# Supongamos que queremos 8 intervalos
frecuencias1, extremos1 = np.histogram(edades, bins = 8)
print(frecuencias1, extremos1) # Analicemos cómo es que funciona esto.

# Esto sucede porque al indicar sólo los bins, el último intervalo es cerrado a la derecha, o sea toma
# ambos valores



In [None]:
# ._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._

# Supongamos que queremos 9 intervalos
# Pero ahora, también queremos incluir el intervalo de 20-21

frecuencias2, extremos2 = np.histogram(edades, bins = 9, range=(12,21)) # Tengan cuidado al poner los bins
print(frecuencias2, extremos2)
# ._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._

# Qué pasa si quieren hacer rangos personalizados? Por ejemplo
# [10, 13) [13, 15) [15, 20]

frecuencias3, extremos3 = np.histogram(edades, bins=(10, 13, 15, 20)) # Puede ser con tupla o con lista
print(frecuencias3, extremos3)

Ok, entonces es momento de graficarlo

In [None]:
# El Gráfico en sí
fig, ax = plt.subplots()
plt.hist(x = edades, bins = extremos1, color = '#F2AB6D', rwidth = 0.8); #rwidth es el ancho de los rectángulos
plt.title('Histograma de edades');
plt.xlabel('Edades');
plt.ylabel('Frecuencia');
plt.xticks(extremos1);


In [None]:
# Realmente no tienen que hacer el calculo con histogram se puede hacer todo directo

In [None]:
import matplotlib.pyplot as plt

edades = [12, 15, 13, 12, 18, 20, 19, 20, 13, 12, 13, 17, 15, 16, 13, 14, 13, 17, 19]

intervalos = [10, 13, 16, 19, 22] # Qué intervalos quieren

plt.hist(x = edades, bins = intervalos, color = '#F2AB6D', rwidth = 0.85, cumulative = True); #, cumulative = True
plt.title('Histograma de edades ');
plt.xlabel('Edades');
plt.ylabel('Frecuencia');
plt.xticks(intervalos);


frecuencias4, extremos4 = np.histogram(edades, bins = intervalos)
print(frecuencias4, extremos4) # Esto les puede servir para corroborar


In [None]:
# Supongamos que no tienen un sólo grupo, tienen dos

edades = [12, 15, 13, 12, 18, 20, 19, 20, 13, 12, 13, 17, 15, 16, 13, 14, 13, 17, 19]
edades2 = [20, 19, 17, 15, 15, 16, 13, 13, 19, 20, 20, 14, 15, 15, 18, 19, 13, 14, 15]

intervalos = [10, 13, 16, 19, 22]

fig, ax = plt.subplots()
plt.hist(x = [edades, edades2], bins = intervalos, color = ['#F2AB6D' , '#36997e'], rwidth=0.85) ;#, cumulative = True
plt.title('Histograma de edades ');
plt.xlabel('Edades');
plt.ylabel('Frecuencia');
plt.xticks(intervalos);

# Utilizando Stacked

Otra posibilidad que permiten los histogramas es el de usar stacked.

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Crearemos un array de números aleatorios
x = np.random.randn(1000,3)

# Si fueran a crear un histograma esto se podría ver así
plt.hist(x,15)
plt.xlabel('Edad')
plt.ylabel('Población')
plt.title('Conteo de Población')

In [None]:
# Pero que tal que queremos ver la comparación de diferente manera?
# Para eso está Stacked

plt.hist(x, 15, stacked = 'True')
plt.xlabel('Edad')
plt.ylabel('Población')
plt.title('Conteo de Población')

In [None]:
# Y aún existe otra manera en donde en vez de que se encimen estén al mismo nivel

x = np.random.rand(1000)
y = np.sin(x)
z = np.cos(x)


plt.hist(x, 30, ec = 'k', alpha = 0.5)
plt.hist(y, 30, ec = 'k', alpha = 0.5)
plt.hist(z, 30, ec = 'k', alpha = 0.5)

plt.xlabel('Edad')
plt.ylabel('Población')
plt.title('Conteo de Población')

# Bar Plot

Les mencioné que los histogramas son similares en apariencia con las gráficos de barras, la diferencia radica en que los gráficos de barras no se dividen por intervalos, más bien se grafica tal cuál la cantidad de mediciones o el tamaño de muestra de una categoría en específico.

In [None]:
estudiantes = np.array(["Sólidos", "Atmosféricos", "Espaciales", "Acuáticos", "Ambientales"])
cantidad = np.array([3, 8, 1, 10, 3])

plt.bar(estudiantes, cantidad, color = ['#bc6c25' , '#3a86ff', '#14213d', '#0081a7', '#a7c957'], width = 0.7);
plt.title('Cantidad de alumnos por orientación ');
plt.xlabel('Orientación');
plt.ylabel('Alumnos');

In [None]:
# Se pueden hacer horizonales

plt.barh(estudiantes, cantidad, color = ['#bc6c25' , '#3a86ff', '#14213d', '#0081a7', '#a7c957'], height = 0.83);
plt.title('Cantidad de alumnos por orientación ');
plt.xlabel('Orientación');
plt.ylabel('Alumnos');

In [None]:
# Dependiendo de lo que quieran ver, la forma de presentar sus datos puede cambiar
# Los datos vinieron de aqui https://allisonhorst.github.io/palmerpenguins/

especie = ["Adelie", "Chinstrap", "Gentoo"]

adelite  = [18.35, 38.79 ,189.95]
chinstrap = [18.43, 48.83, 195.82]
gentoo = [14.98, 47.50, 217.19]
width = 0.20

x = np.arange(3)
plt.bar(x-0.2, adelite, width,color ='#d9f0ff')
plt.bar(x, chinstrap, width, color ='#a3d5ff')
plt.bar(x+0.2, gentoo, width, color ='#83c9f4')
plt.xticks(x,['Ancho Pico', 'Largo Pico', 'Largo Aleta'] )
plt.xlabel("Característica")
plt.ylabel("Largo en mm")
plt.legend(especie)

In [None]:
# Con los mismos datos podemos hacer una representación diferente, lo importante
# es que sepan qué están haciendo

especie = ["Adelie", "Chinstrap", "Gentoo"]

ancho_p = [18.35, 18.43, 14.98]
largo_p = [38.79, 48.83, 47.50]
largo_aleta = [189.95, 195.82, 217.19]

width = 0.20

x = np.arange(3)
plt.bar(x-0.2, ancho_p, width,color ='#d9f0ff')
plt.bar(x, largo_p, width, color ='#a3d5ff')
plt.bar(x+0.2, largo_aleta, width, color ='#83c9f4')
plt.xticks(x,especie )
plt.xlabel("Característica")
plt.ylabel("Largo en mm")
plt.legend(['Ancho Pico', 'Largo Pico', 'Largo Aleta'], loc = 'upper left', ncols = 3)

Vamos entonces a trabajar con datos reales.
El siguiente es un archivo.csv que tiene datos de la FIFA

In [None]:
fifa = pd.read_csv('fifa_data.csv')

print(fifa)

In [None]:
# Vamos entonces a analizar algunos datos. Realmente esta base permite analizar muchas cosas pero veammos su
# nivel de habilidad (que es la columna Overall)

plt.hist(x = fifa.Overall , color='#F2AB6D', rwidth=0.85) #, cumulative = True


Pero digamos que lo que quieren observar es todo el rango de 0 a 100 de 10 en 10.

In [None]:
# Bins
bins = list(range(0,110,10))
print(bins)

plt.hist(x = fifa.Overall, bins = bins, color='#F2AB6D', rwidth=0.85) #, cumulative = True

freq, ext = np.histogram(fifa.Overall, bins = bins)
print(freq, ext) # Así podemos quitar algunos bins que no nos sirven

In [None]:
# Hagamos nuestros propios rangos
new_bins = [40,50,60,70,80,90,100]

plt.hist(x = fifa.Overall, bins = new_bins, color='#e83cc0', rwidth=0.85);
plt.title('Distribución de la habilidad de jugadores de FIFA (2018) ');
plt.xlabel('Nivel de Habilidad');
plt.ylabel('Número de Jugadores');
plt.xticks(new_bins);

Ahora veamos qué se puede hacer con un barplot

In [None]:
# Aqui también aprenderan cómo seleccionar diferentes filas que no necesariamente están seguidas

new_fifa = fifa[fifa['Name'].isin( ['T. Kroos', 'P. Dybala', 'Coutinho'])]

new_fifa = new_fifa[['Name','Overall', 'Potential', 'Age']]

width = 0.20

x = np.arange(3)
plt.bar(x-0.2, new_fifa.Overall, width,color ='#1446a0')
plt.bar(x, new_fifa.Potential, width, color ='#db3069')
plt.bar(x+0.2, new_fifa.Age, width, color ='#f5d547')
plt.xticks(x,['T.Kroos', 'P. Dybala', 'Coutinho'] )
plt.xlabel("Característica")
plt.ylabel("Largo en mm")
plt.legend(['Overall', 'Potential', 'Age'], loc='center left', bbox_to_anchor=(1, 0.5))


Intenten replicar este

Muy bien, con los conocimientos que han adquirido hasta el momento va un ejercicio.

Con los datos de FIFA repliquen los siguientes histogramas pero con otros clubes
