# Histogramas en Python

## Histogramas en Python puro

In [1]:
x = (0,1,1,1,2,2,3,7,7,7,25)

In [3]:
def count_elements(seq) -> dict:
    """
    Función que cuenta las frecuencias
    de aparición de cada elemento de la
    secuencia, creando un diccionario como
    si fuese una tabla de frecuencias
    """
    hist = {}
    for i in seq:
        hist[i] = hist.get(i, 0) + 1 # la función get permite coger el valor de la clave i, y si no existe coge un 0
    return hist

In [4]:
fAbs = count_elements(x)

In [5]:
fAbs

{0: 1, 1: 3, 2: 2, 3: 1, 7: 3, 25: 1}

In [6]:
from collections import Counter #haría lo mismo

In [7]:
fAbs2 = Counter(x)

In [8]:
fAbs2

Counter({0: 1, 1: 3, 2: 2, 3: 1, 7: 3, 25: 1})

In [9]:
fAbs.items() == fAbs2.items()

True

In [10]:
def ascii_histogram(seq) -> None: #ASCII es el estándar universal de caracteres
    """
    Un histograma de frecuencias absolutas
    colocado en horizontal y con caracteres ASCII
    """
    fAbs = count_elements(seq)
    for k in sorted(fAbs):
        print('{0:5d} {1}'.format(k, '+'*fAbs[k])) #el {0:5d} reserva un espacio para poner de 0 a 5 dígitos depdneindo de cuánto ocupe k. El otro {} se reserva para poner + el nº de veces que esté repetido el valor

In [11]:
ascii_histogram(x)

    0 +
    1 +++
    2 ++
    3 +
    7 +++
   25 +


In [24]:
import random
random.seed(2019)

In [25]:
vals = [1,2,3,5,7,8,9,10]
freqs = (random.randint(5,20) for _ in vals) #paar cada valor en vals genero un nº aleatorio entre 5 y 20

In [26]:
data = []
for k, v in zip(vals, freqs):
    data.extend([k]*v)

In [27]:
ascii_histogram(data)

    1 +++++++++
    2 ++++++++++++
    3 ++++++++++++++++++++
    5 ++++++++++
    7 ++++++++++++
    8 ++++++++++++
    9 +++++++++++++++
   10 ++++++++++++++


Histogramas con NumPy

In [None]:
import numpy as np
np.random.seed(2019)
np.set_printoptions(precision=3) # seestablecen lso parámetros de numpay. precision = 3 imprime hasta 3 decimales

In [None]:
x = np.random.laplace(loc = 10, scale=3, size=1000) #laplace es un tipo de distribución
hist, bin_edges = np.histogram(x) # en hist guardo los valores y bin_edges los límites de lso intervalos que ya lo genera la función np.histogram. Por defecto hace 10 divisiones de la misma amplitud cerrados por la izq (lo que no se adaptaría bien a cualquier muestra)


In [None]:
bcount = pd.bincount(x) #crea un array con las frecuencias de cada valor, incluidos los valores que tengan 0 desde el valor min hasta el max (el max en el ejemplo x era 25)
dict(zip(np.unique(x),bcount.nonzero[])) #se crea un diccionario con lso valores únicos de x y los valores que no sean 0 del array bcount creado y se consigue el mismo resultado que en el ejemplo de python puro

VISUALIZACIÓN CON MATPLOT Y PANDAS

In [None]:
import matplotlib.pyplot as plt
#vamos a usar el objeto de pandas creado antes (x)

In [None]:
n, bins, patches = plt.hist(x = x, bins="auto", color = "#0505a5", alpha = 0.75, rwidth=0.85)
#el color está en formato hexadecimal, alpha se refiere a transparencia
# en "n" se guardan las frecuencias
# en "bins" los límites de los intervalos
# en "patches" el nº de divisiones
plt.grid(axis = "y", alpha = 0.5) #añade las líneas de fondo en y
plt.xlabel("Valor") #etiqueta de x
plt.ylabel ("Frecuencia") #etiqueta de y
plt.title("Histograma de frecuencias") #título


In [None]:
import pandas as pd
#el único requisito es que los objetos que queramos representar con pandas tiene que pasar a ser un objeto "series". Pandas por detrás utiliza pyplot
#si se aplica el histograma a un dataFreme de pandas, crea un histograma paar cada unoa de als columnas numéricas del dataframe
sixe, scale = 1000, 10
data = pd.Series(np.random.gamma(scale, size = size)) #gamma es otro tipo de distribución
data.plot.hist(grid = True, bins = 20, rwidth = 0.9, color = "#d52675")
plt.title("Distribución gamma")

FUNCION DENSIDAD Y PROBABILIDAD

In [None]:
media = 10 ,20 
sd = 5,2

# se crea un dataframe con dos columans con dos distribuciones diferentes con las características de la media y la sd particular de cada una
dist = pd.DataFrame(np.random.normal(loc = media, scale = sd, size = (1000,2)), columns = ["x1", "x2"])
dist.agg(["min", "max","mean", "std"]).round(decimals = 2) # se pasa un array de funciones con unos descriptores genéricos de las dos distribuciones

In [None]:
fig, ax = plt.subplots() #se crean al figura y los ejes
dist.plot.kde(ax=ax, legend = False, title = "Histograma de dos normales") #kernel density estimator
dist.plot.hist(density = True, ax=ax)#density True coge la frecuencia relativa. Para que al combinar los dos gráficos se vea. Si no, alguansbarras de la frecuencai absoluta podría irse muy hacia arriba
ax.set_ylabel("Probabilidad")
ax.grid(axis = "y", alpha = 0.75)
ax.set_facecolor("#d5d5d5")

PINTAR LA DISTRIBUCIÓN TEÓRICA Y LA DE LA MUESTRA

In [None]:
from scipy import stats
dist = stats.norm() #distribución normal teórica
sample = dist.rvs(size = 1000) #se crea los datos en base a una distribución normal

x = np.linspace(start = stats.norm.ppf(0.01), stop = stats.norm.ppf(0.99), num = 250) #se generan los cuantiles que irían en el eje de las x. Para que empiece desde e l1% más pequeño ahsta el 99% más grande. Se generan 250 puntos en el eje de las X

gkde = stats.gaussian_kde(dataset = sample) #se calcula la distribución de la meustra. Python utilzia la gausiana
#de esta forma ya tenemos la teórica (dist) y la que tiene realmente la muestra (gkde)

fig, ax = plt.subplots()

ax.plot(x,dist.pdf(x), linestyle = "solid", c="red", lw = 3, alpha = 0.8, label = "Distribución normal teórica") #se crea la línea con la distribución teórica. En en eje x irá lso valroes creados en x. En el eje y la distribución teórica (probability density function de x)
ax.plot(x = x, gkde.evaluate(x), linestyle = "dashed", c="green", lw = 2, label = "PDF estimada por KDE")
#se crea la línea con la distribución específica de la muestra. En en eje x irá los valroes creados en x. En el eje y la distribución de la muestra utilizando la función evaluate de gkde en base a la x
ax.legend(loc = "best", frameon= False) #best l ocoloca en donde cree que es mejor
ax.set_title("Normal analítica vs estimada")
ax.set_ylabel("Probabilidad")

plt.show()

PINTAR CON LIBRERÍA SEABORN

In [None]:
import seaborn as sb
#seaborn crea directamente las barras de frecuencia y la función de probabilidad de la propia muestra

sb.distplot(data, fit=stats.norm, kde = False) #se puede elegir en fit la distribución teórica que queramos añadir
sb.set_style("darkgrid")