# 4.2.1 Histogramas en Estadísticas

En estadísticas, un **Histograma** es una representación de la distribución de datos numéricos, donde los datos se agrupan en intervalos (bins) y se cuenta cuántos valores caen en cada intervalo. En términos generales, en `Plotly`, un histograma se considera un gráfico de barras agregado, que permite aplicar diversas funciones de agregación (como suma, promedio, conteo, etc.) para visualizar datos en ejes categóricos, de fecha y lineales.


In [1]:
from pandas import DataFrame
import plotly.express as px

df: DataFrame = px.data.tips()
df.head(2)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3


In [31]:
from plotly.graph_objects import Figure

fig: Figure = px.histogram(df, 
                            x="total_bill",
                            width=600)
fig.show()

A continuación tenemos columnas con datos categóricos.

In [32]:
from plotly.graph_objects import Figure

fig: Figure = px.histogram(df, 
                            x="day",
                            width=600)
fig.show()

# 4.2.2 Elección del Número de Intervalos

Por defecto, el número de intervalos (bins) en un histograma se selecciona de manera que sea comparable al número típico de muestras en un intervalo. Este número puede ser personalizado, al igual que el rango de valores que se visualizan en el histograma.


In [33]:
from plotly.graph_objects import Figure
fig: Figure = px.histogram(df, 
                            x="total_bill",
                            nbins=100,
                            width=600)
fig.show()

# 4.2.3 Histogramas en datos temporales

In [34]:
from pandas import DataFrame
import plotly.express as px

stocks_df: DataFrame = px.data.stocks()
stocks_df.head(2)

Unnamed: 0,date,GOOG,AAPL,AMZN,FB,NFLX,MSFT
0,2018-01-01,1.0,1.0,1.0,1.0,1.0,1.0
1,2018-01-08,1.018172,1.011943,1.061881,0.959968,1.053526,1.015988


In [38]:
from plotly.graph_objects import Figure

fig: Figure = px.histogram( stocks_df, 
                            x="date",
                            width=600)

fig.update_layout(bargap=0.2)
fig.show()

# 4.2.4 Histogramas en Datos Categóricos

In [36]:
from pandas import DataFrame
import plotly.express as px

df: DataFrame = px.data.tips()
df.head(5)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [43]:
from plotly.graph_objects import Figure

fig: Figure = px.histogram( df, 
                            x="day", 
                            category_orders=dict(day=["Thur", "Fri", "Sat", "Sun"]),
                            width=600)
fig.show()

# 4.2.5 Accediendo a los Valores de Conteo del Eje Y

`Plotly` calcula dinámicamente los valores del eje Y en el navegador usando JavaScript, por lo que estos valores no son accesibles directamente en el objeto `fig`. Para determinar estos valores manualmente, puedes utilizar `np.histogram` en Python.


In [40]:
from pandas import DataFrame
import plotly.express as px

df: DataFrame = px.data.tips()
df.head(5)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [58]:
import numpy as np
from numpy import ndarray

from plotly.graph_objects import Figure

counts: ndarray[int]
bins: ndarray[int]
counts, bins = np.histogram(df['total_bill'], 
                            bins=range(0, 60, 5))

bins = 0.5 * (bins[:-1] + bins[1:])

fig: Figure = px.bar(x=bins, 
                    y=counts, 
                    labels={'x':'total_bill', 'y':'count'},
                    width=700)

fig.show()

# 4.2.6 Tipo de Normalización

El modo predeterminado en los histogramas es representar el **conteo de muestras** en cada intervalo (bin). Sin embargo, con el argumento `histnorm`, también es posible representar los datos de otras maneras:

- **Porcentaje o Fracción de Muestras**: usando `histnorm='percent'` o `histnorm='probability'`, se representa el porcentaje o la probabilidad de muestras en cada bin.
- **Histograma de Densidad**: utilizando `histnorm='density'`, el área total de las barras sumará el número total de puntos en la muestra.
- **Histograma de Densidad de Probabilidad**: al establecer `histnorm='probability density'`, el área total de las barras será igual a 1, lo que representa una densidad de probabilidad.

Estas opciones permiten ajustar la interpretación y presentación de los datos en función de los objetivos específicos de análisis o visualización.


In [53]:
from pandas import DataFrame
import plotly.express as px

df: DataFrame = px.data.tips()
df.head(5)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [57]:
from plotly.graph_objects import Figure

fig: Figure = px.histogram( df, 
                            x="total_bill", 
                            histnorm='probability density',
                            width=700)
fig.show()

# 4.2.7 Aspecto del gráfico del histograma

In [59]:
from pandas import DataFrame
import plotly.express as px

df: DataFrame = px.data.tips()
df.head(5)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [64]:
from plotly.graph_objects import Figure

fig: Figure = px.histogram(df, x="total_bill",
                title='Histogram of bills',
                labels={'total_bill':'total bill'},
                opacity=0.8,
                log_y=True,  # represent bars with log scale
                color_discrete_sequence=['indianred'], # color of histogram bars
                width=700
                )

fig.show()

# 4.2.8 Varios histogramas para los diferentes valores de una columna

In [None]:
from pandas import DataFrame
import plotly.express as px

df: DataFrame = px.data.tips()
df.head(5)

In [65]:
from plotly.graph_objects import Figure

fig = px.histogram(df, 
                x="total_bill", 
                color="sex")
fig.show()

# 4.2.9 Agregación con Funciones Distintas al Conteo

En cada intervalo de **x**, es posible calcular una función sobre los datos usando el argumento `histfunc`. El argumento de `histfunc` es la columna del DataFrame indicada como `y`. En el ejemplo siguiente, se muestra cómo la **propina promedio aumenta con el total de la cuenta**.


In [66]:
from pandas import DataFrame
import plotly.express as px

df: DataFrame = px.data.tips()
df.head(5)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [68]:
import plotly.express as px
from plotly.graph_objects import Figure

fig: Figure = px.histogram(df, 
                            x="total_bill", 
                            y="tip", 
                            histfunc='avg')
fig.show()

La función de agregación predeterminada para `histfunc` es **`sum`** cuando se proporciona un valor para `y`. Esta función funciona tanto con datos categóricos como con datos numéricos divididos en intervalos en el eje **x**.


In [69]:
from pandas import DataFrame
import plotly.express as px

df: DataFrame = px.data.tips()
df.head(5)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [70]:
import plotly.express as px
from plotly.graph_objects import Figure

fig: Figure = px.histogram(df, 
                            x="day", 
                            y="total_bill", 
                            category_orders=dict(day=["Thur", "Fri", "Sat", "Sun"]))
fig.show()

Los histogramas permiten el uso de **patrones** (también conocidos como texturas o tramado) además del color, lo cual puede mejorar la diferenciación visual entre distintas categorías o conjuntos de datos.

Al aplicar patrones, puedes hacer que cada barra en el histograma tenga una textura única, lo que es útil especialmente cuando el uso de color no es suficiente para distinguir las barras.


In [71]:
from pandas import DataFrame
import plotly.express as px

df: DataFrame = px.data.tips()
df.head(5)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [72]:
from plotly.graph_objects import Figure
fig: Figure = px.histogram(df, 
                    x="sex", 
                    y="total_bill", 
                    color="sex", 
                    pattern_shape="smoker")
fig.show()

# 4.2.10 Adding text labels

En Plotly, puedes añadir texto sobre las barras de un histograma usando el argumento `text_auto`. Configurarlo en `True` mostrará automáticamente los valores sobre cada barra. También puedes utilizar una cadena de formato en `text_auto` para controlar el formato de los valores mostrados (por ejemplo, usando cadenas de formato `d3`).


In [73]:
from pandas import DataFrame
import plotly.express as px

df: DataFrame = px.data.tips()
df.head(5)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [75]:
from plotly.graph_objects import Figure

fig: Figure = px.histogram(df, 
                    x="total_bill", 
                    y="tip", 
                    histfunc="avg", 
                    nbins=8, 
                    text_auto=True)
fig.show()