In [None]:
!pip install seaborn
!pip install plotly


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from plotly.subplots import make_subplots


## Pandas y Matplotlib

**Matplotlib** es una de las bibliotecas más utilizadas para la visualización de datos en Python. Es poderosa, flexible y puede crear una amplia variedad de gráficos, desde los más simples hasta los más complejos.

**Pandas** tiene una función integrada llamada _plot()_ que puedes usar directamente sobre un DataFrame o una Serie. Esta función, por defecto, utiliza matplotlib como backend, lo que significa que genera gráficos usando matplotlib en segundo plano. Aunque no es tan avanzado como otras bibliotecas especializadas en visualización como seaborn, pandas permite crear gráficos sencillos de forma directa a partir de sus DataFrames y Series.

Los tipos de visualizaciones de pandas son:

- line: Gráfico de líneas.
- scatter: Gráfico de dispersión.
- bar: Gráfico de barras.
- barh: Gráfico de barras horizontales.
- hist: Histograma.
- box: Boxplot.
- kde o density: Gráfico de densidad.
- area: Gráfico de áreas.
- pie: Gráfico circular.

Estos gráficos están disponibles directamente desde pandas al usar df.plot(kind='tipo').

Veamos estas herramientas en acción.

In [None]:
data = pd.read_csv("material/data.csv")
data

In [None]:
# Describimos la variable price
data["price"].describe()

Los gráficos de barras se utilizan para comparar valores entre diferentes categorías.



In [None]:
# Visualizamos price con histograma
# Como se distribuyen los precios de los productos comprados?

## Version en pandas
data["unit_price"].plot(kind='hist', bins=20, linewidth=0.5, edgecolor="white", title = "Histograma con pandas", xlim=(0, 80))

## Version en matplotlib
fig, ax = plt.subplots()
ax.hist(data["price"], bins=20, linewidth=0.5)
ax.set_title('Histograma con matplotlib')
ax.set(xlim=(0, 80))

In [None]:
# Visualizacion con pie chart
# Cuanto ha facturado cada familia de productos?

facturacion_por_familia = data.groupby("product_family")["price"].agg("sum")

## Version en pandas
facturacion_por_familia.plot(kind = "pie", title = "Pie chart con pandas")

## Version en matplotlib
fig, ax = plt.subplots()
ax.pie(x = facturacion_por_familia, labels = facturacion_por_familia.index)
ax.set_title('Pie chart con matplotlib')

In [None]:
# Visualizacion con line chart
# Cuantas orders se han hecho cada dia?
data_daily = data.groupby(["fecha"])["order_id"].agg("nunique")

# data_daily.plot(kind='bar')
data_daily.plot(kind='line', figsize=(12, 10), title = "Grafico de lineas con pandas")



In [None]:
# Cada dia cuantas unidades se han vendido de cada producto?
data.groupby(['fecha', 'product_family'])['quantity'].sum().unstack().plot(figsize=(12, 10), kind='line')


In [None]:
# Scatterplot
data.plot(x='unit_price', y='price', kind='scatter')



Un boxplot se usa para mostrar la distribución de una variable y destacar los valores atípicos y los cuartiles.

In [None]:
# Visualizamos unit_price con boxplot

# pandas
ax = data.boxplot(column='unit_price', by='product_family', grid=False, figsize=(10, 8))
# ax.set_ylim(0,80)

## Seaborn

Seaborn es una biblioteca de visualización de datos basada en matplotlib, diseñada para hacer gráficos estadísticos más atractivos y fáciles de crear. Se integra perfectamente con pandas, lo que la convierte en una opción ideal cuando trabajas con DataFrames. Con seaborn, puedes generar gráficos con menos código y con mejor estilo visual por defecto, además de ofrecer funcionalidades avanzadas para manejar fácilmente datos categóricos, numéricos y relaciones entre variables.

Ventajas de Seaborn:

- Estética mejorada: Los gráficos generados por defecto son más atractivos y claros que los de matplotlib.

- Integración con pandas: Funciona perfectamente con DataFrames, lo que hace que sea fácil visualizar columnas de datos.

- Gráficos estadísticos avanzados: Ofrece gráficos para ver relaciones y distribuciones de datos, como pairplot, heatmap, boxplot, entre otros.

In [None]:
# Grafico de barras

plt.figure(figsize=(9, 4))

sns.set_style('darkgrid')
sns.set_context('notebook')

sns.barplot( x='price', y = "product_family", data=data)
plt.title('Barplot con seaborn')
plt.show()


In [None]:
# Countplot
sns.countplot(data, x="product_family")
plt.title('Countplot con seaborn')
plt.show()

In [None]:
plt.figure(figsize=(9, 4))
ax = sns.boxplot(x='product_family', y='price', data=data)
# ax.set(ylim=(10, 80)) # Si queremos limitar el eje y


In [None]:
# Distribucion del precio unitario por familia (hist)

ax = sns.displot(data, x = "unit_price", hue = "product_family", bins = 20, kind = "hist")
ax.set(xlim=(5,100))

In [None]:
# Distribucion del precio unitario por familia (ecdf)

sns.displot(data = data, x = "unit_price", hue = "product_family", kind = "ecdf")
plt.xlim(5, 90)

In [None]:
# Distribucion del precio unitario por familia

sns.displot(data = data, x = "unit_price", hue = "product_family", kind = "kde")
plt.xlim(5, 90)


FacetGrid es una poderosa herramienta de seaborn para crear gráficos en función de subgrupos dentro de tus datos. Permite crear varios gráficos basados en valores de una o más variables categóricas.

In [None]:
# Distribucion del unit_pice por familia con facet grid
g = sns.FacetGrid(data, col="product_family")
g.map(sns.kdeplot, "unit_price")
# g.set(xlim=(0, 100))

In [None]:
sns.displot(data = data, x = "unit_price", hue = "product_family", kind = "kde", col = "product_family")
plt.xlim(5, 90)

Los heatmaps se utilizan para visualizar tablas de datos en forma de cuadrícula, donde los colores representan valores. Se suelen usar mucho para representar correlaciones.


In [None]:
plt.figure(figsize=(9, 4))
corr = data[["price", "unit_price", "quantity"]].corr()

# Crear un heatmap de la tabla de correlación
sns.heatmap(corr, annot=True, cmap="coolwarm")

plt.title('Mapa de calor de la correlación')
plt.show()

In [None]:
## Seaborn scatterplot
plt.figure(figsize=(10, 5))

sns.scatterplot(x='unit_price', y='price', hue = "product_family", data=data)
plt.title('Scatterplot con seaborn')
plt.show()


In [None]:
# Crear una cuadrícula de gráficos
# plt.figure(figsize=(4, 4))

g = sns.FacetGrid(data, col="product_family")

# Aplicar un gráfico a la cuadrícula
g.map(sns.scatterplot, "unit_price", "price")

plt.show()

In [None]:
# Descripcion con pairgrid

g = sns.PairGrid(data[["price", "unit_price", "quantity"]], diag_sharey=False)
g.map_upper(sns.scatterplot, )
g.map_lower(sns.kdeplot)
g.map_diag(sns.kdeplot)

In [None]:
data_daily = data.groupby(["fecha", "product_family"], as_index = False)["order_id"].agg("nunique")
data_daily["fecha"] = pd.to_datetime(data_daily["fecha"])  #! Sin esto, lo considerara como categorica
plt.figure(figsize=(10, 10))
sns.lineplot(data = data_daily, x = "fecha", y = "order_id", hue = "product_family")

Hasta ahora hemos visto varios paquetes para hacer gráficos, pero normalmente queremos cierta interactividad con los gráficos. El poder hacer hacer zoom o filtrar datos en el gráfico se vuelve vital cuando tenemos muchos datos. Para abordar esto tenemos la libreria de Plotly.

Plotly es una biblioteca de visualización de datos interactiva para Python que permite crear gráficos dinámicos y personalizables. A diferencia de bibliotecas como Matplotlib, que genera gráficos estáticos, Plotly permite que los gráficos tengan elementos interactivos como zoom, hover para mostrar datos específicos y la capacidad de seleccionar o filtrar puntos de datos en tiempo real.

Plotly tiene dos interfaces principales para crear gráficos en Python: Plotly Express y Graph Objects. Ambas interfaces tienen sus ventajas, y entender la diferencia te ayudará a elegir la mejor opción según tus necesidades.

- Plotly Express es la interfaz de alto nivel de Plotly, diseñada para crear gráficos rápidamente con poco código. Es perfecta para exploración y creación de gráficos básicos o cuando tienes datos en formato de pandas DataFrame.

- Graph Objects es la interfaz de bajo nivel de Plotly y ofrece un control total sobre cada aspecto de los gráficos. Es más detallada y permite realizar personalizaciones avanzadas, como ajustar cada elemento del gráfico individualmente.

In [None]:
import plotly.express as px

fig = px.scatter(data, y="price", x="unit_price", color="product_family")
fig.show()

In [None]:
# Distribucion del unit_price con un histograma

px.histogram(data, x = "unit_price", marginal = "box", nbins = 20)

In [None]:
# Histograma separando por familia

import plotly.graph_objects as go

fig = go.Figure()
for family in data["product_family"].unique():
    fig.add_trace(go.Histogram(x=data[data["product_family"] == family]["unit_price"], name = family))

# Overlay both histograms
fig.update_layout(barmode='overlay')
# Reduce opacity to see both histograms
fig.update_traces(opacity=0.75)
fig.show()

In [None]:
# Distribucion acumulada del unit_price por familia
px.ecdf(data, x = "unit_price", color = "product_family", marginal = "box")

In [None]:
px.box(data, x = "unit_price", color = "product_family")

In [None]:
# Pie chart

facturacion_por_familia = data.groupby("product_family", as_index = False)["price"].agg("sum")
fig = px.pie(facturacion_por_familia, values='price', names='product_family', title='Pie chart')
fig


In [None]:
# Numero de orders por dia

data_daily = data.groupby(["fecha", "product_family"], as_index = False).agg({"order_id":"nunique", "unit_price": "mean"})
data_daily["fecha"] = pd.to_datetime(data_daily["fecha"])

fig = px.line(data_daily, x = "fecha", y = "order_id", color = "product_family")


fig

In [None]:
# Grafica con 2 ejes y



data_daily = data.groupby("fecha", as_index = False).agg({"order_id":"nunique", "unit_price": "mean"})
data_daily["fecha"] = pd.to_datetime(data_daily["fecha"])

fig = make_subplots(specs=[[{"secondary_y": True}]])

# Add traces
fig.add_trace(
    go.Scatter(x=data_daily["fecha"], y=data_daily["order_id"], name="Num orders"),
    secondary_y=False,
)

fig.add_trace(
    go.Scatter(x=data_daily["fecha"], y=data_daily["unit_price"], name="precio unitario medio"),
    secondary_y=True,
)

# Add figure title
fig.update_layout(
    title_text="Ejemplo doble eje"
)

# Set x-axis title
fig.update_xaxes(title_text="Grafica con varios ejes")

# Set y-axes titles
fig.update_yaxes(title_text="Num orders", secondary_y=False)
fig.update_yaxes(title_text="precio unitario medio", secondary_y=True)

fig.show()

### Automatizaciones

Al principio puede parecer un tanto tedioso la cantidad de comandos y formas posibles para visualizar los datos. Por eso nacen librerias para quitar carga de trabajo a la hora de visualizar los datos.

Entre las más conocidas podemos encontrar:

- PandasGUI: Es una interfaz gráfica de usuario para explorar y manipular DataFrames de pandas de manera interactiva. Es útil para explorar datos y realizar manipulaciones básicas sin escribir mucho código. Aunque dependiendo de la versión, este paquete puede dar algunos problemas al instalarlo.

- Sweetviz e ydata-profiling: Son bibliotecas para generar reportes automáticos y visuales de un DataFrame, enfocándose en el análisis exploratorio de datos. Generan reportes en HTML con análisis detallados de las columnas, comparaciones entre datasets, y gráficos para visualizar la distribución y relaciones entre variables.

In [None]:
!pip install pandasgui

In [None]:
import pandasgui
# import os
# os.environ['APPDATA'] = ""
pandasgui.show(data)

In [None]:
!pip install sweetviz
!pip install ydata-profiling

In [None]:
import sweetviz as sv
my_report = sv.analyze(data)
my_report.show_html('sweetviz_eda.html')

In [None]:
feature_config = sv.FeatureConfig(skip=["product_id", "order_id", "order_customer_id"], force_num=["quantity"])
my_report = sv.compare_intra(data, data["product_family"] == "Pendientes", ["Pendientes", "No Pendientes"], None, feature_config)

my_report.show_html('sweetviz_comparacion_pendientes_vs_resto.html')

In [None]:

from ydata_profiling import ProfileReport
profile = ProfileReport(data, title="Profiling Report")
profile.to_file("ydata_profiling_eda.html")

In [None]:
from ydata_profiling import ProfileReport, compare

type_schema = {"quantity": "numeric"}

pendientes_report = ProfileReport(data[data["product_family"] == "Pendientes"], title="Pendientes", type_schema=type_schema)
no_pendientes_report = ProfileReport(data[data["product_family"] != "Pendientes"], title="Resto", type_schema=type_schema)

comparison_report = pendientes_report.compare(no_pendientes_report)
comparison_report.to_file("comparison.html")