# **VISUALIZACIÓN DE DATOS EN PANDAS**

La biblioteca Pandas en python se utiliza principalmente para el análisis de datos. No es una biblioteca de visualización de datos, pero podemos crear gráficos básicos usando Pandas. Pandas es muy útil y práctico si queremos crear gráficos de análisis de datos exploratorios. No necesitamos importar otras bibliotecas de visualización de datos además de Pandas para tales tareas.

Como Pandas es la popular biblioteca de análisis de datos de Python, proporciona varias funciones diferentes para visualizar nuestros datos con la ayuda de la función `.plot()`. Hay una ventaja más de usar Pandas para la visualización: podemos serializar o crear una canalización de funciones de análisis de datos y funciones de trazado. Simplifica la tarea.


In [None]:
# Importamos nuestras librerias
import pandas as pd
import numpy as np

In [None]:
# Gráfico lineal
a = pd.Series([40, 34, 30, 22, 28, 17, 19, 20, 13, 9, 15, 10, 7, 3])
a.plot()

In [None]:
# Customización gráfico lineal
a.plot(figsize=(8, 6), color='red', title = 'Line Plot', fontsize=15)

In [None]:
# Convertir nuestro gráfico lineal a uno de área

# a.plot(kind='area')

a.plot.area()

In [None]:
# Agregamos 2 series más y creamos un DF con las 3 series de datos
b = pd.Series([45, 22, 12, 9, 20, 34, 28, 19, 26, 38, 41, 24, 14, 32])
c = pd.Series([25, 38, 33, 38, 23, 12, 30, 37, 34, 22, 16, 24, 12, 9])
d = pd.DataFrame({'a':a, 'b': b, 'c': c})
d

In [None]:
# Ploteamos un gráfico de área de 'd'
d.plot.area(figsize=(8, 6), title='Area Plot', fontsize = 12)

In [None]:
# Customizamos nuestra figura
d.plot.area(alpha=0.2, color=['coral', 'purple', 'lightgreen'],figsize=(8, 6), title='Area Plot', fontsize=12)

**Véase:** [pandas.DataFrame.plot](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html)

# 1.Conjunto de datos

Fuente de datos del Centro de Control y Prevención de Enfermedades: [National Health and Nutrition Examination Surveys (NHANES)](https://wwwn.cdc.gov/nchs/nhanes/continuousnhanes/overview.aspx?BeginYear=2015)

In [None]:
# Leemos nuestro dataset
df = pd.read_csv('nhanes_2015_2016.csv')
df.head()

# 2.Histograma

In [None]:
# Crear un Histograma con la variable ‘BMXWT’
df['BMXWT'].hist()

In [None]:
# Histograma con tres variables apiladas .plot.hist()
df[['BMXWT', 'BMXHT', 'BMXBMI']].plot.hist(bins=20, fontsize=12, figsize=(10, 8))

In [None]:
# Tres histogramas en una línea de código .hist()
df[['BMXWT', 'BMXHT', 'BMXBMI']].hist(bins=20,figsize=(10, 8))

In [None]:
# Sustituimos el valor numérico de la columna 'DMDEDUC2' por valores de cadena más significativos
df["DMDEDUC2x"] = df.DMDEDUC2.replace({1: "less than 9", 2: "9-11", 3: "HS/GED", 4: "Some college/AA", 5: "College", 7: "Refused", 9: "Don't know"})
df["DMDEDUC2x"].head()

In [None]:
# Ploteamos histogramas con la distribución de la presión arterial sistólica en la población de cada nivel educativo
df[['DMDEDUC2x', 'BPXSY1']].hist(by='DMDEDUC2x', figsize=(18, 12))

# 3.Gráfico de barra

In [None]:
# Sustituimos el valor numérico de la columna 'DMDMARTL' por valores de cadena más significativos
df["DMDMARTLx"] = df.DMDMARTL.replace({1: "Married", 2: "Widowed", 3: "Divorced", 4: "Separated", 5: "Never married", 6: "Living w/partner", 77: "Refused"})
df["DMDMARTLx"]

In [None]:
df.head()

In [None]:
# Agrupamos los datos por diferentes estados civiles y tomamos la media de cada grupo
df.groupby('DMDMARTLx')['BMXARMC'].min().plot(kind='barh')

In [None]:
# El mismo gráfico pero en horizontal
df.groupby('DMDEDUC2x')['BPXSY1'].mean().plot(kind='barh', rot=45, fontsize=10, figsize=(8, 6))

## 3.1. Gráfico de barras multivariable

In [None]:
# Agrupamos lass columnas: peso, altura e índice de masa corporal por origen étnico y calculamos la media
df_bmx = df.groupby('RIDRETH1')['BMXWT', 'BMXHT', 'BMXBMI'].mean().reset_index()
df_bmx.head()


Para saber más sobre la función en Pandas `.reset_index()` consúltese: [Pandas reset index – How to reset the index and convert the index to a column?](https://www.machinelearningplus.com/pandas/pandas-reset-index/)

In [None]:
# Ploteamos el gráfico de barras con varias variables
df_bmx.plot(x = 'RIDRETH1', 
            y=['BMXWT', 'BMXHT', 'BMXBMI'], 
            kind = 'bar', 
            color = ['lightblue', 'red', 'yellow'], 
            fontsize=12)

In [None]:
# El mismo gráfico pero apilado
df_bmx.plot(x = 'RIDRETH1', 
            y=['BMXWT', 'BMXHT', 'BMXBMI'], 
            kind = 'barh', stacked=True,
            color = ['lightblue', 'red', 'yellow'], 
            fontsize=10)

# 4.Pie chart

In [None]:
# Agrupamos el estado civil por nivel educativo y contamos la población en cada grupo por estado civil según nivel educativo
df_edu_marit = df.groupby('DMDEDUC2x')['DMDMARTL'].count()
pd.Series(df_edu_marit)

In [None]:
# Ploteamos un gráfico de tarta utilizando una Serie de Pandas
ax = pd.Series(df_edu_marit).plot.pie(subplots=True, label='',
     labels = ['College Education', 'high school', 
     'less than high school', 'Some college',
     'HS/GED', 'Unknown'],
     figsize = (8, 6),
     colors = ['lightgreen', 'violet', 'coral', 'skyblue', 'yellow', 'purple'],
     autopct = '%.2f')

# 5.Boxplot

In [None]:
# Plotear un Boxplot
color = {'boxes': 'DarkBlue', 'whiskers': 'coral', 
         'medians': 'Black', 'caps': 'Green'}
df[['BMXBMI', 'BMXLEG', 'BMXARML']].plot.box(figsize=(8, 6),color=color)

- **Boxes (cajas):** el cuerpo principal del boxplot que muestra los cuartiles y los intervalos de confianza de la mediana, si están activados.
- **Medians (medianas):** líneas horizontales en la mediana de cada caja.
- **Whiskers (bigotes):** las líneas verticales que se extienden hasta los puntos de datos más extremos y no atípicos.
- **Caps (topes):** las líneas horizontales en los extremos de los bigotes.
- **Means (volantes):** puntos que representan los datos que se extienden más allá de los bigotes (volantes).

# 6.Gráfico de dispersión

In [None]:
# Ploteo de gráfico de dispersión simple con dos variables y 300 datos
df.head(300).plot(x='BMXBMI', y= 'BPXSY1', kind = 'scatter')

In [None]:
# Ploteo de gráfico de dispersión custom con 3 variables
df.head(500).plot.scatter(x= 'BMXWT', y = 'BMXHT', c ='BMXLEG', colormap='viridis', figsize=(8, 6))

**Lectura recomendada:** [Escoger mapas de colores en Matplotlib](https://matplotlib.org/stable/tutorials/colors/colormaps.html)

In [None]:
# Gráfico de dispersión con burbujas 
df.head(200).plot.scatter(x= 'BMXHT', y = 'BMXWT', 
                          s =df['BMXBMI'][:200] * 7, 
                          alpha=0.5, color='purple',
                         figsize=(8, 6))

**Lectura complementaria:** [Cómo establecer el tamaño del marcador de la gráfica de dispersión en Matplotlib](https://www.delftstack.com/es/howto/matplotlib/how-to-set-marker-size-of-scatter-plot-in-matplotlib/)

# 7.Hexbin

In [None]:
# Hexbin básico con dos variables
df.plot.hexbin(x='BMXARMC', y='BMXLEG', gridsize= 20)

In [None]:
# Hexbin con el parametro 'C' especificado
df.plot.hexbin(x='BMXARMC', y='BMXLEG', C = 'BMXHT',
reduce_C_function=np.max, gridsize=15,figsize=(8,6))

In [None]:
# El mismo Hexbin con el parametro cmap
df.plot.hexbin(x='BMXARMC', y='BMXLEG', C = 'BMXHT',
reduce_C_function=np.max, gridsize=15, figsize=(8,6), cmap = 'viridis')

# 8.Visualizaciones avanzadas

## 8.1. Matriz de dispersión
La función `pandas.plotting.scatter_mattrix` muestra una matriz de gráficos de dispersión cruzando las características cuantitativas del dataframe indicado.

In [None]:
# Importamos libreria para plotear una matrix de dispersión

from pandas.plotting import scatter_matrix

scatter_matrix(df[['BMXWT', 'BMXHT', 'BMXBMI', 'BMXLEG', 'BMXARML']], alpha = 0.2, figsize=(10, 8), diagonal = 'kde')

## 8.2. Gráficos de densidad (KDE)

In [None]:
# Distribución de probabilidad de la variable 'peso' ('BMXWT')
df['BMXWT'].plot.kde()

In [None]:
# Ploteo de una distribución de probabilidad de la altura (BMXHT), el peso (BMXWT) y el IMC (BMXBMI)
df[['BMXWT', 'BMXHT', 'BMXBMI']].plot.kde(figsize = (8, 6))

**Lectura recomendada:** [Cómo Usar Paréntesis ( ), Corchetes [ ] y Llaves { } en Python](https://www.codigopiton.com/parentesis-corchetes-llaves-en-python/)

## 8.3. Coordenadas paralelas

La función `pandas.plotting.parallel_coordinates` implementa el gráfico de coordenadas paralelas, útil para trazar datos numéricos multivariados y comparar variables y sus relaciones.

En una gráfica de coordenadas paralelas, a cada variable se le asigna un eje y todos los ejes se colocan paralelos entre sí. Cada eje puede tener una escala diferente, ya que cada variable trabaja con una unidad de medida diferente, o todos los ejes pueden normalizarse para mantener todas las escalas uniformes. Los valores se trazan como una serie de líneas que están conectadas en todos los ejes. Esto significa que cada línea es una colección de puntos colocados en cada eje, que han sido conectados.

El orden en que se organizan los ejes puede afectar la forma en que el lector entiende los datos. Una razón de esto es que las relaciones entre variables adyacentes son más fáciles de percibir que las de variables no adyacentes. Por lo tanto, reordenar los ejes puede ayudar a descubrir patrones o correlaciones entre variables.

La desventaja de los gráficos de coordenadas paralelas es que pueden abarrotarse demasiado y, por lo tanto, ser ilegibles cuando son muy densos en datos. La mejor manera de remediar este problema es a través de la interactividad y una técnica conocida como “cepillado”. El cepillado resalta una línea seleccionada o una colección de líneas mientras desvanece todas las demás. Esto le permite aislar secciones de la trama que le interesan mientras filtra el ruido.

![](https://datavizcatalogue.com/methods/images/top_images/SVG/parallel_coordinates.svg)

In [None]:
# Importar libreria y plotear coordenadas paralelas

from pandas.plotting import parallel_coordinates

parallel_coordinates(df[['BMXWT', 'BMXHT', 'BMXBMI', 'RIAGENDR']].dropna().head(200), 'RIAGENDR', color=['blue', 'violet'])

**Véase:** [pandas.plotting.parallel_coordinates](https://pandas.pydata.org/docs/reference/api/pandas.plotting.parallel_coordinates.html)

## 8.4. Gráfico bootstrap

El diagrama de bootstrap se utiliza para estimar la incertidumbre de una estadística basándose en un muestreo aleatorio con reemplazo. Esta función generará diagramas de bootstrap para estadísticas medias, medianas y de rango medio para el número dado de muestras del tamaño dado.
Para generar una estimación de incertidumbre de bootstrap para una estadística determinada a partir de un conjunto de datos, se genera a partir de los datos una submuestra de un tamaño inferior o igual al tamaño del conjunto de datos y se calcula la estadística. Esta submuestra se genera con reemplazo para que cualquier punto de datos pueda muestrearse varias veces o no muestrearse en absoluto. Este proceso se repite para muchas submuestras, generalmente entre 500 y 1000. Los valores calculados para la estadística forman una estimación de la distribución de muestreo de la estadística.

Por ejemplo, para estimar la incertidumbre de la mediana a partir de un conjunto de datos con 50 elementos, generamos una submuestra de 50 elementos y calculamos la mediana. Esto se repite al menos 500 veces para que tengamos al menos 500 valores para la mediana. Aunque el número de muestras de arranque a utilizar es algo arbitrario, 500 submuestras suelen ser suficientes. Para calcular un intervalo de confianza del 90 % para la mediana, las medianas de la muestra se clasifican en orden ascendente y el valor de la mediana 25 (suponiendo que se tomaron exactamente 500 submuestras) es el límite de confianza inferior, mientras que el valor de la mediana 475 (suponiendo exactamente 500 submuestras) es el límite de confianza inferior. se tomaron las submuestras) es el límite de confianza superior.

In [None]:
# Importamos libreria y ploteamos un gráfico bootstrap
from pandas.plotting import bootstrap_plot

bootstrap_plot(df['BMXBMI'], size=100, samples=1000, color='red')

**Para saber más véase:** [Bootstrap Plot](https://www.itl.nist.gov/div898/handbook/eda/section3/eda334.htm)

# **Fuente**
[A Complete Cheat Sheet For Data Visualization in Pandas](https://regenerativetoday.com/a-complete-cheat-sheet-for-data-visualization-in-pandas/)