# <u>Visualización con Matplotlib</u>

Importar las librerías necesarias

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
import matplotlib
matplotlib.__version__
pd.__version__
np.__version__

'1.26.4'

#### Interfaz Pyplot

* Permite llevar a cabo la función plot: listas, arrays
* Personalizar las líneas,colores, leyendas, etc.
* Ofrece un conjunto de tipos de graficas: hist(), scatter(), boxplot(), etc.
* Identificar los componentes:
    * Datos: Listas, ndarray, Pandas Series
    * Elementos: Titulos, nombre de los ejes, etc. Se accede a los elementos básicos con **.plt**


* markers: https://matplotlib.org/api/markers_api.html
* Leyenda: https://matplotlib.org/api/_as_gen/matplotlib.pyplot.legend.html
* Colores: https://matplotlib.org/api/colors_api.html
* Estilos: https://tonysyu.github.io/raw_content/matplotlib-style-gallery/gallery.html

### 1. Gráfico de línea

Caso 1:
* Datos: Listas
* Representación: Una línea con los puntos de cada lista

In [None]:
# import numpy as np
# import matplotlib.pyplot as plt

In [None]:
# Un gráfico de línea
a = [1, 2, 3, 4]
b = [11, 22, 33, 44]

plt.plot(a, b)
plt.show()

In [None]:
plt.plot(a, b, 'ro')
plt.show()

In [None]:
plt.plot(a, b, 'gs')
plt.show()

In [None]:
plt.plot(a, b, 'ro')
plt.axis([0, 6, 0, 60]) # especifica la ventana gráfica de los ejes.[xmin, xmax, ymin, ymax]
plt.show()

In [None]:
# Un gráfico de línea
a = [1, 2, 3, 4]
b = [11, 22, 33, 44]

plt.plot(a, b, color='brown', linewidth=3, label='línea')
plt.legend()
plt.show()

![image.png](attachment:image.png)

![image.png](attachment:image.png)

In [None]:
plt.plot([0, 0.1, 0.2, 0.5, 0.6],
         [1,  -1,   0,   3,  -1],
         marker = 'o',
         linestyle = '--')
plt.show()

In [None]:
plt.plot(a, b, color='g', marker='d', linestyle='dashed', linewidth=5, label='línea', markersize=15)
plt.legend()
plt.show()

Caso 2
* Datos: Array
* Representación: Una función en un solo sistema de ejes

In [None]:
x=np.linspace(-1,5,20)

In [None]:
x

In [None]:
def f(x):
    return np.exp(-x**2)

In [None]:
# Calculando la función a los valores del objeto x
f(x)

In [None]:
# Elementos: .plt()
# Representando un solo gráfico

plt.figure(figsize = (10,5)) # Aumentar el tamaño de la ventana
plt.title("Grafica de la función f(x)")
plt.xlabel("Eje X")
plt.ylabel("Eje Y")
plt.axis((-1,5,-0.5,2))
plt.plot(x,f(x),
         marker = 'o',
         linewidth = 2, #Aumentar el tamaño de la línea
         color = 'r',
         alpha = 0.8, #Tonalidad de la línea
         markersize=5,
         linestyle = '--',
         label = 'f(x)')
plt.legend()
plt.show()

In [None]:
# Otro ejemplo
npoints = 100

X = np.random.randn(npoints)
Y = -0.4 * X
plt.plot(X,Y, label="otra linea")
plt.grid()   #agrega cuadriculas al gráfico
plt.legend()
plt.show()

Caso 3
* Datos: Array
* Representar: Dos gráficos en un mismo sistema de Ejes

In [None]:
x=np.linspace(-1,5,20)

In [None]:
def fCuadratica(x):
    return x**2

def fCubica(x):
    return x**3

In [None]:
plt.figure(figsize=(10,5))
plt.title("Mis gráficos")
plt.xlabel("Eje x")
plt.ylabel("Eje y")
plt.plot(x,fCuadratica(x),
         #marker = '*',
         #color = 'b',
         #linestyle = '-',
         '*b-',
         label ='F(x)**2'
         )
plt.plot(x,fCubica(x),
         #marker = 'o'
         #color = 'k',
         #linestyle = '--',
         'ok--',
         label ='F(x)**3')
plt.legend(loc = 'best')
plt.show()

In [None]:
# evenly sampled time at 200ms intervals
t = np.arange(0., 5., 0.2)

# red dashes, blue squares and green triangles
plt.plot(t, t, 'r--', t, t**2, 'sb-', t, t**3, 'g^:')
plt.show()

In [None]:
with plt.style.context('dark_background'):
    plt.plot(np.sin(np.linspace(0, 2 * np.pi)), 'r-o')
plt.show()

In [None]:
with plt.style.context('seaborn'):
    plt.plot(np.sin(np.linspace(0, 2 * np.pi)), 'r-o')
plt.axis([0, 15, 0, 1])   # permite tener un entorno del mismo tamaño de ambos ejes
plt.show()

Para otros tipos de estilos: https://matplotlib.org/stable/gallery/style_sheets/style_sheets_reference.html

### 2. Histograma

Los histogramas representan en altura la acumulación de caso en intervalos de valor. Son apropiados para variables cuantitativas.

In [None]:
data_normal_1 = np.random.normal(loc = 1.0, scale = 0.5, size = 1000)

# loc: Valor "float", representa el centro de la distribución
# scale: Valor "float", representa la desviación Estandar de la distrib.
# size: un valor "int"

In [None]:
print(data_normal_1.shape)
print(data_normal_1.dtype)
print(data_normal_1[0:30])

In [None]:
plt.title("Histograma")
plt.xlabel("Valor")
plt.ylabel("Frecuencia")
plt.hist(data_normal_1,
         bins = 40,
         alpha = 0.6,
         edgecolor ='k',
         label ="Histograma Data 1")
# bins: numero de Intervalos de clase
# alpha: Nitidez -[0-1]
plt.legend()
plt.show()

Podemos agregar texto usando **plt.text()**

In [None]:
Num_puntos = 1000
mu = 10  # media of distribution
sigma = 10  # desviación estándar
x = mu + sigma * np.random.randn(Num_puntos) #genera Num_puntos puntos aleatorios de media mu y desviación tipica sigma.

In [None]:
help(plt.text)

In [None]:
plt.figure(figsize = (10,10)) # Aumentar el tamaño de la ventana
plt.hist(x, bins=20, color = 'skyblue', edgecolor='white')
plt.text(20, 100, r'$\mu=10,\ \sigma=10$', fontsize=20)
plt.text(-10, 80, 'Hola', fontsize=20, bbox=dict(facecolor='red', alpha=0.5))
plt.title('Histograma de IQ')
plt.grid(True)   #agrega una trama de cuadrículas
plt.show()

In [None]:
data_normal_2 = np.random.normal(loc = 1.5, scale = 0.1, size = 500)
data_normal_3 = np.random.normal(loc = 0.5, scale = 0.6, size = 500)

Otro ejemplo con histogramas:

In [None]:
plt.figure(figsize = (8,5))
plt.title("Histograma")
plt.xlabel("Eje X")
plt.ylabel("Eje Y")
plt.hist(data_normal_2,bins = 20,alpha = 0.5, edgecolor = 'k',label ='Hist N2')
plt.hist(data_normal_3,bins = 20,alpha = 0.5,edgecolor = 'k',label = 'Hist N3')
plt.legend()
plt.show()

### 3. Boxplot

In [None]:
# Cargar un dataset

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [None]:
dfBoston=pd.read_csv('Boston.csv')

In [None]:
dfBoston.head(5)

In [None]:
dfBoston.head(10)

In [None]:
dfBoston.head(5)

In [None]:
plt.title("Boxplot de Boston DataFrame")
plt.boxplot(dfBoston['medv'])
plt.show()
dfBoston['medv'].describe()

In [None]:
plt.figure(figsize = (5,3))
plt.title("Boxplot")
plt.xlabel("Eje X")
plt.ylabel("Eje Y")
#plt.boxplot(dfBoston['RM'],flierprops={'markerfacecolor':'g','marker':'s'})
plt.boxplot(dfBoston['rm'],showfliers=False,vert=False)
plt.show()

In [None]:
dfBoston.columns

In [None]:
var_plot = [dfBoston['lstat'],dfBoston['crim'],dfBoston['age'],dfBoston['medv']]

In [None]:
plt.boxplot(var_plot)
plt.show()

In [None]:
dfBoston[['lstat','crim','age','medv']].describe()

### 4. Diagrama de barras

Para representar una variable categorica usamos el clasico diagrama de barras. Se representa en alturas cantidades asociadas a categorias de una variable.

In [None]:
distritos = ['Surco','Miraflores','Barranco','Ate','La Molina','SJM','SJL']

In [None]:
#Altura
nro_habitantes = [100,150,65,72,35,45,160]

In [None]:
#Posicion - index
posicion = list(range(len(distritos)))
posicion

In [None]:
print(distritos)
print(nro_habitantes)
print(posicion)

In [None]:
coorX = [0,1,2,3,4,5,6]
coorY= [100, 150, 65, 72, 35, 45, 160]

In [None]:
# Te crea una lista de tuplas
list(zip(coorX,coorY))

In [None]:
plt.bar(x=posicion,
        height =nro_habitantes,
        width=0.6,
        align = 'center',
        color = ['k','r','y','b','g','g','skyblue'],
        edgecolor='k',
        tick_label = distritos)

plt.xticks(posicion, distritos, rotation='vertical')

for x, y in zip(coorX, nro_habitantes):
    plt.text(x,y,s=y,ha ='center',va ='bottom')

plt.show()

### Dos variables cuantitativas

**Scatter Plot**

* Esta relacionada con dos variables cuantitativas
* El grado de asociación lineal que pueden tener dos variables cuantitativas

In [None]:
dfBoston.head(10)

In [None]:
plt.title("Diagrama de dispersión")
plt.scatter(dfBoston['age'],dfBoston['medv'],alpha =0.6,color = 'g')
plt.xlabel("age")
plt.ylabel("medv")
plt.show()

* Podemos observar una ligera relación inversa en la variable EDAD vs MEDV, esto significa que a medida que aumenta la edad ligeramente existe una concentración de menores valores de MEDV.

**Realizando otro ejemplo**

In [None]:
datosNormal1 = np.random.normal(loc = 1, scale = 8, size = 500)
datosNormal2 = np.random.normal(loc = 1, scale = 0.5, size = 500)
datosNormal3 = np.random.normal(loc = 1, scale = 2 , size = 500)

In [None]:
plt.figure(figsize=(10,10))
plt.scatter(datosNormal1,datosNormal2,
            marker = '*',
            s = 70,
            alpha = 0.5,color = 'b',label='N1 vs N2')
plt.scatter(datosNormal1,datosNormal3,
            marker='o',
            s = 50,
            alpha = 0.5,color = 'r',label='N1 vs N3')
plt.legend(loc = 'best')
plt.show()

In [None]:
tamaño=np.round(dfBoston['age'].head(100)*20,0)

In [None]:
plt.figure(figsize=(10,5))
plt.title("Diagrama de burbujas")
plt.xlabel("age")
plt.ylabel("medv")
plt.scatter(dfBoston['age'].head(100),dfBoston['medv'].head(100),
           marker = 'o',
            s = tamaño,
            c=dfBoston['age'].head(100),
           edgecolor = 'k',
           alpha = 0.5)
plt.axis((0,110,0,60))
plt.show()

### 5. Otros ejemplos

Más información: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html

Para descargar una librería usar el siguiente comando:

In [None]:
!pip install pydataset

In [None]:
from pydataset import data   #contiene datasets incluidos para pruebas
iris = data('iris')
iris.head()

In [None]:
# import pandas as pd
# iris = pd.read_csv('data\iris.csv', index_col = 'Unnamed: 0')
# iris.head()

In [None]:
#dibujando un gráfico de línea
iris.plot(kind='line')
plt.show()

In [None]:
iris.plot(kind='hist',edgecolor="black",alpha=0.6)
plt.show()

In [None]:
iris['Sepal.Width'].plot(kind='hist', edgecolor="black",color = 'brown',alpha=0.6)
plt.show()

In [None]:
#dibujando un boxplot
iris.plot(kind='box')
plt.show()

In [None]:
#dibujando un boxplot por grupo
iris.groupby('Species').plot(kind='box')
plt.show()

In [None]:
# gráfico de dispersión
iris.plot(x='Sepal.Length', y='Sepal.Width',kind='scatter')
plt.show()

In [None]:
iris['Color']='red' # Nueva columna con el color
iris.loc[iris.Species == "setosa",'Color']='green'
iris.loc[iris.Species == "versicolor",'Color']='blue'
iris.head(20)

In [None]:
iris['Color'].unique(), iris['Species'].unique()

In [None]:
iris.plot(x='Sepal.Length', y='Sepal.Width', color =iris.Color, kind='scatter')
plt.xlabel('sepal length (cm)')
plt.ylabel('sepal width (cm)')
# plt.legend()
plt.show()

Veamos un ejemplo de gráfico adicionanto texto:

In [None]:
t = np.arange(0.0, 5.0, 0.01)
s = np.cos(2*np.pi*t)
line, = plt.plot(t, s, lw=2)

plt.annotate('local max', xy=(2, 1), xytext=(3, 1.5),
            arrowprops=dict(facecolor='black', shrink=0.05),)

plt.ylim(-2,2)
plt.show()

### 6. Subgráficos en varias secciones

In [None]:
def f(t):
    return np.exp(-t) * np.cos(2*np.pi*t)

t1 = np.arange(0.0, 5.0, 0.1)
t2 = np.arange(0.0, 5.0, 0.02)

plt.figure(figsize=(10,5))
plt.subplot(211)
plt.plot(t1, f(t1), 'bo', t2, f(t2), 'k')

plt.subplot(212)
plt.plot(t2, np.cos(2*np.pi*t2), 'r--')
plt.show()

In [None]:
Num_puntos = 1000
mu = 10  # media of distribution
sigma = 10  # desviación estándar
x = mu + sigma * np.random.randn(Num_puntos) #genera Num_puntos puntos aleatorios de media mu y desviación tipica sigma.


In [None]:
# usando el desempaquetado de tuplas para múltiples eje
fig, (ax1,ax2) = plt.subplots(2,1,figsize=(10,5))   # divide el espacio gráfico en 2 filas y una columna

# Preparamos un histograma en el subplot ax
num_bins = 50 # numero de barras
n, bins, patches = ax1.hist(x, num_bins, density=1,edgecolor='black',color="red")
ax1.set_title('Histograma')

#función de una distribución normal de media mu y desviación tipica sigma.
y = ((1 / (np.sqrt(2 * np.pi) * sigma)) * np.exp(-0.5 * (1 / sigma * (bins - mu))**2))

ax2.plot(bins, y,'--',color="green") # mete los valores de las Y y las X y las dibuja
ax2.set_xlabel('Gente lista') #configura la leyenda de la grafica
ax2.set_ylabel('Probabilidad')
ax2.set_title('Histograma de CIs: $\mu=100$, $\sigma=15$')

# Ajustar el espaciado para prevenir el recorte de las etiquetas y que no se superpongan
fig.tight_layout()
plt.show()

In [None]:
# usando el desempaquetado de tuplas para múltiples ejes
fig, (ax1,ax2) = plt.subplots(1,2,figsize=(10,5))   # divide el espacio gráfico en 1 fila y 2 columnas

# Preparamos un histograma en el subplot ax
num_bins = 20 # numero de barras
n, bins, patches = ax1.hist(x, num_bins, density=1,edgecolor='black',color="red")
ax1.set_title('Histograma')

#función de una distribución normal de media mu y desviación tipica sigma.
y = ((1 / (np.sqrt(2 * np.pi) * sigma)) * np.exp(-0.5 * (1 / sigma * (bins - mu))**2))

ax2.plot(bins, y,'--',color="green") # mete los valores de las Y y las X y las dibuja
ax2.set_xlabel('Gente lista') #configura la leyenda de la grafica
ax2.set_ylabel('Probabilidad')
ax2.set_title('Gráfico línea de CIs: $\mu=100$, $\sigma=15$')

# Ajustar el espaciado para prevenir el recorte de la etiqueta y
fig.tight_layout()
plt.show()

In [None]:
import matplotlib.pyplot as plt

s1 = iris['Sepal.Length']
s2 = iris['Petal.Length']
s3 = iris['Sepal.Width']
s4 = iris['Petal.Width']

# usando el desempaquetado de tuplas para múltiples ejes
fig, ((ax1,ax2),(ax3,ax4)) = plt.subplots(2,2,figsize=(8,8))

ax1.boxplot(s1, boxprops=dict(color='blue'))
ax1.set_title('Largo de Sépalo')

ax2.hist(s2, bins=30, density=1,edgecolor='black',color="green")
ax2.set_title('Largo de Pétalo')

ax3.hist(s3, bins=10, density=1,edgecolor='black',color="blue")
ax3.set_title('Ancho de Sépalo')

ax4.plot(s4,'-',color="red")
ax4.set_title('Ancho de Pétalo')

# Ajustar el espaciado para prevenir el recorte de la etiqueta y
fig.tight_layout()  # también ajustará el espacio entre las subparcelas para minimizar las superposiciones.
plt.show()

**matplotlib.pyplot** admite no solo escalas de eje lineal, sino también escalas logarítmicas y logit. Esto se usa comúnmente si los datos abarcan muchos órdenes de magnitud. Cambiar la escala de un eje es fácil:

**plt.xscale ('log')**

A continuación se muestra un ejemplo de cuatro gráficos con los mismos datos y diferentes escalas para el eje y.

In [None]:
from matplotlib.ticker import NullFormatter  # useful for `logit` scale

# Fixing random state for reproducibility
np.random.seed(19680801)

# make up some data in the interval ]0, 1[
y = np.random.normal(loc=0.5, scale=0.4, size=1000)
y = y[(y > 0) & (y < 1)]
y.sort()
x = np.arange(len(y))

# plot with various axes scales
plt.figure(figsize=(8,8)) # podemos definir el tamaño de la figura

# linear
plt.subplot(221)
plt.plot(x, y)
plt.yscale('linear')
plt.title('linear')
plt.grid(True)

# log
plt.subplot(222)
plt.plot(x, y)
plt.yscale('log')
plt.title('log')
plt.grid(True)


# logit
plt.subplot(224)
plt.plot(x, y)
plt.yscale('logit')
plt.title('logit')
plt.grid(True)
# Format the minor tick labels of the y-axis into empty strings with
# `NullFormatter`, to avoid cumbering the axis with too many labels.
plt.gca().yaxis.set_minor_formatter(NullFormatter())
# Adjust the subplot layout, because the logit one may take more space
# than usual, due to y-tick labels like "1 - 10^{-3}"
plt.subplots_adjust(top=0.92, bottom=0.08, left=0.10, right=0.95, hspace=0.25,
                    wspace=0.35)

plt.show()

### 7. Composición de 2 gráficos

In [None]:
x = iris['Sepal.Width']
mu = x.mean()
sigma = x.std()

#Dos gráficos en uno
fig, ax = plt.subplots()

# Preparamos un histograma en el subplot ax
num_bins = 50 # numero de barras
n, bins, patches = ax.hist(x, num_bins, color = 'g', edgecolor='black')

#función de una distribución normal de media mu y desviación tipica sigma.
y = (bins ** 2)

ax.plot(bins, y,'--', color = 'red') # mete los valores de las Y y las X y las dibuja
ax.set_xlabel('Valor de las acciones') #configura la leyenda de la grafica
ax.set_title('Superposición de 2 gráficos')

# Ajustar el espaciado para prevenir el recorte de la etiqueta y
fig.tight_layout()
plt.show()

In [None]:
Num_puntos = 1500
mu = 100  # media of distribution
sigma = 15  # desviación estándar
x = mu + sigma * np.random.randn(Num_puntos) #genera Num_puntos puntos aleatorios de media mu y desviación tipica sigma.

#Dos gráficos en uno
fig, ax = plt.subplots()

# Preparamos un histograma en el subplot ax
num_bins = 50 # numero de barras
n, bins, patches = ax.hist(x, num_bins, density=1,edgecolor='black')

#función de una distribución normal de media mu y desviación tipica sigma.
y = ((1 / (np.sqrt(2 * np.pi) * sigma)) * np.exp(-0.5 * (1 / sigma * (bins - mu))**2))

ax.plot(bins, y,'--') # mete los valores de las Y y las X y las dibuja
ax.set_xlabel('Gente lista') #configura la leyenda de la grafica
ax.set_ylabel('Probabilidad')
ax.set_title('Histograma de CIs: $\mu=100$, $\sigma=15$')

# Ajustar el espaciado para prevenir el recorte de la etiqueta y
fig.tight_layout()
plt.show()

Más tipos de visualizaciones: https://www.data-to-viz.com/

Más información: https://matplotlib.org/3.2.1/tutorials/introductory/pyplot.html#sphx-glr-tutorials-introductory-pyplot-py