Los gráficos con una parte esencial del análisis de datos en casi cualquier rama.

El hecho de haber realizado un tratamiento a los datos es sólo una parte del análisis, porque, eventualmente no hay nada mejor que verlo.

Incluso, en algunas ocasiones es bueno hacer una gráfica de los datos originales para ver si tienen un comportamiento o tendendcia, esto puede ayudarnos a hacer un tratamiento posterior.

# **Gráfico de Dispersión (Puntos)**

El gráfico de dispersión (scatter plot), se utilizan usualmente para comparar los valores que toman dos variables distintas. Ambas representadas en diferentes ejes. La gráfica resultante permite identificar visualmente la *posible* correlación entre ambas variables.

En matplotlib se usa la función `scatter`.

In [None]:
# Caso más simple para hacer un scatter plot

import numpy as np
import matplotlib.pyplot as plt

# Generar datos
x = np.array([3, 8, 5, 6, 1, 9, 6, 7, 2, 1, 8])
y = np.array([4, 5, 2, 4, 6, 1, 4, 6, 5, 2, 3])

# Nota: Recuerden que el largo de ambas listas debe de ser igual

# Graficar
fig, ax = plt.subplots()
ax.scatter(x = x, y = y)
plt.show()

Nota: ¿Cuándo se usa plt.show() y cuándo no?
Realmente depende de del ambiente en el que se encuentren.

Si están utilizando Matplotlib en una terminal o en scripts deben de poner el plt.show()
Si por el contrario están en un IPython shell o un notebook, pueden no usarlo.


---
**Personalización de los scatter plot**
Si bien es de los gráficos más sencillos, la personalización puede ayudar a tener una mejor idea de qué está pasando


**Símbolos**



In [None]:
# Personaliazar símbolos

x = (3, 8, 5, 6, 1, 9, 6, 7, 2, 1, 8)
y = (4, 5, 2, 4, 6, 1, 4, 6, 5, 2, 3)

# Graficar
fig, ax = plt.subplots()
plt.scatter(x = x, y = y, marker = "*")
plt.show()

# Hay una cantidad muy grande de markers, la cual pueden ver aquí
# https://matplotlib.org/stable/api/markers_api.html

# Y también se puede usar código de LaTeX
# r'$\clubsuit$'   r"$\frac{1}{2}$"


**Tamaños y Color**

De las formas para personalizar, las más comunes son con color y tamaño y algunas de estas variables, para ello se usan los parámetros:

  

*   `color` o también `c` para cambiar el color
*   `s` para el tamaño
*   `alpha` para la transparencia
*   `edgecolors` para el contorno



In [None]:
# Personaliazar Color y tamaño

x = (3, 8, 5, 6, 1, 9, 6, 7, 2, 1, 8)
y = (4, 5, 2, 4, 6, 1, 4, 6, 5, 2, 3)

# Graficar
fig, ax = plt.subplots()
plt.scatter(x = x, y = y, marker = "*", c='pink', s=70, alpha = 0.6, edgecolors = "limegreen", linewidths = 0.3)

# Hay una gran cantidad de nombres en matplotlib aquí hay una lista:
# https://matplotlib.org/stable/gallery/color/named_colors.html


In [None]:
# También pueden usar colormaps pero para eso deben de escoger los ticks
# y deben de ser del mismo tamaño que sus datos, veamos

x = (3, 8, 5, 6, 1, 9, 6, 7, 2, 1, 8)
y = (4, 5, 2, 4, 6, 1, 4, 6, 5, 2, 3)


colors = np.array([0, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100])

# Graficar
fig, ax = plt.subplots()
plt.scatter(x = x, y = y, marker = "*", c = colors, cmap = 'YlGn', s=70, alpha = 0.6, edgecolors = "limegreen", linewidths = 0.3)
plt.colorbar() # Y aqui podemos usar una barra
plt.show()


# https://matplotlib.org/stable/users/explain/colors/colormaps.html
# https://colorhunt.co/

**Separar por grupos**

Obviamente no siempre vamos a plotear todo un grupo de datos, muchas veces los vamos a querer separar.

In [None]:
# Hay varias formas de dividir datos por grupo

x1 = np.array([5,7,8,7,2,17,2,9,4,11,12,9,6])
y1 = np.array([99,86,87,88,111,86,103,87,94,78,77,85,86])

x2 = np.array([2,2,8,1,15,8,12,9,7,3,11,4,7,14,12])
y2 = np.array([100,105,84,105,90,99,90,95,94,100,79,112,91,80,85])
#____________________________________________________________________________________________________________
# Plotearlos por separado

plt.scatter(x1, y1, color = 'hotpink')
plt.scatter(x2, y2, color = '#88c999') # Ojo

#____________________________________________________________________________________________________________
# Una condición de valores

color = np.where(x1 < 7, "yellow", "lightblue")
plt.scatter(x1, y1, color = color)

**Leyendas y ejes**

La leyendas sirven para saber diferenciar entre los grupos de datos, mientras que los ejes siempre ayudan a saber de qué unidades estamos hablando


In [None]:
import numpy as np
import matplotlib.pyplot as plt

fig, ax = plt.subplots()
pink = plt.scatter(x1, y1, color = 'hotpink')
green = plt.scatter(x2, y2, color = '#88c999') # Ojo
# Leyenda
plt.legend((pink, green),('Puntos Rosas', 'Puntos Verdes'))
# Ejes
plt.ylabel('Eje y', fontsize=20)
plt.xlabel('Eje x', fontsize=20)
plt.title('Título')


Si bien estas son las funciones y propiedades más básicas siempre van a aprender algo nuevo conforme vayan analizando, y para eso un ejercicio. 🥳


---


# Ejercicio

Vamos a trabajar con una base de datos que se llama [Iris](https://es.wikipedia.org/wiki/Conjunto_de_datos_flor_iris), son datos de 3 especies de flores Iris, y contiene diferentes rasgos: largo y ancho del sépalo y pétalo en cm.

Entonces vamos a separar los tres tipos de especie utilizando un scatter plot.



In [None]:
# Importar librerias

import pandas as pd
import matplotlib.pyplot as plt



print(datos)

Supongamos que queremos plotear todos los datos de "sepal_length" vs "sepal_width"
¿Cómo lo harían?

Grafiquenlo y pongan nombre de los ejes y título.

Ahora grafiquen únicamente el "Sepal Width" y el "sepal Length" únicamente de la especie setosa.

Ahora hagan las tres gráficas con las tres especies diferentes