# Visualización de datos con Matplotlib

## <font color='orange'>**¿Para qué nos sirve Matplotlib?**</font>

Matplotlib es una librería de Python open source que permite crear visualizaciones de datos, siendo la **visualización de datos** una etapa clave del análisis de datos, ya que permite encontrar patrones en los datos, estructuras subyancentes a éstos, descartar o apoyar conjeturas, ayuda a encontrar outliers, reduce la malinterpretación de los datos, entrega diferentes perspectivas del Dataset, etc.

In [None]:
import matplotlib
from matplotlib import pyplot as plt

**Pyplot** es un módulo Matplotlib que propone varias funciones sencillas para añadir elementos tales como líneas, imágenes o textos a los ejes de un gráfico.

# <font color='blue'>Anatomía de un gráfico de Matplotlib:</font>

<center><img src="https://drive.google.com/uc?id=1GbfclEmJj4upx5OZlf7_2xPqYAG8amYk"></center>

## <font>**Gráficos de líneas (Line plots)**</font> 

El gráfico de líneas es utilizado para analizar series de tiempo, variables que tengan una referencia numérica, o bien para comparar variables de este tipo. Para realizar este gráfico en Matplotlib necesitamos utilizar el método `plt.plot`.

Grafiquemos una señal sinusoidal, en este caso nuestros valores de $x$ va a estar definido como:
$$x \in [0,10]$$

Y la variable $y$ se define como:

$$y = sin(x)$$

1. Utilizando `matplotlib` y `numpy` genere dicho gráfico
2. ¿Cómo podemos obtener una curva más suave?
3. Agregar título, etiqueta de ejes y leyenda al gráfico

In [None]:
#1.

import numpy as np

x = [0,1,2,3,4,5,6,7,8,9,10]

plt.plot(x, np.sin(x))
plt.show()

In [None]:
# Escribe tu código aquí

Grafiquemos dos señales, donde los valores de $x$ van a estar definido como: $x \in [-2\pi,2\pi]$ y con una resolución de $0.05$ entre cada valor

Y las variables $y$ se definen como:

$$y_1 = sin(x)$$
$$y_2 = cos(x)$$

In [None]:
# Escribe tu código aquí

## <font>Gráficos de Barra (Bar charts)</font>

El gráfico de barras nos permite proyectar valores asociados a variables categóricas, en longitudes verticales u horizontales. Para realizar gráficos de barras en Matplotlib, necesitamos utilizar el método `plt.bar`. Al igual que `plt.plot`, el método utilizado para los gráficos de barra reciben valores $X$ e $Y$.

In [None]:
df = pd.DataFrame(
[[1000,300,20],
 [500,400,50],
 [300,450,10],
 [250,600,5],
 [100,50,35]
],
    columns = ['Ingresos','Costos','Trabajadores'],
    index=['Marketing','TI','Data Science','Cloud Computing','Client Management']
)
df

In [None]:
x = df.index

plt.bar(x,df['Ingresos'])
plt.bar(x,df['Costos'])

plt.xticks(rotation = 45)

plt.show()

In [None]:
x = np.arange(5)

plt.bar(x-0.4/2,df['Ingresos'], 0.4)
plt.bar(x+0.4/2,df['Costos'], 0.4)

plt.xticks(x, labels=df.index, rotation = 45)

plt.show()

In [None]:
plt.subplot(2,1,1)
plt.bar(df.index,df['Ingresos'], edgecolor = 'black')
plt.xticks([])
plt.yticks([0,250,500,750,1000])

plt.legend(['Ingresos'])

plt.subplot(2,1,2)
plt.bar(df.index,df['Costos'], color = 'orange', edgecolor = 'black')
plt.xticks(rotation = 45)
plt.yticks([0,250,500,750,1000])

plt.legend(['Costos'])


plt.show()

In [None]:
x = np.arange(5)

plt.xticks(x, labels=df.index, rotation = 45)
a = plt.bar(x-0.4/2,df['Ingresos'], 0.4)
plt.ylabel('Miles de dólares')


b = plt.twinx().bar(x+0.4/2,df['Trabajadores'], 0.4, color='orange')
plt.ylabel('Personas')

plt.legend([a,b],['Ingresos','Personas'])

plt.show()

## <font>Histogramas</font>

Los histogramas son un caso específico de los gráficos de barras. Las diferencias entre los gráficos de barras y los histogramas, es que los primeros se utilizan para datos categóricos, mientras que los segundos para variables continuas.

Para generar un histograma, necesitamos utilizar el método `plt.hist()`. Dicho método necesita como entrada los datos $X$, y un número de "bins" que se van a utilizar. Si este último número no especifica, entonces `plt.hist` generara por defecto 10 "bins".

In [None]:
import numpy as np

np.random.seed(42) # Fijamos la semilla aleatorea

X = np.random.normal(100, 25, 500) # Obtenemos 500 puntos de una distribución Normal con mu = 100 y sigma = 25

plt.hist(X, bins = 100, range=(40,240), edgecolor='gray', color=['#17becf'])
plt.show()

Considere el siguiente Dataset para analizar la distribución de las características de las distintas especies plantas.

<img style="width:35em" src="https://thumbs.dreamstime.com/b/partes-de-la-flor-con-t%C3%ADtulos-corte-transversal-t%C3%ADpica-angioesperma-120195446.jpg">

In [None]:
import pandas as pd

iris = pd.read_csv('https://raw.githubusercontent.com/ivanmontenegrogomez/CursoPython/main/iris.csv')
iris

In [None]:
plt.figure(figsize=(15,5))

plt.subplot(131)
plt.hist(iris['SepalLengthCm'][iris['Species']=='Iris-setosa'])

plt.subplot(132)
plt.hist(iris['SepalLengthCm'][iris['Species']=='Iris-versicolor'])

plt.subplot(133)
plt.hist(iris['SepalLengthCm'][iris['Species']=='Iris-virginica'])

plt.show()

In [None]:
plt.figure(figsize=(15,5))

plt.subplot(131)
plt.hist(iris['SepalWidthCm'][iris['Species']=='Iris-setosa'])

plt.subplot(132)
plt.hist(iris['SepalWidthCm'][iris['Species']=='Iris-versicolor'])

plt.subplot(133)
plt.hist(iris['SepalWidthCm'][iris['Species']=='Iris-virginica'])

plt.show()

## <font>Diagramas de dispersión</font>

Un diagrama de dispersión es un tipo de diagrama estadístico en el que se representa gráficamente un conjunto de datos de dos variables en dos ejes de coordenadas cartesianas, y que es utilizado para analizar la relación entre dos variables estadísticas.

Utilizando el método `plt.scatter` podemos generar nuestros diagramas de dispersión.

In [None]:
iris = pd.read_csv('https://raw.githubusercontent.com/ivanmontenegrogomez/CursoPython/main/iris.csv')
iris

In [None]:
plt.scatter(iris['SepalLengthCm'],iris['PetalWidthCm'], alpha = 0.5 , marker = '*', s = 50)

plt.title('SepalLength vs PetalWidth')

plt.xlabel('SepalLength')
plt.ylabel('PetalWidth')

plt.show()

In [None]:
sct = plt.scatter(iris['SepalLengthCm'],iris['PetalWidthCm'],
            c=pd.Categorical(iris['Species']).codes)

plt.legend(handles=sct.legend_elements()[0], labels=['Setosa','Versicolor','Virginica'])
plt.show()

## <font >Diagramas de Caja y Bigotes (Box Plots)</font>

El Boxplot es una representación univariada de los datos. El componente principal corresponde a la caja, compuesta por un rectángulo en el cual los limites corresponden a el primer cuartil y tercer cuartil. Adentro de dicho rectángulo se presenta una línea la cual corresponde a la mediana. El otro componente corresponde a los bigotes, los cuales se extienden hasta una distancia de $1.5 \times IQR$, donde $IQR$ corresponde al rango intercuartil y se calcula: $IQR=Q_3 - Q_1$. Finalmente, cualquier valor que supere la distancia de los bigotes, corresponden a nuestros datos atípicos (outliers), los cuales se marcan como puntos después de los bigotes.

En Matplotlib, utilizando el método `plt.boxplot` podemos generar nuestros diagramas de caja y bigotes.

In [None]:
iris = pd.read_csv('https://raw.githubusercontent.com/ivanmontenegrogomez/CursoPython/main/iris.csv')
iris

In [None]:
plt.boxplot(iris['SepalLengthCm'],showmeans=True, meanline='-')

plt.xticks([1], ['SepalLengthCm'])
plt.show()

In [None]:
plt.boxplot([iris['SepalLengthCm'],iris['PetalLengthCm']],showmeans=True, meanline='-')

plt.xticks([1, 2], ['SepalLengthCm', 'PetalLengthCm'])
plt.show()

# <font>Mapas de calor (Heatmap)</font>

Esta visualización utiliza la intensidad de color para codificar los valores existentes en las tablas. Para poder realizar un mapa de calor utilizando Matplotlib necesitamos invocar el método `plt.pcolormesh()`. Este recibe como argumento un arreglo bidimensional y nos devuelve un objeto artista, relacionado a nuestro mapa de calor.

In [None]:
iris.corr()

In [None]:
heatmap = plt.pcolormesh(iris.drop(columns='Id').corr())
cbar = plt.colorbar(heatmap)

plt.xticks([0.5,1.5,2.5,3.5],['SepalLengthCm','SepalWidthCm','PetalLengthCm','PetalWidthCm'], rotation = 45)
plt.yticks([0.5,1.5,2.5,3.5],['SepalLengthCm','SepalWidthCm','PetalLengthCm','PetalWidthCm'])

for i in range(4):
    for j in range(4):
        text = plt.text(j + 0.4, i + 0.4, iris.drop(columns='Id').corr().values[i, j].round(2), color="white")

plt.show()

## <font color='blue'>**Actividad: Análisis y visualización de datos con Base de Datos Countries**</font>

Para esta actividad utilizaremos la siguiente Base de Datos:

In [None]:
import pandas as pd

data = pd.read_csv("https://raw.githubusercontent.com/ivanmontenegrogomez/CursoPython/main/countries.csv")
data

1.1. Comparar (mediante histogramas) la distribución del PIB Per Cápita entre Asia y Europa en 2007. ¿Qué puede decir sobre los resultados?.<br>
1.2. Obtener el DataFrame con los países de Asia que tienen un PIB menor a 10.000 dólares en 2007.


2.1. Comparar (mediante histogramas) la distribución de la esperanza de vida entre Europa y América en 1997. ¿Qué puede decir sobre los resultados?.<br>
2.2. Obtener el DataFrame con los países de América con menor esperanza de vida en 1997.


3.1. Comparar (mediante gráfico de líneas) el crecimiento del PIB Per Cápita entre Estados Unidos y China.<br>
3.2. En relación con el gráfico anterior, ambos países tienen datos muy diferentes en escala; por lo tanto para comparar el crecimiento del PIB entre ellos, hay que transformar los datos a términos relativos considerando un año de referencia. Repita el ejercicio 3.1 considerando como año base 1950. ¿Qué puede decir sobre los resultados?.


4.1. Comparar (mediante gráfico de líneas) el crecimiento de la población entre Estados Unidos y China. ¿Qué puede decir sobre los resultados?.<br>
4.2. En relación con el gráfico anterior, ambos países tienen datos muy diferentes en escala. Repita el ejercicio 4.1 considerando como año base 1950. ¿Qué puede decir sobre los resultados?.


5.1. Estudiar (mediante un gráfico de dispersión) la relación entre el PIB per cápita y la expectativa de vida en 2007.¿Qué puede decir sobre los resultados?.<br>
5.2. ¿Cuál es la correlación entre PIB y la Expectativa de vida?.<br>
5.3. ¿Cuál es la relación que observa entre PIB y la Expectativa de vida?.<br>
5.4. Realice una transformación logarítmica, grafique nuevamente un gráfico de dispersión y calcule nuevamente la correlación entre PIB y la Expectativa de vida. ¿Qué puede decir sobre los resultados?.


6.1. Comparar (mediante gráfico de barras) la población de los 10 países más poblados en 2007.<br>
6.2. Incorpore al gráfico anterior las barras correspondientes al PIB. ¿Qué puede decir sobre los resultados?

In [None]:
# Escribe tu código aquí