# Data Visualization

En nuestras actividades del día a día como científicos de datos, regularmente utilizaremos las siguientes 7 gráficas:

1. Gráfica de dispersión (scatter plot)
2. Gráfica de lineas
3. Histograma (histogram)
4. Gráfica de barras y gráfica de barras apiladas (bar & stack bar chart)
5. Gráfica de caja o bigotes (Box plot)
6. Mapa de calor (Heatmap)
7. Mapa de correlación (Correlogram)


## Paquetes a utilizar

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
#Se utilizar para mostrar la gráfica inmediatamente después del código 
%matplotlib inline 
import seaborn as sns

In [None]:
#Seaborn es más que una mera librería de visualización, es una librería para representación estadística, 
#ya que muestra fácilmente la relación que guardan los datos para detectar tendencias y patrones.
#https://medium.com/ironhack/data-visualization-con-pandas-y-seaborn-1044906af34f

In [None]:
#matplotlib.pyplot Es una interfaz basada en estados para matplotlib. 
#Proporciona una forma de graficar similar a MATLAB

### Importamos nuestros datos

El dataset iris es uno de los más utilizados en ejercicios básicos de aprendizaje automático. Es breve, limpio y sus datos están muy bien distribuidos.

In [None]:
iris = sns.load_dataset('iris')


El dataset gapminder proviene directamente de los datos del baco mundial y es muy probable que lo encuentres en estudios de desigualdad y derechos humanos

In [None]:
gdp = pd.read_csv("gapminder.csv")


FileNotFoundError: ignored

El siguiente dataset es uno de los que se encuentran precargados con el paquete seaborn. El dataset simula ser una base de datos que contiene información de fechas de vuelos y totales de pasajeros.

In [None]:
flights = sns.load_dataset("flights")


## 1. Gráfica de dispersión (scatter plot)

Los gráficos de dispersión y de líneas pueden analizar la relación entre diferentes características numéricas. Entre ellos, los diagramas de dispersión se utilizan principalmente para analizar la correlación entre las características.

Una dispersión puede proporcionar dos tipos de información clave:

Si existe una tendencia de correlación numérica o cuantitativa entre las características y si la tendencia es lineal o no lineal;

Observe si hay ruido en los datos y juzgue intuitivamente si el ruido tendrá un gran impacto en el modelo.

In [None]:
#grafica de los datos                                                                              (aqui mas info: https://seaborn.pydata.org/generated/seaborn.regplot.html) #Regresion: modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente
              

## Personalización de la gráfica

#### Mapear un color por cada grupo

In [None]:
#ahora usando el lmplot para mostrar subconjuntos dentro de nuestros datos con una paleta de colores predefinida.                      (https://seaborn.pydata.org/generated/seaborn.lmplot.html)
 
# Acomodamos las leyendas/codigo de colores                                                                                             (mas info aqui: https://matplotlib.org/stable/tutorials/intermediate/legend_guide.html)


In [None]:
#ahora usando el lmplot para mostrar subconjuntos dentro de nuestros datos.                                    (https://seaborn.pydata.org/generated/seaborn.lmplot.html)
#usando colores personalizados
 
#Acomodamos las leyendas/codigo de colores con este metodo                                      (mas info aqui: https://matplotlib.org/stable/tutorials/intermediate/legend_guide.html)


#### Utilizando escalas para mejorar la visualización

Ahora veamos un caso particular. Vamos a hacer uso de los datos de Gapminder, estos contienen información sobre el nivel de ingreso per cápita por país, así como una columna de la esperanza de vida de cada uno de ellos. Todo esto bajo una línea de tiempo en años.

El objetivo es visualizar si existe una correlación entre el nivel de ingresos y la esperanza de vida.

In [None]:
# Scatter plot básico. 

                                                                                            #(mas info aqui https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.xscale.html) ej "linear", "log", "symlog", "logit"
                                                                                            #Una escala logarítmica muestra el valor base de 10 elevado a la potencia de un valor. 10 a la 1, 10 a la 2, 10 a la 3
# Definimos en variable los nombres de los ejes y título

# Agregamos las etiquetas a los ejes
                                                                                                                      #en los notebook se hace el llamado por default/ podriamos no incluirla

Como te habrás dado cuenta, añadimos título y nombres a los ejes. Estos métodos funcionan con todas las gráficas de pyplot y seaborn

## 2. Gráfica de línea (lineplot)

In [None]:
# Definimos los valores a graficar como la suma acumulada de numeros aleatorios entre el 1 y el 1000                                           (https://numpy.org/doc/stable/reference/generated/numpy.cumsum.html)
 
# Usando la funcion de plot                                                                                                                    #(https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.plot.html)


## 3. Histograma (histogram)

#### Con Matplotlib

#### Con Seaborn

#### Generar un histograma por cada categoría (faceting)

Caso 1:
- Tenemos datos distribuidos en distintas categorías
- Los valores que se relacionan con las categorías se encuentran en la misma escala y en un rango determinado

Caso 2:
- Tenemos datos distribuidos en distintas categorías
- Los valores que se relacionan con las categorías se encuentran en la misma escala y en un rango determinado

## 4. Gráfica de barras y gráfica de barras apiladas (bar & stack bar chart)

### Gapminder: ¿Cuál es la expectativa de vida por cada país?

In [None]:
#Extraemos las filas de inicio a fin de las columnas de 'country', 'life_exp' donde el continente sea Africa 


In [None]:
#usando los recursos de PANDAS se graficaria asi:                                                                    (https://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.DataFrame.plot.html)

#pero estan desordenadas y si quiero cambiar eso debo de hacer un tratamiento a los datos

In [None]:
#Creamos un conjunto ordenado descendentemente de la expectativa de vida de los paises de africa
#que seran nuestras alturas en la grafica


In [None]:
#Creamos un conjunto de los paises de africa
#que seran los intervalos para las barras


In [None]:
# Aquí indicamos el orden en el que deben aparecer las barras

# Ordenamos 

# Invertimos el orden para que sea ascendente

# Creamos las barras

# Creamos los nombres de los ejes

# Título

# Etiqueta del eje


## Gráfica apilada de totales

Iniciemos con un ejemplo muy sencillo. En este caso, estamos generando un data frame desde cero.

Observa que el data frame tiene algunas características:
- El índice es una columna de categorías (se sitúan en el eje X)
- El restos de columnas son numéricas y cada una cuenta para un conjunto de barras
- Los valores de las columnas numéricas son las alturas de las barras

In [None]:
esperanza_de_vida_mujeres = [85.10, 83.70	, 79.86	, 85.30	, 84.70, 79.65, 77.84]
esperanza_de_vida_hombres = [79.70, 79, 74.33, 79.2, 80.1, 74.06, 72.12]
index = ['España', 'Alemania', 'Colombia',
         'Francia', 'Italia', 'Ecuador', 'Mexico']



Para cambiar entre una gráfica de barras lado a lado a una de barras apiladas, cambia el valor del argumento **stacked** a True.

### Ejemplo con dos columnas categóricas

Del total de vuelos en cada año, ¿qué parte corresponde a cade mes?

In [None]:
#Hacemos una copia del orignial para no editarlo directamente


Antes, debemos corroborar que la columna 'year' sea categórica

In [None]:
#Convertimos el tipo de dato
flights_stack["year"] = flights_stack["year"].astype("category")
flights_stack["month"] = flights_stack["month"].astype("category")


In [None]:
#cambiamos la estructura del dataframe tener la necesaria para la grafica


In [None]:

#Rotamos a 45 grados los titulos de las barras del eje x

**Recuerda:** la cantidad de barras que verás en la gráfica corresponde con la cantidad de columnas numéricas en tu dataset

## 5. Gráfica de caja o bigotes (Box plot)

![image.png](https://storage.googleapis.com/campus-cvs/lectures/4.1%20Boxplot.png)

[mas info aqui](https://www.analisisdedatos.org/single-post/2019/04/05/c%C3%B3mo-se-interpreta-un-diagrama-de-cajas-y-bigotes)


#### Un boxplot solito para ver la distribución de una sola variable

In [None]:
                                                                                                 #https://seaborn.pydata.org/generated/seaborn.boxplot.html

In [None]:
#Podemos acompañar la grafica con esta sentencia para conocer los valores exactos de las estadisticas descriptivas.


#### Múltiples boxplots para identificar distribuciones por categorías

## 6. Mapa de calor (Heatmap)

In [None]:
# Graficamos utilizando distintas escalas de color
#sns.heatmap(flights, cmap="YlGnBu")
#sns.heatmap(flights, cmap="Blues")
#sns.heatmap(flights, cmap="BuPu")
#sns.heatmap(flights, cmap="Greens")

## 7. Correlogram

#### Con subgrupos

In [None]:
#Trazar relaciones por pares en un conjunto de datos.


# plt.show()

## Material de referencia

- [From Data to Viz](https://www.data-to-viz.com/)
- [Python Graph Gallery](https://python-graph-gallery.com/)
- [Documentación de Seaborn](https://seaborn.pydata.org/examples/index.html)
- [Cómo la curva del elefante te ayudará a entender qué ha pasado con la desigualdad en el mundo](https://www.bbc.com/mundo/noticias-55699513)
- [Paletas de color de matplotlib (cmaps)](https://matplotlib.org/stable/tutorials/colors/colormaps.html)