---
# ***Argentina Programa 4.0 - Programación Avanzada con Python***
---

## **Módulo 7**: Visualización de Datos

### ***Universidad Nacional de Chilecito***

---

El tema de este notebook es [Seaborn](https://seaborn.pydata.org/). Se trata de una librería de visualización de datos en Python basada en [Matplotlib](https://matplotlib.org/). El contenido de este notebook se divide en varias secciones que se enumeran a continuación:



## Contenidos




## 1. Introducción a Seaborn


Seaborn es una librería de visualización de datos en Python. Se utiliza para producir gráficos estadísticos. Está construida sobre Matplotlib. Soporta tanto estructuras de datos de [NumPy](https://numpy.org/) y [Pandas](https://pandas.pydata.org/).

En el mundo del análisis de datos, la visualización de juega un papel fundamental a la hora de explorar y comprender los datos. Seaborn se ha desarrollado para facilitar el proceso de exploración y comprensión de los datos. Proporciona una interfaz de alto nivel para producir gráficos estadísticos de alta calidad. La personalización y las opciones de backend de Matplotlib facilitan la generación de figuras con calidad incluso para una publicación.

Este notebook, abarca la presentación de Seaborn y visión general de alto nivel de sus funciones y herramientas asociadas.


## 2. Comparación entre Seaborn y Matplotlib

Seaborn utiliza Matplotlib para realizar sus gráficos, es decir que esta construida encima de ella. Muchas acciones se pueden realizarse sólo con las funciones de Seaborn. Otras opciones de personalización pueden requerir el uso directo de Matplotlib. Seaborn no es una alternativa a Matplotlib. Podemos pensar en él como un complemento de Matplotlib. Como está construido sobre Matplotlib, podemos llamar directamente a las funciones de Matplotlib para crear gráficos simples.


Seaborn ayuda a resolver dos grandes problemas a los que se enfrenta Matplotlib. Estos son:

1.	Trabajar con los parámetros por defecto de Matplotlib.

2.	Trabajar con data frames.


## 3. Visión general de la API de Seaborn

Seaborn tiene distintos tipos de gráficos que pueden satisfacer diversos tipos de requisitos de visualización de datos. Los gráficos se pueden clasificar en siete categorías: gráficos relacionales, gráficos categóricos, gráficos de distribución, gráficos de regresión, gráficos matriciales y cuadrículas multigráfico.


## 4. Funcionalidad de Seaborn

Seaborn ofrece múltiples funcionalidades que lo hacen eficaz para diversas tareas de visualización de datos. Estas funcionalidades involucran:

- Proporciona una API orientada a conjuntos de datos para examinar las relaciones entre variables.

- Proporciona funciones para ajustar y visualizar modelos de regresión lineal para diferentes tipos de variables independientes y dependientes.

- Proporciona funciones para visualizar distribuciones univariantes y bivariantes y para compararlas entre subconjuntos de datos.

- Proporciona funciones de trazado para utilizar variables categóricas, para mostrar observaciones o estadísticas agregadas.

- Nos ayuda a visualizar matrices de datos y a utilizar algoritmos de agrupación para descubrir la estructura de esas matrices.

- Ofrece una función de trazado para representar datos estadísticos de series temporales. La función proporciona una estimación flexible y la representación de la incertidumbre en torno a la estimación.

- Proporciona herramientas para elegir estilos, paletas de colores, widgets de paleta y funciones de utilidad. Estas herramientas nos ayudan a crear bonitos gráficos que revelan patrones en los datos.

- Proporciona varios temas incorporados para producir gráficos Matplotlib de aspecto elegante.

## 5. Instalación de Seaborn


Para instalar la última versión de Seaborn, podemos utilizar **pip** y ejecutar el siguiente comando en el terminal:

`pip install seaborn`



In [None]:
!pip install seaborn

## 6. Importar librerías Python


En esta sección, importamos las librerías necesarias para trabajar en este notebook, estas son: Numpy, Pandas y Matplotlib con su notación abreviada habitual.

La parte de la librería que usaremos para graficar con matplotlib es matplotlib.pyplot y se suele importar con el nombre plt.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

## 7. Importar Seaborn


Podemos importar Seaborn como

`import seaborn`

La notación abreviada de Seaborn es **sns**. Por lo tanto, podemos importar seaborn con su notación abreviada habitual.

`import seaborn as sns`

In [None]:
import seaborn as sns

## 8. Importar conjuntos de datos

Seaborn tiene algunos conjuntos de datos incluidos en la libreria. Cuando Seaborn se instala, los conjuntos de datos se descargan automáticamente. Podemos descargar cualquier conjunto de datos con la función **load_dataset()**.

**Importar datos como Pandas dataframe**.

En esta sección, importaremos un conjunto de datos. Por defecto, este conjunto de datos se carga como Pandas dataframe. Hay un conjunto de datos llamado **tips** en la libreria. Podemos importar este conjunto de datos con la siguiente línea de código:

In [None]:
tips = sns.load_dataset('tips')

Podemos ver las cinco primeras líneas de la base de datos con el siguiente comando:

In [None]:
tips.head()

Para ver todos los conjuntos de datos disponibles en la libreria Seaborn, podemos utilizar el siguiente comando, implementando la función **get_dataset_names()** como se muestra a continuación:

In [None]:
sns.get_dataset_names()

## 9. Establecer parámetros estéticos con el método set()

Podemos establecer los parámetros estéticos de los graficos de Seaborn con el método **set()**. Estos parámetros estéticos involucran: context, style, palette, font, font_scale, color_codes, dictionary of rc parameters.

Así, podemos establecer los parámetros estéticos por defecto llamando al método **set()** de Seaborn de la siguiente manera:

In [None]:
sns.set()

## 10. Paleta de colores Seaborn

El color desempeña un papel muy importante en la visualización de datos. El color añade varias dimensiones a un gráfico cuando se utiliza eficazmente.
Una paleta es una superficie plana en la que un pintor mezcla pinturas.

Seaborn proporciona una función llamada **color_palette()**. Puede utilizarse para dar color a los gráficos y añadirles valor estético. Devuelve una lista de colores que definen una paleta de colores.

Hay varias paletas Seaborn disponibles. Estas son:

- Deep

- Muted

- Bright

- Pastel

- Dark

- Colorblind

Además de estas también podemos crear nuevas paletas.

Hay otra función **seaborn.palplot()** que se ocupa de las paletas de colores. Esta función traza la paleta de colores como una matriz horizontal.

[Información adicional](https://seaborn.pydata.org/tutorial/color_palettes.html)

**Paletas de colores cualitativas**

Las paletas cualitativas o categóricas son las más adecuadas para graficar datos categóricos.


In [None]:
# Default

current_palette1 = sns.color_palette()

sns.palplot(current_palette1)

plt.show()


Podemos indicar el número deseado de colores que queremos ver a traves del parámetro n_colors. Aquí, la función **palplot()** se utiliza para graficar la matriz de colores horizontalmente.



**Paletas de colores secuenciales**

Los graficos secuenciales son adecuados para expresar la distribución de datos que van de valores relativos más bajos a valores más altos dentro de un rango. Añadiendo un carácter adicional "s" al color pasado al parámetro color se genera el gráfico Secuencial.

Por ejemplo: tenemos que añadir "s" al parámetro como "Greens" de la siguiente manera:

In [None]:
current_palette2 = sns.color_palette("Blues")

sns.palplot( current_palette2)

plt.show()


**Paleta de colores divergentes**

Las paletas divergentes utilizan dos colores diferentes. Cada color representa la variación en el valor que va desde un punto común en cualquier dirección.

Suponemos que se trazan los datos que van de -1 a 1. Los valores de -1 a 0 toman un color y de 0 a +1 toman otro color.

Por defecto, los valores se centran a partir de cero. Podemos controlarlo con el parámetro center pasando un valor como sigue:


In [None]:
current_palette3 = sns.color_palette()

sns.palplot( sns.color_palette("BrBG", 10))

plt.show()


**Paleta de colores por defecto**

Podemos establecer la paleta de colores por defecto de un gráfico de Seaborn utilizando la función **set_palette()**.

Los argumentos son los mismos para las funciones **set_palette()** y **color_palette()**, pero los parámetros por defecto de Matplotlib cabmian para que la paleta se utilice en todos los gráficos.


In [None]:
def sinplot(flip=1):
    # Creo variable x de 0 a 15 con 100 valores intermedios
    x = np.linspace(0, 15, 100)

    for i in range(1, 4):
        # Grafica las 4 lineas
        plt.plot(x, np.sin(x + i * .5) * (7 - i) * flip)

# darkgrid, whitegrid, dark, white, ticks
sns.set_style("ticks")

# hsl, husl, deep
sns.set_palette("husl")

sinplot()
plt.title("Grafico de Senos")
plt.grid()
plt.show()


[.set_style()](https://seaborn.pydata.org/generated/seaborn.set_style.html)

[.set_palette()](https://seaborn.pydata.org/generated/seaborn.set_palette.html)

## 11. Graficos para distribución univariante con distplot()

Lo más importante al analizar los datos es comprender su distribución. Seaborn nos ayuda a comprender la distribución univariante de los datos.

La función **distplot()** proporciona una visión rápida de la distribución univariante. Esta función trazará un histograma que se ajusta a la estimación de la densidad del kernel de los datos.

Podemos utilizar la función **distplot()** de la siguiente manera:


In [None]:
sns.distplot(tips['total_bill'])

plt.show()


[sns.distplot()](https://seaborn.pydata.org/generated/seaborn.distplot.html)

## 12. Histograma Seaborn

Los histogramas representan la distribución de los datos a partir de la división en intervalos a lo largo del rango de los datos y luego dibujando barras que reflejan el número de observaciones que caen en cada intervalo.

Podemos utilizar la misma función **distplot()** para trazar un histograma de la siguiente manera:


In [None]:
sns.distplot(tips['total_bill'], kde=False)

plt.show()

El parámetro kde se define false. Como resultado, se eliminará la representación del gráfico de estimación del kernel y sólo se representará el histograma.


## 13. Seaborn - Estimación de la densidad del núcleo

Kernel Density Estimation (KDE) es una forma de estimar la función de densidad de probabilidad de una variable aleatoria continua.

Se utiliza para análisis no paramétricos.

Al establecer el parámetro hist en false en la función distplot() se obtendrá el gráfico de estimación de la densidad del núcleo.


In [None]:
sns.distplot(tips['total_bill'], hist=False)

plt.show()


## 14. Trazado de la distribución bivariante con jointplot()

La distribución bivariada se utiliza para determinar la relación entre dos variables. Esto refleja principalmente y cómo se comporta una variable con respecto a la otra.

La mejor manera de analizar la Distribución Bivariada en seaborn es utilizando la función **jointplot()**.

**Jointplot()** crea una figura multi-panel que proyecta la relación bivariada entre dos variables y también la distribución univariada de cada variable en ejes separados.

In [None]:
tips.head()

In [None]:
sns.jointplot(x="total_bill", y="tip", data=tips)

plt.show()

[seaborn.jointplot](https://seaborn.pydata.org/generated/seaborn.jointplot.html)

## 15. Seaborn - Diagrama de dispersión

Un diagrama de dispersión se puede utilizar para demostrar la relación entre dos variables x e y. Un diagrama de dispersión simple se puede dibujar como sigue:

In [None]:
sns.scatterplot(x="total_bill", y="tip", data=tips)

plt.show()

La relación entre las variables puede mostrarse para distintos subconjuntos de datos utilizando los parámetros `hue`, `size` y `style`.

[seaborn.scatterplot()](https://seaborn.pydata.org/generated/seaborn.scatterplot.html)

In [None]:
tips.head()

In [None]:
sns.scatterplot(x="total_bill", y="tip", hue='day', data=tips)
plt.grid()
plt.show()

## 16. Visualización de la relación entre pares con pairplot()

Algunos conjuntos de datos contienen múltiples variables. En tales casos, se debe analizar la relación entre todas y cada una de las variables. Por lo tanto, necesitamos graficar relaciones por pares en un conjunto de datos.

Para graficar múltiples distribuciones bivariadas por pares, podemos utilizar la función **pairplot()**. Esto muestra la relación para (n,2) combinación de variable en un marco de datos como una matriz de gráficos y los gráficos diagonales son los gráficos univariados.

Podemos graficar un pairplot de la siguiente manera:

In [None]:
sns.set_style("whitegrid")

sns.pairplot(tips)

plt.show()

[seaborn.pairplot()](https://seaborn.pydata.org/generated/seaborn.pairplot.html)

## 17. Graficar datos categóricos

Hasta ahora, hemos tratado el histograma, el diagrama de dispersión y los diagramas de kde. Estos se utilizan para analizar las variables continuas en estudio. Estos gráficos no son adecuados cuando la variable en estudio es categórica.

Cuando una o ambas variables en estudio son categóricas, podemos utilizar gráficos como striplot() y swarmplot() para graficar datos categóricos.

## 18. Seaborn - Gráfico de bandas


Un **stripplot()** se utiliza para dibujar un diagrama de dispersión donde una variable es categórica. Representa los datos ordenados a lo largo de cualquiera de los ejes.

Podemos trazar un stripplot de la siguiente manera:


In [None]:
sns.stripplot(y="day", x="total_bill", data=tips,legend=False, jitter=False)

plt.show()

Podemos añadir jitter para que la distribución de valores sea la siguiente:

In [None]:
# Default jitter=True

sns.stripplot(x="day", y="total_bill", data=tips, jitter=True,legend=False)

plt.show()

[seaborn.stripplot()](https://seaborn.pydata.org/generated/seaborn.stripplot.html)

## 19. Seaborn - Swarm Plot

Otra opción que se puede utilizar como alternativa a 'jitter' es utilizar la función **swarmplot()**. Esta función posiciona cada punto del diagrama de dispersión en el eje categórico y así evita la superposición de puntos.


Así, **swarmplot()** puede utilizarse para dibujar un diagrama de dispersión categórico con puntos no solapados.


Podemos trazar un swarmplot de la siguiente manera:

In [None]:
sns.swarmplot(x="day", y="total_bill", data=tips)

plt.show()

[seaborn.swarmplot()](https://seaborn.pydata.org/generated/seaborn.swarmplot.html)

## 20. Distribución de las observaciones

Cuando tratamos con un conjunto de datos, lo primero que queremos es tener una idea de cómo se distribuyen las variables.

Podemos utilizar diagramas de caja y diagramas de violín para trazar la distribución de los datos.


## 21. Seaborn - Diagrama de caja

Podemos dibujar un diagrama de cajas para mostrar distribuciones con respecto a categorías. El Boxplot es una forma conveniente de visualizar la distribución de los datos a través de sus cuartiles.

- Cuartiles: tres valores que dividen a un conjunto de datos ordenados en cuatro partes iguales.

Los gráficos de caja suelen tener líneas verticales que encierran la caja y se denominan bigotes. Estos indican la variabilidad fuera de los cuartiles superior e inferior, por lo que los gráficos de caja también se denominan gráficos de caja y bigotes. Los valores atípicos en los datos se representan como puntos individuales fuera de los bigotes.

Podemos dibujar un único diagrama de caja horizontal de la siguiente manera:

In [None]:
sns.boxplot(x=tips["total_bill"])

plt.show()

Podemos dibujar un boxplot vertical agrupado por una variable categórica de la siguiente manera:

In [None]:
sns.boxplot(x="day", y="total_bill", data=tips)

plt.show()

[seaborn.boxplot()](https://seaborn.pydata.org/generated/seaborn.boxplot.html)

## 22. Seaborn - Gráfico de violín

Los Violin Plots son combinaciones del box plot con las estimaciones de densidad del kernel. Por lo tanto, estos gráficos son más fáciles de analizar
y permite comprender rapidamente la distribución de los datos.

Podemos dibujar un único gráfico de violín horizontal de la siguiente manera:


In [None]:
sns.violinplot(x=tips["total_bill"])

plt.show()

Podemos dibujar un violinplot vertical agrupado por una variable categórica de la siguiente manera:

In [None]:
sns.violinplot(x="size", y="total_bill", data=tips)

plt.show()

[seaborn.violinplot()](https://seaborn.pydata.org/generated/seaborn.violinplot.html)

## 23. Estimación estadística con Seaborn

A veces, necesitamos estimar méctricas de tendencia central de una distribución. La media y la mediana son las más utilizadas para estimar la tendencia central de una distribución.

Podemos utilizar el **diagrama de barras** y el **diagrama de puntos** para medir la tendencia central de una distribución.


## 24. Seaborn - Diagrama de barras

El **diagrama de barras** muestra la relación entre una variable categórica y una variable continua. Los datos se representan en barras rectangulares donde la longitud de la barra representa la proporción de datos en esa categoría.

Un diagrama de barras muestra las estimaciones puntuales y los intervalos de confianza como barras rectangulares. Por lo tanto, representa la estimación de la tendencia central.

Podemos dibujar un conjunto de gráficos de barras verticales agrupados por una variable categórica de la siguiente manera:

In [None]:
sns.barplot(x="day", y="total_bill", data=tips)

plt.show()

In [None]:
tips.groupby('day')['total_bill'].mean()

In [None]:
sns.barplot(x="day", y="total_bill", data=tips, ci=None)
plt.show()

[seaborn.barplot()](https://seaborn.pydata.org/generated/seaborn.barplot.html)

## 25. Seaborn - Gráfico de puntos

Los gráficos de puntos tienen la misma funcionalidad que los gráficos de barras, pero con un estilo diferente. En lugar de la barra completa, el valor de la estimación está representado por el punto a una cierta altura en el otro eje. Los gráficos de puntos muestran estimaciones puntuales e intervalos de confianza utilizando gráficos de dispersión.


Podemos dibujar un conjunto de gráficos de puntos verticales agrupados por una variable categórica de la siguiente manera:

In [None]:
sns.pointplot(x="day", y="total_bill", data=tips)

plt.show()

Podemos dibujar un conjunto de puntos verticales con agrupación anidada por una dos variables de la siguiente manera:

In [None]:
sns.pointplot(x="sex", y="total_bill", hue="day", data=tips)

plt.show()

[seaborn.pointplot()](https://seaborn.pydata.org/generated/seaborn.pointplot.html)

## 26. Relaciones lineales con Seaborn

Muchos conjuntos de datos contienen múltiples variables cuantitativas, y el objetivo de un análisis suele ser relacionar esas variables entre sí. Podemos utilizar modelos estadísticos para estimar una relación simple entre dos conjuntos de observaciones. Estos modelos se denominan modelos de regresión.

Al construir los modelos de regresión, a menudo comprobamos si existe multicolinealidad, es decir, la correlación entre todas las combinaciones de variables continuas y, si existe, tomamos las medidas necesarias para eliminarla.

Hay dos funciones principales en Seaborn para visualizar una relación lineal determinada mediante regresión. Estas funciones son **regplot()** y **lmplot()**. Hay una tercera función **residplot()** que traza los residuos de un modelo de regresión lineal.

## 27. Seaborn - Reg plot

La función regplot() grafica los datos y el ajuste de una recta de regresión lineal. Dibuja un diagrama de dispersión de dos variables, x e y, y luego ajusta el modelo de regresión y ~ x, trazando la línea de regresión resultante y un intervalo de confianza del 95% para esa regresión.

Podemos dibujar el diagrama de dispersión y la recta de regresión utilizando regplot() como sigue:

In [None]:
sns.regplot(x="total_bill", y="tip", data=tips)

plt.show()

[seaborn.regplot()](https://seaborn.pydata.org/generated/seaborn.regplot.html)

## 28. Seaborn - Lm plot

La función **lmplot()** grafica los datos y los ajustes del modelo de regresión a través de un FacetGrid. Esta función combina regplot() y FacetGrid. Está pensada como una interfaz práctica para ajustar modelos de regresión a través de subconjuntos condicionales de un conjunto de datos.

Podemos trazar una relación lineal simple entre dos variables utilizando lmplot() como sigue:

In [None]:
sns.lmplot(x="total_bill", y="tip", data=tips)

plt.show()

Las funciones **regplot()** y **lmplot()** están estrechamente relacionadas, la diferencia recae en que la primera es una función a nivel de ejes mientras que la segunda es una función a nivel de figura que combina **regplot()** y **FacetGrid**.

[seaborn.lmplot()](https://seaborn.pydata.org/generated/seaborn.lmplot.html)

## 29. Seaborn - Resid plot

La función **residplot()** representa los residuos de una regresión lineal. Podemos trazar los residuos de la siguiente manera:

In [None]:
sns.residplot(x="total_bill", y="tip", data=tips)

plt.show()

[seaborn.residplot()](https://seaborn.pydata.org/generated/seaborn.residplot.html)

## 30. Matrices con Seaborn

Hay dos funciones que nos permiten trazar datos en forma de matriz. Son el mapa de calor y el mapa de conglomerados.


## 31. Seaborn - Mapa de calor

La función Seaborn heatmap() traza datos rectangulares como una matriz codificada por colores.

Podemos trazar un mapa de calor para una matriz numpy de la siguiente manera:


In [None]:
uniform_data

In [None]:
uniform_data = np.random.rand(10, 12)

sns.heatmap(uniform_data)

plt.show()

In [None]:
# Add correlation coefficient

sns.heatmap(uniform_data, annot=True, annot_kws={"fontsize":8})

plt.show()

[seaborn.heatmap()](https://seaborn.pydata.org/generated/seaborn.heatmap.html)

## 32. Seaborn - Mapa de conglomerados

La función Seaborn **clustermap()** traza un conjunto de datos matriciales como un mapa de calor agrupado jerárquicamente.

Podemos trazar un mapa de calor agrupado del conjunto de datos de puntas de la siguiente manera:


In [None]:
df1 = tips[['size','total_bill','tip']]

In [None]:
sns.clustermap(df1)

plt.show()

[seaborn.clustermap()](https://seaborn.pydata.org/generated/seaborn.clustermap.html)

## 33. Cuadrículas multiparcela con Seaborn

Cuando se exploran datos de mayores dimensiones, un enfoque útil es dibujar múltiples instancias del mismo gráfico en diferentes subconjuntos de los datos. Esta técnica suele denominarse "rejilla" o "enrejado", y se vincula con la idea de dibujar múltiples instancias del mismo gráfico en diferentes subconjuntos de datos. Permite extraer rápidamente una gran cantidad de información sobre datos complejos.

Seaborn ofrece tres tipos de rejillas - **facet grid**, **pair grid** y **joint grid** para dibujar múltiples instancias del mismo gráfico.


## 34. Seaborn - Cuadrícula de facetas

La función Seaborn **Facetgrid()** nos permite dibujar una rejilla multiparcela para trazar relaciones condicionales.


En primer lugar, inicializamos una cuadrícula de facetas de 2x2 utilizando el conjunto de datos tips de la siguiente manera:

In [None]:
sns.FacetGrid(tips, col="day", row="time")

plt.show()

Inicializar la rejilla de esta manera configura la figura y los ejes de matplotlib, pero no dibuja nada sobre ellos.

El enfoque principal para visualizar datos en esta cuadrícula es con el método **FacetGrid.map()**. Necesitamos proporcionarle una función de trazado y el nombre(s) de la(s) variable(s) en el marco de datos a trazar.

Podemos dibujar un gráfico univariante en cada faceta de la siguiente manera:

In [None]:
g = sns.FacetGrid(tips, col="size",  row="time")

# g = g.map(plt.hist, "total_bill")
g = g.map(plt.scatter, "total_bill", 'tip')

plt.show()

[seaborn.FacetGrid()](https://seaborn.pydata.org/generated/seaborn.FacetGrid.html)

## 35. Seaborn - Cuadrícula de pares

La función **PairGrid()** de Seaborn grafica una cuadrícula de subparcelas para graficar las relaciones de pares en un conjunto de datos.

Podemos dibujar un gráfico de dispersión para cada relación por pares utilizando la función **PairGrid()** de la siguiente manera:


In [None]:
g = sns.PairGrid(tips)

g = g.map(plt.scatter)

plt.show()

Podemos mostrar una distribución univariante en la diagonal de la siguiente manera:

In [None]:
g = sns.PairGrid(tips)

g = g.map_diag(plt.hist)

g = g.map_offdiag(plt.scatter)

[seaborn.PairGrid()](https://seaborn.pydata.org/generated/seaborn.PairGrid.html)

## 36. Seaborn - Cuadrícula conjunta

La función Seaborn **JointGrid()** nos ayuda a configurar la rejilla de subparcelas.

Podemos inicializar la figura pero no dibujar ningún gráfico en ella de la siguiente manera:


In [None]:
g = sns.JointGrid(x="total_bill", y="tip", data=tips)

Podemos añadir parcelas utilizando los parámetros por defecto de la siguiente manera:

In [None]:
g = sns.JointGrid(x="total_bill", y="tip", data=tips)

# g = g.plot(plt.scatter, sns.distplot)
g = g.plot(sns.regplot, sns.distplot)

[seaborn.JointGrid()](https://seaborn.pydata.org/generated/seaborn.JointGrid.html)

# Material extra

## Matplotlib

Matplotlib es una librería para visualización de datos en python.

Su [documentación](https://matplotlib.org/stable/gallery/index.html) es muy buena.

La parte de la librería que usaremos para graficar es matplotlib.pyplot y se suele importar con el nombre plt:

In [None]:
import matplotlib.pyplot as plt

Lo primero que debemos hacer para poder graficar, es crear una figura y unos ejes. La **figura** es el objeto correspondiente al rectángulo sobre el cual graficamos todo; los **ejes** son los distintos pares de ejes que vamos a agregar dentro de una figura.

In [None]:
fig = plt.figure()
ax = plt.axes()

## Lineplot

Uno de los gráficos que vimos es el gráfico de linea.

A este gráfico debemos pasarle los argumentos x e y, que tienen que ser 2 listas o arrays del mismo tamaño


In [None]:
x = np.arange(0,5, 0.1)
y = np.sin(x) # Seno

In [None]:
fig = plt.figure() #Figura
ax = plt.axes() # Ejes
ax.plot(x, y) # Agrego variables
plt.show()

Además de los datos x e y, le podemos pasar muchos argumentos a la función plot para mejorar nuestro gráfico.

In [None]:
fig = plt.figure()
ax = plt.axes()
ax.plot(x, y, color='green', linewidth=5, linestyle='--')
plt.show()

También podemos (y siempre deberíamos) agregar títulos a los gráficos

In [None]:
fig = plt.figure()
ax = plt.axes()
ax.plot(x, y, color='green', linewidth=5, linestyle='--')
ax.set_title("hola")
plt.show()

Otro aspecto importante a tener en cuenta a la hora de graficar para ser lo más claros y explícitos posibles, es agregar labels.

Los labels nos permiten explicitar información sobre los distintos objetos que graficamos.

In [None]:
x2 = np.linspace(0, 5)
y2 = x2 / 5

In [None]:
fig = plt.figure()
ax = plt.axes()
ax.plot(x, y, color='green', linewidth=5, linestyle='--', label='Seno')
ax.plot(x2, y2, color='red', linewidth=5, linestyle='-', label='linea')
ax.set_title("hola")
ax.legend()
plt.show()

### Subplots

Los subplots nos permiten representar varios axes en una misma figura. Matplotlib nos permite hacerlo con la función subplots.


In [None]:
fig, axes = plt.subplots(nrows=2, ncols=1)

Podemos agregar un título general a los subplots

In [None]:
fig, axes = plt.subplots(nrows=2, ncols=1)
fig.suptitle("Titulo subplots")
plt.show()
# plt.subplots(fila,columna,orden)

Y para graficar sobre cada axis:

In [None]:
fig, axes = plt.subplots(nrows=2, ncols=1)
fig.suptitle("Titulo subplots")
axes[0].plot(x, y, color='green', linewidth=5, linestyle='--')
axes[1].plot(x2, y2, color='green', linewidth=5, linestyle='--')
plt.show()

In [None]:
fig = plt.figure()
ax = plt.axes()
fig.suptitle("Titulo subplots")
plt.subplot(1,2,1)
plt.plot(x, y, color='green', linewidth=5, linestyle='--')
plt.subplot(1,2,2)
plt.plot(x2, y2, color='green', linewidth=5, linestyle='--')
plt.show()

## Scatter plot

In [None]:
n = 1000
sigma_1 = 2
sigma_2 = 2
x = np.random.normal(size = n, scale = sigma_1)
y = np.random.normal(size = n, scale = sigma_2)

# Graficamos
plt.scatter(x, y)
plt.show()

In [None]:
n = 100
x = np.linspace(-1,1,n) + 0.25*np.random.normal(size = n)
y = 3*x + 0.25*np.random.normal(size = n)

# Graficamos
plt.scatter(x, y)
plt.title("Titulo del Grafico")
plt.xlabel("Variable x")
plt.ylabel("Variable y")
plt.show()

## Histogramas

In [None]:
fig = plt.figure()
ax = plt.axes()
ax.hist(tips['total_bill'], bins=20)
plt.show()

Que pasa si usamos un valor muy grande en bins?

In [None]:
fig = plt.figure()
ax = plt.axes()
ax.hist(tips['total_bill'], bins=200)
plt.show()

Y muy chico?

In [None]:
fig = plt.figure()
ax = plt.axes()
ax.hist(tips['total_bill'], bins=4)
plt.show()

Vemos que la distribución de la variable total bill.

Veamos la variable tip.

In [None]:
fig = plt.figure()
ax = plt.axes()
ax.hist(tips['tip'], bins=10)
plt.show()

Vemos que la variable tip tiene **valores extremos**.

### Countplot

Un gráfico muy útil para saber la cantidad de ejemplos que tenemos de cada valor de una columna categórica, es el countplot de seaborn.

Por ejemplo, si queremos saber la cantidad de personas que comen en cada turno:

In [None]:
fig = plt.figure()
ax = plt.axes()
ax = sns.countplot(x='time', data=tips)
plt.show()

Con el parametro orient, podemos hacer que el gráfico sea horizontal.

Hay que tener en cuenta, que en este caso, en lugar de asignar el valor a X se lo asignamos a Y

In [None]:
fig = plt.figure()
ax = plt.axes()
ax = sns.countplot(y='time', data=tips, orient='h')
plt.show()

# Ejercicios

Sobre el dataset de iris:

Responder las siguientes preguntas con visualizaciones:

Para cada uno de los gráficos especificar un título que explique la visualización.

1) ¿ Cuántas observaciones de cada tipo contiene el dataset ?

Con el siguiente comando podrás abrir el archivo que vamos a necesitar en ésta ocasión:

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
from google.colab import drive
drive.mount('/content/drive')
pathCurso = '/content/drive/MyDrive/AP_UNdeC/Data/'

ruta_archivo = pathCurso + "iris_dataset.csv"

iris = pd.read_csv(ruta_archivo)

O también podemos usar, ya que Iris, es un dataset muy conocido y forma parte del grupo de datasets de Seaborn

In [None]:
iris = sns.load_dataset('iris')

In [None]:
iris.shape

In [None]:
iris.info()


In [None]:
iris.describe()

In [None]:
display(iris.isna().sum())

In [None]:
# create a group using groupby
group = iris.groupby("species")

# count the observations
group.count()

In [None]:
sns.set(style='darkgrid')

sns.countplot(x = 'species',
              data = iris,
              order = iris['species'].value_counts().index)
plt.show()

2) Plotear la distribución de petal width de cada una de las especies.


In [None]:

sns.displot(iris, x="petal_length", hue="species", multiple="stack")
plt.title("Petal length para cada especie")

In [None]:
sns.displot(iris, x="petal_width", hue="species", multiple="stack", bins=10)
plt.title("Petal width para cada especie")

La que mas logra diferenciarse de las demas es setosa, si el petal length es menor a dos ya podemos calsificarla sin cometer errores. Ahora bien para diferenciar las otras dos deberiamos ver si podemos distinguirlas empleando otra variable.

In [None]:
sns.scatterplot(x="petal_length", y="petal_width", hue='species', data=iris)

Vemos que con estas dos variables es muy buena la separacion que se genera.


3) ¿ Hay variables correlacionadas ?



In [None]:
fig = plt.figure(figsize=(10,8)) # Cambiamos el tamaño del gráfico con figsize
ax = plt.axes()
ax = sns.heatmap(iris.corr(), cmap="YlGnBu", annot=True)
ax.set_title("Heatmap")
plt.show()

#### Muy correlacionadas:
* petal length y petal width 0.96
* petal length y sepal length. 0.87
* petal width y sepal length. 0.82.

4) Hacer un pairplot



In [None]:
sns.pairplot(data=iris[['sepal_length', 'sepal_width', 'petal_length', 'petal_width','species']])

In [None]:
iris.columns

5) Plotear un distplot de cada una de las variables



In [None]:
sns.displot(iris, x="petal_length", hue="species", kind="kde", fill=True)
plt.title("Petal length para cada especie")

In [None]:
sns.displot(iris, x="petal_width", hue="species", kind="kde", fill=True)
plt.title("Petal width para cada especie")

In [None]:
sns.displot(iris, x="sepal_width", hue="species", kind="kde", fill=True)
plt.title("Sepal width para cada especie")

In [None]:
sns.displot(iris, x="sepal_length", hue="species", kind="kde", fill=True)
plt.title("Sepal length para cada especie")

# Union de Dataset

Esto lo agregamos como opcional por pregunta de un grupo

In [None]:
import pandas as pd

# Crear dos DataFrames
df1 = pd.DataFrame({'A': [1, 2, 3],
                    'B': [4, 5, 6]})

df2 = pd.DataFrame({'A': [7, 8, 9],
                    'C': [10, 11, 12]})

# Concatenar los DataFrames verticalmente
result = pd.concat([df1, df2])

print(result)


## Determinar columnas con el mismo nombre

In [None]:
import pandas as pd


df1 = pd.DataFrame({'A': [1, 2, 3],
                    'B': [4, 5, 6]})

df2 = pd.DataFrame({'C': [7, 8, 9],
                    'A': [10, 11, 12]})

df3 = pd.DataFrame({'A': [13, 14, 15],
                    'D': [16, 17, 18]})

df4 = pd.DataFrame({'A': [13, 14, 14],
                    'D': [15, 17, 18]})

columns1 = set(df1.columns)
columns2 = set(df2.columns)
columns3 = set(df3.columns)
columns4 = set(df4.columns)

# Encontrar los campos que son iguales en los DataFrames
common_columns = columns1.intersection(columns2, columns3, columns4)

print(common_columns)


In [None]:
result = pd.concat([df1, df2, df3, df4])

print(result)