# Graficos

Crear graficos es simple. Si recordamos como lo haciamos en la escuela, aqui es igual. Tenemos dos ejes:
- Eje x
- Eje y

Y le pasaremos a la funcion que realiza el grafico la lista de valores que queremos que dibuje en dichos ejes.

## La libreria seaborn

Esta libreria nos permitira crear graficos de forma simple. Comencemos importando dicha libreria:

In [None]:
import seaborn as sns

Ahora carguemos una tabla de ejemplo que viene incluida en esta libreria y que contiene propinas que han dejado en un restaurante:

In [None]:
tips = sns.load_dataset("tips")
print(type(tips),tips.shape)
tips.head()

Vemos que la tabla es un DataFrame de pandas con 244 filas y 7 columnas.
Las columnas son las siguientes:
- total_bill: el total de la cuenta
- tip: la propina
- sex: el sexo del mesero
- smoker: si es el area de fumadores o no
- day: dia de la semana
- time: si es almuerzo o cena
- size: cantidad de personas en la mesa

Utilicemos ahora la libreria de graficos para analizar estos datos:

## Analisis de una variable

Veremos ahora funciones de seaborn que nos permiten hacer graficos para obtener informacion de una sola variable. Entonces en este caso solo debemos pasarle una lista de valores para el eje x. Como trabajaremos con tablas de pandas, es decir DataFrames, bastara con pasarle el nombre de la columna que queremos graficar.

### Variables categoricas

A continuacion utilizaremos la fucion countplot de seaborn para mostrar un grafico de barras que muestra la cantidad de valores de cada tipo:

In [None]:
sns.countplot(data=tips, x="sex")

### Variables numericas: discretas o continuas

La funcion histplot muestra un histograma de una variable numerica:

In [None]:
sns.histplot(data=tips, x="tip")

La funcion kdeplot muestra la distribucion de una variable numerica:

In [None]:
sns.kdeplot(data=tips, x="tip")

## Analisis de dos o mas variables simultaneamente

En los siguientes graficos podemos graficar la relacion de dos variables eligiendo que columna queremos graficar en el eje x y que columna en el eje y. Adicionalmente podemos ver como se relaciona una tercera variable con estas dos mediante el color a traves del parametro hue.

In [None]:
sns.scatterplot(data=tips, x="total_bill", y="tip", hue="sex")

Otra forma de relacionar una tercer variable con las dos especificadas por x e y es a traves del atributo col con el cual seaborn me generara un grafico separado para cada valor categorico de esa variable. En el grafico a continuacion vemos que los colores han sido separados en dos graficos distintos:

In [None]:
sns.relplot(data=tips, x="total_bill", y="tip", col="sex")

In [None]:
sns.relplot(
    data=tips,
    x="total_bill", y="tip", col="time",
    hue="smoker", style="smoker", size="size",
)

In [None]:
sns.relplot(
    data=tips,
    x="total_bill", y="tip", col="day",
    hue="smoker", style="smoker", size="size",
)

## Seleccionar el estilo grafico

Seaborn permite seleccionar el estilo grafico. Es decir podemos especificar cosas como la paleta de colores, la grilla de fondo, el tamaño de las figuras y muchas cosas mas. Lo recomendable es hacer esto al inicio luego de importar la libreria para que todos los graficos tengan el mismo estilo. Para ello utilizaremos la funcion [set_theme()](https://seaborn.pydata.org/generated/seaborn.set_theme.html#seaborn.set_theme)

In [None]:
import seaborn as sns
sns.set_theme(style="whitegrid", 
              palette="pastel",
              rc={'figure.figsize':(11,8)})

Puedes ejecutar el codigo anterior y crear nuevamente los graficos para ver como los graficos cambian de estilo, luego cambiar los parametros y ver nuevamente las diferencias.

## Matplotlib para mas control del grafico

Para mas control sobre cada parametro de un grafico individual podemos utilizar seaborn en combinacion con matplotlib que nos permite manipular cada detalle del grafico como veremos en la siguiente unidad sobre [Matplotlib](https://githubtocolab.com/amiune/freecodingtour/blob/main/cursos/espanol/datascience/A1.1_graficos_matplotlib.ipynb). Para combinar el uso de ambas librerias lo podemos hacer de la siguiente forma:

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

fig, ax = plt.subplots(figsize=(4, 2))
sns.boxplot(ax=ax, data=tips, x="total_bill")
ax.set_title("Combinando seaborn con matplotlib");

# Ejercicios:

In [None]:
import pandas as pd
import seaborn as sns

In [None]:
sns.set_style('whitegrid')
sns.set(rc={'figure.figsize':(10,5)})
titanic = sns.load_dataset('titanic')

In [None]:
titanic.head()

In [None]:
titanic.info()

## Ejercicio 1:

Crear un grafico de barras que muestre la cantidad de sobreviviente vs no sobrevivientes

In [None]:
# Escribir aqui la solucion



In [None]:
#@title Solucion Ejercicio 1 {display-mode:"form"}

sns.countplot(data=titanic, x="survived");

## Ejercicio 2:

Crear un grafico de barras que muestre la cantidad de pasajeros hombres vs mujeres

In [None]:
# Escribir aqui la solucion



In [None]:
#@title Solucion Ejercicio 2 {display-mode:"form"}

sns.countplot(data=titanic, x="sex");

## Ejercicio 3

Crear un grafico de barras que muestre la cantidad de pasajeros por clase

In [None]:
# Escribir aqui la solucion



In [None]:
#@title Solucion Ejercicio 3 {display-mode:"form"}

sns.countplot(data=titanic, x="class");

## Ejercicio 4:

Mostrar la distribucion de la variable fare

In [None]:
# Escribir aqui la solucion



In [None]:
#@title Solucion Ejercicio 4 {display-mode:"form"}

sns.kdeplot(data=titanic, x="fare");

## Ejercicio 5:

Mostrar la distribucion de la variable edad

In [None]:
# Escribir aqui la solucion



In [None]:
#@title Solucion Ejercicio 5 {display-mode:"form"}

sns.histplot(data=titanic, x="age", bins=10);

## Ejercicio 6:

Mostrar cuantos bebes (menores de 4 años), niños (menores de 16 años) y adultos embarcaron. Ayudarse con pandas creando una nueva columna categorica a partir de la columna edad

In [None]:
# Escribir aqui la solucion



In [None]:
#@title Solucion Ejercicio 6 {display-mode:"form"}

def infant_child_adult(age):
    if age < 4:
        return "infant"
    elif age < 16:
        return "child"
    return "adult"

titanic["infant_child_adult"] = titanic.age.apply(infant_child_adult)
sns.countplot(data=titanic, x="infant_child_adult");

## Ejercicio 7:

Crear un grafico de cajas de la edad diferenciado por clase

In [None]:
# Escribir aqui la solucion



In [None]:
#@title Solucion Ejercicio 7 {display-mode:"form"}

sns.boxplot(data=titanic, x='class', y='age');

#### El grafico de cajas (boxplot)

El grafico de cajas nos permite ver los siguiente valores de una distribucion:

<div style="text-align:center">
<img src="img/boxplot.jpeg" width="600"/>
</div>

[imagen obtenida de wikipedia](https://es.wikipedia.org/wiki/Diagrama_de_caja)

- Q1 (25% de los datos)
- Q2 o mediana (el 50% de los datos)
- Q3 (75% de los datos)
- Rango intercuartílico (RIC): Q3–Q1
- Valores atipicos o outliers: son valores inferiores a Q1–1.5·RIC o superiores a Q3+1.5·RIC


## Ejercicio 8:

Mostrar cuantos sobrevivientes hubo por sexo. Usar catplot

In [None]:
# Escribir aqui la solucion



In [None]:
#@title Solucion Ejercicio 8 {display-mode:"form"}

sns.catplot(data=titanic, x="sex", hue="survived", kind="count");

## Ejercicio 9:

Mostrar cuantos sobrevivientes hubo por cada categoria creada por edad (bebe, niño, adulto). Usar catplot

In [None]:
# Escribir aqui la solucion



In [None]:
#@title Solucion Ejercicio 9 {display-mode:"form"}

sns.catplot(data=titanic, x="infant_child_adult", hue="survived", kind="count");

## Ejercicio 10:

Mostrar cuantos sobrevivientes hubo diferenciado por la variable alone. Usar catplot

In [None]:
# Escribir aqui la solucion



In [None]:
#@title Solucion Ejercicio 10 {display-mode:"form"}

sns.catplot(data=titanic, x="alone", hue="survived", kind="count");

## Ejercicio 11:

Mostrar cuantos sobrevivientes hubo por clase. Usar catplot

In [None]:
# Escribir aqui la solucion



In [None]:
#@title Solucion Ejercicio 11 {display-mode:"form"}

sns.catplot(data=titanic, x="class", hue="survived", kind="count");

## Ejercicio 11B:

Mostrar cuantos sobrevivientes **hombres** hubo por clase. Usar pandas para filtrar las filas que correspondan a pasajeros hombres

In [None]:
# Escribir aqui la solucion



In [None]:
#@title Solucion Ejercicio 11B {display-mode:"form"}

df_filtrado = titanic[titanic["sex"] == "male"]
sns.catplot(data=df_filtrado, x="class", hue="survived", kind="count");


## Ejercicio 12:

Crear un pairplot para las variables fare y age con distintos colores para las clases de la variable survived

In [None]:
# Escribir aqui la solucion



In [None]:
#@title Solucion Ejercicio 12 {display-mode:"form"}

sns.pairplot(data=titanic[['fare','age','survived']],hue='survived')

## Ejercicio 13:

Crear un dos scaterplots, uno para hombres y otro para mujeres que relacione las variables fare y age y diferencie los sobrevivientes por color

In [None]:
# Escribir aqui la solucion



In [None]:
#@title Solucion Ejercicio 13 {display-mode:"form"}

sns.relplot(data=titanic, x="fare", y="age", hue='survived', col="sex"); 

Esta unidad esta basada en la documentacion oficial de seaborn, la cual puedes encontrar aqui: https://seaborn.pydata.org/tutorial/function_overview.html

# Fin: [Volver al contenido del curso](https://www.freecodingtour.com/cursos/espanol/datascience/datascience.html)