# Actividad obligatoria con Seaborn 

Despues de haber trabajado con las funciones de Seaborn, se plantea la siguiente actividad.\
Se trata de localizar dos dataset en cualquiera de las fuentes que se ofrecen más abajo:
- Un dataset debe ofrecer de entre todas sus caracteristicas o features predictoras, al menos 2 parjas entre las que exista una relación tal que permita un entrenamiento de regresión lineal.
- Un dataset debe ofrecer de entre todas sus caracteristicas o features predictoras, al menos 2 parjas entre las que exista una relación tal que permita un entrenamiento de clasificación. 

Con ayuda de la biblioteca Seaborn y tomando como referencia esta plantilla, describe y ofrece una visualización de las relaciones entre variables de los dataset seleccionados.\
Debes subir el archivo una vez completado el codigo que corresponda junto con los dataset seleccionados.


### Algunos sitios donde encontrar dataset:
https://archive.ics.uci.edu/datasets

https://www.kaggle.com/datasets

https://data.gov/

https://data.unicef.org/resources/resource-type/datasets/



In [2]:
import numpy as np
import pandas as pd

# Matplotlib es la libreria base para la visualización de datos en Python
import matplotlib.pyplot as plt

# Bajo Seaborn subyace Matplotlib. Será usada por Seaborn 
import seaborn as sns

In [3]:
# Establecer el estilo "darkgrid" 
sns.set_style("darkgrid")

In [4]:
# Seleccionamos mostrar los graficos en formato SVG (Gráficos Vectoriales Escalables), son mas nitidos y legibles que otros formatos
%config InlineBackend.figure_format = 'svg'

# 1. El dataset
### Descripción del dataset 1 elegido

In [5]:
df = pd.read_csv('./data/........')

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.columns

### Estadística de las Columnas:



In [None]:
df.describe()

## 2. Visualización univariable
### 2.1 Variables cuantitativas
### Histogramas y gráficos de densidad

In [None]:
features = ['........']
df[features].hist(figsize=(10, 4)) # Se establece 10 unidades de ancho y 4 unidades de alto

In [None]:
df[features].plot(kind='density', subplots=True, layout=(1, 1), sharex=False, figsize=(10, 4))

In [None]:
sns.histplot(data=df, x='.............', kde=True) 

In [None]:
sns.kdeplot(data=df, x='.................')

## 2.2 Características categoricas y binarias
## Tabla de frecuencias


In [None]:
df['..............'].value_counts()

In [None]:
df['...............'].value_counts()

## Diagrama de barras

In [None]:
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(12, 4))

sns.countplot(x='......', data=df, ax=axes[0]); 
sns.countplot(x='......', data=df, ax=axes[1]);

## 3. Visualización multivariable

## 3.1 Cuantitativa vs Cuntitativa

## Matriz de correlación

In [None]:
numerical = list(set(df.columns) - set(['.....', '.....','.....', '.....','......', '.....', '.....']))

# Obtengo y muestro la matriz de correlación. En este caso en forma de mapa de calor
corr_matrix = df[numerical].corr()
sns.heatmap(corr_matrix);

In [None]:
plt.scatter(df['.....'], df['.....']);

In [None]:
sns.jointplot(x='......',y='.......', data=df, kind="kde", color="g");

In [None]:
sns.lmplot(x='.....',y= '..............', data=df, hue='......', fit_reg=False) # Si lo ponemos a true muestra linea de regresión

In [None]:
# Solicitamos los gráficos en formato png
%config InlineBackend.figure_format = 'png'

numerical = list(set(numerical) - set(['.....', '....', '.....', '.....']))

# Esta función de Seaborn genera una matriz de gráficos de pares, donde se visualizan las relaciones entre todas las combinaciones posibles de variables numéricas.
numerical = list(set(numerical) - set(['....', '....', '....', '....']))
sns.pairplot(df[numerical + ['....']], vars = numerical, hue='....');


In [22]:
# Volvemos al formato SVG
%config InlineBackend.figure_format = 'svg'

## 3.2 Variables cuantitativas vs. categoricas
### Diagramas de violin

In [None]:
sns.violinplot(x='....', y='....', data=df);

## 3.3 Variables categoricas vs. categoricas

In [None]:
sns.countplot(x='....', hue='....', data=df);

In [None]:
# Para poner en comparación dos variables
fig, axes = plt.subplots(1, 2, sharey=True, figsize=(10, 4))

sns.countplot(x='....', hue='....', data=df, ax=axes[0]);
sns.countplot(x='...', hue='....', data=df, ax=axes[1]);