# Práctica nº 4 Bibliotecas MatPlotLib y Seaborn 

Seaborn es una biblioteca de Python construida sobre Matplotlib, diseñada específicamente para crear visualizaciones de datos de alta calidad y estéticamente agradables. A diferencia de Matplotlib, que ofrece un gran nivel de control pero requiere más código, Seaborn proporciona una interfaz más sencilla y funciones predefinidas para crear una amplia variedad de gráficos estadísticos. Facilita el EDA

## ÍNDICE

1. DataSet
2. Visualización univariable
    * #2.1-Características cuantitativas
    * #2.2-Características categóricas y binarias
3. Visualización multivariable
    * #3.1-Cuantitativo vs Cuantitativo
    * #3.2-Cuantitativo vs Categórico
    * #3.3-Categórico vs Categórico

### Investigar y comentar las instrucciones

In [2]:
import numpy as np
import pandas as pd

# Matplotlib es la libreria base para la visualización de datos en Python
import matplotlib.pyplot as plt

# Bajo Seaborn subyace Matplotlib. Será usada por Seaborn 
import seaborn as sns

Estilos para Seaborn:
- darkgrid: Un fondo oscuro con una cuadrícula gris clara. Ideal para presentaciones y visualizaciones donde los datos son el foco principal.\
- whitegrid: Un fondo blanco con una cuadrícula gris clara. Similar a darkgrid, pero con un fondo más claro.\
- dark: Un fondo oscuro sin cuadrícula. Ideal para gráficos simples o cuando se desea un fondo más limpio.\
- white: Un fondo blanco sin cuadrícula. Similar a dark, pero con un fondo más claro.\
- ticks: Un estilo minimalista con solo marcas en los ejes. Ideal para gráficos que enfatizan los datos sin distracciones visuales.\

In [3]:
# Establecer el estilo "darkgrid" 
sns.set_style("darkgrid")

Formatos más utilizados con Seaborn:
- png: Formato de imagen ráster muy común, ideal para compartir en redes sociales, presentaciones o documentos digitales. Ofrece una buena calidad y compresión.\
- jpg: Otro formato ráster, similar al PNG pero con mayor compresión, lo que puede resultar en una pérdida de calidad si se aplica una compresión muy alta. Es adecuado para imágenes con pocas variaciones de color.\
- pdf: Formato vectorial escalable, ideal para documentos impresos o presentaciones de alta calidad. Los gráficos conservan su nitidez incluso al ser ampliados.\
- svg: Formato vectorial escalable, similar al PDF pero diseñado para la web. Ofrece una excelente calidad y es compatible con la mayoría de los navegadores web modernos. Es especialmente recomendado para gráficos interactivos.\

In [4]:
# Seleccionamos mostrar los graficos en formato SVG (Gráficos Vectoriales Escalables), son mas nitidos y legibles que otros formatos
%config InlineBackend.figure_format = 'svg'

# 1. El dataset
### La descripción del dataset telecom_churn.csv la podemos encontrar en la práctica anterior

In [5]:
df = pd.read_csv('./data/telecom_churn.csv')

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.columns

### Estadística de las Columnas:



In [None]:
df.describe()

In [None]:
df.describe(include=['object', 'bool']) 

## 2. Visualización univariable
### 2.1 Variables cuantitativas
### Histogramas y gráficos de densidad

In [None]:
features = ['total day minutes']
df[features].hist(figsize=(10, 4)) # Se establece 10 unidades de ancho y 4 unidades de alto

In [None]:
# Ahora con Seaborn. 
sns.histplot(data=df, x='total day minutes', kde=True) 

In [None]:
df[features].plot(kind='density', subplots=True, layout=(1, 1), sharex=False, figsize=(10, 4))

### Ejercicio
¿Que nos están indicando valores de densidad tan bajos?

In [None]:
# Ahora con Seaborn
sns.kdeplot(data=df, x='total day minutes')


## 2.2 Características categoricas y binarias
## Tabla de frecuencias


In [None]:
df['churn'].value_counts()

In [None]:
df['customer service calls'].value_counts()

## Diagrama de barras

In [None]:
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(12, 4))

sns.countplot(x='churn', data=df, ax=axes[0]); 
sns.countplot(x='customer service calls', data=df, ax=axes[1]);

## 3. Visualización multivariable

## 3.1 Cuantitativa vs Cuntitativa

## Matriz de correlación

In [None]:
# ¿Que obtenemos con esta linea?
numerical = list(set(df.columns) - set(['state', 'phone number','international plan', 'voice mail plan','area code', 'churn', 'customer service calls']))

# Obtengo y muestro la matriz de correlación. En este caso en forma de mapa de calor
corr_matrix = df[numerical].corr()
sns.heatmap(corr_matrix);

In [None]:
# Muestro valores formato texto
print(corr_matrix)

In [None]:
plt.scatter(df['total day minutes'], df['total night minutes']);

In [None]:
sns.jointplot(x='total day minutes', y='total night minutes', data=df, kind='scatter')

In [None]:
sns.jointplot(x='total day minutes',y='total night minutes', data=df, kind="kde", color="g");

In [None]:
sns.lmplot(x='total day minutes',y= 'total night minutes', data=df, hue='churn', fit_reg=False) # Si lo ponemos a true muestra linea de regresión

In [None]:
# La función puede ser más lenta cuando trabajamos con el formato por defecto SVG (Scalable Vector Graphics o Gráficos Vectoriales Escalables)
# Solicitamos los gráficos en formato png
%config InlineBackend.figure_format = 'png'

numerical = list(set(numerical) - set(['total day charge', 'total eve charge', 'total night charge', 'total intl charge']))

# Esta función de Seaborn genera una matriz de gráficos de pares, donde se visualizan las relaciones entre todas las combinaciones posibles de variables numéricas.
numerical = list(set(numerical) - set(['total day charge', 'total eve charge', 'total night charge', 'total intl charge']))
sns.pairplot(df[numerical + ['churn']], vars = numerical, hue='churn');


In [22]:
# Volvemos al formato SVG
%config InlineBackend.figure_format = 'svg'

## 3.2 Variables cuantitativas vs. categoricas
### Diagramas de violin

In [None]:
sns.violinplot(x="churn", y="total intl calls", data=df);

## 3.3 Variables categoricas vs. categoricas

In [None]:
sns.countplot(x='customer service calls', hue='churn', data=df);

In [None]:
# Para poner en comparación dos variables
fig, axes = plt.subplots(1, 2, sharey=True, figsize=(10, 4))

sns.countplot(x='international plan', hue='churn', data=df, ax=axes[0]);
sns.countplot(x='voice mail plan', hue='churn', data=df, ax=axes[1]);

In [None]:
pd.crosstab(df['state'], df['churn']).T

## Ejercicio 1
Crear la matriz de gráficos de pares donde se visualizan las relaciones entre todas las combinaciones posibles de variables numéricas del dataset de wine.
Determinar los pares de variables donde existe una correlación lineal (si existen)

## Ejercicio 2
Crear la matriz de gráficos de parespara el dataset de las flores de Iris
¿Pdríamos aplicar sobre estas variables algoritmos de regresón lineal?¿Y de clasificación?
