# El paquete Pandas

## Estadística Descriptiva y visualización

El análisis estadístico básico puede complementarse usando la librería para la visualización de datos estadísticos **Seaborn**. El paquete Seaborn es una libreria de visialización para Python la cual provee una interfaz de alto nivel para crear gráficos con diseño atractivo y que aumentan la representación de los gráficos estadísticos convencionales. 

In [None]:
from IPython.display import IFrame
IFrame('https://seaborn.pydata.org/', width='100%', height=350)

In [None]:
import numpy as np
import pandas as pd

In [None]:
# cargar archivo de datos de titanic.csv
titanic = pd.read_csv('titanic.csv')

In [None]:
titanic.head()

## Histogramas

In [None]:
# importa dependencias para utilizar seaborn
import matplotlib.pyplot as plt
from scipy import stats

#importa seaborn
import seaborn as sns

In [None]:
# dropna() devuelve una serie sin
# valores nulos en el campo Age
titanic.Age.dropna()

In [None]:
# seaborn settings
sns.set(color_codes = True)

In [None]:
sns.distplot(titanic.Age.dropna())

In [None]:
sns.distplot(titanic.Age.dropna(), bins = 10);

In [None]:
x = titanic.Age.dropna()

In [None]:
sns.distplot(x, bins = 12, kde=False, rug=True);

In [None]:
# cargar archivo de datos de mlbsalaries.csv
mlb = pd.read_csv('mlbsalaries.csv')

In [None]:
mlb.head()

In [None]:
y = mlb.Salary.dropna()

In [None]:
# histograma con la interfaz pyplot
plt.hist(y, 20);

In [None]:
sns.distplot(y, bins = 8);

In [None]:
server = pd.read_csv('serverdata.csv')

In [None]:
sns.distplot(server.Time.dropna(), bins = 10);

In [None]:
# histograma con pyplot usando
# configuración de seaborn
plt.hist(server.Time, 25, color=sns.desaturate('indianred', 1));

## Box-plot

Esta gráfica proporcionan una visión general de la simetría de la distribución de los datos.

Un box-plot (también conocido como gráfico de caja y bigotes) es un modo práctico para mostrar grupos de datos numéricos, como:
* Valor mínimo y valor máximo
* Cuartil superior y cuartil inferior
* Valores de la mediana
* Valores atípicos y valores extremos


In [None]:
sns.set_context(rc={"figure.figsize":(20,10)})

In [None]:
sns.boxplot(titanic.Age.dropna());

In [None]:
sns.boxplot(titanic.Age, titanic.Sex);

In [None]:
sns.boxplot(server.Time);

In [None]:
sns.boxplot(mlb.Salary)

## Kernel Density Estimate Plot

La estimación de la densidad del núcleo puede no es un procedimiento familiar, pero puede ser una herramienta útil para trazar la forma de una distribución. Al igual que el histograma, los gráficos de KDE codifican la densidad de las observaciones en un eje con la altura a lo largo del otro eje.

In [None]:
x = titanic.Age.dropna()

In [None]:
sns.distplot(x, kde=False, rug=True);

In [None]:
sns.distplot(x, hist=False, rug=True);

In [None]:
sns.kdeplot(x, shade=True);

In [None]:
sns.kdeplot(mlb.Salary.dropna(), shade=True);

In [None]:
sns.kdeplot(server.Time.dropna(), shade=True);

## Violin Plot

Un diagrama de violín se utiliza para visualizar la distribución de los datos y su densidad de probabilidad.

Este gráfico es una combinación de un diagrama de cajas y bigotes y un diagrama de densidad girado y colocado a cada lado, para mostrar la forma de distribución de los datos.

In [None]:
sns.violinplot(titanic.Age.dropna(), orient="v");

In [None]:
sns.violinplot(titanic.Age.dropna(), titanic.Sex);

In [None]:
sns.violinplot(mlb.Salary, orient="v");

## Cumulative Distribution Function

La función de distribución (acumulada) de una variable aleatoria $X$, evaluada en $x$, es la probabilidad de que $X$ tome un valor menor o igual que $x$: $$F(x)=P(X \le x)$$

In [None]:
sns.kdeplot(titanic.Age.dropna(), cumulative=True);

In [None]:
sns.kdeplot(server.Time.dropna(), cumulative=True);

In [None]:
sns.kdeplot(mlb.Salary.dropna(), cumulative=True);