# Estadísticos con Pandas y Numpy

Usamos el dataset *Breast Cancer Wisconsin* https://data.world/health/breast-cancer-wisconsin

Importamos el dataset desde la librería sklearn

In [None]:
import sklearn.datasets
dataset = sklearn.datasets.load_breast_cancer(as_frame=True)

Cargamos los datos en un DataFrame de Pandas

In [None]:
df = dataset['data']
df.head(10)

Verificamos que no hay filas duplicadas

Ploteamos histogramas de frecuencia de las primeras cuatro columnas

In [None]:
df.hist(["mean radius", "mean texture", "mean perimeter", "mean area"], grid=False, bins=20, figsize=(8,5))

## Estadísticos con Pandas

Calculamos la media y la desviación estándar muestral con Pandas

Media muestral

In [None]:
df.mean()

*Mostramos solo los resultados de las primeras cinco columnas para no inundar la pantalla con datos.*

Mediana muestral

In [None]:
df.median()

Desviación estándar muestral

Pandas calcula la desviación estándar $S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2$ por defecto 

In [None]:
df.std()

Pandas calcula varios estadísticos de las columnas del DataFrame en una línea de código!

In [None]:
df.describe()

# Estadísticos con NumPy

Ahora calculamos los estadísticos con NumPy.

Convertimos la primera columna del DataFrame a un `numpy.array`: 

In [None]:
import numpy as np
radius = df["mean radius"].to_numpy()
type(radius)

Media muestral con el método mean de la clase array `numpy.array.mean` (opción *object-oriented*):

In [None]:
radius.mean()

También se puede calcular con la función `numpy.mean` (opción *procedural*):

In [None]:
np.mean(radius)

En tensión con el aforismo del [Zen of Python](https://peps.python.org/pep-0020/) - *There should be one-- and preferably only one --obvious way to do it.* :)

La mediana muestral solo se puede calcular de una única forma, con `numpy.median`:

In [None]:
np.median(radius)

Calculamos la desviación estándar muestral con [`numpy.ndarray.std`](https://numpy.org/doc/stable/reference/generated/numpy.std.html). Al contrario de Pandas, este método usa por defecto ddof=0 calculando $S_n^2$; 

NumPy calcula la desviación estándar $S_n^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2$ por defecto 

In [None]:
np.std(radius)

In [None]:
radius.std()

Para calcular la desviación estándar muestral con la corrección de Bessel $S^2$, debemos setear ddof=1 explícitamente: