# Estadística Descriptiva

## Introducción

La estadística se refiere a las técnicas matemáticas que solemos utilizar para describir datos. A menudo, somos capaces de obtener o generar datos, pero puede que no sepamos realmente cómo describirlos para comenzar a generar hipótesis.

Cabe mencionar, que si tenemos un cojunto muy pequeño de datos las técnicas estadísticas pueden salir sobrando pero, la estadística comienza a cobrar importancia cuando tenemos grandes conjuntos (de cientos, miles o millones de registros), que será el caso en el que estaremos en la gran mayoría de los problemas que intentemos resolver.

## Cargando nuestros paquetes

In [2]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

## Media (o promedio), mediana y moda

In [3]:
df_tips = sns.load_dataset('tips')

In [4]:
df_tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [None]:
df_tips['total_bill'].plot(kind='hist', figsize=(10, 8), linewidth=2, color='whitesmoke', edgecolor='gray')
plt.xlabel("total bill [$]", labelpad=15)
plt.ylabel("frequency", labelpad=15)
plt.title("Distribution of Total Bill Amounts", y=1.012, fontsize=22);

### Moda

La **moda** es el valor que más se repite en una secuencia de datos.

*Recuerda* que puede ser aplicado tanto a variables numéricas como categóricas, sin embargo, con Numpy solo podemos contabilizar las numéricas, el caso de las categóricas se resuelve con un **histograma**

In [None]:
mode_total_bill = df_tips['total_bill'].mode().iloc[0]
mode_total_bill

In [None]:
df_tips.query('total_bill==13.42')

### Media (promedio)

In [None]:
mean_total_bill = round(df_tips['total_bill'].mean(), 2)
mean_total_bill

### Mediana

In [None]:
median_total_bill = df_tips['total_bill'].median()
median_total_bill

## Dispersión

In [3]:
# Cargando nuestro dataset
iris = sns.load_dataset('iris')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [22]:
# Arreglo de diferencias respecto de la media: diferencias
versicolor_petal_length = iris[iris['species'] == 'versicolor'].loc[:,'petal_length']

In [28]:
differences = versicolor_petal_length - np.mean(versicolor_petal_length)
differences.head(10)

50    0.44
51    0.24
52    0.64
53   -0.26
54    0.34
55    0.24
56    0.44
57   -0.96
58    0.34
59   -0.36
Name: petal_length, dtype: float64

In [29]:
diff_sq = differences ** 2
diff_sq.head(10)

50    0.1936
51    0.0576
52    0.4096
53    0.0676
54    0.1156
55    0.0576
56    0.1936
57    0.9216
58    0.1156
59    0.1296
Name: petal_length, dtype: float64

In [32]:
variance_explicit = np.mean(diff_sq)
variance_explicit

0.21640000000000012

Lo anterior fue la representación de lo que hace la función de Numpy np.var