# Estadística Descriptiva
Data, data everywhere. Los datos se encuentran en todos lados, sensores, logs, archivos, peticiones http etc.
Uno de los desafíos que tiene la ciencia de datos es convertir ese mar de datos sin procesar, en algo útil: Información.

### Medidas de tendencia
La parte exploratoria de los datos es una de las etapas principales y que tiene gran importancia; Nos dara el panorama general de como están estructurados nuestros datos

$$\begin{array}{ccc}
\overline x = \frac{\sum_{i=1}^{n} x}{n}
\end{array}$$

In [54]:
import numpy as np
import pandas as pd
import math

In [2]:
ventas_superstore_df =  pd.read_excel('./data/sample_superstore.xls')

In [3]:
ventas_superstore_df.head()

Unnamed: 0,Row ID,Order ID,Order Date,Ship Date,Ship Mode,Customer ID,Customer Name,Segment,Country,City,...,Postal Code,Region,Product ID,Category,Sub-Category,Product Name,Sales,Quantity,Discount,Profit
0,1,CA-2016-152156,2016-11-08,2016-11-11,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,...,42420,South,FUR-BO-10001798,Furniture,Bookcases,Bush Somerset Collection Bookcase,261.96,2,0.0,41.9136
1,2,CA-2016-152156,2016-11-08,2016-11-11,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,...,42420,South,FUR-CH-10000454,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3,0.0,219.582
2,3,CA-2016-138688,2016-06-12,2016-06-16,Second Class,DV-13045,Darrin Van Huff,Corporate,United States,Los Angeles,...,90036,West,OFF-LA-10000240,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...,14.62,2,0.0,6.8714
3,4,US-2015-108966,2015-10-11,2015-10-18,Standard Class,SO-20335,Sean O'Donnell,Consumer,United States,Fort Lauderdale,...,33311,South,FUR-TA-10000577,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,957.5775,5,0.45,-383.031
4,5,US-2015-108966,2015-10-11,2015-10-18,Standard Class,SO-20335,Sean O'Donnell,Consumer,United States,Fort Lauderdale,...,33311,South,OFF-ST-10000760,Office Supplies,Storage,Eldon Fold 'N Roll Cart System,22.368,2,0.2,2.5164


In [4]:
sales = ventas_superstore_df['Sales']

In [5]:
sales.mean()

229.85800083049833

In [9]:
ventas_superstore_df['Quantity'].mean()

3.789573744246548

### Media truncada
La media truncada elimina la influencia de valores extremos. Se puede calcular usando:

$$\begin{array}{ccc}
\overline x = \frac{\sum_{i=p+1}^{n-p} x}{n-2p}
\end{array}$$

*En muchas ocasiones se usa la media truncada en lugar de la media ordinaria.*


In [41]:
def mean_truc(l: np.array, p: float) -> float:
    """
        Implementación de la media truncada.
    :param l:
    :type l:
    :param p:
    :type p:
    :return: restulatado
    :rtype: float
    """
    prop = round(len(l) * p)
    new_array = np.arange(prop + 1, len(l) - prop, dtype=int)
    res = l[new_array]
    return res.sum() / (len(l) - (2 * prop))

In [42]:
mean_truc(sales.sort_values(),0.1)

229.30354149574788

## Estimadores de medianas robustas
La *mediana* es un valor central de una lista de datos ordenados de menor a mayor.
Existen dos formas de calcular le medianada:
1. Para una lista de longitud PAR: se toman los dos valores medios y se promedian.
2. Para una lista IMPAR: El valor medio que divida la lista de números exactamente en dos.

In [66]:
mediana = sales.median()
print(mediana)

54.489999999999995


#### Algunas consideraciones de la mediana:
- No es influenciada por los valores atípicos (extremo)
- Depende de los valores centrales
- Es posibles calcular una media ponderada

## Valores atípicos
> También conocidos como outliers, datos que pueden sesgar los resultados. Un valor atípico es cualquier valor que está muy lejos de los otros valores.

Los valores atípicos son subjetivos, el ser un valor extremo no significa que sea datos erróneos o no válidos.
Cuando kis valores atípicos son el resultado de valores incorrectos, la media dará como resultado una estimación deficiente.