# Estadística Descriptiva

La estadística descriptiva trata de la formulación de agregaciones en nuestros datos para que puedan ser entendidos de una mejor forma. Estas agregaciones pueden ser representaciones numéricas o visualizaciones con simples gráficas para entetender mejor nuestros datos. Existen dos tipos de estadísticos descriptivos:

- Medidas de tendencia central (media, moda, mediana).
- Medidas de dispersión (varianza, desviación estándar, máximo, mínimo, kurtosis y sesgo).

## Medidas de tendencia central

Las medidas de tendencia central pretenden describir el valor promedio de un dataset; este valor esta de alguna forma en la parte central de nuestro conjunto de datos. Las medidas más comunes para analizar la distribución de frecuencia de nuestros datos son:
- Media.
- Moda.
- Mediana.

### Media.

Es el número alrededor del que las variables continuas se distribuyen, es el resultado de la división de la suma de los números entre la cantidad de números de un set de datos.

x = (12, 2, 3, 5, 8, 9, 6, 4, 2)

Por lo tanto, el valor promedio de *x* se calcula como:

$$Media(x) = \frac{12 + 2 + 3 + 5 + 8 + 9 + 6 + 4 + 2}{9} = 5.66 $$

### Mediana

Dado un dataset que esta ordenado de forma ascendente o descendente, la mediana divide los datos en dos partes. La formula general para calcular la mediana es:

$$ Mediana = \frac{n+1}{2}$$

donde *n* es el número de elementos en nuestros datos.

Ordenando x de forma ascendente

x = (2, 2, 3, 4, 5, 6, 8, 9, 12)

Por lo tanto, la mediana es 5.

### Moda

La moda es el valor que aparece el máximo número de veces en un set de datos, de otra manera, podemos decir que es el que tiene mayor frecuencia.

Del ejemplo, x = (2, 2, 3, 4, 5, 6, 8, 9, 12)

Podemos ver que la Moda de nuesto conjunto de datos es el número 2

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


In [None]:
raw_iris = "Files/Iris.csv"

iris = pd.read_csv(raw_iris, usecols=[1, 2, 3, 4, 5], skiprows=1, names = ['sepal_length', 'sepal_width','petal_length', 'petal_width', 'species'])
iris.head()

In [None]:
sepal_length = iris["sepal_length"]
mean_sepal_length = sepal_length.mean()
median_sepal_length = sepal_length.median()
mode_sepal_length = sepal_length.mode()

print(mean_sepal_length, median_sepal_length, mode_sepal_length)

In [None]:
np.mean(sepal_length)

In [None]:
np.median(sepal_length)

¿Qué pasa con las variables categóricas?

In [None]:
iris["species"].value_counts().nlargest(30).plot(kind='bar', figsize=(14, 8))
plt.title("Número de flores por especie")
plt.ylabel("Total de flores")
plt.xlabel("Especie")

## Medidas de dispersión

Las medidas de dispersión, también conocidas como medidas de variabilidad, se usan para describir las variaciones en un set de datos que pueden ser de una muestra o una población; las usaremos junto con las medidas de tendencia central para tener una descripción completa de nuestro set de datos. Entre los ejemplos más comunes, tenemos:

- Varianza.
- Desviación estándar.
- Mínimo.
- Máximo.
- Rango.
- Curtosis.
- Sesgo

### Desviación Estándar

La desviación estándar es el promedio de la direcencia entre cada valor con su media, nos indica que tan dispersos están los datos con respecto a su promedio. Si la desviación estándar de un dataset es pequeña, significa que los puntos estan cercanos a la media, en caso contrario, se encuentran dispersos sobre un rango de valores.

In [None]:
iris.std()

In [None]:
iris.loc[:,"sepal_length"].std()

### Varianza.

La varianza es el cuadrado del promedio de las diferencias entre cada valor en el dataset con su media.

In [None]:
iris.var()

In [None]:
var_sepal_length = iris.loc[:,'sepal_length'].var()
var_sepal_length

# Agrupaciones en datasets

En la fase de análisis, el categorizar múltiples valores en grupos suele ser una tarea esencial. La función *groupby* de pandas es la forma más eficiente de hacer esto ya que nos proporciona la funcionalidad que necesitamos para dividir y aplicar combinaciones a nuestro dataframe.

In [None]:
raw_auto = "Files/Automobile_data.csv"
auto = pd.read_csv(raw_auto, na_values=['?'])
auto.head()

Para ver cuales son las variables categóricas en una columna, podríamos apoyarnos del siguiente código

In [None]:
auto.groupby('body-style').groups.keys()

Para regresar los valores que están en los grupos, podemos usar el método *get_group*, que nos ayudaráa filtrar sobre algún valor

In [None]:
style = auto.groupby('body-style')
style.get_group("convertible")

Si quisieramos agrupar considerando múltiples categorías, podemos solo pasar los nombres de las columnas dentro de la función *groupby*

In [None]:
auto.groupby(["body-style", "drive-wheels"]).first()


En el ejemplo anterior, no solo agrupamos bajo criterios especificos, sino que ejecutamos operaciones matemáticas al mismo tiempo para obtener estadísticos descriptivos. Otras funciones son *max()*, *min()*, *mean()*, *first()*, *last()*, *count()*

# Agregaciones

Es el proceso de implementar cualquier operación matemática en un set de datos o un subconjunto del mismo, es una de muchas técnicas que se utilizan para manipular datos. La función *aggregate* nos ayudará a aplicar dichas operaciones a través de una o más columnas.

Nota: Este tipo de operaciones solo funciona con columnas numéricas.

In [None]:
auto_lite = auto.filter(["length","width","height","curb-weight","price"],axis=1)
auto_lite

In [None]:
auto_lite.agg("mean", axis=0)

Podemos aplicar más de una función a nuestro dataset

In [None]:
auto_lite.agg(["mean", "sum", 'min'])

También podríamos aplicar distintas funciones a distintas columnas, si una función no se aplica a una columna, se llenará con *NaN*

In [None]:
auto_lite.aggregate({"length":['sum', 'min'], 
                    "width":['max', 'min'], 
                    "height":['min', 'sum'], 
                    "curb-weight":['sum']})

Las operaciones más importantes que podemos implementar con ayuda de la función *groupBy* son *aggregate*, *filter*, *transform* y *apply*, la forma más eficiente es hacerlo después de haber agrupado las columnas requeridas.

In [None]:
auto.groupby(["body-style","drive-wheels"]).agg(
    {
         'height':min,
         'length': max,
         'price': 'mean',    
    }
)

También podríamos usar *numpy* para tener una versión más simplificada

In [None]:
auto.groupby(
   ["body-style","drive-wheels"])["price"].agg([np.sum, np.mean, np.std])

# Tablas Pivote

La función *pivot_table* de pandas crea una tabla pivote de la misma forma como lo vemos en una hoja de Excel y la convierte a un dataframe. Los niveles de la tabla pivote se guardan como un objeto MultiIndex (o de índice jerárquico)

In [None]:
auto_lite2 = auto.filter(["body-style","drive-wheels","length","width","height","curb-weight","price"],axis=1)
auto_lite2

In [None]:
pd.pivot_table(auto_lite2, index=["body-style"])

In [None]:
pd.pivot_table(auto_lite2, index=["body-style", "drive-wheels"])

En ambas tablas, se muestran los valores promedio de cada categoría

In [None]:
pd.pivot_table(auto_lite2, values="price", index=["body-style"], columns=["drive-wheels"], aggfunc=np.mean, fill_value=0)

In [None]:
pd.pivot_table(auto_lite2, values=['price','height','width'],
                       index =["body-style","drive-wheels"],
                       aggfunc={'price': np.mean,'height': [min, max],'width': [min, max]},
                       fill_value=0)

# Tabulación Cruzada

Otra técnica empleada para un mejor entendimiento de nuestros datos es la tabulación cruzada que nos permite jugar con agrupaciones y agregaciones. En este caso, se nos muestra la frecuencia con la que ciertos grupos de datos están presentes en nuestro dataset

In [None]:
pd.crosstab(auto["make"], auto["body-style"])

Si queremos agregar los totales, simplemente especificamos la opción *margins*

In [None]:
pd.crosstab(auto["make"], auto["body-style"], margins = True, margins_name= "Total")

Podríamos agrupar por más de una categoría

In [None]:
pd.crosstab([auto["make"],auto["num-of-doors"]], [auto["body-style"],auto["drive-wheels"]],margins=True,margins_name="Total Made")