# Introducción

Una gran parte del campo de la estadística y de los métodos estadísticos están dedicados a conjuntos de datos en los cuales la función de distribución que forman este conjunto de datos es conocida. Aquellos conjuntos de datos en los que su función de distribución es conocida son conocidos como datos paramétricos. Aquellos datos que forman una función de distribución desconocida o no puede ser facilmente identificada son los llamados datos no paramétricos.

# Datos Paramétricos 

Los datos paramétricos son una muestra de datos extraídos de una distribución de datos conocida. Esto significa que conocemos la distribución y los parámetros asociados a dicha distribución. A menudo, la palabra paramétrico hace referencia a valores reales extraídos de una distribución Gaussianna.

De forma general se prefiere trabajar con datos paramétricos, ya que de esta forma podemos hacer uso de los métodos paramétricos. En determinadas ocasiones realizando transformaciones sobre datos no paramétricos podemos llegar a obtener datos paramétricos.

# Datos No Paramétricos

Aquellos datos de los cuales no conocemos la función de distribución que forman son conocidos como datos no paramétricos. Los datos podrían ser no paramétricos por varias razones:

* Los datos no son reales, pueden ser ordinales, intervaloes, etc.

* Los datos son reales, pero no se ajustan a una función de distribución conocida.

* Los datos tienen pinta de ser paramétricos, pero contienen valores atípicos, múltiples picos, etc.

Hay un conjunto de métodos que pueden ser usados en datos no paramétricos llamados métodos estadísticos no paramétricos. Muchos métodos paramétricos, tienen su versión no paramétrica.

# Ranking Data

Antes de aplicar cualquier método estadístico no paramétrico, los datos deben de convertirse a formato rank. EL procedimiento para convertir los datos a este tipo de formato es el siguiente:

* Ordenar toda la muestra en orden ascendente.

* Asignar un valor entero desde 1 hasta N para cada valor único en la muestra de datos

Existen circunstancias especiales en las cuales este procedimiento puede variar como puede ser en el caso de empates, uso de ranking inverso o el uso de puntuación fraccional, pero en general las propiedades se mantienen. La librería SciPy dispone de la función **rankdata()** para datos numéricos que soporta numerosas formas de ranquear los datos.

In [2]:
from numpy.random import randn
from numpy.random import seed
from scipy.stats import rankdata

#Fijamos la semilla
seed(1)

#Nos creamos el conjunto de datos
data = randn(1000)

#Vemos los 10 primeros valores
print(data[:10])

[ 1.62434536 -0.61175641 -0.52817175 -1.07296862  0.86540763 -2.3015387
  1.74481176 -0.7612069   0.3190391  -0.24937038]


In [3]:
#Hacemos un rank 
ranked = rankdata(data[:10])
print(ranked)

[ 9.  4.  5.  2.  8.  1. 10.  3.  7.  6.]


# Trabajando con datos rankeados

Existen herramientas estadísticas que pueden ser usadas para chequear si dada una muestra de datos esta se ajusta a alguna distribución. Por ejemplo, si tomamos datos no paramétricos como datos que no lucen como Gaussianos, entonces podemos hacer uso de métodos estadísticos para cuantificar como de Gaussianna  es nuestra muestra. Los tres métodos más usados para esto son:

* Shapiro-Wilk Test

* D'Agostino's K2 Test

* Anderson-Darling Test

Una vez hemos decidido hacer uso de un test no paramétrico, debemos de ranquear nuestros datos. De echo, muchas de las herramientas que usaremos para inferencia realizan esta ranqueado de forma automática. Sin embargo, es importante comprender como se están transformando los datos. En el aprendizaje automático aplicado existen dos principales preguntas que podemos querer abordar con datos no paramétricos.

## Relacción entre variables

Los métodos usados para conocer y cuantificar la relación entre variables son llamados métodos de correlación. Exiten cuatro métodos que son los más usados en la correlación estadística no paramétrica:

* Spearman's Rank Correlation

* Kendall's Rank Correlation

* Goodman and Kruskal's Rank Correlation

* Somer's Rank Correlation

## Comparar la media de muestras

Los métodos para cuantificar cuando la media entre dos poblaciones es significativamente diferente son llamados test estadísticos de significancia. Entre los test de significancia estadística para datos no paramétricos que podemos usar se encuentran:

* Mann-Whitney U Test

* Wilcoxon Signed-Rank Test

* Kruskal-Wallis H Test

* Friedman Test