# Descripción de los datos

## Atributos y categorías

> Una __atributo__ representa una característica o rasgo representativo de un objeto.
>
> -_Han, J., Kamber, M. & Pei, J. Data mining: concepts and techniques. Elsevier Science, 2012._
  

En general, los términos __atributo__, __característica__, __dimensión__ y __variable__ son usados indistintamente.

- En _data warehousing_ es comunmente usado _dimensión_.
- En _data mining_ (_Machine Learning/IA_) es usado el término _característica_.
- En estadística, se prefiere el término _variable_.


El __tipo__ de un atributo está determinado por el conjunto de valores posibles que puede tener el atributo.

### Nominales

Un atributo puede considerarse nominal (o categórico) cuando sus valores representan categorías sin clasificación intrínseca. Por ejemplo, género, región, afiliación religiosa.

- No cuenta con un orden lógico.
- No tiene sentido aplicar operaciones aritméticas o compararlos.
- Un atributo __binario__ es un atributo nominal con dos categorías o estados: `0` o `1`. También son denominados _booleans_: `True` o `False`.

### Ordinales

Un atributo puede considerarse ordinal cuando sus valores representan categorías con alguna clasificación intrínseca. Por ejemplo, nivel de satisfacción, nivel educacional.

- Posee un orden lógico.
- Permite establecer comparaciones.
- Pueden ser obtenidos desde la discretización de cantidades numéricas, dividiendo en rangos de números finitos o categorías ordenadas. Por ejemplo, tallas de ropa (_small_, _medium_, _large_).


### Atributos numéricos

Los atributos numéricos son cantidades medibles (cuantitativo).

- Soporta todas las operaciones aritméticas.
- Es posible realizar comparaciones.
- Tienen orden y pueden ser positivos, 0 o negativos.
- Proporcionar una clasificación de valores, dichos atributos nos permiten comparar y cuantificar la diferencia entre valores.

Los __atributos de escala de intervalo__ se miden en una escala de unidades de igual tamaño. Por ejemplo, la temperatura.

Un __atributo en escala de relación__ (_ratio_) poseen las mismas características que las de tipo intervalo, con la distinción que poseen con un cero absoluto (ausencia de la medida). Este tipo de variables están destinadas a no ser negativas. Por ejemplo, edad, peso, distancia, etc. 

## Estadísticos descriptivos

Para el preprocesamiento de datos es esencial tener una representación general de los datos. Para esto, se pueden utilizar descripciones estadísticas básicas para __identificar las propiedades de los datos e identificar si los valores de datos deben tratarse como ruido o valores atípicos (_outliers_)__.

### Estadísticos de tendencia central
Representan un _centro_  en torno al cual se encuentra un conjunto de datos: __media__, __mediana__ y __moda__.

#### Media

La __media__ (aritmética) es la suma arítmetica de los valores de la población, dividia por la cantidad de valores. Usualmente, se aplica sobre las categorías de tipo intervalo y ratio.

\begin{equation*}
\mu = \frac{1}{N} \sum_{i=1}^{N} x_i
\end{equation*}

In [1]:
import pandas as pd
import numpy as np

df_personas = pd.read_excel('dataset/personas.xlsx')    # datos
alturas = np.array(df_personas['Altura'])               # atributo 
alturas.mean()

146.2

In [2]:
df_personas[['Altura', 'Peso']].mean()  # usando Pandas

Altura    146.2
Peso      109.8
dtype: float64

La __media ponderada__, usada cuando cada valor valor ($x_i$) tiene asociado un peso ($w_i$) o significancia,

\begin{equation*}
\overline{x} = \frac{\frac{1}{N} \sum_{i=1}^{N} w_i x_i}{\sum_{i=1}^{N}w_i}
\end{equation*}

puede ser obtenida con la función `numpy.average()`.

In [3]:
notas = np.array([3.5, 6.1, 4.2, 5.0])
pesos = np.array([0.2, 0.5, 0.2, 0.1])
np.average(notas, weights= pesos)

5.090000000000001

#### Mediana 
Representa el valor de la variable de posición central de un conjunto ordenado de datos. Tiene sentido aplicar la madiana sobre las categoría de tipo __ordinal__.

\begin{equation*}
median = L_1 + \left( \frac{\frac{N}{2} - (\sum freq)_{l} }{ freq_{median}} \right) width
\end{equation*}

donde, $L_1$ es el límite inferior del intervalo de la mediana, $N$ es el número de valores del conjunto de datos, $(\sum freq)_{l}$ es la suma de las frecuencias de todos los intervalos que estan bajo el intervalo de la media, $freq_{median}$ es la frecuencia del intervalo de la media, y $width$ es el ancho del intervalo de la mediana

In [4]:
datos = np.array([1, 2, 3, 4, 5, 6, 7, 8])  #  (4 + 5)/2
np.median(datos)

4.5

In [5]:
np.median(alturas)

148.5

#### Moda
Corresponde al valor más frecuente. Para valores de tipo __nominal__ sólo tiene sentido calcular la __moda__.

La función `scipy.stats.mode()` de la `scipy.stats`, obntiene el valor de la moda y su frecuencia.

In [6]:
import scipy.stats as stats

stats.mode(df_personas[['Altura', 'Genero']])

ModeResult(mode=array([[122, 'Masculino']], dtype=object), count=array([[2, 6]]))

### Estadísticos de dispersión

Los __estadísticos de dispersión__ proporcionan información sobre la variación de una variable: __rango__, __rango intercuartil (IQR)__, __desviación típica__ y __varianza__.

#### Desviación estándar 
La desviación estándar de la media es una medida que cuantifica la variación o la dispersión de un conjunto de valores numéricos.


\begin{equation}
\sigma = \sqrt{ \frac{1}{N} \sum_{i=1}^{N} \left( x_i - \mu \right)^{2} }
\end{equation}

- Valores bajos indican que los datos tienden a estar agrupados cerca de la media.
- Valores altos indican que los datos se extienden sobre un rango más amplio.

In [7]:
np.std(alturas)     # población completa

17.039953051578518

In [None]:
# muestra de una población
def desviacion_estandar(serie):
    suma = 0
    for xi in serie:
        suma += (xi - alturas.mean()) ** 2
    return ( suma / (len(serie) -1) ) ** 0.5

desviacion_estandar(alturas)

#### Rango

El __rango__ de un conjunto de valores se define como la la diferencia entre el valor mayor y el valor menor.

In [8]:
np.max(alturas) - np.min(alturas)

49

#### Rango intercuartil (IQR) 

Se define como la distancia entre el primer cuartil (25%) y el tercer cuartil (75%). Es una medida que proporciona el rango cubierto por la __mitad central de los datos__.

\begin{equation*}
IQR = Q_{75\%} - Q_{25\%}
\end{equation*}



- Un __cuartil__ es un cuantil (puntos a intervalos regulares de la función de distribución) multiplicado por un cuarto de un conjunto de datos.
- El primer cuartil (Q1) corresponde con la mediana de la primera mitad de valores.
- El segundo cuartil (Q2) corresponde con la mediana de la serie.
- El tercer cuartil (Q3) corresponde con la mediana de la segunda mitad de valores.

La función `pandas.qcut()` convierte una serie en una lista de N cuantiles. Esta función retorna una serie categórica nueva con los cuartiles como categorías.

- Para `n=4`, retorna los cuartiles.

In [9]:
cuartiles_alturas = pd.qcut(alturas, 4)
cuartiles_alturas.categories

IntervalIndex([(121.999, 131.25], (131.25, 148.5], (148.5, 155.25], (155.25, 171.0]], dtype='interval[float64, right]')

In [10]:
cuartiles_alturas.categories[0] # Q1

Interval(121.999, 131.25, closed='right')

In [11]:
cuartiles_alturas.categories[2] # Q3

Interval(148.5, 155.25, closed='right')

In [12]:
IQR = 155.25 - 131.25
IQR

24.0

### Estadísticos de forma
Los __estadísticos de forma__: simetría y curtosis

#### Skewness

El parámetro __skewness__ mide la asimetría de una distribución de probabilidad de una variable aleatoria:

\begin{equation}
C = \frac{1}{N} \sum_{n=1}^{N} \left( \frac{ x_i - \overline{x} }{ \sigma } \right)^3
\end{equation}

donde $\overline{x}$, $\sigma$ y $N$ son la media, la desviación estándar y el número ejemplos.

<img src="img/skewness.jpg" width="400px">

- Si una distribución es simétrica, existe el mismo número de valores a la derecha que a la izquierda de la media, por lo tanto, el mismo numéro de desviaciones a cada lado.
- Se dice __asimetría negativa__ cuando la cola más larga es hacia la izquierda.
- Se dice __asimetría positiva__ cuando la cola más larga es hacia la derecha.

In [13]:
def skewness(serie):
    x = np.mean(serie)
    sigma = np.std(serie)
    suma = 0
    for xi in serie:
        suma += ( (xi - x) / sigma ) ** 3
    return 1 / len(serie) * suma

skewness(alturas)

-0.10611431497704359

In [14]:
stats.skew(alturas)

-0.10611431497704359

#### Kurtosis

La kurtosis es el parámetros que mide la forma de una distribución:

\begin{equation}
D = \frac{1}{N} \sum_{n=1}^{N} \left( \frac{ x_i - \overline{x} }{ \sigma } \right)^4 - 3
\end{equation}

donde $\overline{x}$, $\sigma$ y $N$ son la media, la desviación estándar y el número ejemplos.

__NOTA__: El coeficiente de kurtosis para una distribución normal (perfecta) es igual a 3. Esto permite obtener kurotisis positiva y negativa desde la distribución normal.

<img src="img/kurtosis.jpg" width="400px">

In [15]:
def kurtosis(serie):
    x = np.mean(serie)
    sigma = np.std(serie)
    suma = 0
    for xi in serie:
        suma += ( (xi - x) / sigma ) ** 4
    return (suma / len(serie)) - 3

kurtosis(alturas)

-1.1811045173084498

In [16]:
stats.kurtosis(alturas)

-1.1811045173084493

#### Resumen de las estadísticas de las variables

In [17]:
df_personas.describe()  # usando Pandas, solo var. numéricas

Unnamed: 0,Numero,Altura,Peso
count,10.0,10.0,10.0
mean,5.5,146.2,109.8
std,3.02765,17.961688,15.411395
min,1.0,122.0,98.0
25%,3.25,131.25,98.0
50%,5.5,148.5,100.5
75%,7.75,155.25,118.75
max,10.0,171.0,136.0


#### Coeficiente de correlación (Pearson)

Es una medida que determina el grado en que se asocian los movimientos de dos variables.

\begin{equation*}
\rho_{X,Y} = \frac{\sigma_{XY}}{\sigma_{X} \sigma_{Y}}
\end{equation*}

donde, $\sigma_{XY}$ es la covarianza de $XY$, $\sigma_{X}$ es la desviación estandar de la variable $X$ y $\sigma_{Y}$ es la desviación estandar de la variable $Y$.

El valor varía en el intervalo $[-1,1]$, indicando el signo el sentido de la relación:

- Si $\rho = 1$, existe una correlación positiva perfecta, indica dependencia total entre las dos variables.
- Si $0 < \rho < 1$ es una corelación positiva.
- Si $\rho = 0$, indica que no existe relación lineal entre las dos variables.
- Si $-1 < \rho < 0$ es una corelación negativa.
- Si $\rho = -1$, existe una correlación negativa perfecta, indica dependencia total (relación inversa) entre las dos variables.

In [18]:
df_personas[['Altura', 'Peso']].corr()

Unnamed: 0,Altura,Peso
Altura,1.0,-0.823495
Peso,-0.823495,1.0
