In [1]:
import pandas as pd
import numpy as np

# Análisis exploratorio de datos

Desde el comienzo del curso hemos utilizado herramientas para explorar los datos propias de pandas. Tail, Head, Info, Describe, Unique, isnull, entre otras, así como también hemos introducido la librería Matplotlib para poder graficar los datos y con esto tener una interpretación esquemática o geométrica.

Sin embargo no hemos ahondado en herramientas estadísticas que nos pueden ser útil para tener una interpretación de los datos en dicho sentido. 

Para ello vamos a introducir algunos estadísticos y gráficos útiles.

## ¿Qué es un estadístico?

Vamos a dar una definición matemática de un estadístico, ya que es un concepto que nos va a acompañar durante toda la carrera y es útil conocerlo.

Sea una muestra de datos $X_1,..., X_n$, un estadístico $T(X_1,..., X_n)$ es una transformación de la muestra a un número (o vector) que resume alguna propiedad o característica propia de la muestra.

### Es decir, que podemos meter los datos en un estadístico, realizar operaciones y obtener un valor representativo que nos da cierta información de interés de la muestra. 

Ejemplo de estadísticos son:

- la misma muestra
- la media aritmética (o promedio)
- La varianza muestral
- el máximo (y mínimo) de la muestra (Los cuales son conocidos como estadísticos de orden)
- Cualquier función que se te ocurra que pueda mapear los datos a algo (Obviamente hay estadísticos que pueden no entregarnos algo importante, pero eso es discusión para otro ramo)


Dicho esto, vamos a ver los estadísticos que fueron introducidos en clases.

### Primero vamos a crear un dataset sintético 

In [2]:
col1, col2, col3, col4, col5 = np.random.rand(5, 1000)*10000
df = pd.DataFrame({'col1': col1, 'col2': col2, 'col3': col3, 'col4': col4, 'col5': col5})
df


Unnamed: 0,col1,col2,col3,col4,col5
0,5408.250514,2810.182035,7008.691186,4738.973705,1438.148109
1,3205.194161,8333.414208,3482.800534,6736.887755,3235.886793
2,4987.059107,731.718140,6298.463776,914.101667,4384.325366
3,2875.412265,6514.204033,6774.632690,9524.429482,7865.510412
4,2429.178751,2063.654442,1848.797229,4567.572255,842.060025
...,...,...,...,...,...
995,2761.745700,2535.592909,2016.090494,3450.382263,3591.925489
996,9761.928898,3998.253449,8377.395571,9483.226805,7159.330868
997,5080.329297,8044.914685,2825.079092,8235.766055,5682.393854
998,254.116462,7330.684128,527.536666,5176.870782,1524.242260


# Muestras numéricas

# La media:

Se define como el cociente entre la suma de toda la muestra y el tamaño de la misma.

$$\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i$$


In [3]:
def mean(col):
    return sum(col1)/len(col1)

mean(col1)

4758.872572550906

In [4]:
#con pandas
df['col1'].mean()

4758.872572550908

# Mediana
La mediana de una muestra $X_1,..,X_n$:
\begin{cases} 
X_{\left(\frac{n+1}{2}\right)} & \text{si } n \text{ es impar} \\
\frac{1}{2} \left( X_{\left(\frac{n}{2}\right)} + X_{\left(\frac{n}{2}+1\right)} \right) & \text{si } n \text{ es par}
\end{cases}


In [5]:
def median(col):
    col = sorted(col)
    if len(col) % 2 == 0:
        return (col[len(col)//2] + col[len(col)//2 - 1])/2
    else:
        return col[len(col)//2]
    
median(col1)

4800.859606421025

In [6]:
#con pandas
df['col1'].median()

4800.859606421025

# Desviación Estandar

Es una medida para evaluar que tan dispersos son los datos.

$\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (X_i - \mu)^2}$



In [7]:
def standard_deviation(col):
    return (sum([(i - mean(col))**2 for i in col])/(len(col)-1))**0.5

standard_deviation(col1)


2833.3007678630233

In [8]:
#con pandas
df['col1'].std()

2833.300767863022

# Varianza

Es una medida de dispersión, que corresponde al cuadrado de la desviación estándar (No es recomendable usarla ya que influye mucho el 'peso' de los datos)

In [9]:
def variance(col):
    return standard_deviation(col)**2

variance(col1)


8027593.2411731975

In [10]:
#con pandas
df['col1'].var()

8027593.241173189

# Covarianza

es una medida de cómo dos cantidades varían juntas

$\text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (X_i - \mu_X)(Y_i - \mu_Y)$


La interpretación de este valor es la siguiente:

- Si el valor positivo, quiere decir que cuando uno aumenta, el otro también.
- Si es negativo, quiere decir que cuando uno aumenta, el otro disminuye.
- Si es cercana a cero, quiere decir que no hay una relación lineal entre los datos.

In [11]:
#covarianza con pandas
df.cov()

Unnamed: 0,col1,col2,col3,col4,col5
col1,8027593.0,-175164.7,53636.9,370192.0,67750.89
col2,-175164.7,8391173.0,-372485.8,89407.55,-61892.26
col3,53636.9,-372485.8,8117721.0,-448167.4,-363506.2
col4,370192.0,89407.55,-448167.4,8413867.0,31314.01
col5,67750.89,-61892.26,-363506.2,31314.01,8192647.0


# Coeficiente Pearson

$r = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}$


El coeficiente de Pearson es una versión adimensional de la covarianza. Es decir, que nos permite obtener relaciones entre variables quitando la dimensionalidad (Unidades de medida). 

Este coeficiente es el utilizado para generar la 'matriz de correlación'.

- 1 significa una correlación lineal positiva perfecta.
- -1 significa una correlación lineal negativa perfecta.
- 0 significa que no hay correlación lineal.

In [12]:
df.corr()

Unnamed: 0,col1,col2,col3,col4,col5
col1,1.0,-0.021342,0.006644,0.045044,0.008354
col2,-0.021342,1.0,-0.045132,0.010641,-0.007465
col3,0.006644,-0.045132,1.0,-0.054228,-0.044574
col4,0.045044,0.010641,-0.054228,1.0,0.003772
col5,0.008354,-0.007465,-0.044574,0.003772,1.0


# Cuartiles, quintiles, deciles y percentiles

Corresponde a una división de los datos en partes iguales. Una condición importante es que los datos deben estar ordenados.

Siempre la cantidad de algún 'n-ciles' es n-1 (Por ejemplo hay 3 cuartiles, 4 quintiles, 9 deciles y 99 percentiles)


In [24]:
#Con pandas

df.describe()

Unnamed: 0,col1,col2,col3,col4,col5
count,1000.0,1000.0,1000.0,1000.0,1000.0
mean,5063.100988,4995.087386,5150.237418,4875.042203,4867.297319
std,2873.845262,2982.120557,2884.766687,2912.3165,2835.918078
min,1.571182,2.961133,3.236567,12.830794,11.159699
25%,2606.962863,2351.918758,2634.265177,2374.328005,2513.03132
50%,5010.447753,4947.927997,5250.808004,4686.506027,4756.719337
75%,7520.893268,7717.42969,7561.063932,7448.103072,7158.277745
max,9992.992211,9974.970371,9995.67616,9996.10111,9988.091844


In [29]:
#Calcular percentiles
def percentil(col, p):
    col = sorted(col) # Ordenamos la columna de datos
    return col[int(len(col)*p)] # Devolvemos el valor que se encuentra en la posición correspondiente al percentil.

percentil(col1, 0.9999)

9992.992210557075

# Muestras categóricas

Ahora imaginemos que tenemos un dataset con datos categóricos, por ejemplo tenemos una columna de percepción de la temperatura.

Creamos un dataset sintético de temperaturas con 100 registros. Si T>30, diremos que es caluroso, si es entre 20 y 30, templado, si es <20, frío.


In [30]:
temperaturas = np.random.randint(10, 40, 100)
df = pd.DataFrame({'temperatura': temperaturas})
df['categoria'] = df['temperatura'].apply(lambda x: 'caluroso' if x>30 else 'templado' if x>=20 and x<=30 else 'frío')
df

Unnamed: 0,temperatura,categoria
0,35,caluroso
1,15,frío
2,25,templado
3,23,templado
4,28,templado
...,...,...
95,32,caluroso
96,16,frío
97,32,caluroso
98,36,caluroso


Si queremos hacer análisis de los datos, no podemos usar las categorías como tal. Necesitaremos procesarlas.

# Count Value

Permite medir la frecuencia de cada categoría.

In [31]:
#Con pandas
df['categoria'].value_counts()


categoria
templado    45
caluroso    30
frío        25
Name: count, dtype: int64

In [38]:
#Otra forma es con grouby
count = df.groupby('categoria') #Creamos el objeto groupby
count.size() #Contamos los elementos de cada grupo

categoria
caluroso    30
frío        25
templado    45
dtype: int64

# Dummy variables

Convertimos cada categoría en una columna, donde 0 indica que no es la categoría y 1 que sí.


In [36]:
dummy = pd.get_dummies(df['categoria']) #Esto primero arroja un dataset con variables False o True
dummy = dummy.applymap(lambda x: 1 if x == True else 0) #Esto convierte las variables True en 1 y las False en 0
df = pd.concat([df, dummy], axis=1) #Concatenamos el dataset original con el dataset de variables dummy

  dummy = dummy.applymap(lambda x: 1 if x == True else 0) #Esto convierte las variables True en 1 y las False en 0


In [37]:
df

Unnamed: 0,temperatura,categoria,caluroso,frío,templado
0,35,caluroso,1,0,0
1,15,frío,0,1,0
2,25,templado,0,0,1
3,23,templado,0,0,1
4,28,templado,0,0,1
...,...,...,...,...,...
95,32,caluroso,1,0,0
96,16,frío,0,1,0
97,32,caluroso,1,0,0
98,36,caluroso,1,0,0
