<font size=6>

<b>Curso de Análisis de Datos con Python</b>
</font>

<font size=4>
    
Curso de formación interna, CIEMAT. <br/>
Madrid, Junio de 2023

Antonio Delgado Peris (Cristina Labajo Villaverde)
</font>

https://github.com/andelpe/curso-python-analisis-datos

<br/>

# Tema 7. Análisis exploratorio (EDA) y pre-procesado de datos

Lo más importante a la hora de analizar datos y trabajar con datasets es disponer de unos buenos datos. No solo tienen que ser lo suficientemente representativos para satisfacer nuestros objetivos, si no que también requieren de un pre-procesado para limpiarlos, reescalarlos, agruparlos, convertir a un formato específico, etc. y así evitar errores en los resultados o resultados poco fidedignos. 

## Objetivos

- Identificar y limpiar los datos de valores _omitidos_
- Estandarizar el formato de los datos
- Normalizar los valores de los que disponemos
- Agrupar valores (_binning_)
- Variables categóricas y variables numéricas
- Explorar los datos de los que disponemos 
- Encontrar relación entre las distintas variables
- Identificación de _outliers_


## Importación de librerías


In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib as mpl
from matplotlib import pyplot as plt

##  Estadística descriptiva


Es importante explorar nuestros datos antes de empezar a hacer cálculos complicados con ellos. 
Una vez que tenemos nuestros datos guardados en un dataset podemos aplicar distintos métodos para tener una primera idea del tamaño, rango y otras medidas estadísticas de interés, tales como el valor medio, máximos, mínimos, etc., que luego podemos necesitar para pre-procesar nuestros datos. 

La estadística descriptiva ayuda a describir las características básicas de un conjunto de datos de manera rápida.

El modo más común de obtener estos datos es la función `df.describe()` de Pandas aplicada a nuestro dataset.

In [None]:
## EJEMPLO COCHES
coches = pd.read_csv('data/auto-mpg.data',sep='\s+', header=None)
coches.columns = ['mpg','cylinders','displacement','horsepower','weight',
                  'acceleration','model_year','origin','car_name']
coches = coches.replace('?', np.nan).dropna().reset_index(drop=True)
coches.head()

In [None]:
coches.describe()

Esta función muestra estadísticas básicas de cada variable, tales como la media, el total de datos, la desviación estandar, los cuartiles y el máximo y mínimo. 




También podemos usar la función `.info()` que nos dará otro tipo de información, como el rango del índice de nuestros datos (número de filas) y datos de nuestras columnas, como el tipo de datos

In [None]:
## EJEMPLO TRABAJADORES EMPRESA
datos = [
    {'Nombre': 'Juan', 'Sexo':'Hombre','Edad': 42, 'Departamento': 'Comunicación'},
    {'Nombre': 'Laura', 'Sexo':'Mujer','Edad': 44, 'Departamento': 'Administración'},
    {'Nombre': 'Pepe', 'Sexo':'Hombre','Edad': 37, 'Departamento': 'Ventas'},
    {'Nombre': 'Carlos', 'Sexo':'Hombre','Edad': 15, 'Departamento': 'Ventas'},
    {'Nombre': 'Esther', 'Sexo':'Mujer','Edad': 62, 'Departamento': 'Administración'},
    {'Nombre': 'Álvaro', 'Sexo':'Hombre','Edad': 62, 'Departamento': 'Ventas'},
    {'Nombre': 'Rosa', 'Sexo':'Mujer','Edad': 50, 'Departamento': 'Comunicación'},
    
]

empresa = pd.DataFrame(datos)
empresa

In [None]:
empresa.info()

Aunque para saber las dimensiones de nuestro dataset la manera más rápida es usar la función `.shape` que nos devuelve dos números, el primero es el número de filas y el segundo el número de columnas. 

In [None]:
empresa.shape

Dos funciones útiles para conocer los valores que tenemos en nuestras columnas son `value_counts`, y `unique`, especialmente para el caso de variables categóricas.

La función `df.columna.unique()` nos indica los valores únicos presentes. La función `df.columna.value_counts()` nos dice cuántas veces se repite cada valor.

In [None]:
empresa.Departamento.unique()  # O: pd.unique(empresa.Departamento)

In [None]:
empresa.Departamento.value_counts()

<p/>

### Histogramas

Una forma gráfica de ver la distribución de nuestros datos es crear un **histograma**.

In [None]:
## EJEMPLO Coches CO2 emissions
df4 = pd.read_csv("data/FuelConsumption.csv")
coches2 = df4[['ENGINESIZE','CYLINDERS','FUELCONSUMPTION_COMB','CO2EMISSIONS']] 
coches2 ## Datasat reducido con variables de interés

In [None]:

fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(15, 5))

sns.histplot(
        data    = coches2,
        x       = 'ENGINESIZE',
        stat    = "count",
        kde     = True,
        color   = 'green',
        line_kws= {'linewidth': 2},
        alpha   = 0.3,  # transparency
        ax      = axes[0])
axes[0].set_title('Engine Size', fontsize = 10, fontweight = "bold")
axes[0].tick_params(labelsize = 8)


sns.histplot(
        data    = coches2,
        x       = 'CO2EMISSIONS',
        stat    = "count",
        kde     = True,
        color   = 'orange',
        line_kws= {'linewidth': 2},
        alpha   = 0.3, 
        ax      = axes[1])
axes[1].set_title('Emisiones CO2', fontsize = 10, fontweight = "bold")
axes[1].tick_params(labelsize = 8)

### Boxplots

El diagrama de cajas o *boxplot* es un método estandarizado para representar gráficamente una serie de datos numéricos a través de sus cuartiles. De esta manera, se muestran a simple vista la mediana y los cuartiles de los datos y también pueden representarse sus valores atípicos.
También proporcionan una visión general de la simetría de la distribución de los datos; si la mediana no está en el centro del rectángulo, la distribución no es simétrica.

Usaremos la librería seaborn para construir los diagramas de cajas, más concretamente la función [`.boxplot()`](https://seaborn.pydata.org/generated/seaborn.boxplot.html)

Si lo que queremos es agrupar los datos dependiendo de otra variable, la definiremos en el eje x

In [None]:
## Boxplot vertical
figure,axes = plt.subplots(nrows=1, ncols=2, figsize=(15, 5))

sns.boxplot(y=empresa.Edad, data=empresa, ax=axes[0])
axes[0].set_title('Edad',fontsize = 10)

sns.boxplot(x=empresa.Sexo, y=empresa.Edad, data=empresa, ax=axes[1])
axes[1].set_title('Edad en función del Sexo',fontsize = 10);

<p/>

<div style="background-color:powderblue;">

**EJERCICIO e7_1:** 

Dado el dataset `ejer_titanic` visualizar usando un boxplot la edad de mujeres y hombres que había en el titanic, clasificados por la clase en la que viajaban.
    
- Pista: usar el argumento `hue` con la función `boxplot` de `seaborn`.

In [None]:
## EJEMPLO Dataset Titanic
titanic = sns.load_dataset("titanic")
titanic.head()

##  Valores ausentes
Podemos encontrarnos con que faltan valores en nuestros datasets, esto puede deberse a que no se han guardado algunas variables de un evento, y podemos encontrarlos representados de diferentes maneras (p. ej. 0, NaN, espacios en blanco, o símbolos de puntuación).

Primero, es necesario detectar si tenemos valores nulos u omitidos en nuestro dataset y eso lo podemos hacer usando la función de pandas `.isnull()`. También podemos combinarla con el método `.any` que nos dirá si hay algún nulo o ninguno.


In [None]:
## EJEMPLO Dataset Titanic
titanic.head()

In [None]:
titanic.shape

In [None]:
titanic.head().isnull()

In [None]:
# Hay algún nulo en mis columnas? 
titanic.isnull().any()

In [None]:
# Hay algún nulo en todo el DataFrame? 
titanic.isnull().any().any()

<p/>

También podemos contar el número exacto de datos nulos por columna. 

In [None]:
titanic.isnull().sum()


Se pueden considerar diferentes estrategias para enfrentarnos a estos valores omitidos y eso va a depender de la situación, el tipo de dato y la experiencia del investigador. Los distintos métodos para solucionar los espacios en blanco son los siguientes: 

- Revisar los datos e intentar recuperar el valor desconocido. 
- Eliminar los datos omitidos
    - Eliminar la variable entera 
    - Eliminar esa entrada de datos (la fila)
- Sustituir valores
    - Variables numéricas:
        - Reemplazarlos por la media de la variable 
    - Variables categóricas:
        - Reemplazarlos por la moda   
        - Reemplazar los valores basándonos en conocimiento previo
- Dejar en blanco los valores que faltan

### Eliminar los datos omitidos


Pandas tiene una función que se encarga de eliminar datos que no son válidos o en blanco: `df.dropna()`

Es necesario especificar el eje que queremos eliminar:
- `axis=0` elimina la fila entera, la entrada que presenta problemas
- `axis=1` elimina la columna, la variable

Otros de los parámetros de la función que hay que configurar son la columna en la que se encuentra el NaN y si queremos mantener el índice cuando eliminemos los datos vacíos. 



In [None]:
del_titanic = titanic.copy()

# Borramos las filas (axis=0) que tengan NaN en la columna 'deck' (subset)
del_titanic.dropna(subset=['deck'], axis=0, inplace=True)
del_titanic.head()

In [None]:
del_titanic.shape

In [None]:
del_titanic.deck.isnull().sum()

Hemos borrado las filas con NaN en la columna 'deck', pero sigue habiendo Nan en otras columnas.

In [None]:
del_titanic.isnull().sum()

In [None]:
# Ahora orramos en todo el Dataframe
del_titanic_2 = titanic.dropna(axis=0)
del_titanic_2.shape

In [None]:
del_titanic_2.isnull().sum()

<br/>

Al eliminar filas, nuestro índice tiene ahora valores no consecutivos.

In [None]:
del_titanic

In [None]:
# Podemos reiniciar el índice para que tenga valores consecutivos
del_titanic.reset_index(drop=True, inplace=True)
del_titanic

### Sustituir valores

Para sustituir un dato vacío por otro valor se puede usar la función `df.replace(valor_omitido, nuevo_valor)`.

También existe una función especifica para los valores omitidos:`df.fillna(nuevo_valor)`

Pongamos que el ejemplo del dataset anterior queremos reemplazar el valor NaN por el valor de la columna `deck` que más veces se repite, o lo que es lo mismo, la _moda_.

Primero habría que calcular la moda con `df.col.mode()`

In [None]:
## Hallamos la moda
md = titanic.deck.mode()[0]
md

In [None]:
## Sustituimos valores NaN por la moda hallada
md_titanic = titanic.copy()
md_titanic.deck = md_titanic['deck'].fillna(md)
md_titanic.head()

In [None]:
# Vemos que los NaN han desaparecido
md_titanic.deck.isnull().sum()

In [None]:
# Ahora hay muchas 'C'
md_titanic.deck[md_titanic.deck=='C'].count()

In [None]:
# Pero todavía tenemos NaN en algunas otras columnas
md_titanic.isnull().sum()

In [None]:
# En el caso de la columna 'age', vamos a aplicar la función 'replace', para cambiarlos por 0s
# La situación inicial es que hay varios NaN, pero ningún valor 0
print('Num. filas con age==NaN -->', md_titanic.age.isnull().sum())
print('Num. filas con age==0 -->', md_titanic.age[md_titanic.age == 0].count())

In [None]:
# Hacemos el cambio
md_titanic.age = md_titanic.age.replace(np.nan, 0)  

In [None]:
# Y vemos sus efectos
print('Num. filas con age==NaN -->', md_titanic.age.isnull().sum())
print('Num. filas con age==0 -->', md_titanic[md_titanic.age == 0].age.count())


<p/>

<div style="background-color:powderblue;">

**EJERCICIO e7_2:** 

Dado el dataset `ejer2` remplaza los NaN de cada columna por la media de su correspondiente columna.

In [None]:
import pandas as pd
ejer2 = pd.DataFrame({'a':[None, 3, None, 5, 6], 'b':[1, 3, 4, 6, None], 'c':[54, None, None, 32, 21]})
ejer2.head()

## Formateo de datos

Puede darse el caso de que recolectemos datos de distintas fuentes, o que los registren diferentes personas por lo que los datos pueden presentar distintas nomenclaturas o no ser constantes en términos de unidades y formatos. En este caso resulta difícil comparar los datos o agruparlos por lo que es necesario formatearlos y definir un formato único que haga más fácil las futuras operaciones. 

En el caso en que se requiera una conversión de unidades, por ejemplo pasar los datos de peso de libras a kg, debemos dividir las libras entre 0,45359237. Podemos modificar la columna `libras` de la siguiente manera:

`df['libras'] = df['libras']/0.45359237`

Conviene en este caso renombrar la columna:

`df.rename(columns={'libras':'kilogramos'}, inplace=True)`

Es importante prestar atención al tipo de datos que tenemos. Si no son los correctos puede haber errores en las operaciones cuando construyamos modelos. 

Cuando introducimos datos en python puede ocurrir que se registren como un tipo distinto al que deseamos. Es necesario comprobar el tipo de datos y ver si se corresponden con lo que debería ser para que no interfiera en nuestros futuros cálculos, si este no fuera el caso, se debe de cambiar el tipo de datos. 

Para identificar qué tipos de datos tenemos usamos la función `dtypes`

In [None]:
coches.head()

In [None]:
coches.dtypes

In [None]:
coches.horsepower[0]

Para cambiar el tipo de una columna se puede usar la función `astype` especificando el tipo al que vamos a convertir la variable:

In [None]:
# Cambiamos todas las columnas numéricas a float
coches.iloc[:,:-1] = coches.iloc[:,:-1].astype(float)
coches.dtypes

In [None]:
coches.horsepower[0]

NOTA: Un caso particular a tener en cuenta es si una columna con valores numéricos tiene tipo `object`. Eso suele provenir de un error de importación de los datos, que se han considerado _string_, y dará problemas en futuras operaciones matemáticas. Se debe corregir con `astype`.

<div style="background-color:powderblue;">

**EJERCICIO e7_3:** 

Convertir la columna `mpg` (_miles per gallon_) del dataframe `ejer_coches` a litros cada 100km.
    
La fórmula a sefuir es la siguiente $L/100km = 235 / m.p.g.$

Cambiar el nombre de la columna a `L/100km`

Comprobar el tipo de la columna modificada

In [None]:
ejer_coches = coches.copy()
ejer_coches.head()

## Normalización

Muchas veces, dependiendo de la naturaleza de los datos, nos encontramos con que hay gran variación de rango entre una columna y otra. Por ejemplo en el siguiente dataframe de casas, entre el precio y el número de habitaciones.

In [None]:
## EJEMPLO CASAS
casas = pd.read_csv('data/kc_house_data.csv', header='infer')
casas.head()


En estos casos puede venir bien normalizar nuestros datos. Normalizar significa, en este caso, comprimir o extender los valores de la variable para que estén en un rango definido y hacer que los datos sean más uniformes, para facilitar futuros cálculos estadísticos con nuestro dataset. 

La normalización hace posible la comparación entre distintas variables (_features_) y hace que todas tengan el mismo impacto en los cálculos.

Pero no existe un método ideal de normalización que funcione para todas las formas de variables. Es trabajo del científico conocer cómo se distribuyen los datos, saber si existen anomalías, comprobar rangos, etc.

Hay varios métodos para normalizar, pero a continuación explicaremos tres y veremos cómo se implementan en Python.

### Escalado de variables (Feature Scaling):

#### Simple

  
  
  

$$x_{new} = \frac{x_{old}}{x_{max}}$$

Se divide cada valor por el máximo valor de esa variable. El nuevo rango de la variable es entre [0,1].

Esto aplicado a nuestro dataset sería de la siguiente forma:


In [None]:
var = casas['price']
var.max()

In [None]:
price_norm_max = var / var.max()
price_norm_max

In [None]:
price_norm_max.min()

#### Min-Max


$$x_{new} = \frac{x_{old} - x_{min}}{x_{max}- x_{min}}$$

El nuevo valor es el resultado de dividir la diferencia entre el valor original menos el valor mínimo, por el rango de dicha variable (máximo - mínimo). El nuevo rango de la variable será también [0,1].

Siguiendo el ejemplo anterior pero aplicando la normalización Min-Max:

In [None]:
price_norm_minmax = (var - var.min()) / (var.max() - var.min())
price_norm_minmax.describe()

### Escalado estándar (Z-score)

Otra forma de normalización es la llamada _Z-score_, que es una medida de cuántas desviaciones estándar por debajo o por encima de la media se encuentra un valor concreto.

Se calcula restando la media y dividiendo por la deviación estándar.

$$x_{new} = \frac{x_{old} - \mu }{\sigma}$$

Un valor Z de cero indica que los valores son exactamente la media, mientras que un valor de +3 indica que el valor es mucho más alto que la media.

En una distribución gaussiana nos indica también en qué percentil de la distrubución nos encontramos. En ese casi todos los valores normalizados quedarán dentro del rango [-3, 3].

<center>
<img src="images/t7_zscore.jpg" alt="Drawing" style="width: 250px;"/>
</center>

In [None]:
var = coches2['CO2EMISSIONS']
co2_norm_zscore = (var - var.mean()) / var.std()
co2_norm_zscore

También la librería Scipy nos ofrece una fórmula que nos lo calcula directamente: `stats.zscore()`

In [None]:
from scipy import stats

ZS = stats.zscore(var, ddof=1)
print(ZS[0:10])

<p/>

<div style="background-color:powderblue;">

**EJERCICIO e7_4:** 

Normaliza el dataset ejer_coches2 utilizando la función Min-Max. Cada columna debe ir normalizada usando el máximo y mínimo correspondiente. 

Comprobar que los valores resultantes están en el rango [0,1]

In [None]:
ejer_coches2 = coches2.copy()
ejer_coches2


## Discretización (Binning)

_Binning_ es la división de los datos en grupos (_bins_), en base un criterio dado (p. ej., rangos de valores en alguna de las variables).

Al crear un histograma, por ejemplo, se hace un binado implícito. la altura de cada barra mostrada se hace de acuerdo al número de registros que _caen_ dentro de cada _bin_.

In [None]:
import seaborn as sns

sns.set_style('whitegrid')
coches2['CO2EMISSIONS'].plot(kind='hist',edgecolor='black', bins=10, title='CO2EMISSIONS');

<p/>

Existen dos funciones en pandas que se usan para dividir nuestros datos en bins: `cut` y `qcut`.

Veamos primero `cut`:

- [`cut`](https://pandas.pydata.org/docs/reference/api/pandas.cut.html): Divide las muestras en intervalos indicados explícitamente, o para un número total de _bins_ del mismo tamaño. La función sobre una serie de valores devuelve el intervalo que corresponde a cada posición del índice original.   

In [None]:
# Valores
coches2['CO2EMISSIONS'].head()

In [None]:
coches2.shape[0]

In [None]:
# Bin para cada valor
pd.cut(coches2['CO2EMISSIONS'], bins=4).head()

In [None]:
# Con 'value_counts' podemos obtener las frecuencias por bin (histograma)
pd.cut(coches2['CO2EMISSIONS'], bins=4).value_counts()

In [None]:
coches2['CO2EMISSIONS'].plot.hist(bins=4,edgecolor='black');

Con el argumento 'retbins' obtenemos los valores utilizados para dividir los intervalos.

In [None]:
h, bins = pd.cut(coches2['CO2EMISSIONS'], bins=4, retbins=True)
bins

Podemos comprobar que los intervalos tienen todos la misma longitud.

In [None]:
bins[1:]-bins[:-1]

Veamos finalmente un ejemplo de `cut` con bins especificados explícitamente (y tamaños irregulares)

In [None]:
bins = pd.IntervalIndex.from_tuples([(0.0, 90.0), (91.0,251.0), (252.0, 488.0)])

pd.cut(coches2['CO2EMISSIONS'], bins).value_counts()

<p/>

Veamos ahora `qcut`:

- [`qcut`](https://pandas.pydata.org/docs/reference/api/pandas.qcut.html)
La documentación de pandas describe `qcut` como una "función de discretización basada en cuantiles". `qcut` calculará el tamaño de cada bin para asegurarse de que la distribución en los bins es la misma (más o menos) en todos ellos. En general, los bins no serán de igual tamaño, el rango variará, pero todos tendrán el mismo número de observaciones. 

In [None]:
h, bins = pd.qcut(coches2['CO2EMISSIONS'], q=5, retbins=True)
h

Ahora tendremos intervalos irregulares, pero poblaciones por bines aproximadamente iguales

In [None]:
bins[1:]-bins[:-1]

In [None]:
h.value_counts()

In [None]:
# Ahora especificamos los cuantiles, en lugar del número de ellos
h2, bins = pd.qcut(coches2['CO2EMISSIONS'], q=[0, 0.25, 0.5, 0.75, 1], retbins=True)
bins

In [None]:
h2.value_counts()

In [None]:
# Comparamos con lo que nos muestra 'describe'
coches2['CO2EMISSIONS'].describe()

<p/>

Además de para conocer mejor la distribución de nuestros datos, otra aplicación posible del binado es la de poner etiquetas a los distintos grupos y convertir variables numéricas en variables categóricas. 

Por ejemplo, usando `cut` podemos clasificar los coches del ejemplo anterior en función de su nivel de emisión de CO2.

In [None]:
labels_emissions = ['Muy poco', 'Poco', 'Normal', 'Mucho']
clasif = pd.cut(coches2['CO2EMISSIONS'], bins=4, labels=labels_emissions)
clasif.head()

In [None]:
coches2['Contamina'] = clasif
coches2

<p/>

<div style="background-color:powderblue;">
    
**EJERCICIO e7_5:** 

Clasifica a los trabajadores de una empresa en grupos de edad (categóricos) usando la función cut. 


In [None]:
ejer_edad = empresa.copy()
ejer_edad

## Variables categóricas y variables numéricas 

Para poder hacer operaciones sobre nuestros datos o construir modelos (clases de Python que representan funciones matemáticas, p. ej. una regresión lineal) normalmente requerimos variables numéricas. Por lo tanto, cuando tenemos variables categóricas tenemos que realizar una conversión previa.

Existen diferentes métodos para hacer esta conversión de categórico a numérico.

### Convención

Se puede establecer un código para poner etiquetas a las distintas categorias que tengamos de forma manual, por ejemplo, si quisieramos cambiar la variable `Sexo` del siguiente dataset a numérico, podríamos acordar que `Mujer` se representa por `1` y `Hombre` por `2`.


Nombre | Sexo | Sexo_num
:--------: | ------- | --------
Juan | Hombre | 2
Laura| Mujer | 1
Pepe| Hombre | 2
Carlos| Hombre | 2 
Esther | Mujer | 1 
Álvaro | Hombre | 2 
Rosa | Mujer | 1 


De este modo tendríamos la variable convertida a numérico. El código para conseguirlo sería el siguiente:

In [None]:
empresa["Sexo_num"] = empresa.apply(lambda x: 1 if x["Sexo"] == 'Mujer' else 2, axis=1)
empresa[['Nombre','Sexo','Sexo_num']]

### One-hot encoding

Este método consiste en crear unas variables extras con el nombre de cada etiqueta e indicar con 1s y 0s la categoría a la que pertenece cada evento (1=si, 0=no).
Por ejemplo, fijémosnos en la clase en la que viajaban los pasajeros del Titanic. Una variable categórica que puede ser Primera, Segunda o Tercera (First, Second, Third):


In [None]:
titanic['class'].head(8)

Al hacer One Hot Encoding crearemos tres nuevas variables, cada una con el nombre de uno de los valores de `titanic['class']`, y estas clases son excluyentes, por lo que hay que tener en cuenta, que no importa el número de categorías o etiquetas que tengamos, sólo una de ellas puede ser 1 siendo el resto 0. 

Para poder crear estas variables ficticias o "dummy variables" se usa la función de pandas [`.get_dummies`](https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html)

In [None]:
OHE = pd.get_dummies(titanic['class'])
OHE.head(8)

In [None]:
pd.concat([titanic[['class']], OHE], axis=1).head(8)

In [None]:
pd.concat([titanic, OHE], axis=1).head(8)

<p/>

<div style="background-color:powderblue;">

**EJERCICIO e7_6:**

Dado el dataset `ejer_empresa` convierte a numérico los departamentos a los que pertenecen los trabajadores usando One-Hot-Encoding. 

Utiliza esta codificación para calcular el número de trabajadores que trabajan en cada departamento.

In [None]:
ejer_empresa = empresa.copy()
ejer_empresa

## Correlación

La correlacción es un método usado en estadística para saber hasta que punto dos variables son independientes entre sí, cómo afecta el cambio de una de estas variables a la otra.

Esta relación no tiene por qué ser de causalidad. 

Vamos a ver el ejemplo práctico de correlación entre el precio de una casa y la superficie habitable de esta. Podemos visualizarlo con la función `sns.regplot`, que produce un gráfico de dispersión y muestra además la recta de regresión lineal. 

In [None]:
sns.regplot(x='sqft_living', y='price', data=casas)

En este ejemplo, vemos que la recta tiene una pendiente positiva, que nos indica que el valor medio de los edificios tiene relación con el número total de superficie habitable. Una pendiente negativa indicaría una correlación inversa y una pendiente cercana a cero (línea horizontal) nos indicaría que no hay correlación entre esas dos variables.

### Coeficiente de Pearson

La correlación de Pearson es la medida de cuán fuerte es una correlación. Nos da dos valores: El coeficiente de correlación y el P-value

- **Coeficiente de Correlación**: Nos muestra el grado de correlación entre dos variables. El rango de este coeficiente es [-1,1]. Si el valor se acerca a -1 nos indica que hay una fuerte correlación y que esta es negativa, si el valor es cercano a 1 es una correlación fuerte y positiva y si es 0 significa que no hay correlación.  

- **P-value**: Mide la probabilidad de obtener los resultados asumiendo que cierta hipótesis (nula) es cierta. Cuanto más bajo sea el p-value, mayor es el significado estadístico de la diferencia observada. En este caso, nos da la probabilidad de que dos distribuciones aleatorias produjeran en coeficiente de correlación obtenido.

Una correlación fuerte tiene que cumplir ambos criterios, un coeficiente cercano a 1 o -1 y un p-value lo más bajo posible.

Vamos a usar la función [`.pearsonr`](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.pearsonr.html)de la librería Scipy que contiene herramientas y algoritmos matemáticos y vamos a ver lo fuerte o débil que es la correlación entre el número de habitaciones y el precio de los edificios del ejemplo anterior. 

In [None]:
from scipy import stats

pearson_coef, p_value = stats.pearsonr(casas.price, casas.sqft_living)
print('Coeficiente de Pearson:', pearson_coef)
print('P-value:', p_value)

NOTA: obtener un valor de 0 para el p-value, significa que es muy muy bajo (pero no será 0)

### Matriz de correlación
Para correlacionar más de dos variables, podemos utilizar una matriz de correlación, que muestra la correlación entre todas las variables, dos a dos.

Para crear la matriz de correlación de un Dataframe entero, podemos usar la función `.corr` de Pandas que, por defecto, calcula el coeficiente de correlación de Pearson pero también podemos especificar la utilización de otros métodos de correlación pasando un valor apropiado al parámetro `method`. 

In [None]:
sub = casas.iloc[:,2:9]
sub

In [None]:
correlation_mat = sub.corr()
correlation_mat

Una forma visual de representar la matriz de correlación es usar un mapa de calor, en los que cada color representa un valor del coeficiente. Podemos crearlos usando la función `heatmap()` de Seaborn.

In [None]:
sns.heatmap(correlation_mat, annot = True)
plt.title('Correlation matrix');

Si nos fijamos, la diagonal de la matriz es todo 1s, que es la correlación de cada variable consigo misma. Obviamente, esta es máxima.

Y si buscamos el cruce entre `sqft_living` y `price`, encontramos el valor de 0.7 obtenido antes.

## Valores atípicos (outliers)
Un valor atípico o *outlier* es una observación que difiere de los datos que de otro modo estarían bien estructurados. Es un valor que numéricamente es muy distinto al resto de los datos, lo que puede afectar a nuestros datos. Por ejemplo, si tenemos datos de emisiones de CO2 de coches y uno de ellos resulta que tenía un problema de fábrica y emitía más. 
Ese dato nos va a afectar a la media y a los cuartiles, y puede ser que queramos identificar ese dato para poder eliminarlo de nuestro dataset.

Es imprescindible conocer la naturaleza de nuestros datos para saber si tiene sentido eliminar outliers, y no supone pérdida importante de información.

A menudo, podemos identificar outliers a simple vista en un histograma, pero en los boxplots estos se muestran explícitamente.

In [None]:
casas.price.plot(kind='hist',edgecolor='black', bins=10);

In [None]:
plt.figure(figsize=(60,12))
plt.boxplot(casas.price, vert=False);

Una manera programática de detectarlos es usar los Z-score que hemos visto con anterioridad. Si se alejan más de 3 deviaciones estándar de la media pueden considerarse outliers.

In [None]:
#Primero calculamos los Z-scores de la columna que nos interesa analizar.
ZS = stats.zscore(casas.price)

# Y nos quedamos con el valor absoluto
casas['abs_z_scores'] = np.abs(ZS)
precios = casas[['price', 'abs_z_scores']]
precios.head()

In [None]:
precios[precios['price']>1000000].head()

In [None]:
# Seleccionamos las filas con un |Z-score| menor de 3
print('Num. registros total:', precios.shape[0])

new_precios = precios[precios['abs_z_scores'] < 3] 
print('Num. registros sin outliers:', new_precios.shape[0])

O, recíprocamente, podemos quedarnos con los valores atípicos.

In [None]:
# Seleccionamos solo aquellos que tienen un Z-score mayor o igual de 3
outliers_precios = precios[precios['abs_z_scores'] >= 3]
print('Num. outliers:', outliers_precios.shape[0])
outliers_precios.head()

In [None]:
print(f"Precio medio de todas las casas: {precios['price'].mean():.0f}")
print(f"Precio medio de los outliers:   {outliers_precios['price'].mean():.0f}")