# PROBABILIDAD Y VARIABLES ALEATORIAS I
## INTRODUCCIÓN AL ANÁLISIS EXPLORATORIO DE LOS DATOS 
### Madrid, 9 de febrero de 2022
### Ángeles Garrido

# **ANÁLISIS EXPLORATORIO DE DATOS**

El análisis exploratorio de datos (*EDA, Exploratory Data Analysis*) es entender los datos resumiendo sus principales características, generalmente utilizando medidas, estimadores y algún tipo de representación gráfica. Este es un paso muy importante para llegar a la modelización de los datos que luego se puede utilizar para aplicar Machine learning para algún tipo de análisis predictivo. 

Explorar los datos no es tarea sencilla, y además no hay un método que siempre funcione sino que hay que investigar según cada conjunto de datos.

Suele llevar una cantidad de tiempo considerable para llegar a conocer realmente las características de los datos en estudio. 

## COMPRENDER LOS DATOS ES TODO UN ARTE

**¿Cómo realizamos el análisis exploratorio?**

La respuesta correcta sería: Depende de cada problema y conjunto de datos. 

Básicamente porque depende del conjunto de datos que se esté analizando. No existe una única receta que se aplique y funcione para todos los casos. 

La idea fundamental es **aplicar diferentes herramientas y estrategias que nos permitan tener una mejor idea**.

## 1. Importamos las librerías necesarias

A continuación tenemos los paquetes que vamos a utilizar en este ejercicio. Esto lo hacemos siempre al principio.

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns                       #conjunto de datos y visualisation
import matplotlib.pyplot as plt             #visualisation
%matplotlib inline  

## 2. Cargamos el conjunto de datos

El conjunto de datos se llama "titanic" y tiene información sobre los datos de los sobrevivientes a la tragedia del Titanic.

La tragedia del Titanic El hundimiento del Titanic es uno de los naufragios más infames de la historia. El 15 de abril de 1912, durante su viaje inaugural, el Titanic se hundió después de chocar con un iceberg, matando a miles de personas. Esta tragedia sensacional conmocionó a la comunidad internacional y condujo a mejores normas de seguridad aplicables a los buques. Una de las razones por las que el naufragio dio lugar a semejante cantidad de muertes fue que no había suficientes botes salvavidas para los pasajeros y la tripulación. Aunque hubo algún elemento de suerte involucrada en sobrevivir al hundimiento, algunos grupos de personas tenían más probabilidades de sobrevivir que otros, como las mujeres, los niños y la clase alta.

El siguiente dataset proporciona información sobre el destino de los pasajeros en el viaje fatal del trasatlántico Titanic, que se resume de acuerdo con el nivel económico (clase), el sexo, la edad y la supervivencia.

**Descripción de las variables**

**Variable: definición	(información adicional)**


Survived: Survival	(0 = No, 1 = Yes)

Pclass: Ticket (class	1 = 1st, 2 = 2nd, 3 = 3rd)

Sex: Sex (male, female)

Age: Age (in years)

Sibsp: 	number of siblings / spouses aboard the Titanic

Parch: number of parents / children aboard the Titanic

Fare: Passenger fare

Embarked:	Port of Embarkation	(C = Cherbourg, Q = Queenstown,S = Southampton)

Class: Passenger class (Third, First, Second)

Who: man (18+), woman (18+), child (<18)

adult_male: A male 18 or older (False = No, True=Yes)

deck: Deck of the ship

embarked_town: Port of embarkation ( Cherbourg, Queenstown, Southampton)

alone: True= alone, False= not alone ( you have at least 1 sibling, spouse, parent or child on board)

Información adicional 

Sibsp: The dataset defines family relations in this way...
Sibling = brother, sister, stepbrother, stepsister
Spouse = husband, wife (mistresses and fiancés were ignored)

Parch: The dataset defines family relations in this way...
Parent = mother, father
Child = daughter, son, stepdaughter, stepson
Some children travelled only with a nanny, therefore parch=0 for them.

In [None]:
# importando el dataset
titanic = sns.load_dataset('titanic')
titanic

In [None]:
# Visualizamos los primeros 10 registros
titanic.head(10)

In [None]:
# Visualizamos los últimos 10 registros
titanic.tail(10)

Y también podemos usar la función `len` para que nos diga cuántos registros tiene este *dataframe*:

In [None]:
len(titanic)

O también podemos usar shape que nos va a devolver una tupla con la cantidad de registros (filas) y la cantidad de variables (columnas) por registro:

In [None]:
titanic.shape

Visualizamos el nombre de las columnas del dataset. Observa que es un array/vector

In [None]:
titanic.columns.values

In [None]:
#Nombre de las variables
print (titanic.columns.values)

La función "info" nos proporciona un primer vistazo de las columnas, su posición en el vector de variables, nombre de la columna, si tiene nulos y el tipo

In [None]:
titanic.info()

Y por último, podemos usar el atributo `describe` del *dataframe* para conocer los estadísticos descriptivos básicos del dataframe como son:

* count: Cantidad de valores no nulos
* mean: Media
* std: Desviación estandar
* min/25%/50%/75%/max: Valores mínimo, de percentiles 25, 50 y 75 y máximo.

Observa que lo hace para las variables numéricas

In [None]:
titanic.describe()

## 3. Revisando los tipos de datos de cada columna

Este paso es importante porque muchas veces por ejemplo, el precio o algún otro dato puede venir como una cadena de texto cuando en realidad queremos que sea un número de algún tipo. Si éste fuera el caso, tenemos que hacer la transformación del tipo de dato en la columna. 

En este caso en particular, por suerte, los datos vinieron correctamente.

In [None]:
titanic.dtypes

En muchas ocasiones tendrá sentido definir nuevas variables de interés. 
Creamos una nueva variable llamada "nueva". 
La renombramos a "columna_nueva"
Después la eliminamos

In [None]:
titanic['nueva']=titanic['age']/10
titanic.head(5)

In [None]:
titanic = titanic.rename(columns={"nueva": "columna_nueva" })
titanic.head(5)

Las opciones de la función drop:

axis = 0 (elimina fila) 
axis = 1 (elimina columna) 

inplace: Booleano. Si toma el valor True, la eliminación se realiza en el mismo dataframe. Si toma el valor False, el método devuelve una copia del dataframe tras eliminar las filas o columnas especificadas

In [None]:
titanic.drop('columna_nueva', axis=1, inplace=True) #elimino la variable, 
titanic.head(5)

## 6. Eliminando registros duplicados

Es altamente probable que en un dataset de muchos registros algunos de ellos se encuentren duplicados. Tener registros duplicados en nuestro análisis puede alterar los resultados y, como consecuencia, nuestras conclusiones y el modelo que proponemos.

Con shape vemos que el dataframe  tiene ahora 784 filas, por tanto ha eliminado 107 registros duplicados. Habría que ver con anterioridad qué registros son y por qué están duplicados para posteriormente eliminarlos.

In [None]:
titanic.shape

In [None]:
titanic = titanic.drop_duplicates()

In [None]:
titanic.shape

## 7. Conocer los registros con **variables NO INFORMADAS**. 
##ATENCIÓN NO ES RECOMENDABLE ELIMINARLOS

Ahora queremos saber los registros que tengan alguna variable con valor no informado.

Es común que, en vez de eliminar estos registros, se reemplacen los valores no informados por el valor promedio. PERO....
Estas prácticas **NO SON ACONSEJABLES**, ya que tenemos que analizar muy bien previamente por qué están no informados ya que nos podrían dar mucha información oculta.

En los ejemplos académicos se hace para que no molesten al hacer modelos matemáticos, pero en la realidad hay técnicas para tratarlos y que se utilicen como variables explicativas para los modelos matemáticos.

La función count nos informa por columna cuántos registros tienen valores informados (por tanto conozco los no informados)

In [None]:
titanic.count()

Contamos los valores no informados de cada variable

In [None]:
titanic.isnull().sum()

#8. Tabla de frecuencias

La tabla de frecuencias nos acerca más a la comprensión de los datos.

Para variables categóricas (nominales) agrupar es fácil; simplemente debemos contar el número de ítems que corresponden a cada categoría y apilarlos. 

Veámoslo para las diferentes clases de pasajeros. Podemos organizar estos conteos en una tabla de frecuencias, que registra los totales y los nombres de las categorías utilizando la función value_counts que nos proporciona Pandas.

In [None]:
# tabla de frecuencias de clases de pasajeros
pd.value_counts(titanic['class'])

Contar la frecuencia de cada categoría puede ser útil, pero a veces puede resultar más útil saber la fracción o **proporción de los datos de cada categoría**, así que podríamos entonces dividir los recuentos por el **total de casos** para obtener los **porcentajes que representa cada categoría**.

Una tabla de frecuencia relativa muestra los porcentajes, en lugar de los recuentos de los valores en cada categoría. 

In [None]:
len(titanic['class'])

In [None]:
# tabla de frecuencia relativa de pasajeros
100 * titanic['class'].value_counts() / len(titanic['class'])

## 9. Detectando valores atípicos

Un valor **atípico** es un punto (o valor) que es diferente de otros datos en el dataset. A veces pueden ser valores que **están muy por debajo** o **muy por encima**. 

Estos valores atípicos suelen generar modelos que no resultan representativos. Es por ello que es una buena alternativa saber que están y analizar si tenemos que eliminarlos del dataset.  

Más abajo vemos cómo con Boxplot (o diagrama de cajas) podemos observar los valores atípicos rápidamente. 

In [None]:
sns.boxplot(data=titanic)

Vemos rápidamente que la variable "fare" tiene un valor atípico. 

Analicemos por separado esta variable

In [None]:
sns.boxplot(data=titanic['fare'])

In [None]:
titanic.mean()

In [None]:
titanic.median()

In [None]:
sns.boxplot(data=titanic['age'])

Analicemos la dispersión de la tarifa del billete que como se ve, tiene valores outliers.

In [None]:
sns.distplot(titanic['fare'])  # función de densidad
titanic['fare'].describe()     #información descriptiva

Se observa que "fare" tiene una larga cola hacia la derecha (outliers).

Analicemos los deciles y algunos percentiles para entender esos valores anómalos. Para esto, usaremos el método quantile para calcular los percentiles.

* Los cuartiles, que dividen a la distribución en cuatro partes (corresponden a los cuantiles 0,25; 0,50 y 0,75);
* Los quintiles, que dividen a la distribución en cinco partes (corresponden a los cuantiles 0,20; 0,40; 0,60 y 0,80);
* Los deciles, que dividen a la distribución en diez partes;
* Los percentiles, que dividen a la distribución en cien partes.
* En el método Quantile: 0, 0.5 y 1 equivalen a valores mínimo, mediana y máximo.

In [None]:
sns.boxplot(x=titanic['fare'])
titanic['fare'].quantile([0, .1, .2, .3, .4, .5, .6, .7, .8, .9, .97, .98, .99, 1])

Veamos ahora la variable EDAD (AGE)

In [None]:
sns.distplot(titanic['age'])  # función de densidad
titanic['age'].describe()    #información descriptiva

In [None]:
sns.boxplot(x=titanic['fare'])
titanic['age'].quantile([0, .01, .05, .09, .1, .2, .3, .4, .5, .6, .7, .8, .9, .97, .98, .99, 1])

In [None]:
# Cuartiles
titanic['age'].quantile([0, .25, .5, .75, 1])

## 10. Gráficas

### Histograma

El histograma es una gráfica que representa la cantidad de ocurrencias de una variable en un intervalo determinado. 

El histograma o gráfico de barras nos ayuda a dar una impresión visual más precisa de la distribución de nuestros datos. La altura de cada barra muestra el recuento de su categoría. Los barras tienen el mismo ancho, por lo que sus alturas determinan sus áreas, y estas áreas son proporcionales a los recuentos en cada categoría. 

De esta forma, podemos ver fácilmente que había más del doble de pasajeros de tercera clase, que de primera o segunda clase. 

Los histogramas hacen que este tipo de comparaciones sean fáciles y naturales. Veamos cómo podemos crearlos de forma sencilla utilizando el método plot dentro de un DataFrame de Pandas.


**Atención con variables continuas** 

En este punto, debemos ser sumamente cuidadosos, ya que una mala visualización puede llegar a distorsionar nuestra comprensión, en lugar de ayudarnos. Y además, podríamos llegar a tener una visualización "engañosa" de la realidad.



In [None]:
titanic["class"].value_counts().plot(kind='bar', figsize=(10,5))
plt.title("Pasajeros del Titanic")
plt.ylabel('Cantidad de pasajeros')
plt.xlabel('Clase');

Si quisiéramos enfocarnos en la proporción relativa de los pasajeros de cada una de las clases, simplemente podemos sustituir a los recuentos con porcentajes y utilizar un histograma de frecuencias relativas.

In [None]:
# Histograma de frecuencias relativas (en porcentaje)
plot = (100 * titanic['class'].value_counts() / len(titanic['class'])).plot(
kind='bar', title='Pasajeros del Titanic %')

Otra forma de representación es el gráfico de tartas que en ocasiones es muy ilustrativo y de fácil comprensión.

In [None]:
# Gráfico de tarta de pasajeros del Titanic
plot = titanic['class'].value_counts().plot(kind='pie', autopct='%.2f', 
                                            figsize=(6, 6),
                                            title='Pasajeros del Titanic')                                


#Análisis de la Dispersión

Hacemos una representación gráfica de 2 variables para encontrar correlación entre ellas. 

Ahora vamos a representar la EDAD frente a "FARE".



No se aprecia correlación entre AGE y FARE.

In [None]:
fig, ax = plt.subplots(figsize=(10,6))
ax.scatter(titanic['age'], titanic['fare'])
ax.set_xlabel('age')
ax.set_ylabel('fare')
plt.show()

Matriz de correlaciones

In [None]:
titanic.corr()

Efectivamente la matriz de correlaciones no nos arroja mucha luz por el hecho de tener muchas variables categóricas nos afecta a la hora de emplear este método de correlación

#Relacionando variables categóricas

Al analizar la tragedia del Titanic, una de las preguntas que nos podríamos hacer es:

**¿existe alguna relación entre la clase de pasajeros y la posibilidad de alcanzar un bote salvavidas y sobrevivir a la tragedia?**

Para poder responder a esta pregunta, vamos a necesitar analizar las variables **CLASS** y **SURVIVED** de nuestro dataset en forma conjunta. 

Una buena forma de analizar dos variables categóricas (nominales) en forma conjunta, es agrupar los recuentos en una tabla de doble entrada; este tipo de tablas se conocen en estadística con el nombre de **tabla de contingencia**. 

Emplearemos para ello la función crosstab de Pandas.

In [None]:
# Tabla de contingencia class / survived
pd.crosstab(index=titanic['survived'],
            columns=titanic['class'], margins=True)

En porcentajes relativos del total de pasajeros

In [None]:
# tabla de contingencia en porcentajes relativos total
pd.crosstab(index=titanic['survived'], columns=titanic['class'],
            margins=True).apply(lambda r: r/len(titanic) *100,
                                axis=1)

**Interpretación de la tabla de contingencia**

Con esta tabla podemos ver fácilmente que solo el 41% de los pasajeros sobrevivió a la tragedia y que este 41% se compone de la siguiente forma: del total de pasajeros sobrevivió un 17,21% de pasajeros que eran de primera clase, un 10.7% que eran de segunda clase y un 13.26% que eran pasajeros de tercera clase.

Volviendo a nuestra pregunta inicial sobre la posibilidad de sobrevivir según la clase de pasajero, podría ser más útil mostrar la tabla de porcentajes como un **porcentaje relativo sobre el total de cada fila**, es decir calcular el **porcentaje relativo de haber sobrevivido o no para cada una de las clases**. 

Esto lo podemos realizar del siguiente modo:

In [None]:
# tabla de contingencia en porcentajes relativos segun si ha sobrevivido o no
pd.crosstab(index=titanic['survived'], columns=titanic['class']
           ).apply(lambda r: r/r.sum() *100,
                                axis=1)

Y por fin la tabla que todos estábamos esperando, la distribución o reparto porcentual por cada una de las categorias.. donde observaremos lo que ya todos esperábamos...

In [None]:
# tabla de contingencia en porcentajes relativos segun cada clase
pd.crosstab(index=titanic['survived'], columns=titanic['class']
           ).apply(lambda r: r/r.sum() *100,
                                axis=0)

Este último resultado lo podríamos representar visualmente con simples gráfico de barras del siguiente modo:

In [None]:
# Gráfico de barras de sobreviviviente segun clase

plot = pd.crosstab(index=titanic['class'],
            columns=titanic['survived']).apply(lambda r: r/r.sum() *100,
                                              axis=1).plot(kind='bar',figsize=(10,8))

O también así

In [None]:
# Gráfico de barras de sobreviviviente segun clase
plot = pd.crosstab(index=titanic['survived'],
            columns=titanic['class']
                  ).apply(lambda r: r/r.sum() *100,
                          axis=0).plot(kind='bar', stacked=True, figsize=(10, 8))

# EJERCICIO

##1.- Encuentra otras variables que creas que podrían justificar la SUPERVIVENCIA de los pasajeros.

##2.- Justifica tu respuesta
