# Análisis Exploratorio de Datos 
## Contratación de Seguros de Viajes

El dataset seleccionado contiene información proveniente de una compañía de viajes y turismo que está ofreciendo un paquete de seguro de viajes a sus clientes. El mismo tiene una dimensión de 10 columnas (incluyendo un índice) por 1987 filas y se encuentra en formato .csv.

### 1) Listado de variables y selección
##### Variables de entrada:
- Age (edad): variable numérica que indica la edad del cliente.
- Employment Type (tipo de empleo): variable de texto que indica el sector en el cuál trabaja el cliente (Government Sector, Private Sector/Self Employed).
- GraduateOrNot (graduado o no): variable de texto que indica si el cliente se graduó de la universidad o no (Yes, No).
- AnnualIncome (ingresos anuales): variable numérica que indica los ingresos anuales del cliente en rupias indias (redondeado a las 50000 rupias más cercanas).
- FamilyMembers (miembros familiares): variable numérica que indica el número de miembros perteneciente a la familia del cliente.
- ChronicDiseases (enfermedades crónicas): variable binaria que indica si el cliente sufre de alguna enfermedad importante o condiciones como diabetes, presión alta, asma, etc.
- FrequentFlyer (volador frecuente): variable de texto que indica si un cliente compra frecuentemente pasajes de avión (Yes, No).
- EverTravelledAbroad (viajó al extranjero): variable de texto que indica si el cliente viajó alguna vez a algún país extranjero (Yes, No).

Todas las variables de entrada serán utilizadas, ya que consideramos que guardan relación con la variable de salida.

##### Variable de salida:
- TravelInsurance (seguro de viaje): variable binaria que indica si el cliente contrató o no el seguro de viaje. Los valores posibles que puede tener son 0 que implica que el cliente no contrató el seguro, y 1 que indica que el cliente si contrató el seguro.

In [None]:
# Importamos las dependencias necesarias.
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import keras
import h5py
import PIL
import seaborn as sns
import plotly
import plotly.express as px
import sklearn_pandas

In [None]:
np.set_printoptions(precision=2, suppress=True)

In [None]:
#Importamos el dataset.
dataset = pd.read_csv('TravelInsurancePrediction.csv')
#Seleccionamos la primer columna 'Idx', como índice.
dataset = dataset.set_index("Idx")
dataset.sample(5)

In [None]:
#Mostramos el tipo de dato de cada columna.
dataset.dtypes

In [None]:
#Mostramos las dimensiones del dataset.
dataset.shape

### 2) Análisis detallado de un conjunto de variables
#### Balanceo de la variable de salida

In [None]:
#Graficamos el balanceo de la variable de salida 'TravelInsurance'
dataset.TravelInsurance.value_counts().plot.pie(autopct='%1.0f%%',figsize=(8,8))

Se puede observar en el gráfico de torta, que existe un desbalance notorio de los valores de la variable de salida ‘TravelInsurance’, ya que el 64% de los clientes deciden no adquirir el seguro de viaje, mientras que el 36% de ellos si.   
Este sesgo, debido a la mayor cantidad de valores 0, podría afectar el entrenamiento del modelo y la medición del rendimiento ya que este podría aprender a predecir, que en la mayoría de los casos, los clientes no comprarán el seguro, para evitar fallar en dicha predicción.

#### Comportamiento de las variables de entrada y su relación con la variable de salida
##### Variable: AnnualIncome

Antes que nada analizaremos la distribución de los datos de la variable. Esto es importante ya que, como podemos ver en el histograma siguiente, la cantidad de clientes que ganan más de 1.5 millones de rupias son la minoría, por lo que no deberían tener tanto peso en el análisis con respecto a la cantidad de personas que adquieren el seguro o no.

In [None]:
px.histogram(dataset, x='AnnualIncome')

In [None]:
px.histogram(dataset, x='AnnualIncome', color='TravelInsurance', barmode='group')

Por otra parte, a partir de este histograma que refleja las cantidades de personas que contratan el seguro de viaje o no (TravelInsurance), con respecto a los ingresos anuales (AnnualIncome), podemos notar que existe una leve tendencia directamente proporcional entre la variable de entrada y la de salida. Si bien no es tan lineal esta relación, ya que hay ascensos y descensos, en general va creciendo la proporción de clientes que contratan y disminuyendo la proporción de los que no a medida que aumenta el ingreso.

##### Variable: Age

En primer lugar analizaremos la distribución de los datos de la variable. En este caso, como podemos ver en el histograma, los clientes con 28 años son la mayoría (aproximadamente un cuarto del dataset). Es importante tenerlo en cuenta al comparar la edad con la variable de salida porque puede llegar a predecirla erróneamente, ya que se deja influenciar por esta gran cantidad. 

In [None]:
px.histogram(dataset, x='Age')

In [None]:
px.histogram(dataset, x='Age', color='TravelInsurance', barmode='group')

Con respecto a la edad de los clientes (Age) y teniendo en cuenta el histograma, podemos concluir que esta variable de entrada no mantiene una relación con la variable de salida (TravelInsurance), ya que en el gráfico no se observa ninguna tendencia. Esto quiere decir que la contratación de un seguro de viaje no va a depender, en gran medida, de la edad de los clientes de este dataset. Podríamos suponer, que esto puede deberse, en parte, a que la franja etaria que presenta el conjunto de datos es reducida, y no sabríamos por ejemplo, si un anciano contrataría o no un seguro en función de su edad.  
Por otro lado, si pudimos notar un aumento de la cantidad de clientes de 28 años que no compran el seguro, pero esto puede ser debido a la distribución de la variable, como mencionamos anteriormente.

##### Variable: ChronicDiseases

Para analizar la distribución de esta variables debemos observar el siguiente gráfico. A partir de él podemos notar que el 28% de personas presentan enfermedades crónicas, mientras el 72% no. Esto demuestra que hay un desbalance en dicha variable, lo cual puede influir en el análisis de esta, con respecto a la variable de salida.

In [None]:
dataset.ChronicDiseases.value_counts().plot.pie(autopct='%1.0f%%',figsize=(5,5), title = 'Distribución')

In [None]:
dataset[dataset.ChronicDiseases==0].TravelInsurance.value_counts().plot.pie(autopct='%1.0f%%',figsize=(5,5), title='No sufre enfermedades')

In [None]:
dataset[dataset.ChronicDiseases==1].TravelInsurance.value_counts().plot.pie(autopct='%1.0f%%',figsize=(5,5), title='Sufre enfermedades')

Sin embargo, esta variable de entrada (ChronicDiseases) no presenta una relación directa con respecto a la variable de salida (TravelInsurance). Esto lo podemos observar en los gráficos de torta, ya que el porcentaje de personas que contratan el seguro o no, varía muy poco si los clientes presentan enfermedades crónicas o no. El gráfico ‘No sufre enfermedades’ que relaciona las personas enfermas con la contratación o no del seguro mantiene una relación de 65% de que no contrata y 35% de que si contrata. Y por otro lado el gráfico ‘Sufre enfermedades’ que relaciona las personas sanas con la contratación o no del seguro mantiene una relación de 63% de que no contrata y 37% de que si contrata. Como se puede ver, solo hay una diferencia del 2% entre un gráfico y otro.

In [None]:
##### Variable: FrequentFlyer

Antes que nada debemos analizar la distribución de esta variable. Observando el gráfico siguiente podemos notar que hay un desbalance, ya que el 79% de los clientes no son voladores frecuentes y el 21% si. Esta diferencia puede llegar a influenciar en la relación de dicha variable de entrada con respecto a la variable de salida, pudiendo generar predicciones no tan precisas.

In [None]:
dataset.FrequentFlyer.value_counts().plot.pie(autopct='%1.0f%%',figsize=(5,5), title = 'Distribución')

Esta variable de entrada (FrequentFlyer) no presenta una gran relación con respecto a la variable de salida (TravelInsurance). Sin embargo, como podemos observar en el gráfico de torta ‘No vuela frecuentemente’, solo el 30% de los clientes adquieren el seguro, mientras que el 70% no. Esto quiere decir que hay una leve tendencia entre los clientes que no son voladores frecuentes y el hecho de que no compran el seguro (cabe aclarar que esto puede verse influenciado por el desbalance explicado anteriormente).  
No obstante, esta relación no se refleja en el gráfico ‘Es volador frecuente’ ya que casi la mitad de las personas contrata el seguro (43%) y un poco más de la otra mitad no (57%).

In [None]:
dataset[dataset.FrequentFlyer=='Yes'].TravelInsurance.value_counts().plot.pie(autopct='%1.0f%%',figsize=(5,5), title='Vuela frecuentemente')

In [None]:
dataset[dataset.FrequentFlyer=='No'].TravelInsurance.value_counts().plot.pie(autopct='%1.0f%%',figsize=(5,5), title='No vuela frecuentemente')

##### Variable: EverTravelledAbroad

En primer lugar debemos analizar la distribución de esta variable. Observando el gráfico siguiente podemos notar que hay un desbalance en los valores, ya que el 81% de los clientes no son voladores frecuentes y el 19% si. Esta diferencia puede llegar a influenciar en la relación de dicha variable de entrada con respecto a la variable de salida, pudiendo generar predicciones un tanto imprecisas.

In [None]:
dataset.EverTravelledAbroad.value_counts().plot.pie(autopct='%1.0f%%',figsize=(5,5), title = 'Distribución')

Esta variable de entrada (EverTravelledAbroad) presenta una relación con respecto a la variable de salida (TravelInsurance) como podemos observar en el histograma, ya que de los clientes que alguna vez salieron del país, la gran mayoría adquieren el seguro, mientras que de los clientes que no salieron del país, una buena parte no adquiere el seguro. Esto quiere decir que hay una leve tendencia entre los que sí salieron del país y si compraron el seguro, y por otro lado entre los clientes que nunca salieron del país y el hecho de que no compraron el seguro. Esta última tendencia puede llegar a verse influenciada por el desbalance en la variable de entrada explicado anteriormente.

In [None]:
px.histogram(dataset, x='EverTravelledAbroad', color='TravelInsurance', barmode='group')

#### Transformaciones sobre las variables de entrada
En primer lugar y en general, decidimos que a ninguna de las variables las vamos a renombrar, ya que consideramos que son lo suficientemente descriptivas con respecto a lo que representan.    
  
Con respecto a cada variable:
  
    
##### Variable: Age
Una opción considerada es agrupar las edades en rangos de a 5 o de a 10 años, lo cual sería útil, ya que una persona con 21 y otra con 22 años no representa una diferencia significativa en algunos casos y se evitaría que el modelo haga asociaciones erróneas. Sin embargo, descartamos esta opción porque las edades van desde los 25 hasta los 35 y en este caso, un par de años pueden marcar una diferencia, ya que el rango etario es reducido. Por otra parte, cómo este campo está expresado en valores chicos (comparado con el campo de ingresos anuales) decidimos escalar entre valores de 0 y 1.

In [None]:
dataset.Age.describe()

##### Variable: EmploymentType
Como se trata de un columna de categorías, podríamos optar por implementar One Hot Encoder. No obstante, como sólo se trata de dos categorías, consideramos que es más simple convertir una sola de las categorías en una columna binaria que indique 1 si es empleado gubernamental, o 0 si es privado/independiente (no es gubernamental).

##### Variable: GraduateOrNot
Como representa un valor binario, pero está en texto, optamos por transformarla en una columna binaria (0 y 1).

##### Variable: AnnualIncome
Cómo este campo está expresado en valores muy grandes (comparado con los campos de edad y cantidad de familiares) decidimos escalar entre valores de 0 y 1.

In [None]:
dataset.AnnualIncome.describe().apply(lambda x: format(x, 'f'))

##### Variable: FamilyMembers
Como este campo está expresado en valores chicos (comparado con el campo de ingresos anuales) decidimos escalar entre valores de 0 y 1.

In [None]:
dataset.FamilyMembers.describe()

##### Variable: ChronicDiseases
Optamos por no transformarla, ya que se trata de una variable binaria correctamente representada.  

##### Variable: FrequentFlyer
Como representa un valor binario, pero está en texto, optamos por transformarla en una columna binaria (0 y 1).  

##### Variable: EverTravelledAbroad
Como representa un valor binario, pero está en texto, optamos por transformarla en una columna binaria (0 y 1).


#### Valores null, valores extremos y otros
Como ninguna de las variables de entrada presentan valores nulos, no debemos aplicar ningún tratamiento.

In [None]:
dataset.isnull().sum()

Para el caso de los valores extremos, tampoco debemos aplicar tratamientos, ya que no se presentan en ninguno de los campos numéricos. Esto lo podemos comprobar en los siguientes gráficos que muestran la distribución de los valores.

In [None]:
ages = np.array(dataset.Age)

In [None]:
ages_unique, counts = np.unique(ages, return_counts = True)
size = counts * 3
colors = ['blue'] * len(ages_unique)
plt.axhline(1,color='k',linestyle='--')
plt.scatter(ages_unique,np.ones(len(ages_unique)),s=size,color=colors)
plt.yticks([])
plt.show()

In [None]:
incomes = np.array(dataset.AnnualIncome)
incomes_unique, counts = np.unique(incomes, return_counts = True)
size = counts * 8
colors = ['blue'] * len(incomes_unique)
plt.axhline(1,color='k',linestyle='--')
plt.scatter(incomes_unique,np.ones(len(incomes_unique)),s=size,color=colors)
plt.yticks([])
plt.show()

In [None]:
familyMembers = np.array(dataset.FamilyMembers)
familyMembers_unique, counts = np.unique(familyMembers, return_counts = True)
size = counts * 8
colors = ['blue'] * len(familyMembers_unique)
plt.axhline(1,color='k',linestyle='--')
plt.scatter(familyMembers_unique,np.ones(len(familyMembers_unique)),s=size,color=colors)
plt.yticks([])
plt.show()

Podemos agregar que no será necesario eliminar columnas duplicadas porque no hay.
Tampoco será necesario eliminar filas duplicadas, ya que debido a la estructura de este dataset, descartar filas que son iguales podría llegar a eliminar conocimiento útil para el modelo, porque a pesar de que pueda haber mas de una filas con los mismos valores, estos puede tratarse de datos de clientes diferentes.