# Análisis Exploratorio de Datos 
## Contratación de Seguros de Viajes

El dataset seleccionado contiene información proveniente de una compañía de viajes y turismo que está ofreciendo un paquete de seguro de viajes a sus clientes. El mismo tiene una dimensión de 10 columnas (incluyendo un índice) por 1987 filas y se encuentra en formato .csv.

### 1) Listado de variables y selección
##### Variables de entrada:
- Age (edad): variable numérica que indica la edad del cliente.
- Employment Type (tipo de empleo): variable de texto que indica el sector en el cuál trabaja el cliente (Government Sector, Private Sector/Self Employed).
- GraduateOrNot (graduado o no): variable de texto que indica si el cliente se graduó de la universidad o no (Yes, No).
- AnnualIncome (ingresos anuales): variable numérica que indica los ingresos anuales del cliente en rupias indias (redondeado a las 50000 rupias más cercanas).
- FamilyMembers (miembros familiares): variable numérica que indica el número de miembros perteneciente a la familia del cliente.
- ChronicDiseases (enfermedades crónicas): variable binaria que indica si el cliente sufre de alguna enfermedad importante o condiciones como diabetes, presión alta, asma, etc.
- FrequentFlyer (volador frecuente): variable de texto que indica si un cliente compra frecuentemente pasajes de avión (Yes, No).
- EverTravelledAbroad (viajó al extranjero): variable de texto que indica si el cliente viajó alguna vez a algún país extranjero (Yes, No).

Todas las variables de entrada serán utilizadas, ya que consideramos que guardan relación con la variable de salida.

##### Variable de salida:
- TravelInsurance (seguro de viaje): variable binaria que indica si el cliente contrató o no el seguro de viaje. Los valores posibles que puede tener son 0 que implica que el cliente no contrató el seguro, y 1 que indica que el cliente si contrató el seguro.

In [None]:
# Importamos las dependencias necesarias.
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import keras
import h5py
import PIL
import seaborn as sns
import plotly
import plotly.express as px
import sklearn_pandas

In [None]:
#Importamos el dataset.
dataset = pd.read_csv('TravelInsurancePrediction.csv')
#Seleccionamos la primer columna 'Idx', como índice.
dataset = dataset.set_index("Idx")
dataset.sample(5)

In [None]:
#Mostramos el tipo de dato de cada columna.
dataset.dtypes

In [None]:
#Mostramos las dimensiones del dataset.
dataset.shape

### 2) Análisis detallado de un conjunto de variables
#### Balanceo de la variable de salida

In [None]:
#Graficamos el balanceo de la variable de salida 'TravelInsurance'
dataset.TravelInsurance.value_counts().plot.pie(autopct='%1.0f%%',figsize=(8,8))

Se puede observar en el gráfico de torta, que existe un desbalance notorio de los valores de la variable de salida ‘TravelInsurance’, ya que el 64% de los clientes deciden no adquirir el seguro de viaje, mientras que el 36% de ellos si.   
Este sesgo, debido a la mayor cantidad de valores 0, podría afectar el entrenamiento del modelo y la medición del rendimiento ya que este podría aprender a predecir, que en la mayoría de los casos, los clientes no comprarán el seguro, para evitar fallar en dicha predicción.

#### Comportamiento de las variables de entrada y su relación con la variable de salida
##### Variable: AnnualIncome

In [None]:
px.histogram(dataset, x='AnnualIncome', color='TravelInsurance', barmode='group')

A partir de este histograma que refleja las cantidades de personas que contratan el seguro de viaje o no (TravelInsurance), con respecto a los ingresos anuales (AnnualIncome), podemos notar que existe una leve tendencia directamente proporcional entre la variable de entrada y la de salida. Si bien no es tan lineal esta relación, ya que hay ascensos y descensos, en general va creciendo la proporción de clientes que contratan y disminuyendo la proporción de los que no a medida que aumenta el ingreso.

##### Variable: Age

In [None]:
px.histogram(dataset, x='Age', color='TravelInsurance', barmode='group')

Con respecto a la edad de los clientes (Age) y teniendo en cuenta el histograma, podemos concluir que esta variable de entrada no mantiene una relación con la variable de salida (TravelInsurance), ya que en el gráfico no se observa ninguna tendencia. Esto quiere decir que la contratación de un seguro de viaje no va a depender, en gran medida, de la edad de los clientes de este dataset. Podríamos suponer, que esto puede deberse, en parte, a que la franja etaria que presenta el conjunto de datos es reducida, y no sabríamos por ejemplo, si un anciano contrataría o no un seguro en función de su edad.

##### Variable: ChronicDiseases

In [None]:
#dataset.TravelInsurance.value_counts().plot.pie(autopct='%1.0f%%',figsize=(8,8))
dataset[dataset.ChronicDiseases==0].TravelInsurance.value_counts().plot.pie(autopct='%1.0f%%',figsize=(8,8), title='No sufre enfermedades')

In [None]:
dataset[dataset.ChronicDiseases==1].TravelInsurance.value_counts().plot.pie(autopct='%1.0f%%',figsize=(8,8), title='Sufre enfermedades')

Esta variable de entrada (ChronicDiseases) no presenta una relación directa con respecto a la variable de salida (TravelInsurance). Esto lo podemos observar en los gráficos de torta, ya que el porcentaje de personas que contratan el seguro o no, varía muy poco si los clientes presentan enfermedades crónicas o no. El gráfico ‘No sufre enfermedades’ que relaciona las personas enfermas con la contratación o no del seguro mantiene una relación de 65% de que no contrata y 35% de que si contrata. Y por otro lado el gráfico ‘Sufre enfermedades’ que relaciona las personas sanas con la contratación o no del seguro mantiene una relación de 63% de que no contrata y 37% de que si contrata. Como se puede ver, solo hay una diferencia del 2% entre un gráfico y otro.

In [None]:
dataset.Age.describe()

In [None]:
dataset.FamilyMembers.describe()

In [None]:
dataset.AnnualIncome.describe()

In [None]:
dataset.isnull().sum()

In [None]:
ages = np.array(dataset.Age)

In [None]:
print(ages)

In [None]:
ages_unique, counts = np.unique(ages, return_counts = True)
size = counts * 3
colors = ['blue'] * len(ages_unique)
plt.axhline(1,color='k',linestyle='--')
plt.scatter(ages_unique,np.ones(len(ages_unique)),s=size,color=colors)
plt.yticks([])
plt.show()

In [None]:
incomes = np.array(dataset.AnnualIncome)
incomes_unique, counts = np.unique(incomes, return_counts = True)
size = counts * 8
colors = ['blue'] * len(incomes_unique)
plt.axhline(1,color='k',linestyle='--')
plt.scatter(incomes_unique,np.ones(len(incomes_unique)),s=size,color=colors)
plt.yticks([])
plt.show()

In [None]:
familyMembers = np.array(dataset.FamilyMembers)
familyMembers_unique, counts = np.unique(familyMembers, return_counts = True)
size = counts * 8
colors = ['blue'] * len(familyMembers_unique)
plt.axhline(1,color='k',linestyle='--')
plt.scatter(familyMembers_unique,np.ones(len(familyMembers_unique)),s=size,color=colors)
plt.yticks([])
plt.show()

In [None]:
dataset.duplicated(keep=True).count()