# Análisis Exploratorio de Datos 
## Contratación de Seguros de Viajes

El dataset seleccionado contiene información proveniente de una compañía de viajes y turismo que está ofreciendo un paquete de seguro de viajes a sus clientes. El mismo tiene una dimensión de 10 columnas (incluyendo un índice) por 1987 filas y se encuentra en formato .csv.

### 1) Listado de variables y selección
**Variables de entrada:**
- Age (edad): variable numérica que indica la edad del cliente.
- EmploymentType (tipo de empleo): variable de texto que indica el sector en el cuál trabaja el cliente (Government Sector, Private Sector/Self Employed).
- GraduateOrNot (graduado o no): variable de texto que indica si el cliente se graduó de la universidad o no (Yes, No).
- AnnualIncome (ingresos anuales): variable numérica que indica los ingresos anuales del cliente en rupias indias (redondeado a las 50000 rupias más cercanas).
- FamilyMembers (miembros familiares): variable numérica que indica el número de miembros perteneciente a la familia del cliente.
- ChronicDiseases (enfermedades crónicas): variable binaria que indica si el cliente sufre de alguna enfermedad importante o condiciones como diabetes, presión alta, asma, etc.
- FrequentFlyer (volador frecuente): variable de texto que indica si un cliente compra frecuentemente pasajes de avión (Yes, No).
- EverTravelledAbroad (viajó al extranjero): variable de texto que indica si el cliente viajó alguna vez a algún país extranjero (Yes, No).

Todas las variables de entrada serán utilizadas, ya que consideramos que guardan relación con la variable de salida.

**Variable de salida:**
- TravelInsurance (seguro de viaje): variable binaria que indica si el cliente contrató o no el seguro de viaje. Los valores posibles que puede tener son 0 que implica que el cliente no contrató el seguro, y 1 que indica que el cliente si contrató el seguro.

In [None]:
# Importamos las dependencias necesarias.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly
import plotly.express as px
import sklearn_pandas
from matplotlib import gridspec

In [None]:
# Importamos el dataset.
dataset = pd.read_csv('TravelInsurancePrediction.csv')

# Seleccionamos la primer columna 'Idx', como índice.
dataset = dataset.set_index("Idx")
dataset.sample(5)

In [None]:
# Mostramos el tipo de dato de cada columna.
dataset.dtypes

In [None]:
# Mostramos las dimensiones del dataset.
dataset.shape

### 2) Análisis detallado de un conjunto de variables
#### a. Balanceo de la variable de salida

In [None]:
# Graficamos la distribución de la variable de salida.
dataset.TravelInsurance.value_counts().plot.pie(autopct='%1.0f%%',figsize=(5,5))

Se puede observar en el gráfico de torta, que existe un desbalance de los valores de la variable de salida ‘TravelInsurance’, ya que el 64% de los clientes deciden no adquirir el seguro de viaje, mientras que el 36% de ellos si.   
Este sesgo, debido a la mayor cantidad de valores 0, podría afectar el entrenamiento del modelo y la medición del rendimiento ya que este podría aprender a predecir, que en la mayoría de los casos, los clientes no comprarán el seguro, para evitar fallar en dicha predicción.

#### b. Comportamiento de las variables de entrada y su relación con la variable de salida
##### Variable: AnnualIncome

Antes que nada analizaremos la distribución de los datos de la variable. Esto es importante ya que, como podemos ver en el histograma siguiente, la cantidad de clientes que ganan más de 1.5 millones de rupias son la minoría, por lo que no deberían tener tanto peso en el análisis con respecto a la cantidad de personas que adquieren el seguro o no.

In [None]:
# Graficamos la distribución de la variable de entrada.
px.histogram(dataset, x='AnnualIncome', title = 'Distribución')

In [None]:
# Graficamos la relación entre la variable de entrada y la de salida.
px.histogram(dataset, x='AnnualIncome', color='TravelInsurance', barmode='group')

Por otra parte, a partir de este histograma que refleja las cantidades de personas que contratan el seguro de viaje o no (TravelInsurance), con respecto a los ingresos anuales (AnnualIncome), podemos notar que existe una leve tendencia directamente proporcional entre la variable de entrada y la de salida. Si bien no es tan lineal esta relación, ya que hay ascensos y descensos, en general va creciendo la proporción de clientes que contratan y disminuyendo la proporción de los que no, a medida que aumenta el ingreso.

##### Variable: Age
En primer lugar analizaremos la distribución de los datos de la variable. En este caso, como podemos ver en el histograma, los clientes con 28 años son la mayoría (aproximadamente un cuarto del dataset). Es importante tenerlo en cuenta al comparar la edad con la variable de salida porque puede llegar a predecirla erróneamente, ya que se podría dejar influenciar por esta gran cantidad. 

In [None]:
# Graficamos la distribución de la variable de entrada.
px.histogram(dataset, x='Age', title = 'Distribución')

In [None]:
# Graficamos la relación entre la variable de entrada y la de salida.
px.histogram(dataset, x='Age', color='TravelInsurance', barmode='group')

Con respecto a la edad de los clientes (Age) y teniendo en cuenta el histograma, podemos concluir que esta variable de entrada no mantiene una relación con la variable de salida (TravelInsurance), ya que en el gráfico no se observa ninguna tendencia. Esto quiere decir que la contratación de un seguro de viaje no va a depender, en gran medida, de la edad de los clientes de este dataset. Podríamos suponer, que esto puede deberse, en parte, a que la franja etaria que presenta el conjunto de datos es reducida, y no sabríamos por ejemplo, si un anciano contrataría o no un seguro en función de su edad.  
Por otro lado, sí pudimos notar un aumento de la cantidad de clientes de 28 años que no compran el seguro, pero esto puede ser debido a la distribución de la variable, como mencionamos anteriormente.

##### Variable: ChronicDiseases
Para analizar la distribución de esta variable debemos observar el siguiente gráfico. A partir de él podemos notar que el 28% de personas presentan enfermedades crónicas, mientras que el 72% no. Esto demuestra que hay un desbalance en dicha variable, lo cual puede influir en el análisis de esta, con respecto a la variable de salida.

In [None]:
# Graficamos la distribución de la variable de entrada.
dataset.ChronicDiseases.value_counts().plot.pie(autopct='%1.0f%%',figsize=(5,5), title = 'Distribución')

In [None]:
# Graficamos la relación entre la variable de entrada y la de salida.
fig1 = plt.figure(constrained_layout=True, figsize = (10,10))
spec1 = gridspec.GridSpec(ncols=2, nrows=1, figure=fig1)
f1_ax1 = fig1.add_subplot(spec1[0,0])
f1_ax2 = fig1.add_subplot(spec1[0,1])
dataset[dataset.ChronicDiseases==0].TravelInsurance.value_counts().plot.pie(autopct='%1.0f%%', ax=f1_ax1, title='No sufre enfermedades', figsize=(7,7))
dataset[dataset.ChronicDiseases==1].TravelInsurance.value_counts().plot.pie(autopct='%1.0f%%', ax=f1_ax2, title='Sufre enfermedades', figsize=(7,7))

Sin embargo, esta variable de entrada (ChronicDiseases) no presenta una relación directa con respecto a la variable de salida (TravelInsurance). Esto lo podemos observar en los gráficos de torta, ya que el porcentaje de personas que contratan el seguro o no, varía muy poco si los clientes presentan enfermedades crónicas o no. El gráfico ‘No sufre enfermedades’ que relaciona las personas enfermas con la contratación o no del seguro mantiene una relación de 65% de que no contrata y 35% de que si contrata. Y por otro lado el gráfico ‘Sufre enfermedades’ que relaciona las personas sanas con la contratación o no del seguro mantiene una relación de 63% de que no contrata y 37% de que si contrata. Como se puede ver, solo hay una diferencia del 2% entre un gráfico y otro.

##### Variable: FrequentFlyer
Antes que nada debemos analizar la distribución de esta variable. Observando el gráfico siguiente podemos notar que hay un desbalance, ya que el 79% de los clientes no son voladores frecuentes y el 21% si. Esta diferencia puede llegar a influenciar en la relación de dicha variable de entrada con respecto a la variable de salida, pudiendo generar predicciones no tan precisas.

In [None]:
# Graficamos la distribución de la variable de entrada.
dataset.FrequentFlyer.value_counts().plot.pie(autopct='%1.0f%%',figsize=(5,5), title = 'Distribución')

Esta variable de entrada (FrequentFlyer) no presenta una gran relación con respecto a la variable de salida (TravelInsurance). Sin embargo, como podemos observar en el gráfico de torta ‘No vuela frecuentemente’, solo el 30% de los clientes adquieren el seguro, mientras que el 70% no. Esto quiere decir que hay una leve tendencia entre los clientes que no son voladores frecuentes y el hecho de que no compran el seguro (cabe aclarar que esto puede verse influenciado por el desbalance explicado anteriormente).  
No obstante, esta relación no se refleja en el gráfico ‘Es volador frecuente’ ya que casi la mitad de las personas contrata el seguro (43%) y un poco más de la otra mitad no (57%).

In [None]:
# Graficamos la relación entre la variable de entrada y la de salida.
fig2 = plt.figure(constrained_layout=True, figsize = (10,10))
spec2 = gridspec.GridSpec(ncols=2, nrows=1, figure=fig2)
f2_ax1 = fig2.add_subplot(spec2[0,0])
f2_ax2 = fig2.add_subplot(spec2[0,1])

dataset[dataset.FrequentFlyer=='Yes'].TravelInsurance.value_counts().plot.pie(autopct='%1.0f%%', ax=f2_ax1, figsize=(7,7), title='Vuela frecuentemente')
dataset[dataset.FrequentFlyer=='No'].TravelInsurance.value_counts().plot.pie(autopct='%1.0f%%', ax=f2_ax2, figsize=(7,7), title='No vuela frecuentemente')

##### Variable: EverTravelledAbroad
En primer lugar debemos analizar la distribución de esta variable. Observando el gráfico siguiente podemos notar que hay un desbalance en los valores, ya que el 81% de los clientes no son voladores frecuentes y el 19% si. Esta diferencia puede llegar a influenciar en la relación de dicha variable de entrada con respecto a la variable de salida, pudiendo generar predicciones un tanto imprecisas.

In [None]:
# Graficamos la distribución de la variable de entrada.
dataset.EverTravelledAbroad.value_counts().plot.pie(autopct='%1.0f%%',figsize=(5,5), title = 'Distribución')

Esta variable de entrada (EverTravelledAbroad) presenta una relación con respecto a la variable de salida (TravelInsurance) como podemos observar en el histograma, ya que de los clientes que alguna vez salieron del país, la gran mayoría adquieren el seguro, mientras que de los clientes que no salieron del país, una buena parte no adquiere el seguro. Esto quiere decir que hay una leve tendencia entre los que sí salieron del país y si compraron el seguro, y por otro lado entre los clientes que nunca salieron del país y el hecho de que no compraron el seguro. Esta última tendencia puede llegar a verse influenciada por el desbalance en la variable de entrada explicado anteriormente.

In [None]:
# Graficamos la relación entre la variable de entrada y la de salida.
px.histogram(dataset, x='EverTravelledAbroad', color='TravelInsurance', barmode='group')

#### c. Transformaciones sobre las variables de entrada
En general los nombres de las variables son bastante descriptivas, pero decidimos que las renombraremos para reemplazar las mayúsculas por minúsculas e incorporar el guión bajo, con el objetivo de respetar el formato de escritura. Además, la variable 'Employment Type' presenta un espacio entre palabras, lo cual debe eliminarse ya que generaría problemas a la hora de utilizarla.    

In [None]:
# Para este TP solo eliminamos el espacio mencionado.
dataset = dataset.rename(columns={'Employment Type':'EmploymentType'})
dataset.EmploymentType.describe()

**Con respecto a cada variable:**
##### Variable: Age
Una opción considerada es agrupar las edades en rangos de a 5 o de a 10 años, lo cual sería útil, ya que una persona con 21 y otra con 22 años no representa una diferencia significativa en algunos casos y se evitaría que el modelo haga asociaciones erróneas. Sin embargo, descartamos esta opción porque las edades van desde los 25 hasta los 35 y en este caso, un par de años pueden marcar una diferencia, ya que el rango etario es reducido. Por otra parte, cómo este campo está expresado en valores chicos (comparado con el campo de ingresos anuales) decidimos escalar entre valores de 0 y 1.

In [None]:
# Mostramos las característocas de la variable.
dataset.Age.describe()

##### Variable: EmploymentType
Como se trata de un columna de categorías, podríamos optar por implementar One Hot Encoder. No obstante, como sólo se trata de dos categorías, consideramos que es más simple convertir una sola de las categorías en una columna binaria que indique 1 si es empleado gubernamental, o 0 si es privado/independiente (no es gubernamental).

##### Variable: GraduateOrNot
Como representa un valor binario, pero está en texto, optamos por transformarla en una columna binaria (0 y 1).

##### Variable: AnnualIncome
Cómo este campo está expresado en valores muy grandes (comparado con los campos de edad y cantidad de familiares) decidimos escalar entre valores de 0 y 1.

In [None]:
# Mostramos las característocas de la variable.
dataset.AnnualIncome.describe().apply(lambda x: format(x, 'f'))

##### Variable: FamilyMembers
Como este campo está expresado en valores chicos (comparado con el campo de ingresos anuales) decidimos escalar entre valores de 0 y 1.

In [None]:
# Mostramos las característocas de la variable.
dataset.FamilyMembers.describe()

##### Variable: ChronicDiseases
Optamos por no transformarla, ya que se trata de una variable binaria correctamente representada.  

##### Variable: FrequentFlyer
Como representa un valor binario, pero está en texto, optamos por transformarla en una columna binaria (0 y 1).  

##### Variable: EverTravelledAbroad
Como representa un valor binario, pero está en texto, optamos por transformarla en una columna binaria (0 y 1).


#### d. Valores null, valores extremos y otros
Como ninguna de las variables de entrada presentan valores nulos, no debemos aplicar ningún tratamiento.

In [None]:
# Sumamos la cantidad de valores null por cada variable.
dataset.isnull().sum()

Para el caso de los valores extremos, tampoco debemos aplicar tratamientos, ya que no se presentan en ninguno de los campos numéricos. Esto lo podemos comprobar en los siguientes gráficos que muestran la distribución de los valores.

In [None]:
# Convertimos en array al campo Age.
ages = np.array(dataset.Age)

# Armamos un diagrama de dispersión con la variable Age.
ages_unique, counts = np.unique(ages, return_counts = True)
size = counts * 3
colors = ['blue'] * len(ages_unique)
plt.axhline(1,color='k',linestyle='--')
plt.scatter(ages_unique,np.ones(len(ages_unique)),s=size,color=colors)
plt.yticks([])
plt.show()

In [None]:
# Convertimos en array a la variable AnnualIncome.
incomes = np.array(dataset.AnnualIncome)

# Armamos un diagrama de dispersión con la variable AnnualIncome.
incomes_unique, counts = np.unique(incomes, return_counts = True)
size = counts * 8
colors = ['blue'] * len(incomes_unique)
plt.axhline(1,color='k',linestyle='--')
plt.scatter(incomes_unique,np.ones(len(incomes_unique)),s=size,color=colors)
plt.yticks([])
plt.show()

In [None]:
# Convertimos en array a la variable FamilyMembers.
familyMembers = np.array(dataset.FamilyMembers)

# Armamos un diagrama de dispersión con la variable FamilyMembers.
familyMembers_unique, counts = np.unique(familyMembers, return_counts = True)
size = counts * 8
colors = ['blue'] * len(familyMembers_unique)
plt.axhline(1,color='k',linestyle='--')
plt.scatter(familyMembers_unique,np.ones(len(familyMembers_unique)),s=size,color=colors)
plt.yticks([])
plt.show()

Podemos agregar que no será necesario eliminar columnas duplicadas porque no hay.
Tampoco será necesario eliminar filas duplicadas, ya que debido a la estructura de este dataset, descartar filas que son iguales podría llegar a eliminar conocimiento útil para el modelo, porque a pesar de que pueda haber mas de una fila con los mismos valores, estos podrían tratarse de datos de clientes diferentes.

#### e. Variables altamente correlacionadas con la variable "target"

In [None]:
# Aplicamos las transformaciones necesarias a las variables para poder graficar un mapa de calor.
dataset["GraduateOrNot"] = dataset.GraduateOrNot.replace(['No', 'Yes'], [0,1])
dataset["FrequentFlyer"] = dataset.FrequentFlyer.replace(['No', 'Yes'], [0,1])
dataset["EverTravelledAbroad"] = dataset.EverTravelledAbroad.replace(['No', 'Yes'], [0,1])
dataset["EmploymentType"] = dataset.EmploymentType.replace(['Private Sector/Self Employed', 'Government Sector'], [0,1])

# Graficamos un mapa de calor.
plt.figure(figsize = (8,8))
sns.heatmap(dataset.corr(),annot=True, cmap='RdYlGn', linewidths=0.2)


A partir del mapa de calor realizado, podemos observar el nivel de correlación existente entre las variables del problema. Podemos ver que, en realidad, no hay variables que tengan una fuerte correlación con el target, pero sí hay algunas que se diferencian de las demás: 
- En primer lugar tenemos a la variable ‘EverTravelledAbroad’ que presenta una correlación del 0,43 con respecto a ‘TravelInsurance’, lo que quiere decir que mantiene una relación directa o positiva con dicha variable de salida, que implica que si un cliente alguna vez viajó al exterior, sus probabilidades de comprar el seguro suben.
- En segundo lugar podemos mencionar a la variable ‘AnnualIncome’ que presenta una correlación del 0,4 con respecto a ‘TravelInsurance’, lo que quiere decir que, al igual que con la variable anterior, mantiene una relación directa o positiva con dicha variable de salida. En este caso, implica que cuanto más sean los ingresos anuales de un cliente, más serán sus probabilidades de comprar el seguro.
- En tercer lugar encontramos a la variable ‘FrequentFlyer’ que presenta una correlación menor que las anteriores con respecto al target, específicamente con un valor del 0,23. También mantiene una relación directa o positiva con dicha variable de salida, lo que implica que si se considera que un cliente viaja frecuentemente, sus probabilidades de comprar el seguro aumentan, pero en menor medida que las variables anteriores.
- Finalmente tenemos a la variable ‘EmploymentType’ que presenta una correlación incluso menor que la anterior, puntualmente con un valor del -0,15 con respecto a ‘TravelInsurance’. A diferencia de las demás, mantiene una relación inversa o negativa con dicha variable de salida. Recordando que 0 representa que un cliente trabaja en el sector privado y 1 en el sector público, podríamos decir que si un cliente es trabajador público, sus probabilidades de comprar el seguro disminuyen.

### 3) Hipótesis sobre los datos  
  
#### a. Formular hipótesis sobre la variable target bajo determinadas condiciones  

*Hipótesis 1:* Los clientes que presentan mayores niveles de ingresos anuales y que alguna vez viajaron al exterior, tienen una mayor tendencia a contratar el seguro de viaje ofrecido por la empresa.  
*Hipótesis 2:* Los clientes que no presentan mayores niveles de ingresos anuales y que nunca viajaron al exterior, tienen una menor tendencia a contratar el seguro de viaje ofrecido por la empresa.

*Hipótesis 3:* Los clientes que presentan alguna enfermedad crónica y a su vez, son voladores frecuentes, es decir que viajan seguido, tienen una mayor tendencia a contratar el seguro de viaje ofrecido por la empresa.  
*Hipótesis 4:* Los clientes que no presentan alguna enfermedad crónica y tampoco son voladores frecuentes, es decir que no viajan seguido, tienen una menor tendencia a contratar el seguro de viaje ofrecido por la empresa.
  
#### b. Comprobar las hipótesis  

##### Hipótesis 1  y 2
Para verificar estas hipótesis calculamos el punto a partir del cual podremos filtrar los datos según el nivel de ingresos anuales. Luego agregamos una columna binaria al dataset que indique, en función de esto, si un cliente tiene ingresos altos y también si alguna vez viajó al exterior.  
Esta última columna la utilizaremos para poder visualizar a través de histogramas de, entre quienes contrataron el seguro, cuántos cumplen con las condiciones necesarias para tener el valor 1 en la misma; y por otra parte, de los que no contrataron el seguro, cuántos no cumplen con las condiciones necesarias para tener el valor 1 en la misma.

In [None]:
# Calculamos el punto a partir del cual los ingresos son altos.
income_point = ((dataset['AnnualIncome'].max() - dataset['AnnualIncome'].min())/3)*2

# Definimos una función para determinar si un cliente tiene ingresos altos y si alguna vez viajó al exterior.
def two_conditions_h1(row):
    if (row['AnnualIncome'] >= income_point) & (row['EverTravelledAbroad'] == True):
        return 1
    else:
        return 0

# Creamos y agregamos una columna nueva al dataset con la función anterior.
HigherIncomeAndTravelledAbroad = dataset.apply(two_conditions_h1, axis=1)
dataset['HigherIncomeAndTravelledAbroad'] = HigherIncomeAndTravelledAbroad

dataset.sample(10)

In [None]:
# Graficamos histogramas que muestren la relación entre la nueva columna y el target.
fig3 = plt.figure(constrained_layout=True, figsize = (15,15))
spec3 = gridspec.GridSpec(ncols=2, nrows=1, figure=fig3)
f3_ax1 = fig3.add_subplot(spec3[0,0])
f3_ax2 = fig3.add_subplot(spec3[0,1])
dataset[dataset.TravelInsurance==1].HigherIncomeAndTravelledAbroad.value_counts().sort_index().plot.bar(ax=f3_ax1, figsize=(7,7), title='Compran seguro')
dataset[dataset.TravelInsurance==0].HigherIncomeAndTravelledAbroad.value_counts().sort_index().plot.bar(ax=f3_ax2, figsize=(7,7), title='No compran seguro')

En primer lugar, mirando el mapa de calor realizado anteriormente, podemos sospechar que estas hipótesis podrían acercarse a ser verdaderas debido a que las variables involucradas presentan los mayores valores de correlación con la variable target.  
Sin embargo, a partir de los histogramas, podemos observar que la hipótesis 1 no se cumple mientras que la 2 sí lo hace. En el primer gráfico vemos que de las personas que contratan el seguro, la mayoría no cumplen con la doble condición de tener ingresos altos y haber viajado al exterior alguna vez; mientras que en el segundo histograma, de las personas que no contratan el seguro, la mayor parte nunca salió del país ni posee altos ingresos anuales. Lo lógico sería pensar, que la primer hipótesis también debería cumplirse, pero podemos suponer que ésto no ocurre debido a que la cantidad de personas que cumplen esas condiciones son la minoría, pudiendo llegar a provocar un desbalance en el análisis.

##### Hipótesis 3 y 4  
Para verificar estas hipótesis, trabajamos de manera similar que para las anteriores. También agregamos una columna binaria al dataset, pero en este caso, que indique si un cliente sufre enfermedades crónicas y también si es volador frecuente.  
Esta última columna la utilizaremos para poder visualizar a través de histogramas de, entre quienes contrataron el seguro, cuántos cumplen con las condiciones necesarias para tener el valor 1 en la misma; y por otra parte, de los que no contrataron el seguro, cuántos no cumplen con las condiciones necesarias para tener el valor 1 en la misma.

In [None]:
# Definimos una función para determinar si un cliente sufre de enfermedades crónicas y si vuela frecuentemente.
def two_conditions_h2(row):
    if (row['ChronicDiseases'] == True) & (row['FrequentFlyer'] == True):
        return 1
    else:
        return 0

# Creamos y agregamos una columna nueva al dataset con la función anterior.
ChronicDiseasesAndFrequentFlyer = dataset.apply(two_conditions_h2, axis=1)
dataset['ChronicDiseasesAndFrequentFlyer'] = ChronicDiseasesAndFrequentFlyer

dataset.sample(10)

In [None]:
# Graficamos histogramas que muestren la relación entre la nueva columna y el target.
fig4 = plt.figure(constrained_layout=True, figsize = (15,15))
spec4 = gridspec.GridSpec(ncols=2, nrows=1, figure=fig4)
f4_ax1 = fig4.add_subplot(spec4[0,0])
f4_ax2 = fig4.add_subplot(spec4[0,1])
dataset[dataset.TravelInsurance==1].ChronicDiseasesAndFrequentFlyer.value_counts().sort_index().plot.bar(ax=f4_ax1, figsize=(7,7), title='Compran seguro')
dataset[dataset.TravelInsurance==0].ChronicDiseasesAndFrequentFlyer.value_counts().sort_index().plot.bar(ax=f4_ax2, figsize=(7,7), title='No compran seguro')

A partir de los histogramas, podemos observar, al igual que para las hipótesis 1 y 2, que la hipótesis 3 no se cumple mientras que la 4 sí lo hace. En el primer gráfico vemos que de las personas que contratan el seguro, la mayoría no cumple con la doble condición de tener enfermedades crónicas y ser volador frecuente; mientras que en el segundo histograma, de las personas que no contratan el seguro, la mayor parte no posee enfermedades crónicas ni tampoco son voladores frecuentes. Lo lógico sería pensar, que la hipótesis 3 también debería cumplirse, pero podemos suponer que ésto no ocurre debido a que la cantidad de personas que cumplen esas condiciones son la minoría, pudiendo llegar a provocar un desbalance en el análisis (de la misma forma que en los casos anteriores).

#### c. Hallazgo y su impacto  
Podemos concluir que el dataset en general presenta un muy alto nivel de desbalance para la mayoría de sus variables, como pudimos ir observando a medida que analizamos la distribución de las mismas, por ejemplo:  
- GraduateOrNot: 15% = 0 / 85% = 1.
- EverTravelledAbroad: 81% = 0 / 19% = 1.
- FrequentFlyer: 79% = 0 / 21% = 1. 
 
Esto podría afectar en la creación de un modelo de predicción, ya que al tener tantas observaciones de ciertos casos y tan de pocas de otros, esto influirá en el proceso de generalización de la información, provocando un “mal aprendizaje” y perjudicando a las clases minoritarias, aumentando el nivel de error en las predicciones y empeorando el valor entregado por las métricas utilizadas para evaluar la calidad del modelo.

In [None]:
# Graficamos la distribución de las variables mencionadas.
fig5 = plt.figure(constrained_layout=True, figsize = (20,20))
spec5 = gridspec.GridSpec(ncols=3, nrows=1, figure=fig5)
f5_ax1 = fig5.add_subplot(spec5[0,0])
f5_ax2 = fig5.add_subplot(spec5[0,1])
f5_ax3 = fig5.add_subplot(spec5[0,2])
dataset.GraduateOrNot.value_counts().plot.pie(autopct='%1.0f%%', ax=f5_ax1, figsize=(8,8), title='Distribución')
dataset.EverTravelledAbroad.value_counts().plot.pie(autopct='%1.0f%%', ax=f5_ax2, figsize=(8,8), title='Distribución')
dataset.FrequentFlyer.value_counts().plot.pie(autopct='%1.0f%%', ax=f5_ax3, figsize=(8,8), title='Distribución')