Introducción

Para las tareas de machine learning no solo necesitamos preparar datos, sino también características.

¿Qué aprenderás?

- Transformar características categóricas con codificación One-Hot para entrenar una regresión logística.
- Realizar la codificación ordinal de características categóricas para entrenar un árbol de decisión.
- Mejorar las métricas de evaluación escalando características.

Descripción del ejercicio

Prepararemos datos para entrenar un modelo que prediga si un cliente hará un reclamo de seguro.

Carga de datos

Analicemos el ejercicio, carguemos los datos e investiguemos las características.

Los ingresos de los pagos de la clientela superan con creces los costos de liquidación de reclamaciones. El plan de cada compañía de seguros es que solo una pequeña parte de la clientela hará un reclamo, mientras que la mayoría de las personas no recurrirán a él.

Cada cliente que se une es una caja negra para la compañía de seguros de viaje. ¿Qué probabilidad hay de que la empresa tenga que pagar? Históricamente, solo el 1 % de la clientela reclama beneficios de seguro. ¿Cómo predecir, entonces, si una persona lo necesitará?

El machine learning nos permite calcular la probabilidad de una reclamación de seguro.

Tenemos las siguientes características:

Agency: nombre de la agencia de seguros

Agency Type: tipo de agencia de seguros

Distribution Channel: canal de distribución de la agencia de seguros

Product Name: nombre del producto de seguro

Duration: duración del viaje (días)

Destination: destino del viaje

Net Sales: ventas netas ($)

Commission: comisión de la agencia de seguros ($)

Gender: género de la persona asegurada

Age: edad de la persona asegurada

#### Objetivo:

Claim — reclamación de liquidación (1 es sí, 0 es no)

Ejercicio

1. Carga los datos de /datasets/travel_insurance_us.csv a la variable data. Muestra en la pantalla los primeros diez elementos. Mira los datos.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split

# Load data
data = pd.read_csv('/datasets/travel_insurance_us.csv')

# Dataset overview
print(data.head(10))

Resultado
  Agency    Agency Type Distribution Channel  ... Commission (in value)  Gender  Age
0    JZI       Airlines               Online  ...                 15.75       M   39
1    EPX  Travel Agency               Online  ...                  0.00    None   36
2    EPX  Travel Agency               Online  ...                  0.00    None   36
3    EPX  Travel Agency               Online  ...                  0.00    None   36
4    JZI       Airlines               Online  ...                 15.75       M   34
5    EPX  Travel Agency               Online  ...                  0.00    None   36
6    C2B       Airlines               Online  ...                 36.00       F   37
7   

2. Divide los datos en dos conjuntos:

- conjunto de entrenamiento (train)
- conjunto de validación (valid) — 25% de los datos de origen

Especifica random_state=12345. Declara cuatro variables y almacena las características y el objetivo de la siguiente manera:

- características: features_train, features_valid
- objetivo: target_train, target_valid

Muestra en pantalla los tamaños de las tablas almacenadas en las variables: features_train y features_valid.

In [None]:
# Show column names
print(data.columns)

# divide data for train and valid at 25% from origin data
train, valid = train_test_split(data, test_size=0.25, random_state=12345)

# Crate variables for characteristics (feat) and objective (target)
features_train = train.drop('Claim', axis=1)
target_train = train['Claim']
features_valid = valid.drop('Claim', axis=1)
target_valid = valid['Claim']

print(features_train.shape)
print(features_valid.shape)

Index(['Agency', 'Agency Type', 'Distribution Channel', 'Product Name', 'Claim', 'Duration', 'Destination', 'Net Sales', 'Commission (in value)', 'Gender', 'Age'], dtype='object')

(37995, 10)

(12665, 10)

Vaya, eso es una gran variedad de datos de entrenamiento, como en un bufete donde puedes comer todo lo que quieras. Solo asegúrate de no comer en exceso. Es posible que el seguro no lo cubra.