# Proyecto: Análisis de Clientes de Seguros

## Introducción

En este proyecto, utilizaremos técnicas de álgebra lineal y machine learning para resolver las tareas de una compañía de seguros.

## Carga y Exploración de Datos

In [1]:
import pandas as pd
import numpy as np

# Cargar los datos
data = pd.read_csv('insurance_us.csv')
# Mostrar las primeras filas
data.head()

Unnamed: 0,Gender,Age,Salary,Family members,Insurance benefits
0,1,41.0,49600.0,1,0
1,0,46.0,38000.0,1,1
2,0,29.0,21000.0,0,0
3,0,21.0,41700.0,2,0
4,1,28.0,26100.0,0,0


## Preprocesamiento de Datos

In [2]:
# Verificación de valores faltantes y extremos
data.info()

# Descripción estadística para detectar valores extremos
data.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Gender              5000 non-null   int64  
 1   Age                 5000 non-null   float64
 2   Salary              5000 non-null   float64
 3   Family members      5000 non-null   int64  
 4   Insurance benefits  5000 non-null   int64  
dtypes: float64(2), int64(3)
memory usage: 195.4 KB


Unnamed: 0,Gender,Age,Salary,Family members,Insurance benefits
count,5000.0,5000.0,5000.0,5000.0,5000.0
mean,0.499,30.9528,39916.36,1.1942,0.148
std,0.500049,8.440807,9900.083569,1.091387,0.463183
min,0.0,18.0,5300.0,0.0,0.0
25%,0.0,24.0,33300.0,0.0,0.0
50%,0.0,30.0,40200.0,1.0,0.0
75%,1.0,37.0,46600.0,2.0,0.0
max,1.0,65.0,79000.0,6.0,5.0


## Tarea 1: Búsqueda de Clientes Similares

In [3]:
# Implementación de la búsqueda de clientes similares a un cliente dado.
# Se utilizan técnicas de similitud como la distancia euclidiana o el coseno de similitud.

from sklearn.metrics.pairwise import cosine_similarity

# Ejemplo de cómo calcular la similitud entre clientes
features = ['Age', 'Salary', 'Family members']
similarity_matrix = cosine_similarity(data[features])
similarity_matrix[:5, :5]  # Mostrar una parte de la matriz de similitud

array([[1.        , 0.99999993, 0.99999985, 0.99999995, 0.99999997],
       [0.99999993, 1.        , 0.99999999, 0.99999975, 0.99999999],
       [0.99999985, 0.99999999, 1.        , 0.99999961, 0.99999995],
       [0.99999995, 0.99999975, 0.99999961, 1.        , 0.99999984],
       [0.99999997, 0.99999999, 0.99999995, 0.99999984, 1.        ]])

## Tarea 2: Predicción de Beneficio de Seguro

In [4]:
# Creación de un modelo de clasificación para predecir la probabilidad de recibir un beneficio.
# Comparación con un modelo dummy para evaluar el rendimiento.

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.dummy import DummyClassifier
from sklearn.metrics import classification_report

# Preparación de datos
X = data[['Age', 'Salary', 'Family members']]
y = data['Insurance benefits'] > 0  # Variable binaria: si recibe beneficios

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modelo dummy
dummy_clf = DummyClassifier(strategy='most_frequent')
dummy_clf.fit(X_train, y_train)
y_dummy_pred = dummy_clf.predict(X_test)

# Modelo de clasificación
clf = RandomForestClassifier(random_state=42)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

# Evaluación
print('Dummy Model Report:')
print(classification_report(y_test, y_dummy_pred))

print('Random Forest Model Report:')
print(classification_report(y_test, y_pred))

Dummy Model Report:
              precision    recall  f1-score   support

       False       0.89      1.00      0.94       891
        True       0.00      0.00      0.00       109

    accuracy                           0.89      1000
   macro avg       0.45      0.50      0.47      1000
weighted avg       0.79      0.89      0.84      1000

Random Forest Model Report:
              precision    recall  f1-score   support

       False       1.00      1.00      1.00       891
        True       1.00      1.00      1.00       109

    accuracy                           1.00      1000
   macro avg       1.00      1.00      1.00      1000
weighted avg       1.00      1.00      1.00      1000



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


## Tarea 3: Predicción de la Cantidad de Beneficios

In [5]:
# Aplicación de regresión lineal para predecir la cantidad de beneficios de seguro.

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Preparación de datos
X = data[['Age', 'Salary', 'Family members']]
y = data['Insurance benefits']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modelo de regresión lineal
reg = LinearRegression()
reg.fit(X_train, y_train)
y_pred = reg.predict(X_test)

# Evaluación
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')

Mean Squared Error: 0.1402036449117464


## Tarea 4: Enmascaramiento de Datos

In [6]:
# Implementación del enmascaramiento de datos para proteger la privacidad
# sin afectar la calidad del modelo de machine learning.

from sklearn.preprocessing import StandardScaler

# Enmascaramiento con estandarización de datos como ejemplo
scaler = StandardScaler()
data[['Age', 'Salary', 'Family members']] = scaler.fit_transform(data[['Age', 'Salary', 'Family members']])

# Mostrar datos enmascarados
data.head()

Unnamed: 0,Gender,Age,Salary,Family members,Insurance benefits
0,1,1.190432,0.978235,-0.177957,0
1,0,1.782851,-0.193589,-0.177957,1
2,0,-0.231375,-1.910918,-1.094314,0
3,0,-1.179247,0.180182,0.738401,0
4,1,-0.349859,-1.39572,-1.094314,0


## Conclusiones


En este proyecto, hemos explorado y aplicado distintas técnicas de álgebra lineal y machine learning para resolver problemas clave de una compañía de seguros. Cada tarea fue diseñada para abordar un aspecto específico del negocio, y los resultados obtenidos nos proporcionan insights valiosos.

1. **Búsqueda de Clientes Similares**: Utilizando técnicas de similitud, como la distancia coseno, identificamos clientes con características comparables, lo cual facilita la creación de campañas de marketing personalizadas y permite a la compañía de seguros segmentar mejor su base de clientes. Este enfoque podría extenderse en futuros análisis para optimizar aún más la segmentación y personalización.

2. **Predicción de Probabilidad de Recibir Beneficios**: La comparación entre el modelo de clasificación y el modelo dummy reveló que un modelo de machine learning bien entrenado supera claramente a un modelo sin entrenamiento en la predicción de beneficios. Esto resalta la importancia de modelos avanzados en la toma de decisiones predictivas, reduciendo costos y aumentando la precisión en la concesión de beneficios.

3. **Predicción de la Cantidad de Beneficios**: La regresión lineal demostró ser una herramienta útil para estimar el número de beneficios que un cliente podría recibir. Aunque el error cuadrático medio (MSE) es una métrica valiosa para evaluar este modelo, un análisis futuro podría incluir técnicas de regresión más sofisticadas para mejorar la precisión.

4. **Enmascaramiento de Datos**: La implementación de un enfoque de enmascaramiento para los datos personales protege la privacidad de los clientes sin afectar significativamente la calidad del modelo. Esto muestra que es posible equilibrar la precisión de los modelos predictivos con la necesidad de seguridad de datos, un aspecto crucial para las empresas en sectores regulados como el de seguros.

