## MASTER DATA SCIENCE: NUCLIO
## PROFESOR: JOSEPH GALLART
## CLASE 3: EDA + Visualización + Preprocesamiento

In [None]:
'''
En este ejercicio vamos a analizar el dataset de un seguro médico, este dataset contiene características de una persona y el precio que se le aplica

Vamos a realizar lo siguiente:

EDA: Explorar los datos
Data Cleaning: Limpiar los datos en blanco, así como detectar outliers y errores lógicos de información
Visualization
Pre-processing
¡Vamos a ello!


'''

In [1]:
#importamos librería
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import math
from sklearn.preprocessing import LabelEncoder,MinMaxScaler, StandardScaler

# LIMPIEZA (hasta el punto 3)

In [2]:
df_seguro = pd.read_csv("Datasets/dataset_seguros_sin_nulos.csv", sep=";")

In [None]:
'''1. ESTRUCTURA DE DATOS '''

In [3]:
# 1338 filas
# 9 columnas
df_seguro.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1338 entries, 0 to 1337
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   EDAD         1338 non-null   int64  
 1   SEXO         1338 non-null   object 
 2   IMC          1338 non-null   float64
 3   PESO         1338 non-null   int64  
 4   HIJOS        1338 non-null   int64  
 5   TIENE_HIJOS  1338 non-null   int64  
 6   FUMADOR      1338 non-null   object 
 7   CIUDAD       1338 non-null   object 
 8   PRECIO       1338 non-null   int64  
dtypes: float64(1), int64(5), object(3)
memory usage: 94.2+ KB


In [4]:
df_seguro.describe()

Unnamed: 0,EDAD,IMC,PESO,HIJOS,TIENE_HIJOS,PRECIO
count,1338.0,1338.0,1338.0,1338.0,1338.0,1338.0
mean,39.207025,30.667231,82.444694,1.091928,0.568759,1105.85426
std,14.04996,6.095439,16.389299,1.206345,0.495435,1009.161649
min,18.0,15.96,43.0,0.0,0.0,93.0
25%,27.0,26.315,71.0,0.0,0.0,395.25
50%,39.0,30.4,82.0,1.0,1.0,781.5
75%,51.0,34.69375,93.0,2.0,1.0,1386.5
max,64.0,53.13,143.0,5.0,1.0,5314.0


In [5]:
df_seguro.shape

(1338, 9)

In [None]:
'''2. DETECCION DE NULOS'''

In [6]:
df_seguro.isnull().sum()

EDAD           0
SEXO           0
IMC            0
PESO           0
HIJOS          0
TIENE_HIJOS    0
FUMADOR        0
CIUDAD         0
PRECIO         0
dtype: int64

In [None]:
'''3. VERIFICAMOS FILAS REPETIDAS'''

In [9]:
df_seguro[df_seguro.duplicated(keep=False)]

Unnamed: 0,EDAD,SEXO,IMC,PESO,HIJOS,TIENE_HIJOS,FUMADOR,CIUDAD,PRECIO
378,19,MASCULINO,30.59,82,0,0,NO,SEVILLA,137
459,19,MASCULINO,30.59,82,0,0,NO,SEVILLA,137


In [10]:
# ELIMINAMOS DUPLICADOS PORQUE AL MODELO LE INTERESA LA VARIEDAD DE LOS DATOS
df_seguro_sin_duplicados = df_seguro.drop_duplicates().copy(deep=True)

In [11]:
df_seguro_sin_duplicados.reset_index(drop=True, inplace=True)

In [12]:
# 1337 filas
# 9 columnas
df_seguro_sin_duplicados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1337 entries, 0 to 1336
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   EDAD         1337 non-null   int64  
 1   SEXO         1337 non-null   object 
 2   IMC          1337 non-null   float64
 3   PESO         1337 non-null   int64  
 4   HIJOS        1337 non-null   int64  
 5   TIENE_HIJOS  1337 non-null   int64  
 6   FUMADOR      1337 non-null   object 
 7   CIUDAD       1337 non-null   object 
 8   PRECIO       1337 non-null   int64  
dtypes: float64(1), int64(5), object(3)
memory usage: 94.1+ KB


# otro

In [None]:
'''4. ANALISIS UNIVARIABLE'''

In [None]:
df_seguro_sin_duplicados["EDAD"].unique()

In [None]:
for i in df_seguro_sin_duplicados.columns:
    print("\n",i, df_seguro_sin_duplicados[i].unique(),"\n")

In [None]:
for i in df_seguro_sin_duplicados.columns:
    print("\n",i, df_seguro_sin_duplicados[i].value_counts(),"\n")

In [None]:
for i in df_seguro_sin_duplicados.columns:
    print("\n",i, df_seguro_sin_duplicados[i].hist(),"\n")

    # asi los histogramas se sovraponen

In [None]:
print("\n",i, df_seguro_sin_duplicados["EDAD"].hist(),"\n")

In [None]:
'''5. SEPARAMOS NUESTRAS VARIABLES EN: TARGET, CATEGORICAS, BOOLEAN Y NUMERICAS'''

In [None]:
'''6. LOGICA DE LAS VARIABLES'''

In [None]:
# VISUALIZACION

In [None]:
target=["PRECIO"]

# funcion importante !!!

In [None]:
# ver el tipo de datos

def obtener_lista_variables(dataset):
    lista_numericas=[]
    lista_boolean=[]
    lista_categorica=[]
    for i in dataset:
        if (dataset[i].dtype=="float64" or dataset[i].dtype=="int64") and i not in target and len(dataset[i].unique())!=2:
            lista_numericas.append(i)
        elif (dataset[i].dtype=="float64" or dataset[i].dtype=="int64") and i not in target and len(dataset[i].unique())==2:
            lista_boolean.append(i)
        elif (dataset[i].dtype=="object") and i not in target:
            lista_categorica.append(i)
    return lista_numericas, lista_boolean, lista_categorica

In [None]:
lista_numericas, lista_boolean, lista_categoricas = obtener_lista_variables(df_seguro_sin_duplicados)

In [None]:
for i in lista_numericas:
    df_seguro_sin_duplicados.hist(column=i)
    # con 30 años hay un poco demas que 100 personas

In [None]:
'''7. PREPROCESAMIENTO'''

In [None]:
# el DF esta todo limpio, hago check point 
df_seguro_clean = df_seguro_sin_duplicados.copy(deep=True)

In [None]:
# NORMALIZAR LAS VARIABLES

In [None]:
'''7.1 CORRELACION: DETECTAR SI HAY VARIABLES QUE EXPLICAN LO MISMO'''


In [None]:
corr = df_seguro_clean.corr()

In [None]:
sns.heatmap(corr, annot=True)

In [None]:
corr.style.background_gradient(cmap="coolwarm")
# desde 0.85/0.90 se eliminan las variables
# se eliminan 

In [None]:
del(df_seguro_clean["PESO"])

In [None]:
'''7.2 ANALISIS DEL TARGET'''

In [None]:
df_seguro_clean.hist(column="PRECIO")

# galton board normal distribution -> mirar el viedo youtube
# cheat sheet para entender cual es el mejor metodo: https://www.datacamp.com/community/data-science-cheatsheets
# SESGO = BIAS = SUPERFICIAL
# este histograma me dice que la distribution es: skewed  !!!

In [None]:
outliers_precio = sns.boxplot(x=df_seguro_clean["PRECIO"])
# muy complicado por el modelo predicir valores mayor de 3000

In [None]:
df_seguro_clean["LOG_PRECIO"]=np.log10(df_seguro_clean["PRECIO"])

In [None]:
outliers_precio = sns.boxplot(x=df_seguro_clean["LOG_PRECIO"])

In [None]:
'''7.3 TARGET VS VARIABLES INDEPENDIENTES'''

In [None]:
df_seguro_clean.head()

In [None]:
# ver como se comportan las variables en respecto al PRECIO
sns.violinplot(x="SEXO",y="PRECIO", data=df_seguro_clean)
# la variable SEXO no influe sobre el precio

In [None]:
sns.violinplot(x="FUMADOR",y="PRECIO", data=df_seguro_clean)

In [None]:
sns.violinplot(x="CIUDAD",y="PRECIO", data=df_seguro_clean)

In [None]:
# por las variables NUMERICAS mejor un SCATTERPLOT para entender si se influencian
sns.scatterplot(x="EDAD",y="PRECIO", data=df_seguro_clean)

In [None]:
sns.violinplot(x="EDAD",y="PRECIO", data=df_seguro_clean)

# este grafico no nos dice NADA

In [None]:
'''7.4 REESCALAR VARIABLES'''
# reescalar significa -> trasformar las variables
# asignar un numero a las ciudades -> pero eso da mas peso a una ciudad que otra -> asi que hacemos ????? -> pues una columna por cada ciudad y ponemos 0 y 1

In [None]:
df_seguro_prep_categ = pd.get_dummies(data=df_seguro_clean,
                                        prefix=None,
                                        prefix_sep="_",
                                        columns=lista_categoricas,
                                        drop_first=True # possiamo eliminare una delle due colonne (per es se e maschio, non ho bisogno della colonna femmina, che gia lo so)
                                        )

In [None]:
df_seguro_prep_categ

In [None]:
'''
Nuestro objetivo es predecir el precio del seguro médico, vamos a utilizar las siguientes estrategias
Label Encoding
One Hot Encoding
Min max scaling
'''