# Preprocesamiento

Utilizaremos un dataset que pertenece a una empresa de automóviles que tiene planes de ingresar a nuevos mercados con sus productos existentes (P1, P2, P3, P4 y P5)

Después de una intensa investigación de mercado, han deducido que el comportamiento del nuevo mercado es similar al mercado existente.
En su mercado existente, el equipo de ventas ha clasificado a todos los clientes en cuatro segmentos (A, B, C y D)

https://www.kaggle.com/datasets/kaushiksuresh147/customer-segmentation/code

Kaggle es una plataforma donde se pueden encontrar varios notebooks y datasets con ejemplos de machine learning, una muy buena biblioteca de google, usa el mismo engine de collab

In [1]:
import pandas as pd 

In [3]:
df = pd.read_csv('archive/Train.csv')

In [4]:
df

Unnamed: 0,ID,Gender,Ever_Married,Age,Graduated,Profession,Work_Experience,Spending_Score,Family_Size,Var_1,Segmentation
0,462809,Male,No,22,No,Healthcare,1.0,Low,4.0,Cat_4,D
1,462643,Female,Yes,38,Yes,Engineer,,Average,3.0,Cat_4,A
2,466315,Female,Yes,67,Yes,Engineer,1.0,Low,1.0,Cat_6,B
3,461735,Male,Yes,67,Yes,Lawyer,0.0,High,2.0,Cat_6,B
4,462669,Female,Yes,40,Yes,Entertainment,,High,6.0,Cat_6,A
...,...,...,...,...,...,...,...,...,...,...,...
8063,464018,Male,No,22,No,,0.0,Low,7.0,Cat_1,D
8064,464685,Male,No,35,No,Executive,3.0,Low,4.0,Cat_4,D
8065,465406,Female,No,33,Yes,Healthcare,1.0,Low,1.0,Cat_6,D
8066,467299,Female,No,27,Yes,Healthcare,1.0,Low,4.0,Cat_6,B


Se deben recorrer las técnicas de preprocesamiento de los datos, antes de entrenar nuestros modelos de inteligencia artificial

Tenemos que buscar alguna forma de convertir todos los datos que podemos tener en números, para comenzar el entrenamiento del modelo.

In [6]:
# 1) Encontrar los valores nulos  
df.isnull()

Unnamed: 0,ID,Gender,Ever_Married,Age,Graduated,Profession,Work_Experience,Spending_Score,Family_Size,Var_1,Segmentation
0,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,True,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,True,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...
8063,False,False,False,False,False,True,False,False,False,False,False
8064,False,False,False,False,False,False,False,False,False,False,False
8065,False,False,False,False,False,False,False,False,False,False,False
8066,False,False,False,False,False,False,False,False,False,False,False


In [8]:
#2) Contar los valores nulos que se encuentran en cada campo 
df.isnull().sum()

ID                   0
Gender               0
Ever_Married       140
Age                  0
Graduated           78
Profession         124
Work_Experience    829
Spending_Score       0
Family_Size        335
Var_1               76
Segmentation         0
dtype: int64

In [9]:
# 3) Qué hacer con éstos nulos?, depende del caso de negocio y del conocimiento de la tabla 

# Para éste ejemplo eliminaremos los registros con muchos datos nulos

df.dropna(inplace=True)  

In [10]:
df

Unnamed: 0,ID,Gender,Ever_Married,Age,Graduated,Profession,Work_Experience,Spending_Score,Family_Size,Var_1,Segmentation
0,462809,Male,No,22,No,Healthcare,1.0,Low,4.0,Cat_4,D
2,466315,Female,Yes,67,Yes,Engineer,1.0,Low,1.0,Cat_6,B
3,461735,Male,Yes,67,Yes,Lawyer,0.0,High,2.0,Cat_6,B
5,461319,Male,Yes,56,No,Artist,0.0,Average,2.0,Cat_6,C
6,460156,Male,No,32,Yes,Healthcare,1.0,Low,3.0,Cat_6,C
...,...,...,...,...,...,...,...,...,...,...,...
8062,463002,Male,Yes,41,Yes,Artist,0.0,High,5.0,Cat_6,B
8064,464685,Male,No,35,No,Executive,3.0,Low,4.0,Cat_4,D
8065,465406,Female,No,33,Yes,Healthcare,1.0,Low,1.0,Cat_6,D
8066,467299,Female,No,27,Yes,Healthcare,1.0,Low,4.0,Cat_6,B


In [11]:
# Ahora sí iniciamos el preprocesamiento con la característica Gender, lo que haremos será revisar si son los únicos valores,
# es decir, encontrar los datos que identifican de manera única a los registros, como en éste caso y para este ejemplo: 
# masculino y femenino 

gender_unique = pd.unique(df['Gender'])
gender_unique

array(['Male', 'Female'], dtype=object)

In [12]:
# Female = 0
# Male = 1

def convertir_Gender(gender):
    if gender == 'Male':
        return 1
    return 0    


In [13]:
print(convertir_Gender('Male'), convertir_Gender('Female'))

1 0


In [14]:
# map es un foreach que nos permite realizar procesos a cada elemento en el arreglo al que se le aplique.
# En este caso se le pasa el nombre de la fución y dicha función recibirá como parámetros los datos en la comlumna gender del dataframe
 
df['Gender'] = df['Gender'].map(convertir_Gender)

In [15]:
# Vemos que la función hizo su trabajo y se categorizó la columna Gender a ceros y unos 
df.head()

Unnamed: 0,ID,Gender,Ever_Married,Age,Graduated,Profession,Work_Experience,Spending_Score,Family_Size,Var_1,Segmentation
0,462809,1,No,22,No,Healthcare,1.0,Low,4.0,Cat_4,D
2,466315,0,Yes,67,Yes,Engineer,1.0,Low,1.0,Cat_6,B
3,461735,1,Yes,67,Yes,Lawyer,0.0,High,2.0,Cat_6,B
5,461319,1,Yes,56,No,Artist,0.0,Average,2.0,Cat_6,C
6,460156,1,No,32,Yes,Healthcare,1.0,Low,3.0,Cat_6,C


In [16]:
# La anterior es una forma de codificación para los strings que tengamos para identificar categorías.

# Cuando queremos convertir texto a números, como oraciones en un chat, que no son categorías sino información más compuesta
# se utiliza modelos de inteligencia artificial, como modelos de procesamiento de lenguaje natural. que se encargan de generar un 
# vector para la cantidad de strings que uno le brinda.

# Esta misma codificación deberá realizarse para cada uno de los datos que signifiquen categorías y que se encuentren como strings en 
# el dataframe.

# Tenemos ya algunas funciónes de la librería sklearn que nos permiten hacer esas codificaciónes según se requiera para esos datos.


from sklearn.preprocessing import OrdinalEncoder

In [18]:
columns = ['Ever_Married', "Graduated", "Profession", "Spending_Score", "Var_1"]
enc = OrdinalEncoder()
enc.fit(df[columns]) # Entrenaremos el encoder con los campos Ever_married, Graduated, Profession, Spending_Score, Var_1, son string y pertenecen o identifican categorías 

OrdinalEncoder()

In [19]:
df_encoder = enc.transform(df[columns])
df_encoder # Aquí tenemos todos los datos ya codificados 

array([[0., 0., 5., 2., 3.],
       [1., 1., 2., 2., 5.],
       [1., 1., 7., 1., 5.],
       ...,
       [0., 1., 5., 2., 5.],
       [0., 1., 5., 2., 5.],
       [1., 1., 4., 0., 3.]])

In [20]:
# Para revisar que se utilizaron las características que se querían en el encoder podemos revisar el modelo

enc.feature_names_in_ 

array(['Ever_Married', 'Graduated', 'Profession', 'Spending_Score',
       'Var_1'], dtype=object)

In [21]:
# Para revisar las categrías que fueron codificadas de cada característica 

enc.categories_

[array(['No', 'Yes'], dtype=object),
 array(['No', 'Yes'], dtype=object),
 array(['Artist', 'Doctor', 'Engineer', 'Entertainment', 'Executive',
        'Healthcare', 'Homemaker', 'Lawyer', 'Marketing'], dtype=object),
 array(['Average', 'High', 'Low'], dtype=object),
 array(['Cat_1', 'Cat_2', 'Cat_3', 'Cat_4', 'Cat_5', 'Cat_6', 'Cat_7'],
       dtype=object)]