# Preprocesamiento

Utilizaremos un dataset que pertenece a una empresa de automóviles que tiene planes de ingresar a nuevos mercados con sus productos existentes (P1, P2, P3, P4 y P5)

Después de una intensa investigación de mercado, han deducido que el comportamiento del nuevo mercado es similar al mercado existente.
En su mercado existente, el equipo de ventas ha clasificado a todos los clientes en cuatro segmentos (A, B, C y D)

https://www.kaggle.com/datasets/kaushiksuresh147/customer-segmentation/code

Kaggle es una plataforma donde se pueden encontrar varios notebooks y datasets con ejemplos de machine learning, una muy buena biblioteca de google, usa el mismo engine de collab

In [1]:
import pandas as pd 

In [3]:
df = pd.read_csv('archive/Train.csv')

In [4]:
df

Unnamed: 0,ID,Gender,Ever_Married,Age,Graduated,Profession,Work_Experience,Spending_Score,Family_Size,Var_1,Segmentation
0,462809,Male,No,22,No,Healthcare,1.0,Low,4.0,Cat_4,D
1,462643,Female,Yes,38,Yes,Engineer,,Average,3.0,Cat_4,A
2,466315,Female,Yes,67,Yes,Engineer,1.0,Low,1.0,Cat_6,B
3,461735,Male,Yes,67,Yes,Lawyer,0.0,High,2.0,Cat_6,B
4,462669,Female,Yes,40,Yes,Entertainment,,High,6.0,Cat_6,A
...,...,...,...,...,...,...,...,...,...,...,...
8063,464018,Male,No,22,No,,0.0,Low,7.0,Cat_1,D
8064,464685,Male,No,35,No,Executive,3.0,Low,4.0,Cat_4,D
8065,465406,Female,No,33,Yes,Healthcare,1.0,Low,1.0,Cat_6,D
8066,467299,Female,No,27,Yes,Healthcare,1.0,Low,4.0,Cat_6,B


Se deben recorrer las técnicas de preprocesamiento de los datos, antes de entrenar nuestros modelos de inteligencia artificial

Tenemos que buscar alguna forma de convertir todos los datos que podemos tener en números, para comenzar el entrenamiento del modelo.

In [6]:
# 1) Encontrar los valores nulos  
df.isnull()

Unnamed: 0,ID,Gender,Ever_Married,Age,Graduated,Profession,Work_Experience,Spending_Score,Family_Size,Var_1,Segmentation
0,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,True,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,True,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...
8063,False,False,False,False,False,True,False,False,False,False,False
8064,False,False,False,False,False,False,False,False,False,False,False
8065,False,False,False,False,False,False,False,False,False,False,False
8066,False,False,False,False,False,False,False,False,False,False,False


In [8]:
#2) Contar los valores nulos que se encuentran en cada campo 
df.isnull().sum()

ID                   0
Gender               0
Ever_Married       140
Age                  0
Graduated           78
Profession         124
Work_Experience    829
Spending_Score       0
Family_Size        335
Var_1               76
Segmentation         0
dtype: int64

In [9]:
# 3) Qué hacer con éstos nulos?, depende del caso de negocio y del conocimiento de la tabla 

# Para éste ejemplo eliminaremos los registros con muchos datos nulos

df.dropna(inplace=True)  

In [10]:
df

Unnamed: 0,ID,Gender,Ever_Married,Age,Graduated,Profession,Work_Experience,Spending_Score,Family_Size,Var_1,Segmentation
0,462809,Male,No,22,No,Healthcare,1.0,Low,4.0,Cat_4,D
2,466315,Female,Yes,67,Yes,Engineer,1.0,Low,1.0,Cat_6,B
3,461735,Male,Yes,67,Yes,Lawyer,0.0,High,2.0,Cat_6,B
5,461319,Male,Yes,56,No,Artist,0.0,Average,2.0,Cat_6,C
6,460156,Male,No,32,Yes,Healthcare,1.0,Low,3.0,Cat_6,C
...,...,...,...,...,...,...,...,...,...,...,...
8062,463002,Male,Yes,41,Yes,Artist,0.0,High,5.0,Cat_6,B
8064,464685,Male,No,35,No,Executive,3.0,Low,4.0,Cat_4,D
8065,465406,Female,No,33,Yes,Healthcare,1.0,Low,1.0,Cat_6,D
8066,467299,Female,No,27,Yes,Healthcare,1.0,Low,4.0,Cat_6,B


In [11]:
# Ahora sí iniciamos el preprocesamiento con la característica Gender, lo que haremos será revisar si son los únicos valores,
# es decir, encontrar los datos que identifican de manera única a los registros, como en éste caso y para este ejemplo: 
# masculino y femenino 

gender_unique = pd.unique(df['Gender'])
gender_unique

array(['Male', 'Female'], dtype=object)