In [141]:
import pandas as pd

# Dataset simulado
data = {
    "ID": [1, 2, 3, 4, 5],
    "Ciudad": ["Madrid", "Barcelona", "Sevilla", "Madrid", "Valencia"],  # Nominal, no muestra orden
    "Educación": ["Secundaria", "Primaria", "Universitaria", "Primaria", "Universitaria"],  # Ordinal, si muestra orden
    "Género": ["F", "M", "F", "M", "F"],  # Nominal, no muestra orden
}
df = pd.DataFrame(data)
print("Dataset original:")
df

Dataset original:


Unnamed: 0,ID,Ciudad,Educación,Género
0,1,Madrid,Secundaria,F
1,2,Barcelona,Primaria,M
2,3,Sevilla,Universitaria,F
3,4,Madrid,Primaria,M
4,5,Valencia,Universitaria,F


In [142]:
# Usando get_dummies para One-Hot Encoding
df_onehot = pd.get_dummies(df, columns=["Ciudad"], prefix="Ciudad") #crea columnas de true o false para verificar en cualse cruza
print("\nCodificación One-Hot para 'Ciudad':")
print(df_onehot)


Codificación One-Hot para 'Ciudad':
   ID      Educación Género  Ciudad_Barcelona  Ciudad_Madrid  Ciudad_Sevilla  \
0   1     Secundaria      F             False           True           False   
1   2       Primaria      M              True          False           False   
2   3  Universitaria      F             False          False            True   
3   4       Primaria      M             False           True           False   
4   5  Universitaria      F             False          False           False   

   Ciudad_Valencia  
0            False  
1            False  
2            False  
3            False  
4             True  


In [143]:
from sklearn.preprocessing import OneHotEncoder
# Configuración del codificador
miencoder = OneHotEncoder(sparse_output=False)  # Cambiado de sparse a sparse_output
ciudad_onehot_encoded = miencoder.fit_transform(df[["Ciudad"]])# es lo mismo pero con 1 por true y 0 por false

# Crear un DataFrame con los resultados
onehot_df = pd.DataFrame(ciudad_onehot_encoded, columns=miencoder.get_feature_names_out(["Ciudad"]))
print("\nCodificación One-Hot con Scikit-learn:")
print(onehot_df)


Codificación One-Hot con Scikit-learn:
   Ciudad_Barcelona  Ciudad_Madrid  Ciudad_Sevilla  Ciudad_Valencia
0               0.0            1.0             0.0              0.0
1               1.0            0.0             0.0              0.0
2               0.0            0.0             1.0              0.0
3               0.0            1.0             0.0              0.0
4               0.0            0.0             0.0              1.0


In [144]:
dfc=df.join(onehot_df) #con el join añadimos un dataframe a otro
df.drop(columns="Ciudad") #importante recordar el column
dfc

Unnamed: 0,ID,Ciudad,Educación,Género,Ciudad_Barcelona,Ciudad_Madrid,Ciudad_Sevilla,Ciudad_Valencia
0,1,Madrid,Secundaria,F,0.0,1.0,0.0,0.0
1,2,Barcelona,Primaria,M,1.0,0.0,0.0,0.0
2,3,Sevilla,Universitaria,F,0.0,0.0,1.0,0.0
3,4,Madrid,Primaria,M,0.0,1.0,0.0,0.0
4,5,Valencia,Universitaria,F,0.0,0.0,0.0,1.0


In [145]:
#Codificacion basada en frecuencia
df['Ciudad_frecuencia']=df['Ciudad'].map(df.Ciudad.value_counts())# creamos una columna q se llame ciudad frecuencia esta muestra la frecuencia de cada ciudad 
df

Unnamed: 0,ID,Ciudad,Educación,Género,Ciudad_frecuencia
0,1,Madrid,Secundaria,F,2
1,2,Barcelona,Primaria,M,1
2,3,Sevilla,Universitaria,F,1
3,4,Madrid,Primaria,M,2
4,5,Valencia,Universitaria,F,1


In [146]:
#Mapeo de las categorias manueal
orde_edu={
    'Primaria':1,
    'Secundaria':2,
    "Universitaria":3
}
df['Educacion_Ordinaria']=df.Educación.map(orde_edu)# en la nueva columna sale lam educacion numerificada
df

Unnamed: 0,ID,Ciudad,Educación,Género,Ciudad_frecuencia,Educacion_Ordinaria
0,1,Madrid,Secundaria,F,2,2
1,2,Barcelona,Primaria,M,1,1
2,3,Sevilla,Universitaria,F,1,3
3,4,Madrid,Primaria,M,2,1
4,5,Valencia,Universitaria,F,1,3


In [147]:
from sklearn.preprocessing import OrdinalEncoder
df.drop(columns=["ID","Educación","Ciudad"],axis=1,inplace=True)#elimina mos estas columns

codifica_genero=OrdinalEncoder()
df["Género_Ordinal"]=codifica_genero.fit_transform(df[["Género"]])#creamos una nueva columna y cambiamos los generos por 0 y 1, 0f 1h 
df.drop(columns=["Género"],axis=1,inplace=True)
df

Unnamed: 0,Ciudad_frecuencia,Educacion_Ordinaria,Género_Ordinal
0,2,2,0.0
1,1,1,1.0
2,1,3,0.0
3,2,1,1.0
4,1,3,0.0


In [148]:
#Codificacion ordinal con scikit-leran
data = {"Educación": ["Primaria", "Secundaria", "Universitaria", "Primaria", "Secundaria"]}
df = pd.DataFrame(data)
ordinal_encoder=OrdinalEncoder(categories=[['Primaria','Secundaria','Universitaria']])#Automatizamos la creoacion de la columna
df["Educación_Ordinal"] = ordinal_encoder.fit_transform(df[["Educación"]])#Importante el fit transform
df

Unnamed: 0,Educación,Educación_Ordinal
0,Primaria,0.0
1,Secundaria,1.0
2,Universitaria,2.0
3,Primaria,0.0
4,Secundaria,1.0


In [149]:
data = {
    "Ciudad": ["Bogotá", "Cali", "Medellín", "Cali", "Bogotá"],
    "Educación": ["Universitaria", "Secundaria", "Primaria", "Universitaria", "Secundaria"]
}
df = pd.DataFrame(data)

#one hot encoding
df_onehot=pd.get_dummies(df,columns=['Ciudad'],prefix='Ciudad')     #combinamos las 2 

#Codificacion ordinal a educacion
orden_educacion = {"Primaria": 1, "Secundaria": 2, "Universitaria": 3}
df_onehot['Educacion_Ordinal']=df.Educación.map(orden_educacion)

df_onehot

Unnamed: 0,Educación,Ciudad_Bogotá,Ciudad_Cali,Ciudad_Medellín,Educacion_Ordinal
0,Universitaria,True,False,False,3
1,Secundaria,False,True,False,2
2,Primaria,False,False,True,1
3,Universitaria,False,True,False,3
4,Secundaria,True,False,False,2


In [150]:
from sklearn.preprocessing import OneHotEncoder
from joblib import dump, load
import numpy as np

# Datos de ejemplo
datos = np.array([["Bogotá"], ["Cali"], ["Medellín"], ["Cali"], ["Bogotá"],['Valledupar']])#se crea un array de 0 y 1 donde 1 es un dato q se repite

# Crear y ajustar el encoder
encoder = OneHotEncoder(sparse_output=False)
ciudad=encoder.fit_transform(datos)

# Guardar el encoder en un archivo
dump(encoder, "codificador_ciudad.joblib")
ciudad

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 1., 0., 0.],
       [1., 0., 0., 0.],
       [0., 0., 0., 1.]])

In [151]:
colum_name=encoder.get_feature_names_out(["Ciudad"])#El array obtenido lo transformamos en un df 
onehot_df=pd.DataFrame(ciudad,columns=colum_name)
onehot_df


Unnamed: 0,Ciudad_Bogotá,Ciudad_Cali,Ciudad_Medellín,Ciudad_Valledupar
0,1.0,0.0,0.0,0.0
1,0.0,1.0,0.0,0.0
2,0.0,0.0,1.0,0.0
3,0.0,1.0,0.0,0.0
4,1.0,0.0,0.0,0.0
5,0.0,0.0,0.0,1.0


In [152]:
import pickle
with open('label_encoder.pkl','wb')as f: # guardo un objeto
    pickle.dump(encoder,f)

with open('label_encoder.pkl','rb') as f:
    loaded_encoder=pickle.load(f) #Cargo el objeto guardado
df

Unnamed: 0,Ciudad,Educación
0,Bogotá,Universitaria
1,Cali,Secundaria
2,Medellín,Primaria
3,Cali,Universitaria
4,Bogotá,Secundaria


In [153]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
import joblib as jb

# Dataset simulado
data = {
    "Género": ["M", "F", "F", "F", "F","M","M","M","M","M","M","M","M","F","F","F","F","F"],
    "Edad": [19, 19, 18, 20, 22,21,19,19,23,18,25,20,20,21,19,19,19,20],
    "Peso":[80,52,55,60,62,68,72,60,68,57,80,52,91,60,40,50,59,62],
    "Altura": [194, 160, 155, 165, 160,176,185,178,170,175,175,175,192,164,145,160,170,167],
    "Cabello": ["Corto", "Largo", "Largo", "Corto", "Largo","Corto","Corto","Corto","Corto","Corto","Corto","Corto","Corto","Largo","Largo","Largo","Largo","Largo"],
    "Talla": [45, 38, 35, 37, 36,41,41,40,40,40,42,40,45,38,37,37,38,37],
}
df = pd.DataFrame(data)

df

Unnamed: 0,Género,Edad,Peso,Altura,Cabello,Talla
0,M,19,80,194,Corto,45
1,F,19,52,160,Largo,38
2,F,18,55,155,Largo,35
3,F,20,60,165,Corto,37
4,F,22,62,160,Largo,36
5,M,21,68,176,Corto,41
6,M,19,72,185,Corto,41
7,M,19,60,178,Corto,40
8,M,23,68,170,Corto,40
9,M,18,57,175,Corto,40


In [154]:
df.describe()

Unnamed: 0,Edad,Peso,Altura,Talla
count,18.0,18.0,18.0,18.0
mean,20.055556,62.666667,170.333333,39.277778
std,1.797784,12.309728,12.551072,2.82438
min,18.0,40.0,145.0,35.0
25%,19.0,55.5,161.0,37.0
50%,19.5,60.0,170.0,39.0
75%,20.75,68.0,175.75,40.75
max,25.0,91.0,194.0,45.0


In [155]:
gender_encoder=LabelEncoder()
df.Género=gender_encoder.fit_transform(df.Género)
df

Unnamed: 0,Género,Edad,Peso,Altura,Cabello,Talla
0,1,19,80,194,Corto,45
1,0,19,52,160,Largo,38
2,0,18,55,155,Largo,35
3,0,20,60,165,Corto,37
4,0,22,62,160,Largo,36
5,1,21,68,176,Corto,41
6,1,19,72,185,Corto,41
7,1,19,60,178,Corto,40
8,1,23,68,170,Corto,40
9,1,18,57,175,Corto,40


In [156]:
cabello_encoder=LabelEncoder()
df.Cabello=cabello_encoder.fit_transform(df.Cabello)
df

Unnamed: 0,Género,Edad,Peso,Altura,Cabello,Talla
0,1,19,80,194,0,45
1,0,19,52,160,1,38
2,0,18,55,155,1,35
3,0,20,60,165,0,37
4,0,22,62,160,1,36
5,1,21,68,176,0,41
6,1,19,72,185,0,41
7,1,19,60,178,0,40
8,1,23,68,170,0,40
9,1,18,57,175,0,40


In [157]:
dump(gender_encoder,'gender_encoder.joblib')
dump(cabello_encoder,'cabello_encoder.joblib')

['cabello_encoder.joblib']

In [158]:
gender_encoder.classes_#miraas las clases de los archivos
cabello_encoder.classes_

array(['Corto', 'Largo'], dtype=object)

In [159]:
df.columns

Index(['Género', 'Edad', 'Peso', 'Altura', 'Cabello', 'Talla'], dtype='object')

In [160]:
from sklearn.ensemble import RandomForestClassifier
X=df[['Edad', 'Peso', 'Altura', 'Cabello', 'Talla']]#variables independientes
y=df.Género#variables dependientes

In [161]:
model = RandomForestClassifier()# entrenamos al modelo
model.fit(X, y)#Agregamos las variables

0,1,2
,n_estimators,100
,criterion,'gini'
,max_depth,
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,'sqrt'
,max_leaf_nodes,
,min_impurity_decrease,0.0
,bootstrap,True


In [162]:
dump(model,'model1.joblib')
print('se guardo melo')

se guardo melo


In [163]:
# Nuevos datos (puedes ajustarlos a tus necesidades)
new_data = pd.DataFrame({
     'Edad':[20,20,25,21,19,20],
     'Peso':[72,80,78,70,48,59],
     'Altura':[168,168,175,180,157,170],
     'Cabello':["Corto","Corto","Corto","Corto","Largo","Largo"],
     'Talla':[37,42,41,40,37,37]})
new_data

Unnamed: 0,Edad,Peso,Altura,Cabello,Talla
0,20,72,168,Corto,37
1,20,80,168,Corto,42
2,25,78,175,Corto,41
3,21,70,180,Corto,40
4,19,48,157,Largo,37
5,20,59,170,Largo,37


In [164]:
import joblib as jb
#cargamos los encodrs
gender_encoder = jb.load("gender_encoder.joblib")
cabello_encoder = jb.load("cabello_encoder.joblib")

# Transformar la columna 'Género' usando el encoder cargado
new_data["Cabello"] = cabello_encoder.transform(new_data["Cabello"])





In [None]:
model = jb.load("model1.joblib")#importamos el modela ya hecho

# Hacer predicciones con el modelo
X_new = new_data[['Edad', 'Peso', 'Altura', 'Cabello', 'Talla']]  # Seleccionar las mismas columnas que usaste para entrenar el modelo
predictions = model.predict(X_new)#le pasamos la nueva data
predictions

array([0, 1, 1, 1, 0, 0])

In [None]:
decoded_predictions= gender_encoder.inverse_transform(predictions)# decodificamos de manera inversa
decoded_predictions
dic={1:'Masculino',
     0:'Femenino'}
prediciones=pd.DataFrame(predictions,columns=['Género'])#creamos el df
prediciones['Género']=prediciones.Género.map(dic)
prediciones

Unnamed: 0,Género
0,Femenino
1,Masculino
2,Masculino
3,Masculino
4,Femenino
5,Femenino


In [172]:
# Importancia de las características
print("Importancia de las características:")
print(model.feature_importances_)

# Probabilidad de predicción
proba = model.predict_proba(new_data)
print("\nProbabilidad de cada clase:")
print(proba)

Importancia de las características:
[0.00537542 0.09638974 0.31523896 0.18711671 0.39587917]

Probabilidad de cada clase:
[[0.64 0.36]
 [0.23 0.77]
 [0.   1.  ]
 [0.   1.  ]
 [1.   0.  ]
 [0.9  0.1 ]]
