## Importacion de librerias

In [1]:
# En este apartado se realizará la importación de todas las librerías 
# a ser ocupadas para la creación del modelo como tersor flow , pandas ,sklearn 
# y numpy
import tensorflow as tf
import pandas as pd
from sklearn.model_selection import train_test_split
import sklearn
from sklearn.ensemble import RandomForestClassifier
import numpy as np

## importacion del drive al colab

In [2]:
# El entorno de trabajo es colab por lo que es necesario importar el drive si nuestros archivos se 
# encuentran en este.
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## Lectura del archivo de excel y colocacion de nombres a las columnas del dataframe

In [3]:
# Mediante la librería de pandas mandamos a buscar el archivo a la carpeta contenida en el drive
# una vez encontrado se colocaran tags a las columnas del dataframe

df = pd.read_excel("/content/drive/MyDrive/Colab/ResultadosCompleto.xlsx")
df= pd.DataFrame(df, columns= ['edad','genero','personalidad','estilo'])


## Verificacion de datos nulos en el dataframe, analisis del tipo de datos y total de registros

In [4]:
# Analisismos el datraframe asegurandonos de que no existan registros con valores nulos ,además de
# obtener el tipo de datos que contienen las columnas y el número total de registros

df.info(verbose=True,null_counts=True)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2210 entries, 0 to 2209
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   edad          2210 non-null   int64 
 1   genero        2210 non-null   object
 2   personalidad  2210 non-null   object
 3   estilo        2210 non-null   int64 
dtypes: int64(2), object(2)
memory usage: 69.2+ KB


  after removing the cwd from sys.path.


## Discriminacion de datos entre el rango de edad de 17 a 30 años

In [5]:
# Tomamos los datos de interés por lo que tenemos que descartar todos los datos que no necesitemos
# en la siguiente función se realiza la toma de los datos que se encuentren entre 17 a 30 años

df=df[df['edad']>16]
df=df[df['edad']<31]
df

Unnamed: 0,edad,genero,personalidad,estilo
0,25,Masculino,Confiable,5
1,28,Femenino,Animado,4
2,18,Femenino,Animado,6
4,21,Masculino,Confiable,3
5,20,Masculino,Animado,10
...,...,...,...,...
2205,26,Femenino,Animado,10
2206,29,Femenino,Animado,1
2207,22,Masculino,Extravertido,8
2208,22,Masculino,Responsable,4


## Caracterización de los datos para el modelo

In [6]:
# Se realiza la respectiva transformación de los datos para que el modelo pueda entenderlos,
# como se puede ver en el siguiente algoritmo, todos los datos de las columnas de género y 
# personalidad se les asignará un número reemplazando los valores no numéricos
df= df.replace(['Confiable'],1)
df= df.replace(['Extravertido'],2)
df= df.replace(['Animado'],3)
df= df.replace(['Responsable'],4)
df= df.replace(['Serio'],5)
df= df.replace(['Masculino'],0)
df= df.replace(['Femenino'],1)

In [7]:
df

Unnamed: 0,edad,genero,personalidad,estilo
0,25,0,1,5
1,28,1,3,4
2,18,1,3,6
4,21,0,1,3
5,20,0,3,10
...,...,...,...,...
2205,26,1,3,10
2206,29,1,3,1
2207,22,0,2,8
2208,22,0,4,4


## Seleccion de  X y Y

In [8]:
# Para la seleccion del X y Y es necesario identificar cuales son los valores
# de entrada y de salida de nuestro modelo, para esto el X seran las columnas de
# edad , genero y personalidad
X = df.iloc[:,0:3]
y = df.iloc[:,[3]]


## Normalizacion de los datos


In [9]:
# Se realizó un proceso de normalización de los datos, la siguiente línea de código
# se encargan de tomar tanto X como Y y los volverá escalares e independiente entre sí
# haciendo que su norma sea igual a 1
X_norm = sklearn.preprocessing.normalize(X)
y_norm =sklearn.preprocessing.normalize(y)

## División de los datos para entrenamiento y evaluación

In [10]:
# Dividimos los datos en dos partes, una para el entrenamiento que consta del 70% de los datos
# y la otra parte para la evaluación del modelo el cual consta del 30% restante de los datos
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y, 
                                                    test_size=0.3, random_state=100)



## Hyperparametros

In [11]:
# Se definen los hyperparametros que se utilizan para el modelo, el primer parámetro es
# la dimensión de entrada, luego especificamos el número total de capas a utilizar, seguido 
# a este parámetro se define el epochs que es el número total de veces que se le enviaran los
# datos al modelo, el "alpha" que representa la velocidad con la que aprenderá el modelo y por 
# último el algoritmo de optimización a utilizar.
param_grid = {
    'input_dim': [3], 
    'n_layers': [1],
    'epochs': [100],
    'alpha': [0.05],
    'Optimizer': ['adam'],
    }

## Seleccion de caracteristicas

In [12]:
# Según varias investigaciones y sistemas de modelos de predicción desarrollados hasta la 
# fecha, en temas de la moda y la personalidad, se definen las redes neuronales como uno 
# de los algoritmos más acertados para estas implementaciones. Así también, otros de los 
# modelos utilizados frecuentemente para este tema, es el Support Vector Machine (SVM), 
# utilizado cuando no se tiene un grupo tan grande de datos. Sin embargo, independientemente 
# del modelo que se vaya a utilizar para la predicción, existen diversos pasos que se deben 
# cumplir como parte inicial del desarrollo. Por lo tanto, este laboratorio tiene como 
# objetivo la realización de dichos pasos genéricos para los modelos. Como resultado, 
# se tiene el dataset completamente limpio, transformado y dividido entre los datos que son 
# para entrenar y los que son de testeo.
RF = RandomForestClassifier(max_depth=7, n_estimators=100)
RF.fit(X_train, y_train)
y_pred_RF= RF.predict(X_test)

df = pd.DataFrame()

cols = ['Machine Learning Classification Method',
        'Train Accuracy', 
        'Test Accuracy', 
        "Top 1 Feature Predictor",
        "Top 2 Feature Predictor",
        "Top 3 Feature Predictor"]

df.loc['Machine Learning Classification Method', 
       'Details'] = 'Random Forest Classifier'
df.loc['Train Accuracy', 'Details'] = RF.score(X_train, y_train) 
df.loc['Test Accuracy', 'Details'] = RF.score(X_test, y_test)

feature_importances = X.columns[np.argsort(RF.feature_importances_)][-3:]
df.loc['Top 1 Feature Predictor', 'Details'] = feature_importances[2]
df.loc['Top 2 Feature Predictor', 'Details'] = feature_importances[1]
df.loc['Top 3 Feature Predictor', 'Details'] = feature_importances[0]

display(df)

  import sys


Unnamed: 0,Details
Machine Learning Classification Method,Random Forest Classifier
Train Accuracy,0.428768
Test Accuracy,0.38141
Top 1 Feature Predictor,personalidad
Top 2 Feature Predictor,edad
Top 3 Feature Predictor,genero
