# Trabajo IA

## Selección de características para mejorar modelos predictivos

En este cuadernillo se realiza el tratamiento de datos del csv TITANIC, así como la implementación y comparación de varios algoritmos de búsqueda y entrenamiento.

### Tratamiento de datos

Se aplicaron los siguientes procesos de preprocesamiento de datos:

    •Normalización de variables predictoras: Se normalizaron las variables Age y Fare utilizando el escalador MinMaxScaler para asegurar que todas las características estén en la misma escala.

    •Codificación numérica de atributos discretos: Los atributos Sex, Embarked, Alone y Deck, que originalmente se presentaban como cadenas de texto, fueron codificados numéricamente utilizando las técnicas de OrdinalEncoder o LabelEncoder, según corresponda.

### Algoritmos de búsqueda implementados

    •Búsqueda secuencial hacia atrás (backward_sequential_search): Este algoritmo busca encontrar el mejor subconjunto de variables predictoras eliminando iterativamente la variable que más afecta el rendimiento del modelo.

    •Búsqueda secuencial hacia atrás mixta (backward_sequential_search_mixto): Similar al anterior, pero también considera añadir variables si se mejora el rendimiento del modelo.

### Algoritmos de entrenamiento

    •Árboles de decisión de clasificación (DecisionTreeClassifier): Un algoritmo de aprendizaje supervisado utilizado para clasificación.




In [3]:
import pandas as pd
import BusquedaSecuencialAtras as bsa
import BusquedaSecuencialAtrasMixta as bsam
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()

titanic = pd.read_csv('../data/titanic.csv')
titanic.head()

atributos_discretos = ['Initial', 'SibSp', 'Deck', 'Fare_cat', 'Title', 'Sex', 'Is_Married','Pclass',  'Parch', 'Embarked', 
                       'Age_band', 'Family_Size', 'Alone']
atributos_continuos = ['Age', 'Fare']
atributos = titanic.loc[:, atributos_discretos + atributos_continuos]

objetivo = titanic['Survived']
objetivo.head()  # objetivo es una Series unidimensional

from sklearn.preprocessing import OrdinalEncoder, LabelEncoder

codificador_atributos_discretos = OrdinalEncoder()
codificador_atributos_discretos.fit(atributos[atributos_discretos])

print('Número de atributos detectados:',
      f'{codificador_atributos_discretos.n_features_in_}')
print()
print('Nombres de los atributos detectados:')
print(f'{codificador_atributos_discretos.feature_names_in_}')
print()
print('Categorías detectadas de cada atributo:')
for atributo, categorías in zip(
    codificador_atributos_discretos.feature_names_in_,
    codificador_atributos_discretos.categories_):
    print(f'{atributo}: {categorías}')


atributos[atributos_discretos] = codificador_atributos_discretos.transform(atributos[atributos_discretos])

atributos.head()


codificador_objetivo = LabelEncoder()
# El método fit_transform ajusta el codificador a los datos y, a continuación,
# codifica estos adecuadamente. En este caso no necesitamos mantener el
# atributo objetivo como una Series de Pandas.
objetivo = codificador_objetivo.fit_transform(objetivo)
print(f'Clases detectadas: {codificador_objetivo.classes_}')

from sklearn.preprocessing import MinMaxScaler

normalizador = MinMaxScaler(
    # Cada atributo se normaliza al intervalo [0, 1]
    feature_range=(0, 1)
)

# Como nos interesa conservar los atributos originales, realizamos la
# normalización sobre una copia del DataFrame de atributos
atributos_normalizados = atributos.copy()
atributos_normalizados[:] = normalizador.fit_transform(atributos_normalizados)
atributos_normalizados.head()

titanic = atributos_normalizados.copy()
titanic['Survived'] = objetivo
titanic.head()


Número de atributos detectados: 13

Nombres de los atributos detectados:
['Initial' 'SibSp' 'Deck' 'Fare_cat' 'Title' 'Sex' 'Is_Married' 'Pclass'
 'Parch' 'Embarked' 'Age_band' 'Family_Size' 'Alone']

Categorías detectadas de cada atributo:
Initial: [0 1 2 3 4]
SibSp: [0 1 2 3 4 5 8]
Deck: ['A' 'B' 'C' 'D' 'E' 'F' 'G' 'T' 'U']
Fare_cat: [0 1 2 3]
Title: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16]
Sex: ['female' 'male']
Is_Married: [0 1]
Pclass: [1 2 3]
Parch: [0 1 2 3 4 5 6]
Embarked: ['C' 'Q' 'S']
Age_band: [0 1 2 3 4]
Family_Size: [ 0  1  2  3  4  5  6  7 10]
Alone: ['No' 'Yes']
Clases detectadas: [0 1]


Unnamed: 0,Initial,SibSp,Deck,Fare_cat,Title,Sex,Is_Married,Pclass,Parch,Embarked,Age_band,Family_Size,Alone,Age,Fare,Survived
0,1.0,1.0,0.166667,0.0,1.0,0.0,0.25,0.125,0.0,0.0,1.0,0.6875,0.0,0.0,0.271174,0.014151
1,0.0,0.0,0.166667,0.0,0.0,0.25,0.5,0.125,0.0,1.0,0.25,0.75,1.0,1.0,0.472229,0.139136
2,1.0,0.0,0.0,0.0,1.0,0.5,0.25,0.0,1.0,0.333333,1.0,0.5,0.0,1.0,0.321438,0.015469
3,0.0,0.0,0.166667,0.0,1.0,0.25,0.5,0.125,0.0,1.0,0.25,0.75,1.0,1.0,0.434531,0.103644
4,1.0,1.0,0.0,0.0,1.0,0.0,0.5,0.0,1.0,0.333333,1.0,0.6875,0.0,0.0,0.434531,0.015713


### Algoritmo de búsqueda hacia atrás

In [4]:
#bsa.backward_sequential_search(titanic, 'Survived', model, 1, 2)


In [5]:
bsam.backward_sequential_mixed_search_(titanic, 'Survived', model, 1, 2)

AttributeError: module 'BusquedaSecuencialAtrasMixta' has no attribute 'backward_sequential_search'

In [None]:

clasificador_CART = DecisionTreeClassifier(
    max_depth=8
)
clasificador_CART.fit(atributos, objetivo)


pyplot.figure(figsize=(100, 50))  # Anchura y altura del gráfico
árbol = plot_tree(clasificador_CART,
                  # El argumento feature_names permite proporcionar, en una
                  # lista, los nombres de los atributos.
                  feature_names=atributos_discretos + atributos_continuos,
                  # El argumento class_names permite proporcionar, en una
                  # lista, los nombres de las clases
                  class_names=['0', '1'])

NameError: name 'DecisionTreeClassifier' is not defined

In [None]:
bsa.backward_sequential_search(titanic,'Survived', model, 1, 3)

Unnamed: 0,variables,size,score
0,[Initial],1,0.783554
1,"[Initial, Family_Size]",2,0.80081
2,"[Pclass, Initial, Family_Size]",3,0.788179
3,"[Pclass, Initial, Family_Size, Fare]",4,0.79628
4,"[Pclass, Sex, Initial, Family_Size, Fare]",5,0.797742
5,"[Pclass, Sex, Parch, Initial, Family_Size, Fare]",6,0.796832
6,"[Pclass, Sex, Parch, Initial, Family_Size, Is_...",7,0.796448
7,"[Pclass, Sex, Parch, Initial, Family_Size, Is_...",8,0.794099
8,"[Pclass, Sex, Parch, Initial, Family_Size, Alo...",9,0.795729
9,"[Pclass, Sex, Parch, Initial, Family_Size, Alo...",10,0.796089
