# PROYECTO DE INTELIGENCIA ARTIFICIAL: Seleccion de características

Las siguientes funciones se encargan de obtener los atributos con los que trabajaremos, ademas de obtener los atributos ordenados y los objetivos para ambos csv.

Importaciones:

In [38]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import OrdinalEncoder, LabelEncoder

In [39]:
def lectura_titanic():
    fichero = pd.read_csv('Desktop/ia/Inteligencia-artificial/titanic.csv', na_values=-1)    
    return fichero

def lectura_breastCancer():
    fichero = pd.read_csv('Desktop/ia/Inteligencia-artificial/BreastCancer.csv', na_values=-1)
    return fichero

In [40]:
titanic = lectura_titanic()
breast_cancer = lectura_breastCancer()

In [42]:
# Eleccion de semilla inicial aleatoria.
np.random.seed(357823)

# Atributos discretos, continuos y objetivo de titanic.csv.
atributos_discretos_titanic = ['Sex', 'Embarked', 'Alone', 'Deck']
atributos_continuos_titanic = ['Pclass', 'Age', 'SibSp', 'Parch', 'Fare', 'Initial', 
                           'Age_band', 'Family_Size', 'Fare_cat', 'Title', 'Is_Married']
atributos_titanic = titanic.loc[:, atributos_discretos_titanic + atributos_continuos_titanic]
objetivo_titanic = titanic['Survived']

# Atributos discretos, continuos y objetivo de BreastCancer.csv.
atributos_continuos_breast_cancer = ['mean radius', 'mean texture', 'mean perimeter', 'mean area', 'mean smoothness', 'mean compactness', 
                           'mean concavity', 'mean concave points', 'mean symmetry', 'mean fractal dimension', 'radius error', 
                           'texture error', 'perimeter error', 'area error', 'smoothness error', 'compactness error', 'concavity error',
                           'concave points error', 'symmetry error', 'fractal dimension error', 'worst radius', 'worst texture', 
                           'worst perimeter', 'worst area', 'worst smoothness', 'worst compactness', 'worst concavity', 'worst concave points',
                           'worst symmetry', 'worst fractal dimension']
																				
atributos_breast_cancer = breast_cancer.loc[:, atributos_continuos_breast_cancer]
objetivo_breast_cancer = breast_cancer['diagnosis']

##### A continuación realizaremos los algoritmos de busqueda con los que vamos a trabajar. Para ello, trabajaremos con el algoritmo de "Decision tree clasifier" y el algoritmo de "Naives bayes".

#### Trabajo con titanic.csv

In [43]:
# DECISION TREE CLASIFIER
codificador_atributos_discretos_titanic = OrdinalEncoder()
codificador_atributos_discretos_titanic.fit(atributos_titanic[atributos_discretos_titanic])

Comprobamos que realmente sean los atributos seleccionados discretos.

In [45]:
print('Número de atributos detectados:',
      f'{codificador_atributos_discretos_titanic.n_features_in_}')
print()
print('Nombres de los atributos detectados:')
print(f'{codificador_atributos_discretos_titanic.feature_names_in_}')
print()
print('Categorías detectadas de cada atributo:')
for atributo, categorías in zip(
    codificador_atributos_discretos_titanic.feature_names_in_,
    codificador_atributos_discretos_titanic.categories_):
    print(f'{atributo}: {categorías}')

Número de atributos detectados: 4

Nombres de los atributos detectados:
['Sex' 'Embarked' 'Alone' 'Deck']

Categorías detectadas de cada atributo:
Sex: ['female' 'male']
Embarked: ['C' 'Q' 'S']
Alone: ['No' 'Yes']
Deck: ['A' 'B' 'C' 'D' 'E' 'F' 'G' 'T' 'U']


Segidamente, transformamos los atributos discretos en datos continuos.

In [46]:
atributos_titanic[atributos_discretos_titanic] = codificador_atributos_discretos_titanic.transform(
    atributos_titanic[atributos_discretos_titanic]
)
atributos_titanic.head()

Unnamed: 0,Sex,Embarked,Alone,Deck,Pclass,Age,SibSp,Parch,Fare,Initial,Age_band,Family_Size,Fare_cat,Title,Is_Married
0,1.0,2.0,0.0,8.0,3,22.0,1,0,7.25,0,1,1,0,11,0
1,0.0,0.0,0.0,2.0,1,38.0,1,0,71.2833,1,2,1,3,12,1
2,0.0,2.0,1.0,8.0,3,26.0,0,0,7.925,2,1,0,1,8,0
3,0.0,2.0,0.0,2.0,1,35.0,1,0,53.1,1,2,1,3,12,1
4,1.0,2.0,1.0,8.0,3,35.0,0,0,8.05,0,2,0,1,11,0


In [None]:
codificador_objetivo_titanic = LabelEncoder()
objetivo_titanic = codificador_objetivo_titanic.fit_transform(objetivo)
print(f'Clases detectadas: {codificador_objetivo_titanic.classes_}')
objetivo_titanic