In [1]:
SEED=185

In [2]:
import pandas as pd
import numpy as np

from modelsDefault import defaultModelsRun
from models import modelsRun
from sklearn import preprocessing

In [3]:
DATA='data/mamografias.csv'

# Función para leer los datos
def readData(data_file):
    return pd.read_csv(data_file,sep=',', na_values='?')

data = readData(DATA) # Lectura de los datos

data.rename(columns = {'BI-RADS':'BiRads'}, inplace = True) # Para poder referirnos a esta columna como data.BiRads
data.BiRads.replace(0,pd.NA,inplace=True) # BiRads 0 significa radiografía insuficiente
data.Shape.replace('N',pd.NA,inplace=True) # Lo mismo pasa con Shape N
data.replace(pd.NA, np.nan, inplace=True)

data=data.dropna() # Eliminamos las instancias con valores perdidos
data.shape[0] # Nos quedamos con 825 instancias

825

In [4]:
data.describe() # Baja desviación en BiRads y en Density

Unnamed: 0,BiRads,Age,Margin,Density
count,825.0,825.0,825.0,825.0
mean,4.36,55.738182,2.806061,2.915152
std,0.601455,14.683532,1.568412,0.351937
min,2.0,18.0,1.0,1.0
25%,4.0,46.0,1.0,3.0
50%,4.0,57.0,3.0,3.0
75%,5.0,66.0,4.0,3.0
max,6.0,96.0,5.0,4.0


In [5]:
# Vemos que pasa, también con Shape, que al no ser numérica no se mostraba
from collections import Counter
print(Counter(data.BiRads)) # La mayoría de instancias tienen 4 o 5
print(Counter(data.Density)) # La mayoría de instancias tienen 3
print(Counter(data.Shape)) # Su distribuición está bastante lejos de ser degenerada

Counter({4.0: 468, 5.0: 317, 3.0: 24, 6.0: 9, 2.0: 7})
Counter({3.0: 750, 2.0: 56, 1.0: 11, 4.0: 8})
Counter({'I': 375, 'R': 190, 'O': 179, 'L': 81})


In [6]:
# La distribución de la característica densidad es prácticamente degenerada en 3
data.drop('Density', axis='columns',inplace=True)
data.BiRads=data.BiRads.replace(6,5).replace(2,4).replace(3,4)
print(Counter(data.BiRads))
data.head()

Counter({4.0: 499, 5.0: 326})


Unnamed: 0,BiRads,Age,Shape,Margin,Severity
0,5.0,67.0,L,5.0,maligno
2,5.0,58.0,I,5.0,maligno
3,4.0,28.0,R,1.0,benigno
8,5.0,57.0,R,5.0,maligno
10,5.0,76.0,R,4.0,maligno


In [7]:
# Sklearn necesita datos numéricos (aunque sean nominales)
le = preprocessing.LabelEncoder()
data.Shape = le.fit_transform(data.Shape)
data.Severity = le.fit_transform(data.Severity)
print(le.inverse_transform([0,1])) # Consideraremos maligno como la clase positiva

['benigno' 'maligno']


In [8]:
data.corr() # Severity tiene una correlación similar con todas, Shape y Margin están bastante correladas

Unnamed: 0,BiRads,Age,Shape,Margin,Severity
BiRads,1.0,0.400823,-0.552308,0.574538,0.669436
Age,0.400823,1.0,-0.377555,0.420682,0.45314
Shape,-0.552308,-0.377555,1.0,-0.738531,-0.564691
Margin,0.574538,0.420682,-0.738531,1.0,0.576492
Severity,0.669436,0.45314,-0.564691,0.576492,1.0


In [9]:
dataArray=np.array(data)
dataArray

array([[ 5., 67.,  1.,  5.,  1.],
       [ 5., 58.,  0.,  5.,  1.],
       [ 4., 28.,  3.,  1.,  0.],
       ...,
       [ 4., 64.,  0.,  5.,  0.],
       [ 5., 66.,  0.,  5.,  1.],
       [ 4., 62.,  1.,  3.,  0.]])

In [10]:
# Separamos en datos y target (label)
x=dataArray[:,:-1]
y=dataArray[:,-1]

In [11]:
defaultModelsRun(x,y,'features')

In [12]:
modelsRun(x,y,'features')