In [1]:
import pandas as pd
import numpy as np

from modelsDefault import defaultModelsRun
from models import modelsRun

from sklearn import preprocessing

In [2]:
DATA='data/mamografias.csv'

# Función para leer los datos
def readData(data_file):
    return pd.read_csv(data_file,sep=',', na_values='?')

data = readData(DATA) # Lectura de los datos

In [3]:
data.head() # Comprobamos el formato de los datos, 6 columnas siendo la última la variable a predecir

Unnamed: 0,BI-RADS,Age,Shape,Margin,Density,Severity
0,5.0,67.0,L,5.0,3.0,maligno
1,4.0,43.0,R,1.0,,maligno
2,5.0,58.0,I,5.0,3.0,maligno
3,4.0,28.0,R,1.0,3.0,benigno
4,5.0,74.0,R,5.0,,maligno


In [4]:
data.rename(columns = {'BI-RADS':'BiRads'}, inplace = True) # Para poder referirnos a esta columna como data.BiRads
data.head()

Unnamed: 0,BiRads,Age,Shape,Margin,Density,Severity
0,5.0,67.0,L,5.0,3.0,maligno
1,4.0,43.0,R,1.0,,maligno
2,5.0,58.0,I,5.0,3.0,maligno
3,4.0,28.0,R,1.0,3.0,benigno
4,5.0,74.0,R,5.0,,maligno


In [5]:
data.shape[0] # 961 instancias

961

In [6]:
# Comprobamos que las clases están balanceadas: 46% frente a 54% aprox.
print(data[data['Severity']=='maligno'].shape[0])
print(data[data['Severity']=='benigno'].shape[0])

445
516


In [7]:
data.isna().sum() # Hay algunos valores perdidos

BiRads       2
Age          5
Shape        0
Margin      48
Density     76
Severity     0
dtype: int64

In [8]:
data.BiRads.replace(0,pd.NA,inplace=True) # BiRads 0 significa radiografía insuficiente
data.Shape.replace('N',pd.NA,inplace=True) # Lo mismo pasa con Shape N
data.isna().sum()

BiRads       7
Age          5
Shape       31
Margin      48
Density     76
Severity     0
dtype: int64

In [9]:
data=data.dropna() # Eliminamos las instancias con valores perdidos
data.shape[0] # Nos quedamos con 825 instancias

825

In [10]:
print(data[data['Severity']=='maligno'].shape[0]) # Las clases siguen balanceadas: 48'5% frente a 51'5%
print(data[data['Severity']=='benigno'].shape[0])

400
425


In [11]:
# Sklearn necesita datos numéricos (aunque sean nominales)
le = preprocessing.LabelEncoder()
data.Shape = le.fit_transform(data.Shape)
data.Severity = le.fit_transform(data.Severity)
print(le.inverse_transform([0,1])) # Consideraremos maligno como la clase positiva

['benigno' 'maligno']


In [12]:
data.head()

Unnamed: 0,BiRads,Age,Shape,Margin,Density,Severity
0,5.0,67.0,1,5.0,3.0,1
2,5.0,58.0,0,5.0,3.0,1
3,4.0,28.0,3,1.0,3.0,0
8,5.0,57.0,3,5.0,3.0,1
10,5.0,76.0,3,4.0,3.0,1


In [13]:
dataArray=np.array(data)
dataArray

array([[ 5., 67.,  1.,  5.,  3.,  1.],
       [ 5., 58.,  0.,  5.,  3.,  1.],
       [ 4., 28.,  3.,  1.,  3.,  0.],
       ...,
       [ 4., 64.,  0.,  5.,  3.,  0.],
       [ 5., 66.,  0.,  5.,  3.,  1.],
       [ 4., 62.,  1.,  3.,  3.,  0.]])

In [14]:
# Separamos en datos y target (label)
x=dataArray[:,:-1]
y=dataArray[:,-1]

In [15]:
defaultModelsRun(x,y,'dropna')

In [16]:
modelsRun(x,y,'dropna')