### Modelo de Machine Learning para la classificación de tumores malignos

 Se presenta el proceso de entrenamiento de una Regresión Logística para la classificación de tumores. La base de datos fue obtenida de UCI Machine Learning Repository 
URL: https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic

 Se busca realizar la correcta clasificación de tumores malignos y benignos a partir de las características de los tumores. Este es un problema de clasificación binaria donde se busca predecir si un tumor es maligno o benigno a partir de las características de los tumores. Para cumplir con este objetivo se utiliza un modelo de Regresión Logística. 

## Regresión Logística para Clasificación

La regresión logística es un algoritmo de aprendizaje supervisado que se utiliza principalmente para problemas de clasificación, donde el objetivo es predecir una variable categórica o de clase en función de una o más variables independientes. Aunque el nombre incluye la palabra "regresión", la regresión logística no se utiliza para predecir valores continuos, sino para estimar la probabilidad de que una instancia pertenezca a una de las dos o más clases posibles. Es ampliamente utilizada en aplicaciones de clasificación binaria, pero también se puede extender a problemas de clasificación multiclase.

### Conceptos Clave

1. **Variables Independientes**: En un problema de clasificación, tienes un conjunto de variables independientes (también llamadas características o atributos) que se utilizan para hacer la predicción. Cada instancia de datos se representa como un vector de características, denotado como $X$.

2. **Variable Dependiente**: La variable que deseas predecir se llama la variable dependiente o la variable de respuesta, denotada como $Y$. En la regresión logística, $Y$ es una variable categórica binaria o multiclase. En el caso de clasificación binaria, $Y$ puede tomar valores como 0 o 1, que representan dos clases diferentes.

3. **Modelo Logístico**: La regresión logística utiliza una función logística (también llamada función sigmoide) para modelar la relación entre las variables independientes y la probabilidad de pertenecer a una clase particular. La función logística es una función sigmoide, que toma cualquier valor real y produce un valor entre 0 y 1. La función logística se define como:

    $P(Y=1|X)$ = $\frac{1}{1+e^{-\beta X}}$

4. **Entrenamiento del Modelo**: El objetivo del entrenamiento es encontrar los mejores valores para los coeficientes $\beta$ de modo que el modelo se ajuste adecuadamente a los datos de entrenamiento. Esto generalmente se hace utilizando técnicas de optimización, como el descenso de gradiente.

5. **Predicción**: Una vez que el modelo está entrenado, puedes usarlo para predecir la probabilidad de que una nueva instancia pertenezca a una clase específica. Si la probabilidad es mayor que un umbral (generalmente 0.5 en problemas binarios), se asigna a la clase positiva; de lo contrario, se asigna a la clase negativa.

In [21]:
import pandas as pd
import numpy as np
import plotly.express as px
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split

In [22]:
df_main=pd.read_csv('wdbc.data',encoding = 'unicode_escape', engine ='python')
df_main

Unnamed: 0,id,lbl,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,842302,1,17.99,10.38,122.80,1001.0,0.11840,0.27760,0.30010,0.14710,...,25.380,17.33,184.60,2019.0,0.16220,0.66560,0.7119,0.2654,0.4601,0.11890
1,842517,1,20.57,17.77,132.90,1326.0,0.08474,0.07864,0.08690,0.07017,...,24.990,23.41,158.80,1956.0,0.12380,0.18660,0.2416,0.1860,0.2750,0.08902
2,84300903,1,19.69,21.25,130.00,1203.0,0.10960,0.15990,0.19740,0.12790,...,23.570,25.53,152.50,1709.0,0.14440,0.42450,0.4504,0.2430,0.3613,0.08758
3,84348301,1,11.42,20.38,77.58,386.1,0.14250,0.28390,0.24140,0.10520,...,14.910,26.50,98.87,567.7,0.20980,0.86630,0.6869,0.2575,0.6638,0.17300
4,84358402,1,20.29,14.34,135.10,1297.0,0.10030,0.13280,0.19800,0.10430,...,22.540,16.67,152.20,1575.0,0.13740,0.20500,0.4000,0.1625,0.2364,0.07678
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
564,926424,1,21.56,22.39,142.00,1479.0,0.11100,0.11590,0.24390,0.13890,...,25.450,26.40,166.10,2027.0,0.14100,0.21130,0.4107,0.2216,0.2060,0.07115
565,926682,1,20.13,28.25,131.20,1261.0,0.09780,0.10340,0.14400,0.09791,...,23.690,38.25,155.00,1731.0,0.11660,0.19220,0.3215,0.1628,0.2572,0.06637
566,926954,1,16.60,28.08,108.30,858.1,0.08455,0.10230,0.09251,0.05302,...,18.980,34.12,126.70,1124.0,0.11390,0.30940,0.3403,0.1418,0.2218,0.07820
567,927241,1,20.60,29.33,140.10,1265.0,0.11780,0.27700,0.35140,0.15200,...,25.740,39.42,184.60,1821.0,0.16500,0.86810,0.9387,0.2650,0.4087,0.12400


#### El data set cuenta con 569 registros, tiene 32 variables (ID, diagnóstico, 30 características de entrada de valor real) 

#### Información sobre los atributos

	1. Número de identificación
	2. Diagnóstico (M = maligno, B = benigno)
	3-32.
	Se calculan diez características de valor real para cada núcleo celular:
	
	a. radio (media de las distancias del centro a los puntos del perímetro)
	b. textura (desviación estándar de los valores en escala de grises)
	c. perímetro
	d. área
	e. suavidad (variación local de las longitudes de los radios)
	f. compacidad (perímetro^2 / área - 1,0)
	g. concavidad (gravedad de las partes cóncavas del contorno)
	h. puntos cóncavos (número de porciones cóncavas del contorno)
	i. simetría 
	j. dimensión fractal ("aproximación de la línea de costa" - 1)


In [24]:
df_main.lbl= df_main.lbl.replace({'M':1,'B':0})
df = df_main
df = df.drop(['id','lbl'],axis=1)

#### Se divide al set en un set de entrenamiento y un set de prueba. El set de entrenamiento se utiliza para entrenar el modelo y el set de prueba para evaluar el modelo. Se utiliza un 80% de los datos para entrenamiento y un 20% para prueba. También se realiza un escalamiento de los datos para que todas las variables tengan la misma escala.

In [25]:
x_train, x_test, y_train , y_test = train_test_split(df,df_main.lbl,test_size=0.2)#, random_state=42)

scaler=MinMaxScaler()
scaler.fit(df)

x_train_t=scaler.transform(x_train)
x_test_t=scaler.transform(x_test)

#### Se declaran los hiperparámetros del modelo los cuales son principalmente el número de iteraciones y el tamaño del paso o learning rate. Se utiliza un learning rate de 0.1 y 1000 iteraciones.

In [32]:
h = lambda x,theta0,theta : 1/(1+np.exp(-(theta0+np.sum(theta.T*x))))

v=len(df.columns)
 
n = len(x_train.iloc[0])
n_it = 10000 #numero de iteraciones
alph = 0.1 #learning rate

t0 = 0
t = np.random.rand(v)

#### Se entrena el modelo con los datos de entrenamiento y se evalúa el modelo con los datos de prueba.

In [33]:
for i in range(0,n_it-1):
    d = np.zeros((n,v))
    d0 = []
  # Barrer muestras
    for j in range(0,n):
        # Calcular delta para theta0 y para cada muestra
        d0.append(h(x_train_t[j,:],t0,t)-df_main['lbl'].iloc[j])
    # Calcular delta para theta1 y para cada muestra
        d[j,:] = x_train_t[j,:].T*(h(x_train_t[j,:],t0,t)-df_main['lbl'].iloc[j])

  # Calcular sumatorias y promedio
    t0 = t0 - alph*(sum(d0)/n)
    t = t - np.sum(d,axis=0).T*(alph/n)

# Imprimir theta actualizado
print(t0)
print(t)

5.141137920832857
[ 0.83745944  1.79756958  1.70595818  0.200252    0.69068627  0.73029087
  1.1329084   0.60858471 -1.4538311  -0.75468216  0.72027937 -0.85502556
  0.27096811  0.96289336 -2.55497051  4.03547005  2.7395282   4.69515237
 -3.4006924  -0.17189632 -0.81535694  0.91653498 -0.62472428 -1.40057692
 -4.25019539 -0.98643083 -0.78836811 -4.49598661 -0.32640908 -1.05819277]


In [34]:
pred = []
for i in range(0,len(y_test)):
    pred.append(round(h(x_test_t[i,:],t0,t)))

In [35]:
pred = pd.Series(pred)

In [36]:
y = y_test.reset_index(drop=True)#.reset_index

In [37]:
VP = sum(pred * y) #verdaderos positivos
VN = len(pred[(pred == 0) * (pred == y)]) #verdaderos negativos
FP = len(pred[(pred == 1) * (pred != y)]) #falsos positivos
FN = len(pred[(pred == 0) * (pred != y)]) #falsos negativos

#### Evaluación del modelo utilizando metricas de clasificación accuracy y matriz de confusión. Estas metricas son calculadas a partir de las predicciones hechas por el modelo y los valores reales.

In [38]:
from sklearn.metrics import accuracy_score,confusion_matrix
accuracy = accuracy_score(y, pred)
confusion_mat = confusion_matrix(y, pred)

print("Accuracy:", accuracy)
print("Confusion Matrix:")
print(confusion_mat)

Accuracy: 0.3508771929824561
Confusion Matrix:
[[ 1 74]
 [ 0 39]]
