In [384]:
# utilizado para manejos de directorios y rutas
import os

# Computacion vectorial y cientifica para python
import numpy as np

# Librerias para graficación (trazado de gráficos)
from matplotlib import pyplot
from mpl_toolkits.mplot3d import Axes3D  # Necesario para graficar superficies 3D
from scipy import optimize

# llama a matplotlib a embeber graficas dentro de los cuadernillos
%matplotlib inline

In [385]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from datetime import datetime

In [386]:
#Carga de dataset
data = pd.read_csv('/content/diabetes_updated.csv', header=0)

In [387]:
print(data)

       Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin     BMI  \
0                6      148             72             35        0  33.600   
1                1       85             66             29        0  26.600   
2                8      183             64              0        0  23.300   
3                1       89             66             23       94  28.100   
4                0      137             40             35      168  43.100   
...            ...      ...            ...            ...      ...     ...   
10763            6      193            106             49      305   8.979   
10764            6      156             24             78      478  60.590   
10765            6       17             74             26      819  44.382   
10766            7       58            114             28       56  10.954   
10767            5      191             10             83      262  62.713   

       DiabetesPedigreeFunction  Age  Outcome  
0              

In [388]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10768 entries, 0 to 10767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               10768 non-null  int64  
 1   Glucose                   10768 non-null  int64  
 2   BloodPressure             10768 non-null  int64  
 3   SkinThickness             10768 non-null  int64  
 4   Insulin                   10768 non-null  int64  
 5   BMI                       10768 non-null  float64
 6   DiabetesPedigreeFunction  10768 non-null  float64
 7   Age                       10768 non-null  int64  
 8   Outcome                   10768 non-null  int64  
dtypes: float64(2), int64(7)
memory usage: 757.2 KB


In [389]:
X = data.iloc[:, 0:8]
y = data.iloc[:, 8]
m = y.size

In [390]:
print(X)
print('*'*15)
print(y)

       Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin     BMI  \
0                6      148             72             35        0  33.600   
1                1       85             66             29        0  26.600   
2                8      183             64              0        0  23.300   
3                1       89             66             23       94  28.100   
4                0      137             40             35      168  43.100   
...            ...      ...            ...            ...      ...     ...   
10763            6      193            106             49      305   8.979   
10764            6      156             24             78      478  60.590   
10765            6       17             74             26      819  44.382   
10766            7       58            114             28       56  10.954   
10767            5      191             10             83      262  62.713   

       DiabetesPedigreeFunction  Age  
0                       

In [391]:
def sigmoid(z):
    # Calcula la sigmoide de una entrada z
    # convierte la intrada a un arreglo numpy
    z = np.array(z)
  
    g = np.zeros(z.shape)

    g = 1 / (1 + np.exp(-z))

    return g

In [392]:
# Prueba la implementacion de la funcion sigmoid
z = 0
g = sigmoid(z)

print('g(', z, ') = ', g)

g( 0 ) =  0.5


In [393]:
# Configurar la matriz adecuadamente, y agregar una columna de unos que corresponde al termino de intercepción. 
m, n = X.shape
# Agraga el termino de intercepción a A
X = np.concatenate([np.ones((m, 1)), X], axis=1)

print(X[8])

[1.00e+00 2.00e+00 1.97e+02 7.00e+01 4.50e+01 5.43e+02 3.05e+01 1.58e-01
 5.30e+01]


In [394]:
def calcularCosto(theta, X, y):
    # Inicializar algunos valores utiles
    m = y.size  # numero de ejemplos de entrenamiento

    J = 0
    h = sigmoid(X.dot(theta.T))
    J = (1 / m) * np.sum(-y.dot(np.log(h)) - (1 - y).dot(np.log(1 - h)))
    
    return J

In [395]:
def descensoGradiente(theta, X, y, alpha, num_iters):
    # Inicializa algunos valores
    m = y.shape[0] # numero de ejemplos de entrenamiento
    
    # realiza una copia de theta, el cual será acutalizada por el descenso por el gradiente
    theta = theta.copy()
    J_history = []
    
    for i in range(num_iters):
        h = sigmoid(X.dot(theta.T))
        theta = theta - (alpha / m) * (h - y).dot(X)
       
        J_history.append(calcularCosto(theta, X, y))
    return theta, J_history

In [396]:
def costFunction(theta, X, y):
    # Inicializar algunos valores utiles
    m = y.size  # numero de ejemplos de entrenamiento

    J = 0
    grad = np.zeros(theta.shape)

    h = sigmoid(X.dot(theta.T))
    
    J = (1 / m) * np.sum(-y.dot(np.log(h)) - (1 - y).dot(np.log(1 - h)))
    grad = (1 / m) * (h - y).dot(X)
    
    return J, grad

In [397]:
# Inicializacion de parametros de ajuste
initial_theta = np.zeros(n+1)
print(initial_theta)
cost, grad = costFunction(initial_theta, X, y)

print('Costo en theta inicial (zeros): {:.3f}'.format(cost))
print('Costo esperado (aproximado): 0.693\n')
print(grad)
print('Gradiente en theta inicial (zeros):')
print('\t[{:.4f}, {:.4f}, {:.4f}]'.format(*grad))
print('Gradiente esperado (aproximado):\n\t[-0.1000, -12.0092, -11.2628]\n')

[0. 0. 0. 0. 0. 0. 0. 0. 0.]
Costo en theta inicial (zeros): 0.693
Costo esperado (aproximado): 0.693

[ 7.05794948e-03 -2.08023774e-02  1.60196880e-02  5.85670505e-01
 -1.38140788e-01 -2.80799591e+00  1.09701105e-01  1.30013816e-03
  3.78900446e-02]
Gradiente en theta inicial (zeros):
	[0.0071, -0.0208, 0.0160]
Gradiente esperado (aproximado):
	[-0.1000, -12.0092, -11.2628]



In [398]:
# Calcula y muestra el costo y el gradiente con valores de theta diferentes a cero

test_theta = np.array([-24, 0.2, 0.2,0.2,0.2,0.2,0.2,0.2,0.2])
#test_theta = np.array([-11.74749157, 0.09927308, 0.09316497])
print(test_theta)
cost, grad = costFunction(test_theta, X, y)

print('Costo en theta prueba: {:.3f}'.format(cost))
print('Costo esperado (aproximado): 0.218\n')

print('Gradiente en theta prueba:')
print('\t[{:.3f}, {:.3f}, {:.3f}]'.format(*grad))
print('Gradiente esperado (aproximado):\n\t[0.043, 2.566, 2.647]')

[-24.    0.2   0.2   0.2   0.2   0.2   0.2   0.2   0.2]
Costo en theta prueba: nan
Costo esperado (aproximado): 0.218

Gradiente en theta prueba:
	[0.507, 4.089, 50.485]
Gradiente esperado (aproximado):
	[0.043, 2.566, 2.647]


  J = (1 / m) * np.sum(-y.dot(np.log(h)) - (1 - y).dot(np.log(1 - h)))


In [399]:
# Establecer las opciones para optimize.minimize
options= {'maxiter': 1000}

# revisar la documentacion de scipy's optimize.minimize para mayor descripcion de los parametros
# La funcion devuekve un objeto `OptimizeResult`
# Se utiliza el algoritmo de Newton truncado para la optimización.
res = optimize.minimize(costFunction,
                        initial_theta,
                        (X, y),
                        jac=True,
                        method='TNC',
                        options=options)

# la propiedad fun del objeto devuelto por `OptimizeResult`
# contiene el valor del costFunction de un theta optimizado
cost = res.fun

# Theta optimizada esta en la propiedad x
theta = res.x

# Imprimir theta en la pantalla
print('Costo con un valor de theta encontrado por optimize.minimize: {:.3f}'.format(cost))
print('Costo esperado (aproximado): 0.203\n');

print('theta:')
print('\t[{:.3f}, {:.3f}, {:.3f}]'.format(*theta))
print('Theta esperado (aproximado):\n\t[-25.161, 0.206, 0.201]')

Costo con un valor de theta encontrado por optimize.minimize: 0.690
Costo esperado (aproximado): 0.203

theta:
	[-0.622, 0.009, 0.001]
Theta esperado (aproximado):
	[-25.161, 0.206, 0.201]


  res = optimize.minimize(costFunction,


In [400]:
def predict(theta, X):
    """
    Predecir si la etiqueta es 0 o 1 mediante regresión logística aprendida.
    Calcula las predicciones para X usando un umbral en 0.5 (es decir, si sigmoide (theta.T * x)> = 0.5, predice 1)

    Parametros
    ----------
    theta : array_like
        Parametros para regresion logistica. Un vecto de la forma (n+1, ).
    
    X : array_like
        Datos utilizados para el calculo de las predicciones. 
        La fila es el numero de los puntos para calcular las predicciones, 
        y las columnas con el numero de caracteristicas.

    Devuelve
    -------
    p : array_like
        Predicciones y 0 o 1 para cada fila en X. 
    """
    m = X.shape[0] # Numero de ejemplo de entrenamiento

    p = np.zeros(m)

    p = np.round(sigmoid(X.dot(theta.T)))
    return p

In [401]:
#  Predice la probabilidad de ingreso para un estudiante con nota de 45 en el examen 1 y nota de 85 en el examen 2
prob = sigmoid(np.dot([1,8,183,64,0,0,23.300,0.672,32], theta))
print('Paciente, se predice una probabilidad de diabetes: {:.3f}%'.format(prob))
print('Valor esperado: 0.775 +/- 0.002\n')

# Compute accuracy on our training set
p = predict(theta, X)
print('Precisión de entrenamiento: {:.2f} %'.format(np.mean(p == y) * 100))
print('Precisión esperada (aproximadamente): 89.00 %')

Paciente, se predice una probabilidad de diabetes: 0.442%
Valor esperado: 0.775 +/- 0.002

Precisión de entrenamiento: 51.98 %
Precisión esperada (aproximadamente): 89.00 %
