### El objetivo de este codigo es implementar un modelo de regresion logistica multiple sin el uso de ningun framework de machine learning como scikit-learn o tensorflow y sin ninguna libreria estadistica como numpy o scipy.

#### La unica libreria que vamos a utilizar es math para las funciones exponenciales y logaritmicas.

In [10]:
from math import exp, log

In [14]:
# Implementacion de la funcion sigmoide
def sigmoide(z):
    return 1.0 / (1.0 + exp(-z))

In [15]:
# Implementación de la función de costo
def calcular_costo(X, y, theta):
    m = len(y)
    costo_total = 0
    for i in range(m):
        xi = X[i]
        hi = sigmoide(sum([xi[j] * theta[j] for j in range(len(xi))]))
        if y[i] == 1:
            costo_total -= log(hi)
        else:
            costo_total -= log(1 - hi)
    return costo_total / m

In [16]:
# Implementación de la función de entrenamiento de regresión logística
def entrenar_regresion_logistica(X, y, alpha=0.01, num_iteraciones=1000):
    m, n = len(X), len(X[0])
    theta = [0.0 for _ in range(n)]

    for iteracion in range(num_iteraciones):
        gradiente = [0.0 for _ in range(n)]
        for i in range(m):
            xi = X[i]
            diferencia = sigmoide(sum([xi[j] * theta[j] for j in range(n)])) - y[i]
            for j in range(n):
                gradiente[j] += diferencia * xi[j]
        for j in range(n):
            theta[j] -= alpha * gradiente[j] / m

    return theta

In [17]:
# Implementación de la función de predicción de regresión logística
def predecir(X, theta):
    m = len(X)
    predicciones = []
    for i in range(m):
        xi = X[i]
        probabilidad = sigmoide(sum([xi[j] * theta[j] for j in range(len(xi))]))
        predicciones.append(1 if probabilidad >= 0.5 else 0)
    return predicciones

In [18]:
# Implementación de la función de evaluación de regresión logística
# Esta es una funcion de exactitud, es decir, devuelve el porcentaje de predicciones correctas
def evaluar(X, y, theta):
    predicciones = predecir(X, theta)
    correctas = sum([1 if predicciones[i] == y[i] else 0 for i in range(len(y))])
    return correctas / len(y)

#### Ahora vamos a probar nuestro modelo con el dataset de iris.

#### En esta parte si utilizaremos otras librerias para el manejo de los datos y la separacion de los mismos

In [48]:
import pandas as pd
from sklearn.model_selection import train_test_split

In [49]:
df = pd.read_csv('iris.csv')

In [50]:
X = df.iloc[:, :-1].values
y = df.iloc[:, -1].values

X = X.tolist()
y = y.tolist()

In [51]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42, test_size=0.2)

In [52]:
theta = entrenar_regresion_logistica(X_train, y_train)

In [58]:
# Muestra de la funcion de prediccion
print('Predicciones:', predecir(X_test, theta))

Predicciones: [0, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1]


In [59]:
# Prueba del modelo
print('Exactitud en el conjunto de prueba:', evaluar(X_test, y_test, theta))

Exactitud en el conjunto de prueba: 1.0


In [60]:
# Muestra de los coeficientes
print('Coeficientes:', theta)

Coeficientes: [0.2956379287569924, 1.056654435155741, -1.6021840789946256, -0.6961751563500629]


#### Este dataset tiene 2 clases muy bien marcadas que nos permiten obtener una exactitud del 100% en el conjunto de prueba.