<a href="https://colab.research.google.com/github/moscadaa12/Construccion-de-Sotfwar/blob/main/Modelo1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Task
Implementa un modelo Perceptrón Básico desde cero para clasificar si una persona tiene diabetes o no utilizando el dataset "Pima Indians Diabetes Database" de la URL "https://docs.google.com/document/d/1PYG2DW8tMQIh-0VWG9l6EWnQvukjwEavzMC19qYaUbU/edit?usp=sharing", cumpliendo con los siguientes requisitos: tasa de aprendizaje 0.01, 100 épocas, inicialización de pesos y bias en 0, función de activación escalón, división de datos 70/30 (entrenamiento/prueba), estandarización de variables. Calcula y muestra la precisión, la matriz de confusión y el error de clasificación.

## Cargar los datos

### Subtask:
Cargar el dataset "Pima Indians Diabetes Database" desde la URL proporcionada en un DataFrame de pandas.


**Reasoning**:
The provided URL points to a Google Docs document, not a raw data file. I need to find a publicly available CSV version of the Pima Indians Diabetes dataset to load it into a pandas DataFrame. I will search for a suitable URL and then use pandas to read the data.



In [1]:
import pandas as pd

# Using a publicly available URL for the Pima Indians Diabetes dataset
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv"
df = pd.read_csv(url, header=None)

# The dataset does not have headers, so we will add them based on common knowledge of the dataset
df.columns = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome']

print("Dataset loaded successfully.")
display(df.head())

Dataset loaded successfully.


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


## Preprocesamiento de los datos

### Subtask:
Dividir los datos en conjuntos de entrenamiento (70%) y prueba (30%) y estandarizar las variables numéricas de los conjuntos de entrenamiento y prueba.


**Reasoning**:
Split the data into training and testing sets and standardize the features in both sets as requested in the instructions.



In [2]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Separate features (X) and target variable (y)
X = df.drop('Outcome', axis=1)
y = df['Outcome']

# Split data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Instantiate StandardScaler
scaler = StandardScaler()

# Fit scaler to training data and transform both training and testing data
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("Data split and scaled successfully.")
print(f"Shape of X_train_scaled: {X_train_scaled.shape}")
print(f"Shape of X_test_scaled: {X_test_scaled.shape}")
print(f"Shape of y_train: {y_train.shape}")
print(f"Shape of y_test: {y_test.shape}")

Data split and scaled successfully.
Shape of X_train_scaled: (537, 8)
Shape of X_test_scaled: (231, 8)
Shape of y_train: (537,)
Shape of y_test: (231,)


## Implementación del perceptrón

### Subtask:
Implementar la función de activación escalón y la clase Perceptrón desde cero, incluyendo los métodos para inicializar pesos y bias, entrenar el modelo (ajustar pesos y bias), y hacer predicciones.


**Reasoning**:
Implement the step function and the Perceptron class with methods for initialization, training, and prediction as specified in the instructions.



In [10]:
import numpy as np

# 1. Definir la función de activación escalón
def step_function(suma_ponderada):
    """Función de activación escalón."""
    return 1 if suma_ponderada >= 0 else 0

# 2. Crear la clase Perceptrón
class Perceptron:
    """Modelo básico de Perceptrón."""

    def __init__(self, tasa_aprendizaje=0.01, epocas=100):
        """
        Inicializar pesos y sesgo a cero.

        Args:
            tasa_aprendizaje (float): La tasa de aprendizaje para las actualizaciones de peso.
            epocas (int): El número de iteraciones de entrenamiento.
        """
        self.tasa_aprendizaje = tasa_aprendizaje
        self.epocas = epocas
        self.pesos = None
        self.sesgo = None

    # 4. Definir el método fit para el entrenamiento
    def fit(self, X, y):
        """
        Entrenar el modelo Perceptrón.

        Args:
            X (np.ndarray): Características de entrenamiento.
            y (np.ndarray): Variable objetivo.
        """
        n_muestras, n_caracteristicas = X.shape

        # 3. Inicializar pesos y sesgo a cero
        self.pesos = np.zeros(n_caracteristicas)
        self.sesgo = 0

        # 5. Iterar durante el número especificado de épocas
        for _ in range(self.epocas):
            # 6. Iterar a través de cada muestra
            for idx, x_i in enumerate(X):
                # 7. Calcular la suma ponderada y el sesgo
                salida_lineal = np.dot(x_i, self.pesos) + self.sesgo

                # 8. Aplicar la función escalón para obtener la salida predicha
                y_predicha = step_function(salida_lineal)

                # 9. Calcular el error
                error = y[idx] - y_predicha

                # 10. Actualizar pesos y sesgo
                self.pesos += self.tasa_aprendizaje * error * x_i
                self.sesgo += self.tasa_aprendizaje * error

    # 11. Definir el método predict
    def predict(self, X):
        """
        Realizar predicciones utilizando el modelo Perceptrón entrenado.

        Args:
            X (np.ndarray): Características para la predicción.

        Returns:
            np.ndarray: Salidas predichas (0 o 1).
        """
        # 12. Calcular la suma ponderada y el sesgo para cada muestra
        salida_lineal = np.dot(X, self.pesos) + self.sesgo

        # 13. Aplicar la función escalón a cada suma ponderada
        y_predicha = np.array([step_function(salida) for salida in salida_lineal])

        # 14. Devolver las salidas predichas
        return y_predicha

print("Función escalón y clase Perceptrón definidas.")

Función escalón y clase Perceptrón definidas.


## Entrenamiento del perceptrón

### Subtask:
Entrenar el modelo Perceptrón utilizando los datos de entrenamiento con una tasa de aprendizaje de 0.01 y 100 épocas.


**Reasoning**:
Instantiate and train the Perceptron model using the scaled training data.



In [5]:
# Instantiate the Perceptron model with specified learning rate and epochs
perceptron_model = Perceptron(learning_rate=0.01, epochs=100)

# Train the model using the scaled training data
perceptron_model.fit(X_train_scaled, y_train.to_numpy())

print("Perceptron model instantiated and trained successfully.")

Perceptron model instantiated and trained successfully.


## Evaluación del perceptrón

### Subtask:
Realizar predicciones sobre el conjunto de prueba, calcular y mostrar la precisión (Accuracy), la matriz de confusión y el error de clasificación.


**Reasoning**:
Perform predictions, calculate and display accuracy, confusion matrix, and classification error using the trained perceptron model and the test data.



In [7]:
from sklearn.metrics import accuracy_score, confusion_matrix

# 1. Make predictions on the test set
y_pred = perceptron_model.predict(X_test_scaled)

# 2. Calculate Accuracy
accuracy = accuracy_score(y_test, y_pred)

# 3. Calculate Confusion Matrix
conf_matrix = confusion_matrix(y_test, y_pred)

# 4. Calculate Classification Error
classification_error = 1 - accuracy

# 5. Print the results
print(f"Accuracy: {accuracy:.4f}")
print("\nConfusion Matrix:")
print(conf_matrix)
print(f"\nClassification Error: {classification_error:.4f}")

Accuracy: 0.7662

Confusion Matrix:
[[130  21]
 [ 33  47]]

Classification Error: 0.2338


## Mostrar resultados

### Subtask:
Presentar los resultados de la evaluación (precisión, matriz de confusión, error de clasificación) de forma clara (tabla o texto).


**Reasoning**:
Print the evaluation results in a clear format as requested.



In [9]:
from sklearn.metrics import confusion_matrix

# Assuming accuracy, conf_matrix, and classification_error are already calculated and available

print("--- Perceptron Model Evaluation Results ---")

# Display Accuracy
print(f"\nPrecisión del modelo Perceptrón: {accuracy:.4f}")

# Display Confusion Matrix with labels
print("\nMatriz de Confusión:")
# Using pandas DataFrame for better visualization with labels
conf_matrix_df = pd.DataFrame(conf_matrix,
                              index=['Actual Negative', 'Actual Positive'],
                              columns=['Predicted Negative', 'Predicted Positive'])
display(conf_matrix_df)

# Display Classification Error
print(f"\nError de Clasificación: {classification_error:.4f}")

--- Perceptron Model Evaluation Results ---

Precisión del modelo Perceptrón: 0.7662

Matriz de Confusión:


Unnamed: 0,Predicted Negative,Predicted Positive
Actual Negative,130,21
Actual Positive,33,47



Error de Clasificación: 0.2338


## Implementación del perceptrón

### Subtask:
Implementar la función de activación escalón y la clase Perceptrón desde cero, incluyendo los métodos para inicializar pesos y bias, entrenar el modelo (ajustar pesos y bias), y hacer predicciones.

**Razonamiento**:
Implementar la función escalón y la clase Perceptrón con métodos para inicialización, entrenamiento y predicción, según las instrucciones.

## Resumen:

### Hallazgos clave del análisis de datos

* El modelo Perceptrón alcanzó una precisión de aproximadamente 0.7662 en el conjunto de prueba.
* La matriz de confusión muestra:
  * 130 verdaderos negativos (no diabéticos predichos correctamente).
  * 47 verdaderos positivos (diabéticos predichos correctamente).
  * 21 falsos positivos (diabéticos predichos incorrectamente).
  * 33 falsos negativos (no diabéticos predichos incorrectamente).
* La tasa de error de clasificación es de aproximadamente 0.2338.

### Perspectivas o próximos pasos

* El rendimiento del modelo es moderado. El número relativamente alto de falsos negativos (33) en comparación con los falsos positivos (21) sugiere que es más probable que el modelo pase por alto un caso de diabetes que identifique incorrectamente uno.
* Los próximos pasos podrían incluir la optimización de la tasa de aprendizaje y el número de épocas, explorar diferentes estrategias de inicialización o considerar modelos más complejos si se requiere una mayor precisión.

## Summary:

### Data Analysis Key Findings

*   The Perceptron model achieved an accuracy of approximately 0.7662 on the test set.
*   The confusion matrix shows:
    *   130 true negatives (correctly predicted non-diabetic).
    *   47 true positives (correctly predicted diabetic).
    *   21 false positives (incorrectly predicted diabetic).
    *   33 false negatives (incorrectly predicted non-diabetic).
*   The classification error rate is approximately 0.2338.

### Insights or Next Steps

*   The model's performance is moderate. The relatively high number of false negatives (33) compared to false positives (21) suggests the model is more likely to miss a diabetic case than incorrectly identify one.
*   Further steps could involve optimizing the learning rate and number of epochs, exploring different initialization strategies, or considering more complex models if higher accuracy is required.
