# LR

In [2]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

In [3]:
class OurLogisticRegression:
    def __init__(self, lr=0.01, num_iter=100000, fit_intercept=True):
        self.lr = lr
        self.num_iter = num_iter
        self.fit_intercept = fit_intercept
       

    def __add_intercept(self, X):
        intercept = np.ones((X.shape[0], 1))
        return np.concatenate((intercept, X), axis=1)

    def __sigmoid(self, z):
        return 1 / (1 + np.exp(-z))

    def __loss(self, h, y):
        return (-y * np.log(h) - (1 - y) * np.log(1 - h)).mean()

    def fit(self, X, y):
        if self.fit_intercept:
            X = self.__add_intercept(X)

        # weights initialization
        self.w = np.zeros(X.shape[1])

        for i in range(self.num_iter):
            z = np.dot(X, self.w)
            h = self.__sigmoid(z)
            gradient = np.dot(X.T, (h-y)) / y.size
            #print(gradient.shape, self.w.shape, z.shape,h.shape)
            #gradient = (h - y) / y.size
            self.w -= self.lr * gradient

    def predict_prob(self, X):
        if self.fit_intercept:
            X = self.__add_intercept(X)

        return self.__sigmoid(np.dot(X, self.w))

    def predict(self, X, threshold):
        return self.predict_prob(X) >= threshold
    def score(self, y_pred,y_test):
        return float(sum(y_pred == y_test)) / float(len(y_test))

In [4]:
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/diabetes.csv")
df.head()

#X = np.array([[1,2],[1,3],[1,4],[1,5]])
#y = np.array([[0],[0],[1],[1]])
#ourRegression=LogisticRegression(alpha=0.01,iterations=10000)

#w, J_history = ourRegression.gradient_descent(X, y)

#print("W encontrado por gradiente descendente: ")
#print(w)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [5]:
features=['Pregnancies','Glucose','BloodPressure','SkinThickness','Insulin','BMI','DiabetesPedigreeFunction','Age']
X=df[features]
y=df.Outcome

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.20,random_state=45)

In [6]:
model = OurLogisticRegression(lr=0.03, num_iter=100)

# fit the model to the training data
model.fit(X_train, y_train)

  return 1 / (1 + np.exp(-z))


In [7]:
# predict probabilities for test set
probs = model.predict_prob(X_test)

# predict classes for test set
y_pred = model.predict(X_test, 0.5)

In [8]:
#print(y_pred)
#print(y_test)
print("Precisión: ",model.score(y_pred,y_test))


Precisión:  0.538961038961039


### Proceso para uniformar la informacion

In [87]:
# datos1 = pd.read_csv('../DataSetGrades/2021-s1.csv')
# print(datos1)
notas2021s1 = pd.read_csv('../DataSetGrades/2021-s1.csv', sep =';')
notas2021s2 = pd.read_csv('../DataSetGrades/2021-s2.csv', sep =';')
notas2022s1 = pd.read_csv('../DataSetGrades/2022-s1.csv', sep =';')
notas2022s2 = pd.read_csv('../DataSetGrades/2022-s2.csv', sep =';')


# Compara los nombres de las columnas
#if set(notas2021s2.columns) == set(notas2022s1.columns):
#    print("Los nombres de las columnas son iguales para ambos archivos")
#else:
#    print("Los nombres de las columnas son diferentes para ambos archivos")

#notas2021s1.head()
#print(notas2021s1)
#columnasMantener2022s2 = ['proyecto 1,', 'proyecto 2', 'examen 1', 'tarea 1']
columnasMantener2021s1 = ['Proyecto Individual Docu 3.75%', 'Proyecto Individual Funcional 11.25%', 'Proyecto Grupal 1 Funcional 13.12%', 'Proyecto Grupal 1 Docu 4.38%', 'Examen 1 15.0%', 'Tarea 1 3.75%', 'Total: ']
columnasMantener2021s2 = ['Proyecto Indiviual Docu 3.75%', 'Proyecto Individual Funcional 11.25%', 'Proyecto Grupal 1 Funcional 13.12%', 'Proyecto Grupal 1 Docu 4.38%', 'Examen 1 15.0%', 'Tarea 1', 'Total: ']
columnasMantener2022s1 = ['Proyecto Individual Docu 3.75%', 'Proyecto Individual Funcional 11.25%', 'Proyecto Grupal 1 Funcional 13.12%', 'Proyecto Grupal 1 Docu 4.38%', 'Examen parcial 1 15%', 'Tarea 1 evaluación 3.75%', 'Total: ']
columnasMantener2022s2 = ['Proyecto Individual Docu 3.75%', 'Proyecto Individual Funcional 11.25%', 'Proyecto Grupal 1 Func Eval 13.12%', 'Proyecto Grupal 1 Docu Eval 4.38%', 'Examen parcial 1 15%', 'Tarea 1 3.75%', 'Total: ']

fixNotas2021s1 = notas2021s1.loc[:, columnasMantener2021s1]
fixNotas2021s2 = notas2021s2.loc[:, columnasMantener2021s2]
fixNotas2022s1 = notas2022s1.loc[:, columnasMantener2022s1]
fixNotas2022s2 = notas2022s2.loc[:, columnasMantener2022s2]


nombresNuevos1 = {'Proyecto Individual Docu 3.75%': 'Proyecto1Docu', 'Proyecto Individual Funcional 11.25%': 'Proyecto1', 'Proyecto Grupal 1 Funcional 13.12%':'Proyecto2', 'Proyecto Grupal 1 Docu 4.38%':'Proyecto2Docu', 'Examen 1 15.0%': 'Examen1', 'Tarea 1 3.75%':'Tarea1', 'Total: ':'Total'}
fixNotas2021s1 = fixNotas2021s1.rename(columns=nombresNuevos1)
nombresNuevos2 = {'Proyecto Indiviual Docu 3.75%': 'Proyecto1Docu', 'Proyecto Individual Funcional 11.25%': 'Proyecto1', 'Proyecto Grupal 1 Funcional 13.12%':'Proyecto2', 'Proyecto Grupal 1 Docu 4.38%':'Proyecto2Docu', 'Examen 1 15.0%': 'Examen1', 'Tarea 1':'Tarea1', 'Total: ':'Total'}
fixNotas2021s2 = fixNotas2021s2.rename(columns=nombresNuevos2)
nombresNuevos3 = {'Proyecto Individual Docu 3.75%': 'Proyecto1Docu', 'Proyecto Individual Funcional 11.25%': 'Proyecto1', 'Proyecto Grupal 1 Funcional 13.12%':'Proyecto2', 'Proyecto Grupal 1 Docu 4.38%':'Proyecto2Docu', 'Examen parcial 1 15%': 'Examen1', 'Tarea 1 evaluación 3.75%':'Tarea1', 'Total: ':'Total'}
fixNotas2022s1 = fixNotas2022s1.rename(columns=nombresNuevos3)
nombresNuevos4 = {'Proyecto Individual Docu 3.75%': 'Proyecto1Docu', 'Proyecto Individual Funcional 11.25%': 'Proyecto1', 'Proyecto Grupal 1 Func Eval 13.12%':'Proyecto2', 'Proyecto Grupal 1 Docu Eval 4.38%':'Proyecto2Docu', 'Examen parcial 1 15%': 'Examen1', 'Tarea 1 3.75%':'Tarea1', 'Total: ':'Total'}
fixNotas2022s2 = fixNotas2022s2.rename(columns=nombresNuevos4)




datos_unificados = pd.concat([fixNotas2021s1, fixNotas2021s2, fixNotas2022s1, fixNotas2022s2], ignore_index=True)
datos_unificados = datos_unificados.applymap(lambda x: x.strip() if isinstance(x, str) else x)

datos_unificados['Proyecto1Docu'] = pd.to_numeric(datos_unificados['Proyecto1Docu'], errors='coerce')
datos_unificados['Proyecto1'] = pd.to_numeric(datos_unificados['Proyecto1'], errors='coerce')
datos_unificados['Proyecto2'] = pd.to_numeric(datos_unificados['Proyecto2'], errors='coerce')
datos_unificados['Examen1'] = pd.to_numeric(datos_unificados['Examen1'], errors='coerce')
datos_unificados['Tarea1'] = pd.to_numeric(datos_unificados['Tarea1'], errors='coerce')
datos_unificados['Total'] = pd.to_numeric(datos_unificados['Total'], errors='coerce')
datos_unificados['Proyecto2Docu'] = pd.to_numeric(datos_unificados['Proyecto2Docu'], errors='coerce')


datos_unificados.to_csv('notasUnificadas.csv', index=False)

#probs = model.predict_prob(X_test)

# predict classes for test set
#y_pred = model.predict(X_test, 0.5)
#print("Precisión: ",model.score(y_pred,y_test))
Proyecto1Docu = 3.75
Proyecto1 = 11.25
Proyecto2Docu = 13.12
Proyecto2 = 4.38
Examen1 = 15
Tarea1 = 3.75
Total = 67.5
datos_unificados = datos_unificados.fillna(0)
datos_unificados['Proyecto1Docu'] = datos_unificados['Proyecto1Docu'].apply(lambda x: x*Proyecto1Docu/100)
datos_unificados['Proyecto1'] = datos_unificados['Proyecto1'].apply(lambda x: x*Proyecto1/100)
datos_unificados['Proyecto2Docu'] = datos_unificados['Proyecto2Docu'].apply(lambda x: x*Proyecto2Docu/100)
datos_unificados['Proyecto2'] = datos_unificados['Proyecto2'].apply(lambda x: x*Proyecto2/100)
datos_unificados['Examen1'] = datos_unificados['Examen1'].apply(lambda x: x*Examen1/100)
datos_unificados['Tarea1'] = datos_unificados['Tarea1'].apply(lambda x: x*Tarea1/100)

datos_unificados.head()
#print(datos_unificados)

# Guarda los datos modificados en un nuevo archivo CSV
#datos.to_csv('archivo_modificado.csv', index=False)




fixNotas
  Proyecto1Docu Proyecto1 Proyecto2 Proyecto2Docu Examen1  Tarea1  Total
0          77.0     100.0     100.0         100.0    53.3    76.0   80.2
1                     0.0                            12.6     0.0    2.5
2         100.0     100.0      45.0         100.0    49.6   100.0   80.8
3                                                             0.0    0.0
4         100.0     100.0     100.0         100.0    61.6    66.7   82.1
fixNotas
   Proyecto1Docu Proyecto1  Proyecto2  Proyecto2Docu  Examen1  Tarea1  Total
0          100.0     100.0      100.0           92.3     74.4   100.0  96.00
1           69.3      43.0       60.0           84.7     41.0          64.97
2          100.0      50.0      100.0          100.0     34.0    53.3  79.64
3           30.7      38.0        0.0            0.0     16.7     0.0  11.69
4            0.0      20.0        0.0            0.0      9.0    38.7  10.80
fixNotas
  Proyecto1Docu Proyecto1 Proyecto2 Proyecto2Docu Examen1  Tarea1  Total


### Aplicando feature engeneering
Primero se debe proceder a eliminar todos los datos negativos, en este caso todos loq ue tuvieron 0 en cada asignacion o notuvieron valor alguno dando como nota final un 0

#### Utilizando la regla del rango intercuartílico
Se basa en sacar los intecuartiles de un set de datos encontrados en 75% y el 25% de los datos, ademas es usado especialemente para encontrar outliers

In [85]:
# Calcula la IQR
Q1 = datos_unificados.quantile(0.25)
Q3 = datos_unificados.quantile(0.75)
IQR = Q3 - Q1

# Identifica los outliers
outliers = ((datos_unificados < (Q1 - 1.5 * IQR)) | (datos_unificados > (Q3 + 1.5 * IQR))).any(axis=1)
#print(datos_unificados[outliers])


     Proyecto1Docu  Proyecto1  Proyecto2  Proyecto2Docu  Examen1  Tarea1   
0             77.0      100.0      100.0          100.0     53.3    76.0  \
1              0.0        0.0        0.0            0.0     12.6     0.0   
2            100.0      100.0       45.0          100.0     49.6   100.0   
3              0.0        0.0        0.0            0.0      0.0     0.0   
4            100.0      100.0      100.0          100.0     61.6    66.7   
..             ...        ...        ...            ...      ...     ...   
100          100.0       61.0       70.0           92.3     59.3   100.0   
101          100.0      100.0       88.3          100.0     66.3   100.0   
102          100.0      100.0      100.0          100.0     54.4   100.0   
103          100.0      100.0      100.0          100.0     72.0   100.0   
104          100.0       83.8      100.0          100.0     31.6     0.0   

     Total  
0    80.20  
1     2.50  
2    80.80  
3     0.00  
4    82.10  
..     ..

#### Utilizando z-score
Este se basa principalemente de la desviacion estandar la cual da como un valor que no debe sobre pasar un rango, si lo hace se considera unoutlier

In [67]:
data = datos_unificados.fillna(0)
data = datos_unificados.values

# Calcula el z-score de cada valor
z_scores = (data - np.mean(data, axis=0)) / np.std(data, axis=0)

# Identifica los outliers
outliers = (abs(z_scores) > 3).any(axis=1)
print(data[outliers])





[]


### Ejecucion de modelo

In [82]:
datos_unificados = datos_unificados.fillna(0)
result = df['A'].apply(lambda x: x + 1)
# Seleccionar todas las columnas excepto la última como x
x = datos_unificados.iloc[:, :-1]

# Seleccionar la última columna como y
y = datos_unificados.iloc[:, -1]

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.30, random_state=45)

model = OurLogisticRegression(lr=0.001, num_iter=1000)

# fit the model to the training data
model.fit(X_train, y_train)

# predict probabilities for test set
probs = model.predict_prob(X_test)

# predict classes for test set
y_pred = model.predict(X_test, 0.7)

#print(x)
#print(y)
print(probs)
print(y_test)

print("Precisión: ",model.score(y_pred,y_test))


[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1.]
1      2.50
21     2.00
0     80.20
86    87.62
37    76.90
67    79.32
94    23.79
64    76.16
13    78.60
33    91.50
2     80.80
45    80.09
44    97.61
90    22.01
97    88.04
82     0.75
60    93.99
58    92.61
4     82.10
55     1.25
7     70.70
79    66.38
10    77.60
43     0.00
25    69.60
26    96.00
9     67.60
20    76.30
74    94.97
23    68.30
18    80.20
77    67.94
Name: Total, dtype: float64
Precisión:  0.0
