<a href="https://colab.research.google.com/github/jrmaza/machine-learning/blob/main/regresionlogistica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd

In [None]:
url_dengue = 'https://raw.githubusercontent.com/jrmaza/machine-learning/main/dengue_dataset.csv'

In [None]:
dengue = pd.read_csv(url_dengue)
dengue = dengue.dropna()

In [None]:
import sklearn
from sklearn import linear_model
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

In [None]:
dengue.head()

| param | desc |
| --- | ---|
| humid | promedio de humedad |
| humid90 | percentil de humedad |
| temp | temperatura promedio |
| temp90 | percentil de temperatura |
| h10pix | humedad máxima en un pixel de 10m de radio |
|h10pix90 | humedad máxima percentil en un pixel de 10m |
| trees | porcentaje de cobertura de árboles |
| trees90 | porcentaje de cobertura de ábroles percentil |
| NoYes | Dengue observado |
| Xmin | longitud mínima |
| Xmax | longitud máxima |
| Ymin | latitud mínima |
| Ymax | latitud máxima |


In [None]:
X = dengue.drop(columns = "NoYes")

In [None]:
Y = dengue.loc[:,"NoYes"]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.25, random_state=42)

In [None]:
model = LogisticRegression()
model

In [None]:
model.fit(X_train,y_train)

In [None]:
y_pred = model.predict(X_test)

# Matriz de Confusión

La matriz de confusión es una herramienta muy útil para valorar cómo de bueno es un modelo clasificación basado en aprendizaje automático. En particular, sirve para mostrar de forma explícita cuándo una clase es confundida con otra, lo cual nos, permite trabajar de forma separada con distintos tipos de error

In [None]:
from sklearn import metrics
cnf_matrix = metrics.confusion_matrix(y_test, y_pred)
cnf_matrix

array([[251,  61],
       [ 31, 154]])

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
class_names=[0,1] # name  of classes
fig, ax = plt.subplots()
tick_marks = np.arange(len(class_names))
plt.xticks(tick_marks, class_names)
plt.yticks(tick_marks, class_names)
# create heatmap
sns.heatmap(pd.DataFrame(cnf_matrix), annot=True, cmap="YlGnBu" ,fmt='g')
ax.xaxis.set_label_position("top")
plt.tight_layout()
plt.title('Confusion matrix', y=1.1)
plt.ylabel('Actual label')
plt.xlabel('Predicted label')

In [None]:
print("Exactitud:",metrics.accuracy_score(y_test, y_pred))
print("Precisión:",metrics.precision_score(y_test, y_pred))

# El hiperparámetro ```C-value```

In [None]:
#C=100
logisticregression100 = LogisticRegression(C=100,max_iter=1000).fit(X_train, y_train)

In [None]:
print("puntaje del modelo con el conjunto de entrenamiento: %f" % logisticregression100.score(X_train, y_train))
print("puntaje del modelo con el conjunto de prueba: %f" % logisticregression100.score(X_test, y_test))

In [None]:
training_accuracy = []
test_accuracy = []
c_value = np.arange(0.1, 10, 0.1) #arreglo con valores para C desde 0.001 hasta 100, aumentando en 0.1
# try c values from 0.001 to 100
for i in c_value:
  # build the model
  model = LogisticRegression(C=i,max_iter=1000)
  model.fit(X_train, y_train)
  # almacena exactitud con grupo de entrenamiento
  training_accuracy.append(model.score(X_train, y_train))
  # almacena exactitud con grupo de prueba
  test_accuracy.append(model.score(X_test, y_test))

plt.plot(c_value, training_accuracy, label="entrenamiento")
plt.plot(c_value, test_accuracy, label="prueba")
plt.legend()

# Regresión logística usando ```StatsModel```

In [None]:
import statsmodels.api as sm

In [None]:
X_train = sm.add_constant(X_train)
modelsm = sm.Logit(y_train, X_train)
results = modelsm.fit()

In [None]:
print(results.summary())

# Cáncer de seno
URL: [breast cancer](https://raw.githubusercontent.com/jrmaza/machine-learning/main/breast_cancer_dataset.csv)