##Regresión logística

Es usada para problemas de clasificación, la mayoría de problemas son de este tipo. Este es un método estadístico para resolver problemas de clasificación binaria. Es un algoritmo simple y fácil de implementar. Se puede usar para la deteccion de spam, para la detección de cáncer, para saber si un cliente abandonará la compañia, etc. Se usa la función sigmoide: 

![texto alternativo](https://www.researchgate.net/profile/Tali_Leibovich-Raveh/publication/325868989/figure/fig2/AS:639475206074368@1529474178211/A-Basic-sigmoid-function-with-two-parameters-c1-and-c2-as-commonly-used-for-subitizing.png)

Toma cualquier valor real entre 0 y 1, sus extremos son asíntotas. Existen tres tipos de regresiones logísticas: 

1.   Binaria 
2.   Multinomial: 3 o más opciones
3.   Ordinal: 3 o más categorías ordinales (ej: 1 a 5 estrellas)







In [0]:
from sklearn import datasets

dataset = datasets.load_breast_cancer()

In [0]:
dataset.keys()

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])

In [0]:
print(dataset.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry 
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 3 is Mean Radius, f

In [0]:
from sklearn.model_selection import train_test_split

X = dataset.data
y = dataset.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

from sklearn.preprocessing import StandardScaler

# escalar los datos, llevar los datos a un mismo nivel de magnitudes
escalar = StandardScaler()
X_train = escalar.fit_transform(X_train)
X_test = escalar.transform(X_test)

from sklearn.linear_model import LogisticRegression

alg = LogisticRegression()

alg.fit(X_train, y_train)

y_pred = alg.predict(X_test)




In [0]:
print([x==y for x,y in zip(y_pred, y_test)])

[True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, False, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, False, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, True, False, True, True]


In [0]:
from sklearn.metrics import confusion_matrix

matrix = confusion_matrix(y_test, y_pred)
print("VP, FN")
print("VN, FP")
print(matrix)
print("predicciones incorrectas: ", matrix[0,1]+matrix[1,0])

VP, FN
VN, FP
[[40  3]
 [ 0 71]]
predicciones incorrectas:  3


**Verdaderos positivos**: en los datos reales y en la predicción estos datos eran 1 (True)

**Verdaderos negativos**: en los datos reales y en la predicción estos datos eran False

**Falsos positivos**: en los datos reales eran False y en la predicción estos resultaron True

**Falsos negativos**: en los datos reales eran True y en la predicción resultaron False

In [0]:
from sklearn.metrics import precision_score

precision = precision_score(y_test, y_pred)

print("precision: ", precision)

precision:  0.9594594594594594


In [0]:
from sklearn.metrics import accuracy_score

print("exactitud: ", accuracy_score(y_test, y_pred))

exactitud:  0.9736842105263158


In [0]:
from sklearn.metrics import recall_score

print("sensibilidad: ", recall_score(y_test, y_pred))

sensibilidad:  1.0


In [0]:
from sklearn.metrics import f1_score

print("puntaje f1: ", f1_score(y_test, y_pred))

puntaje f1:  0.9793103448275862


In [0]:
from sklearn.metrics import roc_auc_score

print("roc score: ", roc_auc_score(y_test, y_pred))

roc score:  0.9651162790697674
