## Creación y análisis del modelo de Regresión Logística

Se analizó la depredación de palmeras pequeñas en el Parque Nacional el Palmar por parte de animales. Se realizó un experimento donde a la mitad de las palmeras se las colocó en jaulas y a la otra mitad no. Además se registró las distancia a una palmera adulta, creyendo que este factor puede influir en la depredación.
Se registró la supervivencia de todas las plantas registradas.

Generar un modelo que pueda predecir si una palmera pequeña va a sobrevivir o no dadas las condiciones.

In [1]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
from sklearn.preprocessing import LabelEncoder
import pandas as pd

In [2]:
#Cargo los datos
df = pd.read_csv('https://storage.googleapis.com/humai-datasets/datasets/palmeras.csv')

In [3]:
df.shape

(100, 3)

In [4]:
le = LabelEncoder()
le.fit(['jaula', 'sinjaula']) # sinjaula=1
df['exclusion_dummy'] = le.transform(df['exclusion'])

In [5]:
data = df.drop(['exclusion'], axis=1)

In [6]:
X = data[['exclusion_dummy', 'distancia']]
y = data['supervivencia']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [7]:
logreg = LogisticRegression(fit_intercept=True)
logreg.fit(X_train, y_train)

In [8]:
y_pred = logreg.predict(X_test)

In [9]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.67      0.57      0.62         7
           1       0.79      0.85      0.81        13

    accuracy                           0.75        20
   macro avg       0.73      0.71      0.72        20
weighted avg       0.74      0.75      0.75        20



In [10]:
from sklearn.model_selection import cross_validate

In [11]:
score = cross_validate(logreg, X_train, y_train, cv=5,
                       scoring='neg_mean_squared_error',
                       return_estimator=True)

In [12]:
print(score)

{'fit_time': array([0.01290011, 0.01284838, 0.00641203, 0.00675249, 0.01442122]), 'score_time': array([0.00466537, 0.00158644, 0.00169992, 0.00154471, 0.00435972]), 'estimator': [LogisticRegression(), LogisticRegression(), LogisticRegression(), LogisticRegression(), LogisticRegression()], 'test_score': array([-0.4375, -0.375 , -0.25  , -0.375 , -0.5   ])}


## Realización de la Selección de Características
Realiza una selección de características utilizando la técnica de Eliminación Recurrente de Características (RFE). Discute cómo la selección de características afecta la precisión del modelo.

In [13]:
from sklearn.feature_selection import RFE

In [14]:
logrg = LogisticRegression()
rfe = RFE(logrg, n_features_to_select=1)
rfe = rfe.fit(X, y)
print(rfe.support_)
print(rfe.ranking_)

[ True False]
[1 2]


In [15]:
print("RFE nos deja con las siguientes variables: ", rfe.feature_names_in_[rfe.support_])

RFE nos deja con las siguientes variables:  ['exclusion_dummy']
