In [None]:
import pandas as pd #manejo y análisis de estructuras de datos.
import numpy as np #crear vectores y matrices + funciones matemáticas de alto nivel
import seaborn as sns #Visualizacion de datos estadisticos
import matplotlib.pyplot as plt #generación de gráficos
import plotly.express as px
from sklearn import preprocessing #procesamiento previo de datos
%matplotlib inline 
from sklearn.linear_model import LogisticRegression #implementa la regresión logística regularizada
from sklearn.model_selection import train_test_split #Divide matrices/listas en subconjuntos de prueba y entrenamiento aleatorio
from sklearn.metrics import confusion_matrix #Calcula la matriz de confusión para evaluar la precisión de una clasificación.

In [None]:
#Guardamos los datos y visualizamos los 5 primeros
df = pd.read_csv("../input/insuficienciacardiaca/dataset.csv")
df.head()

In [None]:
#Generamos estadísticas descriptivas
df.describe()

# VARIABLES

**1. age:** (edad) la edad de la persona con insuficiencia cardíaca

**2. anaemia:** (anemia) Disminución de los glóbulos rojos o de la hemoglobina (booleano)

**3. creatinine_phosphokinase:** (creatinina_fosfocinasa) Nivel de la enzima CPK en la sangre (mcg/L)

**4. diabetes:** Si el paciente tiene diabetes (booleano)

**5. ejection_fraction:** (fracción de expulsión) Porcentaje de sangre que sale del corazón en cada contracción (porcentaje)

**6. high_blood_pressure:** (presión alta - sangre) : Si el paciente tiene hipertensión (booleano)

**7. platelets:** (plaquetas) Nivel de plaquetas en la sangre (kiloplaquetas/mL)

**8. serum_creatinine:** (creatinina sérica) Nivel de creatinina sérica en la sangre (mg/dL)

**9. serum_sodium:** (sodio sérico) Nivel de sodio sérico en la sangre (mEq/L)

**10. sex:** (sexo) Mujer u Hombre (binario)

**11. smoking:** (fumar) Si el paciente fuma o no (booleano)

**12. time:** (tiempo) Período de seguimiento (días)

**13. DEATH_EVENT:** (evento de muerte) Si el paciente falleció durante el período de seguimiento (booleano)

In [None]:
#Imprime un resumen conciso de un DataFrame.
df.info()

In [None]:
target_count = df.DEATH_EVENT.value_counts()
death_color = ['navy', 'crimson']
with plt.style.context('ggplot'):
    plt.figure(figsize=(6, 5))
    sns.countplot(data=df, x='DEATH_EVENT', palette=death_color)
    for name , val in zip(target_count.index, target_count.values):
        plt.text(name, val/2, f'{round(val/sum(target_count)*100, 2)}%\n({val})', ha='center',
                color='white', fontdict={'fontsize':13})
    plt.xticks(ticks=target_count.index, labels=['No', 'Si'])
    plt.yticks(np.arange(0, 230, 25))
    plt.show()

In [None]:
#Convertimos la entrada en un array y la guardamos en y
y = np.asarray(df['DEATH_EVENT'])
y [0:5] #Visualizamos 5

In [None]:
#guardamos las variables de las columnas en X, excepto 'DEATH_EVENT'
X = np.asarray(df.drop(['DEATH_EVENT'],1))
X[0:3] #Visualizamos 3

In [None]:
#Estandarizamos las características eliminando la media y escalando a la varianza de la unidad
X = preprocessing.StandardScaler().fit(X).transform(X)
X[0:3] #Visualizamos 3

In [None]:
#Dividimos los array en subconjuntos de prueba y entrenamiento aleatorio 
X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=4)
print ('Train set:', X_train.shape,  y_train.shape) #Devuelve una tupla que representa la dimensionalidad del DataFrame
print ('Test set:', X_test.shape,  y_test.shape)

# REGRESIÓN LOGISTICA

In [None]:
model = LogisticRegression()
model.fit(X_train, y_train)