### Carga de librerias necesarias para el analisis multivariante

In [23]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Fri Mar  1 12:07:43 2019

"""
#==============================================================================
# EJEMPLO DEL MÉTODO DE REGRESIÓN LINEAL SIMPLE USANDO LAS LIBRERÍAS 
# SKLEARN Y STATSMODELS (EJEMPLO 1)
#==============================================================================

# Cargar librerías
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

### Se Carga el dataset epilepsy

Este conjunto de datos proporciona una extensa recopilación de atributos clínicos, neurológicos, conductuales y relacionados con el estilo de vida de las personas con epilepsia. Incluye información demográfica (edad, sexo, peso, altura), historial médico (estado de medicación, exploraciones cerebrales, trastornos genéticos, antecedentes de accidentes cerebrovasculares y traumatismos craneoencefálicos), características específicas de las convulsiones (frecuencia, duración, tipo, aura y efectos postictales) y posibles desencadenantes de las convulsiones (privación de sueño, estrés, omisión de medicación, sensibilidad a la luz y al sonido). Diseñado para respaldar la investigación y las aplicaciones de aprendizaje automático, este conjunto de datos busca facilitar una clasificación precisa y una comprensión más profunda de los tipos de epilepsia y sus factores contribuyentes.

Explicacion de variables

* **Age:** Edad de la persona en años.(Numerica)
* **Gender:** Sexo de la persona.(Categorica)
* **Weight:** Peso de la persona en kilogramos.
* **Height:** Altura de la persona en metros.
* **Medication Status:** Estado de medicación de la persona (si está tomando medicación para la epilepsia o no).(Categorica)
* **Alcohol or Drug Use:** Uso de alcohol o drogas en la persona (sí o no).
* **EEG Abnormality Detected:** Detección de anomalía en el EEG de la persona (sí o no).
* **MRI/CT Scan Result:** Resultado de la exploración MRI o CT de la persona.(Categorica)
* **Seizure Frequency:** Frecuencia de convulsiones de la persona.
* **Seizure Duration:** Duración de las convulsiones de la persona en segundos.
* **Seizure Type:** Tipo de convulsión de la persona (por ejemplo, simple, múltiple, atípica).
* **Aura Before Seizure:** Aura de la persona antes de la convulsión (si la persona tiene aura o no) (Categorica)
* **Loss of Consciousness:** Perdida de consciencia de la persona durante la convulsión (sí o no).(Categorica)
* **Muscle Stiffness:** Estiffidad de los músculos de la persona durante la convulsión (sí o no).(Categorica)
* **Jerky Movements:** Movimientos bruscos de la persona durante la convulsión (sí o no).(Categorica)
* **Postictal Confusion:** Confusión postictal de la persona después de la convulsión (sí o no).(Categorica)
* **Blank Stare Episodes:** Número de episodios de foco en blanco de la persona después de la convulsión.(Categorica)
* **Eye Rolling:** Movimientos de los ojos de la persona durante la convulsión (sí o no).(Categorica)
* **Stress or Anxiety Before Episode:** Estrés o ansiedad de la persona antes de la convulsión (sí o no).(Categorica)
* **Lack of Sleep Before Episode:** Falta de sueño de la persona antes de la convulsión (sí o no).(Categorica)
* **Flashing Lights Sensitivity:** Sensibilidad de la persona a los luces flashantes (sí o no).(Categorica)
* **Loud Sound Sensitivity:** Sensibilidad de la persona a los sonidos fuertes (sí o no).(Categorica)
* **Missed Medication:** Faltas de medicación de la persona para la epilepsia (sí o no).(Categorica)
* **Family History of Epilepsy:** Antecedentes familiares de epilepsia de la persona (sí o no).(Categorica)
* **Head Injury History:** Historial de lesiones en la cabeza de la persona (sí o no).(Categorica)
* **Brain Tumor:** Historial de tumores cerebrales de la persona (sí o no).(Categorica)
* **History of Stroke:** Historial de accidentes cerebrovasculares de la persona (sí o no).(Categorica)
* **Genetic Disorder:** Historial de trastornos genéticos de la persona (sí o no).(Categorica)
* **Developmental Delay (in Children):** Retraso en el desarrollo de la persona en niños (sí o no).(Categorica)
* **Target/Epilepsy Type:** Tipo de epilepsia de la persona (por ejemplo, simple, múltiple, atípica).(Categorica)


### Carga el DataSet

In [None]:
dataset = pd.read_csv('./Epilepsy_dataset.csv') # Cargar dataset


Age                                  0
Gender                               0
Weight                               0
Height                               0
Medication_Status                    0
Alcohol_or_Drug_Use                  0
EEG_Abnormality_Detected             0
MRI/CT_Scan_Result                   0
Seizure_Frequency                    0
Seizure_Duration                     0
Seizure_Type                         0
Aura_Before_Seizure                  0
Loss_of_Consciousness                0
Muscle_Stiffness                     0
Jerky_Movements                      0
Postictal_Confusion                  0
Blank_Stare_Episodes                 0
Eye_Rolling                          0
Stress_or_Anxiety_Before_Episode     0
Lack_of_Sleep_Before_Episode         0
Flashing_Lights_Sensitivity          0
Loud_Sound_Sensitivity               0
Missed_Medication                    0
Family_History_of_Epilepsy           0
Head_Injury_History                  0
Brain_Tumor              

In [25]:
# Conversión de variables categoricas a numericas
# Convertimos la capos con valores 'yes' o 'no' a (0 y 1)
# 'Alcohol or Drug Use','EEG Abnormality Detected', 'Aura Before Seizure', 'Loss of Consciousness', 'Muscle Stiffness', 'Jerky Movements', 'Postictal Confusion', 'Blank Stare Episodes', 'Eye Rolling', 'Stress or Anxiety Before Episode', 'Lack of Sleep Before Episode', 'Flashing Lights Sensitivity', 'Loud Sound Sensitivity', 'Missed Medication', 'Family History of Epilepsy', 'Head Injury History', 'Brain Tumor', 'History of Stroke', 'Genetic Disorder', 'Developmental Delay (in Children)'

categorical_cols = dataset.select_dtypes(include=['object']).columns.tolist() # Identifica variables categoricas
numeric_cols = dataset.select_dtypes(include=['int64', 'float64']).columns.tolist() # Identifica variables numericas

for col in categorical_cols: # Recorre cada columna categorica
    if col != 'Medication_Status' and col != 'Gender' and col != 'MRI/CT_Scan_Result' and col != 'Target/Epilepsy_Type': # Excluye las columnas que no se convierten
        dataset[col] = dataset[col].map({'No': 0, 'Yes': 1}) # Convierte 'No' y 'Yes' a 0 y 1

dataset['Medication_Status'] = dataset['Medication_Status'].map({'Not on Medication': 0, 'On Medication': 1}) # Convierte 'Not on Medication' y 'On Medication' a 0 y 1
dataset['Gender'] = dataset['Gender'].map({'Female': 0, 'Male': 1}) # Convierte 'Female' y 'Male' a 0 y 1
dataset.drop(columns=['MRI/CT_Scan_Result'], inplace=True) # Elimina la columna 'MRI/CT_Scan_Result'
dataset.drop(columns=['Seizure_Type'], inplace=True) # Elimina la columna 'Seizure_Type'

print(dataset)


      Age  Gender  Weight  Height  Medication_Status  Alcohol_or_Drug_Use  \
0      15     1.0    48.3   168.2                  1                    1   
1       4     0.0    56.0   174.5                  1                    0   
2      36     0.0    44.8   156.2                  1                    0   
3      32     0.0    70.4   180.4                  0                    0   
4      29     1.0    54.5   161.7                  1                    0   
...   ...     ...     ...     ...                ...                  ...   
4851   76     0.0    58.1   170.3                  1                    0   
4852   10     1.0    80.6   172.9                  1                    1   
4853   67     1.0    37.0   159.6                  1                    0   
4854   33     1.0    54.7   156.5                  1                    0   
4855   49     1.0    83.0   172.4                  0                    0   

      EEG_Abnormality_Detected  Seizure_Frequency  Seizure_Duration  \
0   

### Segmenta las variables independientes (X) y la variable dependiente (y)

In [26]:
X = dataset.iloc[:, :-1].values # Todas las filas (variables independientes), todas las columnas excepto la última
y = dataset.iloc[:, -1].values # Todas las filas (variable dependiente), última columna

print("Variables independientes (X):")
print(X)
print("\nVariable dependiente (y):")
print(y)


Variables independientes (X):
[[15.   1.  48.3 ...  0.   0.   1. ]
 [ 4.   0.  56.  ...  0.   0.   0. ]
 [36.   0.  44.8 ...  0.   0.   0. ]
 ...
 [67.   1.  37.  ...  0.   1.   0. ]
 [33.   1.  54.7 ...  0.   0.   0. ]
 [49.   1.  83.  ...  0.   0.   0. ]]

Variable dependiente (y):
['Generalized' 'Generalized' 'Generalized' ... 'Generalized' 'Generalized'
 'Focal']


# Dividir el dataset en entrenamiento y prueba

In [27]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 1/3, random_state = 1)

### Escalar variables

In [37]:
# Escalar variables
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.fit_transform(X_test)



#print(X_train, X_test)
print('------------------------------------')
#print(y_train, y_test)

nan_counts_x_train = X_train.isnull().sum()
nan_counts_y_test = X_test.isnull().sum()

print(nan_counts_x_train, nan_counts_y_test)


------------------------------------


AttributeError: 'numpy.ndarray' object has no attribute 'isnull'

### Crear Modelo de regresion lineal sumple con el conjunto de entrenamiento

In [29]:
regression = LinearRegression()
regression.fit(X_train, y_train)

ValueError: Input X contains NaN.
LinearRegression does not accept missing values encoded as NaN natively. For supervised learning, you might want to consider sklearn.ensemble.HistGradientBoostingClassifier and Regressor which accept missing values encoded as NaNs natively. Alternatively, it is possible to preprocess the data, for instance by using an imputer transformer in a pipeline or drop samples with missing values. See https://scikit-learn.org/stable/modules/impute.html You can find a list of all estimators that handle NaN values at the following page: https://scikit-learn.org/stable/modules/impute.html#estimators-that-handle-nan-values

# Predecir con el conjunto de prueba y el modelo de regresión

In [None]:
y_pred = regression.predict(X_test)

print(y_pred)