# Análisis de Ciencia de Datos para Estudiantes de Biomedicina
Este notebook incluye un análisis completo desde la carga de datos hasta la interpretación de resultados.

In [None]:
# Importación de librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import LabelEncoder
import scipy.stats as stats

# Configuración de gráficos
sns.set(style='whitegrid')

In [None]:
# 1. Lectura del dataset
# Cargamos el dataset generado en R
datos = pd.read_csv('dataset_biomedicina.csv')

# Exploración inicial del dataset
print('Resumen del dataset:')
print(datos.info())
print('\nEstadísticas descriptivas:')
print(datos.describe())

In [None]:
# 2. Análisis Exploratorio de Datos (EDA)
# Distribución de la variable objetivo (Riesgo_Cardiovascular)
plt.figure(figsize=(10, 6))
plt.hist(datos['Riesgo_Cardiovascular'], bins=15, color='skyblue', edgecolor='black')
plt.title('Distribución del Riesgo Cardiovascular')
plt.xlabel('Riesgo Cardiovascular')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Relación entre Edad e IMC con el Riesgo Cardiovascular
plt.figure(figsize=(10, 6))
plt.scatter(datos['Edad'], datos['Riesgo_Cardiovascular'], color='blue', alpha=0.5)
plt.title('Edad vs Riesgo Cardiovascular')
plt.xlabel('Edad')
plt.ylabel('Riesgo Cardiovascular')
plt.show()

plt.figure(figsize=(10, 6))
plt.scatter(datos['IMC'], datos['Riesgo_Cardiovascular'], color='red', alpha=0.5)
plt.title('IMC vs Riesgo Cardiovascular')
plt.xlabel('IMC')
plt.ylabel('Riesgo Cardiovascular')
plt.show()

In [None]:
# Conversión de variables categóricas
le = LabelEncoder()
datos['Actividad_Fisica'] = le.fit_transform(datos['Actividad_Fisica'])
datos['Fumador'] = le.fit_transform(datos['Fumador'])

In [None]:
# 3. Separación en conjuntos de entrenamiento y prueba
X = datos[['Edad', 'IMC', 'Nivel_Glucosa', 'Nivel_Colesterol', 'Actividad_Fisica', 'Fumador']]
y = datos['Riesgo_Cardiovascular']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123)

In [None]:
# 4. Generación del Modelo de Regresión Lineal
modelo = LinearRegression()
modelo.fit(X_train, y_train)

# Coeficientes del modelo
print('Coeficientes del modelo:')
for feature, coef in zip(X.columns, modelo.coef_):
    print(f'{feature}: {coef:.3f}')
print(f'Intercepción: {modelo.intercept_:.3f}')

In [None]:
# 5. Evaluación del Modelo
# Predicción y cálculo del error en el conjunto de prueba
predicciones = modelo.predict(X_test)
rmse = np.sqrt(mean_squared_error(y_test, predicciones))
print(f'Error RMSE del modelo: {rmse:.2f}')

In [None]:
# 6. Plots para evaluar los supuestos de Gauss-Markov

# 1. Residuos vs Predicciones
residuos = y_test - predicciones
plt.figure(figsize=(10, 6))
plt.scatter(predicciones, residuos, color='blue', alpha=0.5)
plt.axhline(y=0, color='red', linestyle='--')
plt.title('Residuos vs Predicciones')
plt.xlabel('Predicciones')
plt.ylabel('Residuos')
plt.show()

In [None]:
# 2. Histograma de los residuos
plt.figure(figsize=(10, 6))
plt.hist(residuos, bins=15, color='skyblue', edgecolor='black')
plt.title('Distribución de los Residuos')
plt.xlabel('Residuos')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# 3. Gráfico Q-Q para normalidad
plt.figure(figsize=(10, 6))
stats.probplot(residuos, dist='norm', plot=plt)
plt.title('Q-Q Plot de los Residuos')
plt.show()

# 7. Interpretación y Conclusión
Basándonos en los resultados del modelo, observamos que:
- La Edad, el Nivel de Glucosa y el Nivel de Colesterol parecen tener un efecto positivo en el Riesgo Cardiovascular.
- El IMC tiene un efecto negativo, lo cual podría requerir un análisis más profundo.
- Las variables categóricas como el nivel de actividad física y el hábito de fumar también pueden influir en el riesgo.

Este análisis puede ayudar a identificar factores de riesgo y su contribución relativa, proporcionando una base para intervenciones preventivas y promoción de la salud en la población de estudio.