In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler, LabelEncoder, OneHotEncoder
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer



In [12]:
np.random.seed(42)
n = 500
plt.style.use('seaborn-v0_8')


In [None]:
# carga o generación de datos
def generar_datos_pulmonares(n = 500):
    #variables demográficas
    edad = np.random.randint(18, 85, size=n)
    altura = np.random.normal(170, 10, size=n)
    peso = np.random.normal(75, 10, size=n)

    # Calculamos IMC para uso posterior
    imc = peso / ((altura / 100) ** 2)

    #género (binario para simplificar)
    genero = np.random.choice([0, 1], size=n) # 0 : Mujer, 1 : Hombre

    #Ajustamos altura y peso para el género
    altura = altura - 10 * (1 - genero) +np.random.normal(0, 2, size=n)
    peso = peso - 8 * (1 - genero) +np.random.normal(0, 3, size=n)


    # Variables de exposición

    # indice de tabaquismo (0-3): 0 = nunca, 1 = ex-fumador, 2 = fumador leve, 3 = fumador intenso
    tabaquismo = np.random.choice([0, 1, 2, 3], size=n, p=[0.4, 0.3, 0.2, 0.1])

    # Exposicion a contaminantes (0-3) : 0=baja, 1=media, 2=alta, 3=muy alta
    exposicion = np.random.choice([0, 1, 2, 3], size=n, p=[0.5, 0.3, 0.15, 0.05])

    #Convertimos categóricas a string para mejor interpretabilidad
    tabaquismo_cat = np.array(['Nunca', 'Ex-fumador', 'Fumador leve', 'Fumador intenso'])[tabaquismo]
    exposicion_cat = np.array(['Baja', 'Media', 'Alta', 'Muy alta'])[exposicion]
    genero_cat = np.array(['Mujer', 'Hombre'])[genero]

    #Generamos el FVC (Capacidad Vital Forzado) en litros, basado en equaciones fisiologica
    base_fvt = (
            4.5 #valor base
            +0.06 * altura #efecto positivo de la altura
            -0.03 * edad #efecto negativo de la edad
            -0.6 * genero #efecto del tabaquismo
            -0.3 * tabaquismo # efecto del tabaquismo
            -0.2 * exposicion # efecto de la exposición
            -0.01 * (peso -imc) # efecto complejo del peso
    )


    #Añadimos variabilidad aleatoria para simular diferencias individuales
    fvc = base_fvt + np.random.normal(0, 4, size=n)
    fvc = np.maximum(fvc, 1) #aseguramos valores mínimos realistas

    return pd.DataFrame({
        'edad': edad,
        'altura': altura,
        'peso': peso,
        'imc': imc,
        'genero': genero_cat,
        'tabaquismo': tabaquismo_cat,
        'exposicion': exposicion_cat,
        'fvc': fvc
    })


#generamos el dataset
data = generar_datos_pulmonares(500)
    
    
#exlploración 
print("Muestra de los datos")
print(data.head())

print("\nEstadisticas descriptivas")
print(data['genero'].value_counts())
print(data['tabaquismo'].value_counts())
print(data['exposicion'].value_counts())
for cat in ['genero', 'tabaquismo', 'exposicion']:
    print(f"nDistribucion de {cat}")
    print(data[cat].value_counts(normalize=True))

# Visualimas distribuciones de variables numericas
plt.figure(figsize=(15, 10))
numeric_vars = ['edad', 'altura', 'peso', 'imc', 'fvc']
for i, var in enumerate(numeric_vars):
    plt.subplot(2, 2, i)
    sns.histplot(data[var], kde=True)
    plt.title(f'Distribucion de {var}')
plt.tight_layout()
plt.savefig('distribuciones_pulmonares.png')

# Visualizamos relaciones bivariadas con FVC
plt.figure(figsize=(15, 10))
for i, var in enumerate(numeric_vars[:-1], 1):
    plt.subplot(2, 2, i)
    sns.scatterplot(data=data, x=var, y='fvc', data = data, alpha=0.6)
    plt.title(f'FVC vs {var}')
plt.tight_layout()
plt.savefig('relaciones_bivariadas_pulmonares.png')

#visualizamo relaciones bivariadas con FVC
plt.figure(figsize=(15, 10))
for i, cat in enumerate(['genero', 'tabaquismo', 'exposicion'], 1):
    plt.subplot(2,2,i)
    sns.boxplot(x = var, data=data, y='fvc')
    plt.title(f'FVC vs {cat}')
    if var in ['tabaquismo', 'exposicion']:
        plt.xticks(rotation=45)

plt.tight_layout()
plt.savefig('relaciones_categoricas_pulmonares.png')


  #Preprocesamiento de datos
  # Identificamos la variables
numeric_features = ['edad', 'altura', 'peso', 'imc']
categorical_features = ['genero', 'tabaquismo', 'exposicion']  

#separamos caracteristicas (X) y variable objetivo (y)
X = data.drop('fvc', axis=1)
y = data['fvc']

# Dividimos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

#creamos un preprocesador que estandariza variables numéricas y codifica variables categóricas	
Preprocessor = ColumnTransformer([
    transfomers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(), categorical_features)
    ]]
)


print(f"MSE: {mse:,2f}")

#entrenamiento del modelo
y_model_pipeline = Pipeline.predict([



SyntaxError: invalid syntax. Maybe you meant '==' or ':=' instead of '='? (3652416300.py, line 122)