In [2]:
import pandas as pd
from imblearn.over_sampling import SMOTE
from sklearn.preprocessing import LabelEncoder
from collections import Counter

# Cargar datos
url = 'https://raw.githubusercontent.com/ElvisMan2/taller_movil/main/Chronic_Kidney_Dsease_data.csv'
df = pd.read_csv(url)

# Eliminar columnas irrelevantes
df = df.drop(columns=['PatientID', 'DoctorInCharge'])

# Separar X e y
X = df.drop('Diagnosis', axis=1)
y = df['Diagnosis']

# Codificar etiquetas si son categóricas
if y.dtype == 'object':
    y = LabelEncoder().fit_transform(y)

# Contar ejemplos actuales por clase
conteo = Counter(y)
print("Antes del balanceo:", conteo)

# Definir 2000 ejemplos para cada clase (total 4000)
smote = SMOTE(sampling_strategy={0: 2000, 1: 2000}, random_state=42)

# Generar datos balanceados
X_res, y_res = smote.fit_resample(X, y)

# Crear nuevo DataFrame
df_balanced = pd.DataFrame(X_res, columns=X.columns)
df_balanced['Diagnosis'] = y_res

# Guardar a CSV
df_balanced.to_csv('ckd_balanced_4000.csv', index=False)

print("Después del balanceo:", Counter(y_res))
print("Archivo guardado como 'ckd_balanced_4000.csv'")


Antes del balanceo: Counter({1: 1524, 0: 135})
Después del balanceo: Counter({1: 2000, 0: 2000})
Archivo guardado como 'ckd_balanced_4000.csv'
