In [22]:
# Ejercicio 1: Análisis de Datasets

import pandas as pd
import numpy as np

# Cargar los datasets
datasets = ['/content/exam/data.csv', '/content/exam/data1.csv', '/content/exam/data2.csv', '/content/exam/data3.csv', '/content/exam/data4.csv']


# Diccionario para almacenar observaciones de cada dataset
observaciones = {}

for file in datasets:
    print(f'\n--- Analizando {file} ---')
    # Cargar el dataset
    try:
        df = pd.read_csv(file)
    except Exception as e:
        print(f'Error al leer {file}: {e}')
        continue

    # Inicializamos un diccionario para almacenar los problemas encontrados en este dataset
    problemas = {}
    df.columns = df.columns.str.strip()  # Elimina espacios en blanco

    # 1. Verificar valores nulos
    nulos = df.isnull().sum()
    if nulos.any():
        problemas['valores_nulos'] = nulos[nulos > 0]
        print('Se han detectado valores nulos en las siguientes columnas:')
        print(problemas['valores_nulos'])
    else:
        print('No se detectaron valores nulos.')

    # 2. Verificar desequilibrio en clases
    if 'num' in df.columns:
        distribucion = df['num'].value_counts(normalize=True)
        print('Distribución de clases (valores relativos):')
        print(distribucion)
        # Considerar desequilibrado si alguna clase representa menos del 10% de los datos
        if (distribucion < 0.1).any():
            problemas['desequilibrio'] = distribucion[distribucion < 0.1]
            print('Se detecta posible desequilibrio en las clases.')
        else:
            print('Las clases parecen estar equilibradas.')

    # 3. Revisar caracteres especiales o símbolos inválidos
    columnas_texto = df.select_dtypes(include=['object']).columns
    for col in columnas_texto:
        # Expresión regular para encontrar caracteres no alfanuméricos
        muestra = df[col].head(5).astype(str)
        for idx, valor in muestra.items():
            # Se imprime si encuentra símbolos raros
            if any(not c.isalnum() and c not in ' .,-_/' for c in valor):
                print(f'Posible carácter especial detectado en la columna {col} en el valor: {valor}')
                problemas.setdefault('caracteres_especiales', []).append((col, valor))

    # 4. Revisar errores en nombres de columnas
    df.columns = df.columns.str.strip().str.lower()  # Limpia espacios y pone en minúsculas
    # Lista de columnas esperadas (también limpiadas)
    columnas_esperadas = ['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach', 'exang', 'oldpeak', 'slope', 'ca', 'thal', 'num']
    columnas_esperadas = [col.strip().lower() for col in columnas_esperadas]

    # Revisar si faltan columnas
    columnas_faltantes = [col for col in columnas_esperadas if col not in df.columns]

    if columnas_faltantes:
        problemas['columnas_faltantes'] = columnas_faltantes
        print(f'⚠️ Faltan las siguientes columnas en {file}:', columnas_faltantes)
    else:
        print(f'✅ Todas las columnas están presentes en {file}')

    # Guardar las observaciones para este dataset
    observaciones[file] = problemas

    # Mostrar algunas filas para tener una idea general del dataset
    print('Vista previa de los datos:')
    print(df.head())
    print('--------------------------------------------------')

# Resumen final:
print('\\n=== Resumen de Problemas Encontrados en Cada Dataset ===')
for file, problemas in observaciones.items():
    print(f'En {file}:')
    if problemas:
        for clave, detalle in problemas.items():
            print(f'  - {clave}: {detalle}')
    else:
        print('  No se encontraron problemas. Este dataset está listo para usarse.')




--- Analizando /content/exam/data.csv ---
No se detectaron valores nulos.
Distribución de clases (valores relativos):
num
0    0.639456
1    0.360544
Name: proportion, dtype: float64
Las clases parecen estar equilibradas.
Posible carácter especial detectado en la columna chol en el valor: ?
Posible carácter especial detectado en la columna slope en el valor: ?
Posible carácter especial detectado en la columna slope en el valor: ?
Posible carácter especial detectado en la columna slope en el valor: ?
Posible carácter especial detectado en la columna slope en el valor: ?
Posible carácter especial detectado en la columna slope en el valor: ?
Posible carácter especial detectado en la columna ca en el valor: ?
Posible carácter especial detectado en la columna ca en el valor: ?
Posible carácter especial detectado en la columna ca en el valor: ?
Posible carácter especial detectado en la columna ca en el valor: ?
Posible carácter especial detectado en la columna ca en el valor: ?
Posible cará