In [3]:
# ============================
# LIMPIEZA DE UNA SOLA BASE DE DATOS EN EXCEL
# ============================

import pandas as pd
import numpy as np
from google.colab import files

#  Subir archivo Excel
print("📁 Sube tu archivo Excel (por ejemplo base_datos.xlsx)")
uploaded = files.upload()

#  Cargar el archivo
df = pd.read_excel(nombre_archivo)

print(f"\n✅ Archivo cargado: {nombre_archivo}")
print(f"Filas: {df.shape[0]}, Columnas: {df.shape[1]}")

#  Vista general
print("\nColumnas detectadas:")
print(df.columns.tolist())
print("\nTipos de datos iniciales:")
print(df.dtypes)

#  LIMPIEZA GENERAL
print("\n🔧 Limpiando datos...")

# Reemplazar valores vacíos comunes por NaN
df = df.replace(["", " ", "NA", "NaN", "nan", "-", "_"], np.nan)

# Eliminar duplicados
df = df.drop_duplicates()

# Eliminar filas totalmente vacias
df = df.dropna(how='all')

# Rellenar o eliminar nulos segun tipo de columna
for col in df.columns:
    if df[col].dtype == 'object':
        df[col] = df[col].astype(str).str.strip().str.title()
        df[col] = df[col].fillna("Sin Dato")
    else:
        df[col] = pd.to_numeric(df[col], errors='coerce')

# 5️⃣ CORRECCIoN DE TIPOS DE DATOS SEGuN NOMBRES
# (Detecta automáticamente columnas que deberían ser números o fechas)

for col in df.columns:
    nombre = col.lower()

    if any(x in nombre for x in ["id_", "estrato", "edad", "año", "semestre", "duracion", "experiencia"]):
        df[col] = pd.to_numeric(df[col], errors='coerce').fillna(0).astype(int)

    elif any(x in nombre for x in ["promedio", "asistencia", "costo"]):
        df[col] = pd.to_numeric(df[col], errors='coerce').fillna(0.0).astype(float)

    elif any(x in nombre for x in ["fecha"]):
        df[col] = pd.to_datetime(df[col], errors='coerce')

#  Mostrar resumen de nulos despus de la limpieza
print("\nValores nulos después de limpieza:")
print(df.isnull().sum())

#  Exportar base limpia
nombre_salida = "base_datos_limpia.xlsx"
df.to_excel(nombre_salida, index=False)
files.download(nombre_salida)

print(f"\n📦 Archivo limpio generado: {nombre_salida}")


📁 Sube tu archivo Excel (por ejemplo base_datos.xlsx)


Saving estudiantes_tecnicos_relacional.xlsx to estudiantes_tecnicos_relacional (3).xlsx

✅ Archivo cargado: estudiantes_tecnicos_relacional (2).xlsx
Filas: 1500, Columnas: 10

Columnas detectadas:
['id_hecho', 'id_estudiante', 'id_programa', 'id_sede', 'id_tiempo', 'id_instructor', 'promedio', 'asistencia', 'estado_academico', 'observaciones']

Tipos de datos iniciales:
id_hecho              int64
id_estudiante         int64
id_programa           int64
id_sede               int64
id_tiempo             int64
id_instructor         int64
promedio            float64
asistencia          float64
estado_academico     object
observaciones        object
dtype: object

🔧 Limpiando datos...

Valores nulos después de limpieza:
id_hecho            0
id_estudiante       0
id_programa         0
id_sede             0
id_tiempo           0
id_instructor       0
promedio            0
asistencia          0
estado_academico    0
observaciones       0
dtype: int64


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>


📦 Archivo limpio generado: base_datos_limpia.xlsx
