<a href="https://colab.research.google.com/github/mariduff/DATASCIENCE_BI/blob/main/Exploracion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


In [None]:
# --- Celda 2: Definir rutas de trabajo ---
# Cambia SOLO BASE_DIR si mueves tu proyecto a otra carpeta de Drive.
BASE_DIR = "/content/drive/MyDrive/TFM"   # <--- Tu carpeta en Drive
DATA_DIR = f"{BASE_DIR}/data"             # Aquí esperamos tu Excel
RUTA_EXCEL = f"{DATA_DIR}/TTT.xlsx"       # Nombre del Excel
RUTA_SALIDA = f"{DATA_DIR}/processed/perfil_columnas.csv"  # Salida del resumen

print("BASE_DIR:", BASE_DIR)
print("DATA_DIR:", DATA_DIR)
print("RUTA_EXCEL:", RUTA_EXCEL)
print("RUTA_SALIDA:", RUTA_SALIDA)


BASE_DIR: /content/drive/MyDrive/TFM
DATA_DIR: /content/drive/MyDrive/TFM/data
RUTA_EXCEL: /content/drive/MyDrive/TFM/data/TTT.xlsx
RUTA_SALIDA: /content/drive/MyDrive/TFM/data/processed/perfil_columnas.csv


In [None]:
# --- Celda 3: Comprobar existencia de carpetas/archivos ---
import os, glob

print("¿Existe la carpeta data/?  ", os.path.isdir(DATA_DIR))
print("Excels que veo en /data:   ", [os.path.basename(p) for p in glob.glob(f"{DATA_DIR}/*.xls*")])
print("¿Existe TTT.xlsx?          ", os.path.isfile(RUTA_EXCEL))

# Si "¿Existe TTT.xlsx?" sale False:
# Asegúrate en Google Drive de tener: Mi unidad/TFM/data/TTT.xlsx
# (Crea la carpeta data si no existe y mete dentro TTT.xlsx)


¿Existe la carpeta data/?   True
Excels que veo en /data:    ['TTT.xlsx']
¿Existe TTT.xlsx?           True


In [None]:
# --- Celda 4: Leer el Excel y ver una muestra ---
import pandas as pd

# Si tu Excel tiene otra hoja por nombre, usa: sheet_name="Hoja1"
df = pd.read_excel(RUTA_EXCEL, sheet_name=0)

# Normalizar nombres de columnas (evita problemas con espacios y mayúsculas)
df.columns = (
    df.columns.astype(str)
    .str.strip()
    .str.replace(r"\s+", "_", regex=True)
    .str.lower()
)

print("Shape (filas, columnas):", df.shape)  # Tamaño del dataset
display(df.head(10))                         # Primeras filas
display(df.dtypes.to_frame("dtype"))         # Tipos de datos por columna


Shape (filas, columnas): (123940, 33)


Unnamed: 0,unnamed:_0,cd_centro,temporalidad,puesto,asistencial,no._empleado,fte_contratación,fte_sin_absentismo,fte_absentismo,plantilla_total_absentismo,...,rde,vacaciones,vacaciones_año_ant.,fte_reemplazo_vacaciones,capacidad,ocupacion_media,ocupacion_media_res,ocupacion_media_cd,ocupacion_facturada,residencial
0,2023-01-01,CENTRO1,*No Aplica,*No Aplica,NO ASISTENCIAL,,,,,,...,,,,,103.0,,,,,RESIDENCIAL
1,2023-01-01,CENTRO1,Indefinido,AUXILIAR ADMINISTRATIVO/A,NO ASISTENCIAL,1.0,0.999998,0.999998,,0.032258,...,,0.032258,,,,,,,,RESIDENCIAL
2,2023-01-01,CENTRO1,Indefinido,DIRECTOR/A CENTRO,NO ASISTENCIAL,1.0,0.999998,0.999998,,,...,,,,,,,,,,RESIDENCIAL
3,2023-01-01,CENTRO1,Indefinido,ENFERMERO/A,ASISTENCIAL,1.0,0.125085,0.108945,0.01614,0.01614,...,,,,,,,,,,RESIDENCIAL
4,2023-01-01,CENTRO1,Total,,,3.0,2.125081,2.108941,0.01614,0.048398,...,,0.032258,,,103.0,,,,,RESIDENCIAL
5,2023-01-01,CENTRO2,*No Aplica,*No Aplica,NO ASISTENCIAL,,,,,,...,,,,,178.0,151.709677,151.709677,,151.261372,RESIDENCIAL
6,2023-01-01,CENTRO2,Indefinido,ASISTENTE DIRECCION,NO ASISTENCIAL,1.0,0.999998,0.999998,,,...,,,,,,,,,,RESIDENCIAL
7,2023-01-01,CENTRO2,Indefinido,AUXILIAR MANTENIMIENTO,NO ASISTENCIAL,1.0,0.999998,0.419354,0.580644,0.580644,...,,,,,,,,,,RESIDENCIAL
8,2023-01-01,CENTRO2,Indefinido,AYUDANTE COCINA,NO ASISTENCIAL,1.0,0.499999,0.499999,,,...,,,,,,,,,,RESIDENCIAL
9,2023-01-01,CENTRO2,Indefinido,COCINERO/A,NO ASISTENCIAL,4.0,3.749977,3.556429,0.193548,0.225806,...,,,,,,,,,,RESIDENCIAL


Unnamed: 0,dtype
unnamed:_0,datetime64[ns]
cd_centro,object
temporalidad,object
puesto,object
asistencial,object
no._empleado,float64
fte_contratación,float64
fte_sin_absentismo,float64
fte_absentismo,float64
plantilla_total_absentismo,float64


In [None]:
# --- Celda 5: Función 'perfil_columnas' ---
# Esta función calcula, por cada columna:
# - nulos y % de nulos
# - strings vacíos (en texto)
# - si es numérica, ceros y % de ceros, media, mediana, std, min, max
# - número de valores únicos, moda y su frecuencia
import numpy as np
import pandas as pd

def perfil_columnas(df: pd.DataFrame) -> pd.DataFrame:
    total_filas = len(df)
    filas = []

    for col in df.columns:
        s = df[col]
        dtype = str(s.dtype)

        # Nulos
        n_nulos = int(s.isna().sum())
        pct_nulos = round((n_nulos / total_filas) * 100, 2) if total_filas > 0 else np.nan

        # Strings vacíos (solo si la columna es de texto)
        empty_strings = np.nan
        if s.dtype == "object" or pd.api.types.is_string_dtype(s):
            empty_strings = int(s.fillna("").astype(str).str.strip().eq("").sum())

        # Intentar convertir a numérico para estadísticas básicas
        s_num = pd.to_numeric(s, errors="coerce")
        es_numerica = pd.api.types.is_numeric_dtype(s_num)

        ceros = np.nan
        pct_ceros = np.nan
        media = mediana = std = vmin = vmax = np.nan

        if es_numerica:
            notnull_cnt = int(s_num.notna().sum())
            ceros = int((s_num == 0).sum(skipna=True))
            pct_ceros = round((ceros / notnull_cnt) * 100, 2) if notnull_cnt > 0 else np.nan
            if notnull_cnt > 0:
                media = float(s_num.mean())
                mediana = float(s_num.median())
                std = float(s_num.std())
                vmin = float(s_num.min())
                vmax = float(s_num.max())

        # Únicos y moda (valor más frecuente)
        unicos = int(s.nunique(dropna=True))
        try:
            moda_valor = s.mode(dropna=True).iloc[0]
            moda_frec = int(s.value_counts(dropna=True).iloc[0])
        except Exception:
            moda_valor = np.nan
            moda_frec = np.nan

        filas.append({
            "columna": col,
            "tipo_dato": dtype,
            "filas_totales": total_filas,
            "nulos": n_nulos,
            "%_nulos": pct_nulos,
            "strings_vacios": empty_strings,
            "es_numerica": bool(es_numerica),
            "ceros": ceros,
            "%_ceros_sobre_no_nulos": pct_ceros,
            "media": media,
            "mediana": mediana,
            "std": std,
            "min": vmin,
            "max": vmax,
            "valores_unicos": unicos,
            "moda_valor": moda_valor,
            "moda_frecuencia": moda_frec,
        })

    # Ordenamos por nombre de columna para que sea fácil de leer
    return pd.DataFrame(filas).sort_values("columna").reset_index(drop=True)


In [None]:
# --- Celda 6: Calcular y mostrar el perfil por columnas ---
perfil = perfil_columnas(df)

# Vista rápida de las primeras filas del resumen
display(perfil.head(20))

# display(perfil)


Unnamed: 0,columna,tipo_dato,filas_totales,nulos,%_nulos,strings_vacios,es_numerica,ceros,%_ceros_sobre_no_nulos,media,mediana,std,min,max,valores_unicos,moda_valor,moda_frecuencia
0,acumulación_lactancia,float64,123940,122255,98.64,,True,0,0.0,0.415545,0.358862,0.308018,0.001612,2.166645,468,0.32258,30
1,asistencial,object,123940,5354,4.32,5354.0,True,0,,,,,,,2,NO ASISTENCIAL,60129
2,at_/_ep,float64,123940,115388,93.1,,True,0,0.0,0.836325,0.659118,0.784753,0.010483,6.6666,2423,0.999998,546
3,ausencia_no_justificada,float64,123940,119918,96.75,,True,0,0.0,0.208852,0.068423,0.30965,0.004032,2.866638,1200,0.032258,497
4,capacidad,float64,123940,113640,91.69,,True,0,0.0,136.00466,150.0,58.779135,23.0,313.0,102,150.0,640
5,cd_centro,object,123940,0,0.0,0.0,True,0,,,,,,,198,CENTRO174,1085
6,días_asuntos_propios,float64,123940,93036,75.07,,True,3,0.01,0.140687,0.037499,0.235659,0.0,3.726748,8429,0.032258,5124
7,ec_/_anl,float64,123940,93560,75.49,,True,0,0.0,2.318727,0.99999,3.361621,0.001612,30.909849,12103,0.999998,2357
8,fte_absentismo,float64,123940,87454,70.56,,True,0,0.0,2.43421,0.99999,3.886755,0.001612,36.264354,14384,0.999998,2655
9,fte_contratación,float64,123940,6681,5.39,,True,12,0.01,6.283131,0.999998,17.394253,0.0,166.918274,31125,0.999998,17243


In [None]:
# --- Celda 7: Guardar el resumen a CSV ---
import os

# Crear la carpeta 'processed' si no existe
os.makedirs(os.path.dirname(RUTA_SALIDA), exist_ok=True)

# Guardar el CSV con el perfil
perfil.to_csv(RUTA_SALIDA, index=False, encoding="utf-8")
print("✅ Guardado:", RUTA_SALIDA)


✅ Guardado: /content/drive/MyDrive/TFM/data/processed/perfil_columnas.csv


In [None]:
# --- Celda 8 (opcional): Ordenar columnas por % de nulos ---
nulos_rank = perfil[["columna", "%_nulos"]].sort_values("%_nulos", ascending=False)
display(nulos_rank.head(30))  # Muestra las 30 con más nulos


Unnamed: 0,columna,%_nulos
12,horas_comité_seguridad,99.88
14,huelga_parcial,99.86
15,huelga_total,99.85
22,paternidad,99.17
0,acumulación_lactancia,98.64
27,rde,97.07
3,ausencia_no_justificada,96.75
16,maternidad,96.31
20,ocupacion_media_cd,95.75
32,vacaciones_año_ant.,93.9
