In [None]:
# ============================================
# FASE 1 - COMPRENSIÓN DE LA ESTRUCTURA DEL DATASET
# Dataset: proyecto_brecha.csv
# ============================================

import pandas as pd
import numpy as np
import re


In [None]:

# -----------------------------
# 1. Cargar dataset
# -----------------------------
# Ajusta la ruta según donde tengas guardado el archivo
FILE_PATH = "proyecto_brecha.csv"

df = pd.read_csv(FILE_PATH, encoding="utf-8", sep=";")

print("==========================================")
print("1) INFORMACIÓN GENERAL DEL DATASET")
print("============================================\n")

# Número de filas y columnas
n_filas, n_columnas = df.shape
print(f"Número de filas: {n_filas}")
print(f"Número de columnas: {n_columnas}\n")

# Tipos de datos por columna
print("Tipos de datos por columna:")
print(df.dtypes)
print("\n")

1) INFORMACIÓN GENERAL DEL DATASET

Número de filas: 815
Número de columnas: 2

Tipos de datos por columna:
NOMBRE DEL PROYECTO    object
BRECHA                 object
dtype: object




In [None]:
print("============================================")
print("2) COLUMNAS RELEVANTES PARA CLASIFICACIÓN")
print("============================================\n")

cols_requeridas = ["NOMBRE DEL PROYECTO", "BRECHA"]

for col in cols_requeridas:
    if col in df.columns:
        print(f"✅ Columna '{col}' encontrada.")
    else:
        print(f"⚠️ Columna '{col}' NO se encontró en el dataset.")

print("\nColumnas disponibles en el dataset:")
print(list(df.columns))
print("\n")


2) COLUMNAS RELEVANTES PARA CLASIFICACIÓN

✅ Columna 'NOMBRE DEL PROYECTO' encontrada.
✅ Columna 'BRECHA' encontrada.

Columnas disponibles en el dataset:
['NOMBRE DEL PROYECTO', 'BRECHA']




In [None]:
# -----------------------------
# 3. Evaluar duplicados
# -----------------------------
print("============================================")
print("3) ANÁLISIS DE DUPLICADOS")
print("============================================\n")

# Duplicados considerando todas las columnas
duplicados_totales = df.duplicated().sum()
print(f"Número de filas completamente duplicadas (todas las columnas): {duplicados_totales}")

# Duplicados sólo por NOMBRE DEL PROYECTO  (si existe)
if "NOMBRE DEL PROYECTO" in df.columns:
    duplicados_nombre = df.duplicated(subset=["NOMBRE DEL PROYECTO"]).sum()
    print(f"Número de filas duplicadas por 'NOMBRE DEL PROYECTO': {duplicados_nombre}")
else:
    duplicados_nombre = None
    print("No se puede evaluar duplicados por 'NOMBRE DEL PROYECTO' (columna no encontrada).")


3) ANÁLISIS DE DUPLICADOS

Número de filas completamente duplicadas (todas las columnas): 0
Número de filas duplicadas por 'NOMBRE DEL PROYECTO': 86


In [None]:

# -----------------------------
# 5. Análisis básico de uso de mayúsculas,
#    acentos y caracteres especiales
#    para columnas de texto relevantes
# -----------------------------
print("============================================")
print("5) USO DE MAYÚSCULAS, ACENTOS Y CARACTERES ESPECIALES")
print("============================================\n")

# Funciones auxiliares
def analizar_texto_serie(serie: pd.Series, nombre_columna: str):
    """
    Analiza uso de mayúsculas, acentos y caracteres especiales en una columna de texto.
    """
    print(f"--- Columna: {nombre_columna} ---")

    # Convertir todo a string y manejar nulos
    s = serie.fillna("").astype(str)

    # Longitud total de caracteres (para porcentajes)
    total_chars = s.str.len().sum()
    if total_chars == 0:
        print("La columna está vacía (sin texto).")
        print()
        return

    # Concatenar todo el texto para análisis global
    texto_total = " ".join(s.tolist())

    # 1) Mayúsculas
    # Contar letras mayúsculas A-Z + letras mayúsculas acentuadas comunes
    mayusculas_pattern = r"[A-ZÁÉÍÓÚÜÑ]"
    num_mayusculas = len(re.findall(mayusculas_pattern, texto_total))
    porcentaje_mayusculas = (num_mayusculas / total_chars) * 100

    # 2) Acentos (tanto mayúsculas como minúsculas)
    acentos_pattern = r"[áéíóúÁÉÍÓÚüÜñÑ]"
    num_acentos = len(re.findall(acentos_pattern, texto_total))
    porcentaje_acentos = (num_acentos / total_chars) * 100

    # 3) Caracteres especiales
    # Definimos caracteres "no especiales" de referencia:
    # letras, números, espacio y signos básicos: . , ; : - _ / ( ) %
    especiales_pattern = r"[^A-Za-zÁÉÍÓÚÜÑáéíóúüñÑ0-9\s\.,;:\-_/()%]"
    caracteres_especiales = re.findall(especiales_pattern, texto_total)
    num_especiales = len(caracteres_especiales)
    porcentaje_especiales = (num_especiales / total_chars) * 100

    print(f"Total de caracteres analizados: {total_chars}")
    print(f"Nº de letras mayúsculas: {num_mayusculas} ({porcentaje_mayusculas:.2f}%)")
    print(f"Nº de caracteres con acentos/ñ/ü: {num_acentos} ({porcentaje_acentos:.2f}%)")
    print(f"Nº de caracteres especiales: {num_especiales} ({porcentaje_especiales:.2f}%)")

    # Mostrar ejemplo de caracteres especiales si existen
    if num_especiales > 0:
        ejemplos = list(set(caracteres_especiales))
        print(f"Ejemplos de caracteres especiales encontrados: {ejemplos[:20]}")

    print()

# Analizar columnas de texto relevantes si existen
for col in cols_requeridas:
    if col in df.columns:
        analizar_texto_serie(df[col], col)

# (Opcional) Analizar otras columnas de texto si las hay
otras_cols_texto = [
    c for c in df.columns
    if df[c].dtype == "object" and c not in cols_requeridas
]

if otras_cols_texto:
    print("También se encontraron otras columnas de texto, puedes analizarlas si son relevantes:")
    print(otras_cols_texto)
    print()
    # Ejemplo: analizar sólo la primera
    # analizar_texto_serie(df[otras_cols_texto[0]], otras_cols_texto[0])

print("✅ Fase 1 de comprensión de la estructura del dataset completada.")


5) USO DE MAYÚSCULAS, ACENTOS Y CARACTERES ESPECIALES

--- Columna: NOMBRE DEL PROYECTO ---
Total de caracteres analizados: 140463
Nº de letras mayúsculas: 114801 (81.73%)
Nº de caracteres con acentos/ñ/ü: 420 (0.30%)
Nº de caracteres especiales: 291 (0.21%)
Ejemplos de caracteres especiales encontrados: ['Â', 'º', 'Ã', '?', '¿', '–', '°', "'", '\x8d', '+', '`', '"', 'æ', '\x81']

--- Columna: BRECHA ---
Total de caracteres analizados: 85390
Nº de letras mayúsculas: 72833 (85.29%)
Nº de caracteres con acentos/ñ/ü: 1466 (1.72%)
Nº de caracteres especiales: 0 (0.00%)

✅ Fase 1 de comprensión de la estructura del dataset completada.
