In [6]:
import pandas as pd

# Cargar la base de datos
df = pd.read_csv("nueva_base_+300_final.csv")  # Cambia esto por el nombre de tu archivo real

# 1. Verificar caracteres válidos en `Sequence`
def verificar_caracteres_validos(df):
    amino_acids = set("ACDEFGHIKLMNPQRSTVWYacdefghiklmnpqrstvwy")  # L y D
    errores = []
    for i, seq in enumerate(df['Seqence']):  # Asumiendo que la columna es "Seqence"
        if not set(seq).issubset(amino_acids):
            errores.append((i, seq))
    return errores

errores_caracteres = verificar_caracteres_validos(df)
if errores_caracteres:
    print("Secuencias con caracteres inválidos:")
    for idx, seq in errores_caracteres:
        print(f"Fila {idx}: {seq}")
else:
    print("Todas las secuencias tienen caracteres válidos.")

# 2. Detectar secuencias que mezclan mayúsculas y minúsculas
df['Mezclada'] = df['Seqence'].apply(lambda x: any(c.isupper() for c in x) and any(c.islower() for c in x))
mezcladas = df[df['Mezclada']]
if not mezcladas.empty:
    print("\nHay secuencias con letras mezcladas (mayúsculas y minúsculas):")
    print(mezcladas)
else:
    print("\nNo hay secuencias mezcladas.")

# 3. Calcular la distribución de tipos de secuencias
def clasificar_tipo(seq):
    if seq.isupper():
        return 'L-isómero'
    elif seq.islower():
        return 'D-isómero'
    else:
        return 'Mixta'

df['Tipo'] = df['Seqence'].apply(clasificar_tipo)
frecuencias = df['Tipo'].value_counts()
print("\nDistribución de tipos de secuencias:")
print(frecuencias)

# 4. Buscar inconsistencias en etiquetas de actividad para secuencias duplicadas
duplicados = df.groupby('Seqence')['Activity'].nunique()
inconsistencias = duplicados[duplicados > 1]

if not inconsistencias.empty:
    print("\nInconsistencias en actividades para secuencias duplicadas:")
    print(inconsistencias)
else:
    print("\nNo hay inconsistencias en actividades.")

# Opcional: Guardar el reporte de verificación en un archivo
reporte = {
    "Errores de caracteres inválidos": len(errores_caracteres),
    "Secuencias mezcladas (mayúsculas y minúsculas)": len(mezcladas),
    "Distribución de tipos de secuencias": frecuencias.to_dict(),
    "Inconsistencias en actividades para secuencias duplicadas": inconsistencias.to_dict()
}

# Guardar reporte como JSON o CSV si es necesario
import json
with open("reporte_verificacion.json", "w") as f:
    json.dump(reporte, f, indent=4)

print("\nReporte guardado en 'reporte_verificacion.json'")


Secuencias con caracteres inválidos:
Fila 128: DISGINASVVNIQKEIDRLNEVAKNLNESLIDLQELGSGSGX
Fila 129: SLTQINTTLLDLTYEMLSLQQVVKALNESYIDLKELGSGSGX
Fila 130: SLDQINVTFLDLEYEMKKLEEAIKKLEESYIDLKELGSGSGX
Fila 223: XaX
Fila 225: Xaix
Fila 229: XXWX
Fila 299: YaGFLRXIKKILSKIKKLLK-NH2
Fila 416: ZGYKGPYTRPILRPYVRPVVSYNACTLSCRGITTTQARSCCTRLGRCCHVAKGYS
Fila 427: XEWDREINNYTSLIHSLIEESQNQQEKNEQELLELDKWASLW
Fila 428: EWDXEINNYTSLIHSLIEESQNQQEKNEQELLELDKWASLW
Fila 429: EWDREINNYTXLIHSLIEESQNQQEKNEQELLELDKWASLW
Fila 430: EWDREINNYTSLIHXLIEESQNQQEKNEQELLELDKWASLW
Fila 431: EWDREINNYTSLIHSLIXESQNQQEKNEQELLELDKWASLW
Fila 432: EWDREINNYTSLIHSLIEESQXQQEKNEQELLELDKWASLW
Fila 433: EWDREINNYTSLIHSLIEESQNQQEKNEXELLELDKWASLW
Fila 434: EWDREINNYTSLIHSLIEESQNQQEKNEQELLELDKWASLWX
Fila 435: EWDREINNYTSLIHSLIEEXQNQQEKNEQELLELDKWASLW
Fila 441: EMTWEEWEKKIEEYTKKIEEILKKSEEQQKKNEEELKKLEX
Fila 468: RRXX
Fila 469: RXXR
Fila 470: XRRX
Fila 472: XGIL
Fila 473: XXFF
Fila 474: XLLL
Fila 477: WWXX
Fila 478: XYXY
Fila 479: KXCK
Fi