In [12]:
from typing import List
import pandas as pd
import spacy

from phraser import Phraser

# Mapping spaCy POS tags to single-letter symbols
POS_MAP = {
    "DET": "A",     # artículo
    "NOUN": "N",    # sustantivo
    "ADJ": "J",     # adjetivo
    "VERB": "V",    # verbo
    "ADV": "D",     # adverbio
    "PRON": "R",    # pronombre
    "ADP": "P",     # preposición
    "CCONJ": "C",   # conjunción coordinada
    "SCONJ": "C",   # conjunción subordinada
    "NUM": "M",     # número
    "PART": "T",    # partícula
    "INTJ": "I",    # interjección
    "PUNCT": "P",   # puntuación (no es utilizado)
    "SYM": "Y",     # símbolo
    "X": "X",
}


def build_structure_table(phraser, language: str = "es") -> pd.DataFrame:
    """
    Construye una representación estructural desde un objeto Phraser.

    Parámetros
    ----------
    phraser : Phraser
        Una instancia del objeto Phraser que contiene las frases del texto.
    language : str
        Código de lenguaje de los modelos de spaCy (e.g. 'es').

    Retorna
    -------
    pandas.DataFrame
        Tabla con las columnas:
        ['full', 'len', 'wordlen', 'minimal', 'pos']
    """
    nlp = spacy.load(f"{language}_core_news_lg")

    rows = []

    for phrase in phraser.phrases:
        doc = nlp(phrase)

        wordlen_repr: List[str] = []
        minimal_repr: List[str] = []
        pos_repr: List[str] = []
        sent_size = 0
        
        for token in doc:
            if token.is_punct: # Solamente si es un puntuador entonces se transcribe directamente.
                wordlen_repr.append(token.text)
                minimal_repr.append(token.text)
                pos_repr.append(token.text)
            else:
                sent_size += 1
                wordlen_repr.append(str(len(token.text)))
                minimal_repr.append("w")
                pos_repr.append(POS_MAP.get(token.pos_, "X"))

        rows.append(
            {
                "full": phrase,
                "len": sent_size,
                "wordlen": " ".join(wordlen_repr),
                "minimal": "".join(minimal_repr),
                "pos": "".join(pos_repr),
            }
        )

    return pd.DataFrame(rows)

def text_to_structure(
    filehandle: str,
    language: str = "es",
    to_csv: str = "",
    to_tsv: str = "",
    **phraser_kwargs,
) -> pd.DataFrame:
    """
    Wrapper conveniente para construir la tabla directamente.
    """
    phraser = Phraser(filehandle, **phraser_kwargs)
    structure_table = build_structure_table(phraser, language=language)
    
    if to_csv:
        structure_table.to_csv(to_csv, sep=',')
    if to_tsv:
        structure_table.to_tsv(to_tsv, sep='\t')
        
    return structure_table

In [11]:
a = ''
if a:
    print('ehllo')
else:
    print('Bye')

Bye


In [13]:
text_to_structure('../ejemplos/manifiesto_hidroespacial.txt')

Unnamed: 0,full,len,wordlen,minimal,pos
0,Manifiesto La Ciudad Hidroespacial De acuerdo ...,25,"10 2 6 13 2 7 1 3 8 1 10 7 , 2 9 2 2 6 2 9 10 ...","wwwwwwwwwwww,wwwwwwwwwwwww.","NAXXPNPANCNJ,ANRXVPJNNPAAN."
1,La arquitectura engloba necesidades elementale...,20,2 12 7 11 11 3 9 1 2 2 11 10 9 3 2 8 2 2 5 6 .,wwwwwwwwwwwwwwwwwwww.,ANVNJDJCDXJVJPANPANX.
2,Hasta ahora sólo utilizamos una mínima proporc...,26,"5 5 4 10 3 6 10 2 8 10 8 , 9 1 7 3 2 6 6 7 2 2...","wwwwwwwwwww,wwwwwwwwwwwwww“w”.","PDDVAJNPANJ,JPNRPANVPANJJC“J”."
3,"Es decir, el departamento o celdilla para habi...",17,"2 5 , 2 12 1 8 4 7 , 3 3 8 3 6 3 2 8 10 .","ww,wwwwww,wwwwwwwww.","NN,ANCNPV,CANRVPANJ."
4,Sin contar con la decidida repulsa de los arqu...,53,3 6 3 2 8 7 2 3 11 1 10 3 2 7 3 4 2 12 2 2 12 ...,"wwwwwwwwwwwwwwwwwwwwwwww,ww,wwwwww,ww,wwwwwwww...","PVPAJNPANCNRDVCAANPANPNX,AN,XVPANJ,DJ,CCRVVNJC..."
5,Pero las estructuras sociales y los mecanismos...,31,"4 3 11 8 1 3 10 2 14 – 7 , 12 – 3 8 2 2 6 5 2 ...","wwwwwwwww–w,w–wwwwwwwwwwwwwwwwwwww.","CANJCANPN–N,N–XNPANPANPNJPXCANPANJ."
6,"En la revista “Arturo”, 1944, expresaba: “El h...",55,"2 2 7 “ 6 ” , 4 , 9 : “ 2 6 2 2 2 8 2 2 6 ” 1 ...","www“w”,w,w:“wwwwwwwww”wwwwwwwwwwwwww:“wwwwwww”...","PAN“X”,N,V:“ANDXPVPAX”CPAXXPMRVCANXX:“NCNJPAN”..."
7,Mis diferentes etapas en las artes visuales nu...,23,3 10 6 2 3 5 8 5 9 2 11 1 2 9 2 2 6 13 2 2 8 3...,wwwwwwwwwwwwwwwwwwwwwww.,AJNPANJDVPNCANPAXXXAJPN.
8,Aunque asumo mis propias contradicciones al cr...,21,"6 5 3 7 15 2 5 15 , 8 “ 14 ” 1 14 4 3 12 3 5 8...","wwwwwwww,w“w”wwwwwwwwwww.","CVAJNPVX,N“J”CJPANRXVPAN."
9,La premisa es liberar al ser humano de toda at...,14,"2 7 2 7 2 3 6 2 4 7 , 2 5 3 8 .","wwwwwwwwww,wwww.","ANXVPNJPAN,PAAN."
