# Extração de Características

In [1]:
from nlpbox.features.agreement import AgreementExtractor
from nlpbox.features.cohmetrix import CohMetrixExtractor
from nlpbox.features.connectives_v2 import ConnectivesExtractorV2
import warnings
warnings.filterwarnings('ignore')

CohmetrixBR: Loading models...
CohmetrixBR: Done


In [2]:
agreement_extractor = AgreementExtractor()
cohmetrix_extractor = CohMetrixExtractor()
connectives_extractor = ConnectivesExtractorV2()
sample_text = """O poeta modernista Oswald de Andrade relata, em "Erro de Português", que, sob um dia de chuva, o índio foi vestido pelo português - uma denúncia à aculturação sofrida pelos povos indígenas com a chegada dos europeus ao território brasileiro. Paralelamente, no Brasil atual, há a manutenção de práticas prejudiciais não só aos silvícolas, mas também aos demais povos e comunidades tradicionais, como os pescadores. Com efeito, atuam como desafios para a valorização desses grupos a educação deficiente acerca do tema e a ausência do desenvolvimento sustentável. 

Diante desse cenário, existe a falta da promoção de um ensino eficiente sobre as populações tradicionais. Sob esse viés, as escolas, ao abordarem tais povos por meio de um ponto de vista histórico eurocêntrico, enraízam no imaginário estudantil a imagem de aborígenes cujas vivências são marcadas pela defasagem tecnológica. A exemplo disso, há o senso comum de que os indígenas são selvagens, alheios aos benefícios do mundo moderno, o que, consequentemente, gera um preconceito, manifestado em indagações como “o índio tem ‘smartphone’ e está lutando pela demarcação de terras?” – ideia essa que deslegitima a luta dos silvícolas. Entretanto, de acordo com a Teoria do Indigenato, defendida pelo ministro Edson Fachin, do Supremo Tribunal Federal, o direito dos povos tradicionais à terra é inato, sendo anterior, até, à criação do Estado brasileiro. Dessa forma, por não ensinarem tal visão, os colégios fometam a desvalorização das comunidades tradicionais, mediante o desenvolvimento de um pensamento discriminatório nos alunos. 
"""

In [3]:
sample_text
# Trecho extraído de: https://vestibulares.estrategia.com/portal/materias/redacao/redacao-nota-1000-10-redacoes-ultima-edicao-enem/

'O poeta modernista Oswald de Andrade relata, em "Erro de Português", que, sob um dia de chuva, o índio foi vestido pelo português - uma denúncia à aculturação sofrida pelos povos indígenas com a chegada dos europeus ao território brasileiro. Paralelamente, no Brasil atual, há a manutenção de práticas prejudiciais não só aos silvícolas, mas também aos demais povos e comunidades tradicionais, como os pescadores. Com efeito, atuam como desafios para a valorização desses grupos a educação deficiente acerca do tema e a ausência do desenvolvimento sustentável. \n\nDiante desse cenário, existe a falta da promoção de um ensino eficiente sobre as populações tradicionais. Sob esse viés, as escolas, ao abordarem tais povos por meio de um ponto de vista histórico eurocêntrico, enraízam no imaginário estudantil a imagem de aborígenes cujas vivências são marcadas pela defasagem tecnológica. A exemplo disso, há o senso comum de que os indígenas são selvagens, alheios aos benefícios do mundo moderno,

## Exemplos de Extração

In [4]:
agreement_extractor.extract(sample_text)

AgreementFeatures(verb_agreement_score=0.0, nominal_agreement_score=1.0)

In [5]:
cohmetrix_extractor.extract(sample_text)

CohMetrixFeatures(despc=2.0, despc2=4.0, despl=2.0, despld=2.1213203435596424, dessc=8.0, dessl=31.0, dessld=11.113055385446435, deswc=287.0, deswlsy=2.073170731707317, deswlsyd=1.3479412804678697, deswllt=5.30241935483871, deswlltd=3.499031287824357, crfno1=1.0, crfao1=2.0, crfso1=2.0, crfnoa=10.0, crfaoa=13.0, crfsoa=12.0, crfcwo1=0.03838287051908186, crfcwo1d=0.02931918370363903, crfcwoa=0.03741569834765329, crfcwoad=0.03427482346166565, ldttrc=0.8617886178861789, ldttra=0.7049180327868853, ldmtlda=210.99778965765398, ldvocda=0.8944635944318958, cncadc=2.0, cncadd=6.0, cncall=4.0, cncalter=0.0, cnccaus=2.0, cnccomp=4.0, cncconce=4.0, cncconclu=0.0, cnccondi=0.0, cncconfor=3.0, cncconse=4.0, cncexpli=4.0, cncfinal=4.0, cncinte=4.0, cnclogic=6.0, cncneg=4.0, cncpos=42.0, cncprop=0.0, cnctemp=0.0, smintep=4.0, smintep_sentence=3.0, sminter=0.6, smcauswn=15.0, synle=7.2727272727272725, synnp=0.0, synmedpos=0.903987168987169, synmedlem=0.981539039039039, synmedwrd=0.9842417417417417, syn

In [6]:
connectives_extractor.extract(sample_text)

ConnectivesFeaturesV2(additive_neg_ratio=0.008298755186721992, additive_pos_ratio=0.029045643153526972, cause_neg_ratio=0.0, cause_pos_ratio=0.004149377593360996, log_neg_ratio=0.0, log_pos_ratio=0.0, and_ratio=0.016597510373443983, if_ratio=0.0, logic_operators_ratio=0.024896265560165973, negation_ratio=0.008298755186721992, or_ratio=0.0, all_conn_ratio=0.0912863070539419)

In [7]:
# Para qualquer extrator, podemos converter facilmente para alguns tipos de dados:
agreement_features = agreement_extractor.extract(sample_text)
print(agreement_features.as_dict())
print(agreement_features.as_numpy())
print(agreement_features.as_tensor())

{'nominal_agreement_score': 1.0, 'verb_agreement_score': 0.0}
[1. 0.]
tensor([1., 0.])


In [8]:
# Também conseguis acessar cada feature individualmente
print(agreement_features.nominal_agreement_score)
print(agreement_features.verb_agreement_score)

1.0
0.0


In [9]:
# Ou obter o conjunto de features presentes
agreement_features.names()

['nominal_agreement_score', 'verb_agreement_score']

## Como podemos extrair várias features de uma vez?

In [10]:
from nlpbox.features.utils.aggregator import AggregatedFeatureExtractor

In [11]:
extractor = AggregatedFeatureExtractor(agreement_extractor, 
                                       cohmetrix_extractor, 
                                       connectives_extractor)

In [12]:
o = extractor.extract(sample_text)
o

<nlpbox.features.utils.aggregator.AggregatedFeatures at 0x7fa7e9ab9df0>

In [13]:
len(o.names())

101

In [14]:
o.as_dict()

{'additive_neg_ratio': 0.008298755186721992,
 'additive_pos_ratio': 0.029045643153526972,
 'all_conn_ratio': 0.0912863070539419,
 'and_ratio': 0.016597510373443983,
 'cause_neg_ratio': 0.0,
 'cause_pos_ratio': 0.004149377593360996,
 'cncadc': 2.0,
 'cncadd': 6.0,
 'cncall': 4.0,
 'cncalter': 0.0,
 'cnccaus': 2.0,
 'cnccomp': 4.0,
 'cncconce': 4.0,
 'cncconclu': 0.0,
 'cnccondi': 0.0,
 'cncconfor': 3.0,
 'cncconse': 4.0,
 'cncexpli': 4.0,
 'cncfinal': 4.0,
 'cncinte': 4.0,
 'cnclogic': 6.0,
 'cncneg': 4.0,
 'cncpos': 42.0,
 'cncprop': 0.0,
 'cnctemp': 0.0,
 'crfao1': 2.0,
 'crfaoa': 13.0,
 'crfcwo1': 0.03838287051908186,
 'crfcwo1d': 0.02931918370363903,
 'crfcwoa': 0.03741569834765329,
 'crfcwoad': 0.03427482346166565,
 'crfno1': 1.0,
 'crfnoa': 10.0,
 'crfso1': 2.0,
 'crfsoa': 12.0,
 'despc': 2.0,
 'despc2': 4.0,
 'despl': 2.0,
 'despld': 2.1213203435596424,
 'dessc': 8.0,
 'dessl': 31.0,
 'dessld': 11.113055385446435,
 'deswc': 287.0,
 'deswllt': 5.30241935483871,
 'deswlltd': 3.4990

# Criação de Pipelines

In [15]:
from nlpbox.core import Pipeline
from nlpbox.estimators.sklearn_estimator import SklearnEstimator
from nlpbox.vectorizers import FeatureExtractorVectorizer
from nlpbox.metrics.kappa import CohensKappaScore, NeighborCohensKappaScore
from sklearn.svm import SVC
import numpy as np

In [16]:
# Para exemplificar, vamos construir um pequeno dataset de classificaçãod
labels = np.array([0, 1, 1, 0, 1, 1, 0])
mapper = {0: 'zero', 1: 'um'}
texts = [f'Texto de número {mapper[x]}' for x in labels]
print(texts)

['Texto de número zero', 'Texto de número um', 'Texto de número um', 'Texto de número zero', 'Texto de número um', 'Texto de número um', 'Texto de número zero']


In [17]:
def train_and_evaluate(pipeline: Pipeline):
    pipeline.fit(texts, labels)
    preds = pipeline.predict(texts)
    kappa = CohensKappaScore()
    neighbor_kappa = NeighborCohensKappaScore()
    print('Labels', labels)
    print('Predições', preds)
    print('Kappa', kappa.compute(labels, preds))
    print('Kappa Vizinho', neighbor_kappa.compute(labels, preds))

In [18]:
pipeline = Pipeline(vectorizer=FeatureExtractorVectorizer(agreement_extractor),
                    estimator=SklearnEstimator(SVC(random_state=42)))

In [19]:
pipeline.estimator.params

{'C': 1.0,
 'break_ties': False,
 'cache_size': 200,
 'class_weight': None,
 'coef0': 0.0,
 'decision_function_shape': 'ovr',
 'degree': 3,
 'gamma': 'scale',
 'kernel': 'rbf',
 'max_iter': -1,
 'probability': False,
 'random_state': None,
 'shrinking': True,
 'tol': 0.001,
 'verbose': False}

In [20]:
train_and_evaluate(pipeline)

Labels [0 1 1 0 1 1 0]
Predições [1 1 1 1 1 1 1]
Kappa 0.0
Kappa Vizinho 1.0


# Pipelines Pré-definidas

In [21]:
from nlpbox.pipelines.cohmetrix_extratrees import CohMetrixExtraTreesClassification
from nlpbox.pipelines.tfidf_extratrees_classification import TFIDFExtraTreesClassification

In [22]:
pipeline = CohMetrixExtraTreesClassification(random_state=42)
train_and_evaluate(pipeline)

Labels [0 1 1 0 1 1 0]
Predições [0 1 1 0 1 1 0]
Kappa 1.0
Kappa Vizinho 1.0


In [23]:
pipeline = TFIDFExtraTreesClassification(random_state=42)
train_and_evaluate(pipeline)

Labels [0 1 1 0 1 1 0]
Predições [0 1 1 0 1 1 0]
Kappa 1.0
Kappa Vizinho 1.0
