# Instalar bibliotecas principais
!pip install spacy pandas scikit-learn psutil matplotlib seaborn

# !!! INSTALAR OS DADOS DE CONSULTA PARA EVITAR O ERRO E955 !!!
!pip install spacy-lookups-data

# Baixar os modelos de língua portuguesa do spaCy
!python -m spacy download pt_core_news_sm
!python -m spacy download pt_core_news_md
!python -m spacy download pt_core_news_lg

In [1]:
!pip show spacy-lookups-data

Name: spacy-lookups-data
Version: 1.0.5
Summary: Additional lookup tables and data resources for spaCy
Home-page: https://spacy.io
Author: Explosion
Author-email: contact@explosion.ai
License: MIT
Location: C:\Users\jonat\Documents\GitHub\NLU\.env\Lib\site-packages
Requires: setuptools
Required-by: 


In [2]:
import spacy

def testar_spacy_pt_core_news_md():
    """
    Função para carregar e testar o modelo pt_core_news_md do spaCy.
    Ele processa um texto de exemplo e exibe a análise de tokens e
    o reconhecimento de entidades nomeadas.
    """
    nome_modelo = "pt_core_news_md"
    
    try:
        # Tenta carregar o modelo de linguagem portuguesa.
        # pt_core_news_md é um modelo médio para português treinado em notícias. [11]
        nlp = spacy.load(nome_modelo)
        print(f"✅ Modelo '{nome_modelo}' carregado com sucesso!\n")

    except OSError:
        print(f"❌ Erro: O modelo '{nome_modelo}' não foi encontrado.")
        print("   Por favor, instale o modelo executando o seguinte comando no seu terminal:")
        print(f"   python -m spacy download {nome_modelo}")
        return

    # Texto de exemplo para análise
    texto = "A Google, localizada na Califórnia, anunciou a compra de uma startup por R$ 5 milhões."

    # Processa o texto com o pipeline do spaCy para criar um objeto 'Doc'. [4]
    doc = nlp(texto)

    print("--- 1. Análise de Tokens (Palavras) ---")
    print(f"{'TEXTO':<15} {'LEMA':<15} {'CLASSE GRAM.'}")
    print("-" * 45)
    
    # Itera sobre cada token no documento e imprime seus atributos
    for token in doc:
        print(f"{token.text:<15} {token.lemma_:<15} {token.pos_}")

    print("\n--- 2. Reconhecimento de Entidades Nomeadas (NER) ---")
    print(f"{'ENTIDADE':<30} {'TIPO'}")
    print("-" * 45)

    # Verifica se alguma entidade foi encontrada
    if doc.ents:
        # Itera sobre as entidades nomeadas (NER) encontradas no documento
        for entidade in doc.ents:
            print(f"{entidade.text:<30} {entidade.label_}")
    else:
        print("Nenhuma entidade nomeada foi encontrada no texto.")

# Ponto de entrada do script
if __name__ == "__main__":
    testar_spacy_pt_core_news_md()

✅ Modelo 'pt_core_news_md' carregado com sucesso!

--- 1. Análise de Tokens (Palavras) ---
TEXTO           LEMA            CLASSE GRAM.
---------------------------------------------
A               o               DET
Google          Google          PROPN
,               ,               PUNCT
localizada      localizar       VERB
na              em o            ADP
Califórnia      Califórnia      PROPN
,               ,               PUNCT
anunciou        anunciar        VERB
a               o               DET
compra          compra          NOUN
de              de              ADP
uma             um              DET
startup         startup         NOUN
por             por             ADP
R$              R$              SYM
5               5               NUM
milhões         milhão          NUM
.               .               PUNCT

--- 2. Reconhecimento de Entidades Nomeadas (NER) ---
ENTIDADE                       TIPO
---------------------------------------------
Google             