# âœ… ResoluÃ§Ã£o dos Desafios

In [1]:
import spacy
spacy.load('pt_core_news_sm')

<spacy.lang.pt.Portuguese at 0x2d67ed14830>

In [4]:

import os
import pickle
from nltk.tokenize import TreebankWordTokenizer

# Caminho do modelo Punkt local
modelo_path = r"D:\SegmentacaoDePalavras\punkt\portuguese.pickle"

# Carregar o modelo Punkt
with open(modelo_path, "rb") as f:
    tokenizer_frases = pickle.load(f)

# Tokenizador de palavras
tokenizador_palavras = TreebankWordTokenizer()


## ðŸ”¹ Desafio 1 â€“ Frase mais longa

In [5]:

texto = "Esta Ã© curta. Esta aqui Ã© uma frase um pouco mais longa. Curta tambÃ©m."

frases = tokenizer_frases.tokenize(texto)
frase_mais_longa = max(frases, key=lambda f: len(tokenizador_palavras.tokenize(f)))

print("Frase mais longa:", frase_mais_longa)


Frase mais longa: Esta aqui Ã© uma frase um pouco mais longa.


## ðŸ”¹ Desafio 2 â€“ Filtrar frases curtas


In [6]:

texto = "OlÃ¡. Tudo bem contigo? Vamos fazer algo produtivo. Sim!"

frases = tokenizer_frases.tokenize(texto)
filtradas = [f for f in frases if len(tokenizador_palavras.tokenize(f)) >= 4]

print("Frases com 4 ou mais palavras:")
for f in filtradas:
    print("-", f)


Frases com 4 ou mais palavras:
- Tudo bem contigo?
- Vamos fazer algo produtivo.


## ðŸ”¹ Desafio 3 â€“ CSV com segmentaÃ§Ã£o por linha 

In [7]:

import pandas as pd

df = pd.DataFrame({
    "texto": ["Hoje estÃ¡ sol. AmanhÃ£ chove.", "Vamos estudar Python. Aprender Ã© divertido."]
})

todas_frases = []
for linha in df['texto']:
    frases = tokenizer_frases.tokenize(linha)
    todas_frases.extend(frases)

df_frases = pd.DataFrame(todas_frases, columns=["Frase"])
df_frases.to_csv("frases_resultado.csv", index=False, encoding="utf-8")
print(df_frases)


                   Frase
0         Hoje estÃ¡ sol.
1          AmanhÃ£ chove.
2  Vamos estudar Python.
3  Aprender Ã© divertido.


## ðŸ”¹ Desafio 4 â€“ Comparar NLTK local vs spaCy

In [8]:

import spacy
nlp = spacy.load("pt_core_news_sm")

texto = "Vamos testar esta frase. E esta outra tambÃ©m."

frases_nltk = tokenizer_frases.tokenize(texto)
doc = nlp(texto)
frases_spacy = [sent.text for sent in doc.sents]

for i, (nltk_f, spacy_f) in enumerate(zip(frases_nltk, frases_spacy), 1):
    print(f"{i} - NLTK local: {nltk_f}")
    print(f"    spaCy     : {spacy_f}\n")


1 - NLTK local: Vamos testar esta frase.
    spaCy     : Vamos testar esta frase.

2 - NLTK local: E esta outra tambÃ©m.
    spaCy     : E esta outra tambÃ©m.



## ðŸ”¹ Desafio 5 â€“ Tkinter AvanÃ§ada

In [9]:

import tkinter as tk

def analisar_texto():
    texto = entrada.get("1.0", "end-1c")
    frases = tokenizer_frases.tokenize(texto)
    total_frases = len(frases)
    medias = [len(tokenizador_palavras.tokenize(f)) for f in frases]
    media_palavras = sum(medias) / total_frases if total_frases > 0 else 0

    saida.delete("1.0", "end")
    saida.insert("end", f"NÂº de frases: {total_frases}\n")
    saida.insert("end", f"MÃ©dia de palavras por frase: {media_palavras:.2f}\n")

janela = tk.Tk()
janela.title("AnÃ¡lise AvanÃ§ada de Texto")

entrada = tk.Text(janela, height=6, width=60)
entrada.pack(pady=10)

botao = tk.Button(janela, text="Analisar Texto", command=analisar_texto)
botao.pack()

saida = tk.Text(janela, height=6, width=60)
saida.pack(pady=10)

janela.mainloop()
