In [13]:
from nltk import FreqDist
import numpy as np
from sklearn import svm
from sklearn.metrics import confusion_matrix

In [14]:
#Função para calcular o tamanho médio das palavras
def calcular_tamanho_medio_palavras(frase):
    palavras = frase.split()
    tamanho_palavras = [len(palavra) for palavra in palavras]
    tamanho_medio = np.mean(tamanho_palavras)
    return tamanho_medio

In [15]:
#Função para calcular a frequência das letras
def calcular_frequencia_letras(frase):
    frequencia_letras = FreqDist([letra for letra in frase if letra.isalpha()])
    return dict(frequencia_letras)

In [16]:
#Função para extrair as características de uma frase
def extrair_caracteristicas(frase):
    frequencias = calcular_frequencia_letras(frase)
    tamanho_medio_palavras = calcular_tamanho_medio_palavras(frase)

    caracteres_arabicos = [chr(i) for i in range(97, 123)]  #Letras minúsculas de 'a' a 'z'
    vetor_caracteristicas = []
    
    for caract in caracteres_arabicos:
        if caract in frequencias:
            vetor_caracteristicas.append(frequencias[caract])
        else:
            vetor_caracteristicas.append(0)
    
    vetor_caracteristicas.append(tamanho_medio_palavras)
    #print (vetor_caracteristicas)
    return vetor_caracteristicas

In [17]:
#Função auxiliar para criar vetor de características
def criar_vetor_caracteristicas(dados):
    max_num_caracteristicas = 26 + 1  #26 letras do alfabeto + 1 para o tamanho médio das palavras
    matriz_caracteristicas = np.zeros((len(dados), max_num_caracteristicas))
    
    for i, dado in enumerate(dados):
        matriz_caracteristicas[i, :] = dado
    #print(matriz_caracteristicas)
    return matriz_caracteristicas

In [18]:
#Ler os arquivos de texto e criar dicionários de frases para cada idioma
dados_treinamento = {
    'portugues': [],
    'ingles': [],
    'italiano': []
}
with open('portugues.txt', 'r') as arquivo_portugues:
    for linha in arquivo_portugues:
        linha = linha.strip()
        frase = linha.replace("Frase:", "").strip()
        dados_treinamento['portugues'].append(frase)

with open('ingles.txt', 'r') as arquivo_ingles:
    for linha in arquivo_ingles:
        linha = linha.strip()
        frase = linha.replace("Frase:", "").strip()
        dados_treinamento['ingles'].append(frase)

with open('italiano.txt', 'r') as arquivo_italiano:
    for linha in arquivo_italiano:
        linha = linha.strip()
        frase = linha.replace("Frase:", "").strip()
        dados_treinamento['italiano'].append(frase)

In [19]:
#Treinar o modelo SVM
treinamento_dados = []
treinamento_classes = []
for classe, frases in dados_treinamento.items():
    for frase in frases:
        treinamento_dados.append(extrair_caracteristicas(frase))
        treinamento_classes.append(classe)

matriz_caracteristicas = criar_vetor_caracteristicas(treinamento_dados)

In [20]:
#Treinar o modelo SVM
modelo = svm.SVC()
modelo.fit(matriz_caracteristicas, treinamento_classes)

TESTAR

In [21]:
#Ler o arquivo de testes
dados_teste = []

with open('teste.txt', 'r') as arquivo_teste:
    for linha in arquivo_teste:
        linha = linha.strip()
        frase = linha.replace("Frase:", "").strip()
        dados_teste.append(frase)

In [22]:
#Classificar as frases de teste
teste_classes = ['ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'italiano', 'italiano', 'italiano', 'italiano', 'italiano', 'italiano', 'italiano', 'italiano', 'italiano', 'italiano', 'italiano', 'italiano','italiano','italiano','italiano','portugues','portugues','portugues','portugues','portugues','portugues','portugues','portugues','portugues','portugues','portugues','portugues','portugues','portugues','portugues']

predicoes = []  #Lista para armazenar as classes previstas pelo modelo

for dado in dados_teste:
    caracteristicas = extrair_caracteristicas(dado)
    vetor_caracteristicas_teste = criar_vetor_caracteristicas([caracteristicas])
    resultado = modelo.predict(vetor_caracteristicas_teste)

    predicoes.append(resultado[0])  #Armazenar a classe prevista pelo modelo
    
    print("Texto:", dado)
    print("Idioma:", resultado[0])
    print("------------------------")


Texto: The sun is shining today.
Idioma: ingles
------------------------
Texto: I like to eat pizza.
Idioma: ingles
------------------------
Texto: He is a good friend.
Idioma: ingles
------------------------
Texto: Life is beautiful.
Idioma: ingles
------------------------
Texto: I need to go to the supermarket.
Idioma: ingles
------------------------
Texto: My team won the game.
Idioma: ingles
------------------------
Texto: I'm studying for the exam.
Idioma: ingles
------------------------
Texto: I love traveling to the beach.
Idioma: ingles
------------------------
Texto: My family is very close.
Idioma: ingles
------------------------
Texto: Music makes me happy.
Idioma: ingles
------------------------
Texto: Today is a beautiful day.
Idioma: ingles
------------------------
Texto: Let's go out for dinner.
Idioma: ingles
------------------------
Texto: I'm tired of work.
Idioma: ingles
------------------------
Texto: I want to learn to play the guitar.
Idioma: ingles
--------------

In [24]:
#Gerar matriz de confusão
print(teste_classes)
matriz_confusao = confusion_matrix(teste_classes, predicoes)
print("Matriz de Confusão:")
print(matriz_confusao)

['ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'italiano', 'italiano', 'italiano', 'italiano', 'italiano', 'italiano', 'italiano', 'italiano', 'italiano', 'italiano', 'italiano', 'italiano', 'italiano', 'italiano', 'italiano', 'portugues', 'portugues', 'portugues', 'portugues', 'portugues', 'portugues', 'portugues', 'portugues', 'portugues', 'portugues', 'portugues', 'portugues', 'portugues', 'portugues', 'portugues', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'ingles', 'portugues', 'ingles', 'italiano', 'portugues', 'italiano', 'portugues', 'portugues', 'portugues', 'portugues', 'italiano', 'portugues', 'italiano', 'portugues', 'italiano', 'italiano', 'ingles', 'portugues', 'portugues', 'portugues', 'portugues', 'portugues', 'portugues', 'portugues', 'portugues', 'italiano', 'portugues', 'portugue

ValueError: Found input variables with inconsistent numbers of samples: [90, 45]

In [None]:
#Pedir ao usuário para inserir um novo texto
texto_desconhecido = input("Digite um novo texto: ")

In [None]:
#Extrair as características do texto desconhecido
caracteristicas_texto_desconhecido = extrair_caracteristicas(texto_desconhecido)
vetor_caracteristicas_desconhecido = criar_vetor_caracteristicas([caracteristicas_texto_desconhecido])

#Classificar o texto desconhecido
resultado_desconhecido = modelo.predict(vetor_caracteristicas_desconhecido)

#Apresentar a língua indicada pelo modelo
print("Língua indicada pelo modelo:", resultado_desconhecido[0])