># <b>Desafio: análise de comentários negativos dos consumidores com TF-IDF</b>  
> Instituição: PUCPR  
> Curso: Tecnologia em Inteligência Artifical Aplicada  
> Disciplina: Processamento de Linguagem Natural  
> Professor: Lucas Oliveira  
> Estudante: Carla Edila Silveira  
> Data: 20/04/2024  

<img src='https://i.postimg.cc/gk88VJqL/avaliacao-cliente.png' width=880>

<p align='justify'>CONTEXTO: Extrair conhecimento de um texto envolve várias etapas. Diversas empresas e organizações têm apostado em aplicar técnicas de inteligência artificial para otimizar seus processos.</p>

<p align='justify'>Nesse contexto, identificar o comportamento do consumidor é fundamental para definir estratégias de mercado. Existem diversas plataformas nas quais os clientes deixam suas reclamações em relação às empresas. As avaliações nessas plataformas servem muitas vezes de referência aos consumidores e aos gestores que planejam estratégias para melhorar a visão da empresa.</p>

><p align='justify'>DESAFIO: Imagine que você foi contratado por uma empresa para analisar os comentários negativos que seus consumidores deixaram em uma plataforma de reclamações. Observe, no arquivo a seguir (<i>comments.txt</i>), os comentários negativos dos consumidores. Como profissional responsável por analisar os dados e considerando o arquivo com as reclamações dos consumidores, seu desafio é aplicar o método TF-IDF utilizando a linguagem Python 3 para extrair características do texto e montar uma matriz com os valores TF-IDF. </p>

In [None]:
# Importa bibliotecas necessárias

import pandas as pd
from google.colab import drive
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
# Monta drive para carregar arquivo com comentários negativos
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Caminho para o arquivo .txt
caminho = '/content/drive/MyDrive/Colab Notebooks/Data/comments.txt'

# Leitura do arquivo .txt
with open(caminho, 'r') as file:
    comments = file.readlines()

print(comments)

["'No dia 16/02 recebo um e-mail da Loja alegando divergência de dados e acusando pagamento não autorizado! Sem nenhum detalhe adicional! Simplesmente negam a compra, a fatura permanece, e não explicam nada!Liguei para o atendimento e tive a mesma informação. Fui bem atendido. Como trabalho muito com notebook, realizei novamente a compra e fui informado que o pagamento é estornado em até 48h. Quando entrei no Reclame Aqui, que arrependimento tive! Reclamações de pessoas que há mais de uma semana não recebem o estorno, e de problemas similares ao meu! Espero sinceramente que o valor seja estornado logo e que a segunda compra seja bem procedida, e o produto entregue em tempo. Não tenho nenhum apreço por ter que recorrer a medidas legais! Espero profissionalismo e transparência da empresa, como obrigação com o consumidor!',\n", "'Boa tarde, fiz um pedido de dois pneus dia 16/01/2020, quase na mesma hora recebi um e-mail de confirmação do pagamento, que a mercadoria já estava com a transpo

In [None]:
# Aplica o método TF-IDF
tfidf_vectorizer = TfidfVectorizer(max_features=1000)  # Defina o número máximo de features
tfidf_matrix = tfidf_vectorizer.fit_transform(comments)

In [None]:
# Cria dataframe para visualização dos resultados
feature_names = tfidf_vectorizer.get_feature_names_out()
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=feature_names)

In [None]:
# Visualiza a matriz TF-IDF
print(tfidf_df)

         00        01        02        03        05      1000        11  \
0  0.000000  0.000000  0.076674  0.000000  0.000000  0.000000  0.000000   
1  0.000000  0.073230  0.000000  0.046442  0.036615  0.000000  0.000000   
2  0.000000  0.000000  0.000000  0.000000  0.034433  0.000000  0.000000   
3  0.113193  0.029748  0.029748  0.000000  0.000000  0.113193  0.037731   

         14       15x        16  ...  vinculado       vir     vocês   voltado  \
0  0.000000  0.000000  0.076674  ...   0.000000  0.000000  0.000000  0.000000   
1  0.000000  0.000000  0.036615  ...   0.000000  0.000000  0.000000  0.000000   
2  0.000000  0.000000  0.000000  ...   0.000000  0.000000  0.174694  0.043673   
3  0.037731  0.075462  0.000000  ...   0.037731  0.037731  0.000000  0.000000   

     várias      área     ótimo    última     única     úteis  
0  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  
1  0.000000  0.046442  0.046442  0.000000  0.000000  0.073230  
2  0.000000  0.000000  0.0

> Gabarito do desafio disponível [aqui]().