# Projeto de Análise de Sentimentos - "A Study in Scarlet"

### Livro por Arthur Conan Doyle, 1995.

A escolha do livro foi com base pela admiração ao icônico personagem Sherlock Holmes e suas façanhas.

### Bibliotecas

In [22]:
import requests
from bs4 import BeautifulSoup
import re
from transformers import pipeline

### Acesso e retirada do texto

In [None]:
# Webscrapping do livro
url = "https://www.gutenberg.org/cache/epub/244/pg244-images.html"
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")

# Pega todo o corpo do texto
text_div = soup.find("body")
text = text_div.get_text(separator="\n", strip=True)

# Salva o conteúdo em um arquivo .txt
with open("A study in scarlet", "w", encoding="utf-8") as f:
    f.write(text)

print("Texto extraído e salvo com sucesso.")

Texto extraído e salvo com sucesso.


### Modelagem

Ao fazer uma análise rápida do conteúdo do livro, notei que as falas estão apenas por “ ”, portanto defini que apenas o conteúdo entre estes caractéres serão retirados para análise. 

In [28]:
with open("A study in scarlet", "r", encoding="utf-8") as f:
    texto = f.read()

# Extrai falas entre aspas
falas = re.findall(r'“(.*?)”', texto, re.DOTALL)

# Mostra algumas falas
for i, fala in enumerate(falas[:5]):
    print(f"{i+1}. {fala}\n")

1. Orontes,

2. Whatever have you been doing with yourself, Watson?

3. You are as thin as a

lath and as brown as a nut.

4. Poor devil!

5. What are you up to now?



### Análise de Sentimentos

Utilizando a biblioteca do Hugging Face: Transformers, extraí a função "Pipeline" que já possui modelos pré-treinados como base para análise de sentimentos.

In [29]:
analisador = pipeline("sentiment-analysis")

# Analisa as primeiras falas
for i, fala in enumerate(falas[:10]):
    resultado = analisador(fala)[0]
    print(f"{i+1}. {fala}")
    print(f"→ Sentimento: {resultado['label']} (confiança: {resultado['score']:.2f})\n")


No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision 714eb0f (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
Device set to use cpu


1. Orontes,
→ Sentimento: POSITIVE (confiança: 0.95)

2. Whatever have you been doing with yourself, Watson?
→ Sentimento: NEGATIVE (confiança: 0.99)

3. You are as thin as a

lath and as brown as a nut.
→ Sentimento: NEGATIVE (confiança: 1.00)

4. Poor devil!
→ Sentimento: NEGATIVE (confiança: 0.99)

5. What are you up to now?
→ Sentimento: POSITIVE (confiança: 1.00)

6. Looking for lodgings,
→ Sentimento: NEGATIVE (confiança: 0.99)

7. Trying to solve the problem as to whether

it is possible to get comfortable rooms at a reasonable price.
→ Sentimento: NEGATIVE (confiança: 1.00)

8. That’s a strange thing,
→ Sentimento: NEGATIVE (confiança: 0.72)

9. you are the second man to-day

that has used that expression to me.
→ Sentimento: POSITIVE (confiança: 1.00)

10. And who was the first?
→ Sentimento: NEGATIVE (confiança: 0.99)



Para o próximo passo deste projeto, filtrarei apenas as falas de Sherlock Holmes, na tentativa de conseguir algum traço de sua personalidade. Futuramente, buscarei criar uma Inteligencia Artificial que simule sua personalidade e consiga responder prompts com base nisso.