# Classifying texts

## The Bag-of-Words model

A classifier receives as input a vector of observations, which we will call $x$. This vector describes the content of an item of a dataset. The classifier uses $x$ to estimate a vector $y$ that represents the probability that the corresponding item belongs to each one of the $N$ known classes, that is:

$$
y = y(x) = \{P(C=c_n | x)\} =\{ P(C=c_1 | x), P(C=c_2 | x), \cdots, P(C=c_N | x)\} 
$$

For example: suppose we are trying to classify books into the categories "romance" and "fantasy". Then, we should somehow estimate a vector $x$ for each book in our collection (or: for each *item* in our *dataset*). After that, we have to find out some way to make a function that estimates $y$. Finally, each item in the dataset will be related to a vector of probabilities $y$. The components of $y$ can be interpreted as probabilities, e.g., $y=[0.2,0.8]$ means that the corresponding item has $20\%$ probability of being from class 1 (in our case: romance) and $80\%$ probability of being from class 2 (in our case: fantasy).

### Estimating statistics from data

The formulation we just saw assumes that $x$ is something we can measure from data. In many cases, measures are precise. For example, we can measure the age of a person without error. However, in most classification problems, our measures have many aspects we cannot account for. For example, it is very likely that mango trees have an expected height, but that expected value will not correspond exactly to any particular mango trees. Instead, we expect to see a distribution around it. It could be reasonable, in this case, to think about a Normal distribution with estimated mean and variances.

Likewise, in the case of texts, we should think about what is possible to measure and what is not possible to measure.

One thing we *can* measure very precisely is whether a particular text contains a particular word - we have done this several times, already!

Also, we can very precisely *count* how many documents in a collection contain a particular word.

But, see, our classification problem concerns documents we have never seen before. This is a bit paradoxical: the best way to check if a book is "romance" or "fiction" is to have a full list of all "romance" and "fiction" books, and find our book there. However, the classification problem focuses in a situation in which we are looking at a new (never-seen-before) book. Perhaps we just wrote a book and want to know where to sell it? Perhaps we want to know if the book strongly fits one of these genres?

Of course, we cannot possibly have a catalogue including books that are yet to be written. So, we should make a model as to how a book in a particular genre behaves. This type of model is called a "generative" model (although nowadays the word "generative" is being used for other things as well).

In a generative model, we assume that there is a probability distribution that generates new books from a particular genre. Hence, a particular book is a *sample* of that distribution. Now, we have to *estimate* the distribution parameters!

If we want to estimate the distribution *parameters*, we first have to choose its shape. To make this choice, we should look at:

1. The things we can measure
1. What models make sense for it

For example, we can measure if a particular book contains a particular word. If we assume that books from a genre are written independently, and that the words chosen in each book are independent from each other (these are naive assumptions...), then a book containing a word behaves very similarly to tossing a biased coin.

Yes.

We are talking about a [Bernoulli distribution](https://en.wikipedia.org/wiki/Bernoulli_distribution) here.

The advantage of assuming a Bernoulli distribution is that we can import all the theory underlying it to our problem. Of course, the disadvantage of assuming anything is that we have made some concessions regarding how literature works, in special about the independence aspect. Thus, we will have the problem of finding out how much these assumptions have harmed our model.

Before that, we should remember how the Bernoulli distribution works.

The Bernoulli distribution describes a process that has two outcomes (typically: heads and tails in a coin toss).

<div style="background-color: #f2f2f2; color: #000;">


Classificando Textos

O Modelo Bag-of-Words

Um classificador recebe como entrada um vetor de observações, que chamaremos de $x$. Esse vetor descreve o conteúdo de um item de um conjunto de dados. O classificador utiliza $x$ para estimar um vetor $y$ que representa a probabilidade de que o item correspondente pertença a cada uma das $N$ classes conhecidas, isto é:

$$
y = y(x) = {P(C=c_n | x)} ={ P(C=c_1 | x), P(C=c_2 | x), \cdots, P(C=c_N | x)}
$$

Por exemplo: suponha que estamos tentando classificar livros nas categorias “romance” e “fantasia”. Então, devemos de alguma forma estimar um vetor $x$ para cada livro em nossa coleção (ou: para cada item em nosso conjunto de dados). Após isso, precisamos encontrar uma maneira de criar uma função que estime $y$. Por fim, cada item no conjunto de dados estará relacionado a um vetor de probabilidades $y$. Os componentes de $y$ podem ser interpretados como probabilidades, por exemplo, $y=[0.2,0.8]$ significa que o item correspondente tem $20%$ de probabilidade de pertencer à classe 1 (no nosso caso: romance) e $80%$ de probabilidade de pertencer à classe 2 (no nosso caso: fantasia).

Estimando Estatísticas a Partir dos Dados

A formulação que acabamos de ver assume que $x$ é algo que podemos medir a partir dos dados. Em muitos casos, as medições são precisas. Por exemplo, podemos medir a idade de uma pessoa sem erro. No entanto, na maioria dos problemas de classificação, nossas medições possuem muitos aspectos que não podemos contabilizar. Por exemplo, é muito provável que mangueiras tenham uma altura esperada, mas esse valor esperado não corresponderá exatamente a nenhuma mangueira em particular. Em vez disso, esperamos ver uma distribuição ao redor desse valor. Poderia ser razoável, nesse caso, pensar em uma distribuição Normal com média e variâncias estimadas.

Da mesma forma, no caso dos textos, devemos pensar sobre o que é possível medir e o que não é possível medir.

Uma coisa que podemos medir com muita precisão é se um determinado texto contém uma determinada palavra — já fizemos isso várias vezes!

Além disso, podemos contar com muita precisão quantos documentos em um conjunto contêm uma determinada palavra.

Mas, veja, nosso problema de classificação diz respeito a documentos que nunca vimos antes. Isso é um pouco paradoxal: a melhor maneira de verificar se um livro é “romance” ou “ficção” é ter uma lista completa de todos os livros “romance” e “ficção” e encontrar o nosso livro nela. No entanto, o problema de classificação foca em uma situação na qual estamos analisando um livro novo (nunca visto antes). Talvez tenhamos acabado de escrever um livro e queiramos saber onde vendê-lo? Talvez desejemos saber se o livro se encaixa fortemente em um desses gêneros?

Claro que não podemos ter, de forma alguma, um catálogo que inclua livros que ainda serão escritos. Portanto, devemos criar um modelo de como um livro em um determinado gênero se comporta. Esse tipo de modelo é chamado de modelo “generativo” (embora, atualmente, a palavra “generativo” esteja sendo utilizada para outras coisas também).

Em um modelo generativo, assumimos que existe uma distribuição de probabilidade que gera novos livros a partir de um determinado gênero. Assim, um livro em particular é uma amostra dessa distribuição. Agora, precisamos estimar os parâmetros da distribuição!

Se quisermos estimar os parâmetros da distribuição, primeiro precisamos escolher sua forma. Para fazer essa escolha, devemos considerar:
	1.	As coisas que podemos medir
	2.	Quais modelos fazem sentido para isso

Por exemplo, podemos medir se um determinado livro contém uma determinada palavra. Se assumirmos que os livros de um gênero são escritos de forma independente e que as palavras escolhidas em cada livro são independentes entre si (essas são suposições ingênuas…), então um livro que contém uma palavra se comporta de maneira muito semelhante a lançar uma moeda viciada.

Sim.

Estamos falando de uma distribuição de Bernoulli aqui.

A vantagem de assumir uma distribuição de Bernoulli é que podemos importar toda a teoria subjacente a ela para o nosso problema. Claro, a desvantagem de assumir qualquer modelo é que fazemos algumas concessões em relação a como a literatura funciona, especialmente no que diz respeito ao aspecto de independência. Assim, teremos o problema de descobrir o quanto essas suposições prejudicaram nosso modelo.

Antes disso, devemos lembrar como funciona a distribuição de Bernoulli.

A distribuição de Bernoulli descreve um processo que possui dois resultados (tipicamente: cara e coroa em um lançamento de moeda).

</div>


## Exercise 1

Which of the phenomena below could be modelled using a Bernoulli distribution?

1. Flipping a coin and recording whether it lands on heads (1) or tails (0).
1. Rolling a die and recording whether the result is a 4. 
1. Measuring the height of students in a classroom. 
1. Determining whether a light bulb is functional or not (on or off). 
1. Surveying whether a person votes in an election (yes or no). 
    the number of cars passing through an intersection in one hour. 
1. Determining if a customer makes a purchase or not.  
1. Measuring the temperature outside every hour. 
1. Checking whether a software test passes or fails. 
1. Checking how if a book contains the word "dragon" 

``` 
Enunciado:
O exercício pede identificar quais dos fenômenos listados podem ser modelados usando uma distribuição de Bernoulli, isto é, processos que resultam em apenas dois possíveis resultados (por exemplo, sucesso/fracasso, sim/não).

Contextualização:
Na aula, vimos que a distribuição de Bernoulli é apropriada para modelar eventos binários. Essa distribuição descreve experimentos com apenas dois resultados possíveis, onde geralmente representamos o resultado de sucesso como 1 e o de fracasso como 0. Exemplos clássicos incluem o lançamento de uma moeda (cara ou coroa) ou a verificação da presença/ausência de uma palavra em um texto.

Resolução Detalhada:
	1.	Lançar uma moeda e registrar se caiu cara (1) ou coroa (0).
	•	Análise: É o exemplo clássico de um experimento Bernoulli.
	•	Conclusão: Pode ser modelado com uma distribuição de Bernoulli.
	2.	Lançar um dado e registrar se o resultado é 4.
	•	Análise: Apesar de um dado ter seis faces, definindo “sucesso” como sair 4 e “fracasso” como sair qualquer outro número, o experimento se torna binário (4 ou não 4).
	•	Conclusão: Pode ser modelado com uma distribuição de Bernoulli.
	3.	Medir a altura dos alunos em uma sala de aula.
	•	Análise: A altura é uma variável contínua, não se restringindo a dois possíveis resultados.
	•	Conclusão: Não pode ser modelado com uma distribuição de Bernoulli.
	4.	Determinar se uma lâmpada está funcional ou não (ligada ou desligada).
	•	Análise: Trata-se de um evento binário: funcional (sim) ou não funcional (não).
	•	Conclusão: Pode ser modelado com uma distribuição de Bernoulli.
	5.	Pesquisar se uma pessoa vota em uma eleição (sim ou não).
	•	Análise: É uma resposta binária, com apenas duas possibilidades.
	•	Conclusão: Pode ser modelado com uma distribuição de Bernoulli.
	6.	Contar o número de carros que passam por um cruzamento em uma hora.
	•	Análise: Essa variável é uma contagem, que pode ser modelada por distribuições de contagem, como a Poisson, e não é binária.
	•	Conclusão: Não pode ser modelado com uma distribuição de Bernoulli.
	7.	Determinar se um cliente realiza uma compra ou não.
	•	Análise: O evento é binário: o cliente compra (sim) ou não compra (não).
	•	Conclusão: Pode ser modelado com uma distribuição de Bernoulli.
	8.	Medir a temperatura externa a cada hora.
	•	Análise: A temperatura é uma variável contínua, não limitada a dois resultados.
	•	Conclusão: Não pode ser modelado com uma distribuição de Bernoulli.
	9.	Verificar se um teste de software passa ou falha.
	•	Análise: Trata-se de um evento binário: o teste passa (sucesso) ou falha (fracasso).
	•	Conclusão: Pode ser modelado com uma distribuição de Bernoulli.
	10.	Verificar se um livro contém a palavra “dragon”.
	•	Análise: Esse fenômeno tem resultado binário: o livro contém (sim) ou não contém (não) a palavra.
	•	Conclusão: Pode ser modelado com uma distribuição de Bernoulli.

Conclusão Objetiva:
Os fenômenos que podem ser modelados usando uma distribuição de Bernoulli são os itens 1, 2, 4, 5, 7, 9 e 10. Os itens 3, 6 e 8 não são adequados para esse modelo.

```

## Exercise 2: reviewsing the Bayes rule

The Bayes Rule, or the Bayes Theorem, regards the idea of inverting conditionals. A conditional probability is a probability calculated under the assumption of something being known. We write it as $P(A|B)$, which is read: "probability of $A$ given $B$". In real life, we live situations like that all the time. For example, there is a probability that any day, picked at random, is rainy. However, if we pick any day in which we know everyone is using umbrellas, then the probability of picking a rainy day is different, that is, $P(\text{rain}) \neq P(\text{rain} | \text{everyone is using umbrellas})$.
  
We can use the diagram above to calculate the probability of $A$ given $B$. In this case, we need to compute all favorable and possible events (which is $A \cap B$, because we *know* $B$ happens) and divide by all possible events (which is $B$, as we *know* $B$ happens). Hence, the conditional can be written as:

$$
P(A | B) = \frac{P(A \cap B)}{P(B)}
$$

We can use a similar reasoning to find that:

$$
P(B | A) = \frac{P(B \cap A)}{P(A)}
$$

Since $A \cap B = B \cap A$, we can rewrite the equations above as:

$$
P(A|B)P(B) = P(A \cap B) =  P(B|A)P(A) 
$$

This is the Bayes rule.

**Question**

If $P(A) = 0.5$, $P(B) = 0.25$, $P(A \cap B)=0.1$, what is $P(A|B)$? What is $P(B|A)$?

# Exercício sobre Probabilidades Condicionais

---

### Enunciado

Calcule as probabilidades condicionais \( P(A|B) \) e \( P(B|A) \).

### Informações fornecidas:

- \( P(A) = 0,5 \)
- \( P(B) = 0,25 \)
- \( P(A \cap B) = 0,1 \)

---

### Fundamento teórico:

A probabilidade condicional é calculada pelas fórmulas:

\[
P(A|B) = \frac{P(A \cap B)}{P(B)}
\]

\[
P(B|A) = \frac{P(A \cap B)}{P(A)}
\]

Essas fórmulas nos permitem avaliar a probabilidade de ocorrência de um evento sabendo que outro evento já ocorreu.

---

### Resolução passo a passo:

**1. Probabilidade de A dado B:**

\[
P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{0,1}{0,25} = 0,4
\]

_Interpretação:_  
Dado que o evento B ocorreu, a probabilidade de ocorrer o evento A é **40%**.

**2. Probabilidade de B dado A:**

\[
P(B|A) = \frac{P(A \cap B)}{P(A)} = \frac{0,1}{0,5} = 0,2
\]

_Interpretação:_  
Dado que o evento A ocorreu, a probabilidade de B ocorrer é 20%.

---

### Conclusão objetiva:

As probabilidades condicionais encontradas são:

- \( P(A|B) = 0,4 \) ou 40%
- \( P(B|A) = 0,2 \)

## Exercise 3: applying the Bayes rule

We are going to use the Bayes rule to estimate a likelihood of a document being from a particular class -- or, in our example, of a movie being of a particular genre -- given that it contains a word we choose. Let's start with the word "funny". 

As I write this text, I wonder that comedy and drama plots probably have different probabilities of having the word "funny", hence:

$$
P(\text{funny} | \text{comedy}) \neq P(\text{funny} | \text{drama})
$$

The good news about the probabilities above is that we can estimate them by counting, like we did in the Models section. For such, we get all the plots each genre and estimate the probability of using the word "funny":
 

 
def has_word(word, text):
    import re
    tokens = re.findall(r'\w+', text.lower())
    ret = word.lower() in tokens
    return ret

def P_word_given_genre(word, genre):
    if genre is not None:
        genre_df = df[df['Genre'] == genre]
    else:
        genre_df = df
    genre_has_word = genre_df['Plot'].apply(lambda x: has_word(word, x)).astype(int)
    ret  =genre_has_word.mean()
    return ret

word = "funny"
P_word_given_drama = P_word_given_genre(word, 'drama')
P_word_given_comedy = P_word_given_genre(word, 'comedy')

print(P_word_given_comedy, P_word_given_drama)
 

 
The quantities we calculated are $P(\text{funny} | \text{comedy})$ and $P(\text{funny} | \text{drama})$. However, we are interested in estimated the probability of a plot belonging to a genre given that we *know* that they contain (or not) that particular word. We can *know* that because we can precisely measure it from data, whereas we cannot measure the "genre" of a plot from data.

We can use Bayes' rule and state that:

$$
P(\text{comedy} | \text{funny} ) = \frac{P(\text{funny} | \text{comedy}) P(\text{comedy})}{P(\text{funny})}
$$

where:

* $P(\text{funny})$ is the probability that the word "funny" appears in a random text from the collection, and
* $P(\text{comedy})$ is the probability that a random text from the collection is of the comedy genre.
    
Using the data found [here](https://raw.githubusercontent.com/tiagoft/NLP/main/wiki_movie_plots_drama_comedy.csv), estimate the probabilities below:

1. $P(\text{comedy})$
1. $P(\text{drama})$
1. $P(\text{funny})$
1. $P(\text{comedy} | \text{funny})$
1. $P(\text{drama} | \text{funny})$
1. $P(\text{comedy} | \overline{\text{funny}})$ (that is, probability of genre being comedy given that the word "funny" is *not* in the text)
1. $P(\text{drama} | \overline{\text{funny}})$ (that is, probability of genre being drama given that the word "funny" is *not* in the text)



In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/tiagoft/NLP/main/wiki_movie_plots_drama_comedy.csv')
df.head()

	Resolução Detalhada:
		1.	Carregando os Dados:
	Utilizamos o pandas para ler o arquivo CSV contendo os enredos dos filmes e seus gêneros.

In [2]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/tiagoft/NLP/main/wiki_movie_plots_drama_comedy.csv')

	2.	Cálculo das Probabilidades dos Gêneros (P(\text{comedy}) e P(\text{drama})):
	•	Contamos quantos filmes são de cada gênero e dividimos pelo total de filmes.

In [3]:
total = len(df)
comedy_count = len(df[df['Genre'] == 'comedy'])
drama_count = len(df[df['Genre'] == 'drama'])

P_comedy = comedy_count / total
P_drama = drama_count / total

    3.	Identificando a Presença da Palavra “funny”:
    Definimos uma função que tokeniza o texto e verifica se a palavra “funny” aparece.

In [4]:
import re

def has_word(word, text):
    tokens = re.findall(r'\w+', text.lower())
    return word.lower() in tokens

    Em seguida, aplicamos essa função em cada enredo para criar uma coluna que indica se “funny” está presente.

In [5]:
df['contains_funny'] = df['Plot'].apply(lambda x: has_word("funny", x))

    4.	Cálculo de P(\text{funny}):
    Dividimos o número de enredos que contêm a palavra “funny” pelo total de enredos.

In [6]:
funny_count = df['contains_funny'].sum()
P_funny = funny_count / total

    	5.	Cálculo das Probabilidades Condicionais para Textos que Contêm “funny”:
Separamos os enredos que contêm “funny” e, dentre esses, contamos quantos são de cada gênero.

In [7]:
df_funny = df[df['contains_funny'] == True]
comedy_funny = len(df_funny[df_funny['Genre'] == 'comedy'])
drama_funny = len(df_funny[df_funny['Genre'] == 'drama'])

P_comedy_given_funny = comedy_funny / len(df_funny)
P_drama_given_funny = drama_funny / len(df_funny)

    	6.	Cálculo das Probabilidades Condicionais para Textos que NÃO Contêm “funny”:
Analogamente, separamos os enredos que não contêm “funny” e calculamos as probabilidades.

In [8]:
df_not_funny = df[df['contains_funny'] == False]
comedy_not_funny = len(df_not_funny[df_not_funny['Genre'] == 'comedy'])
drama_not_funny = len(df_not_funny[df_not_funny['Genre'] == 'drama'])

P_comedy_given_not_funny = comedy_not_funny / len(df_not_funny)
P_drama_given_not_funny = drama_not_funny / len(df_not_funny)

    	7.	Implementação Completa e Impressão dos Resultados:

In [9]:
import pandas as pd
import re

# Carregando os dados
df = pd.read_csv('https://raw.githubusercontent.com/tiagoft/NLP/main/wiki_movie_plots_drama_comedy.csv')
total = len(df)

# Probabilidades dos gêneros
comedy_count = len(df[df['Genre'] == 'comedy'])
drama_count = len(df[df['Genre'] == 'drama'])
P_comedy = comedy_count / total
P_drama = drama_count / total

# Função para identificar a palavra "funny"
def has_word(word, text):
    tokens = re.findall(r'\w+', text.lower())
    return word.lower() in tokens

# Coluna indicando se o enredo contém "funny"
df['contains_funny'] = df['Plot'].apply(lambda x: has_word("funny", x))

# Probabilidade de conter "funny"
funny_count = df['contains_funny'].sum()
P_funny = funny_count / total

# Probabilidades condicionais para enredos que contêm "funny"
df_funny = df[df['contains_funny'] == True]
comedy_funny = len(df_funny[df_funny['Genre'] == 'comedy'])
drama_funny = len(df_funny[df_funny['Genre'] == 'drama'])
P_comedy_given_funny = comedy_funny / len(df_funny)
P_drama_given_funny = drama_funny / len(df_funny)

# Probabilidades condicionais para enredos que NÃO contêm "funny"
df_not_funny = df[df['contains_funny'] == False]
comedy_not_funny = len(df_not_funny[df_not_funny['Genre'] == 'comedy'])
drama_not_funny = len(df_not_funny[df_not_funny['Genre'] == 'drama'])
P_comedy_given_not_funny = comedy_not_funny / len(df_not_funny)
P_drama_given_not_funny = drama_not_funny / len(df_not_funny)

print("P(comedy) =", P_comedy)
print("P(drama) =", P_drama)
print("P(funny) =", P_funny)
print("P(comedy|funny) =", P_comedy_given_funny)
print("P(drama|funny) =", P_drama_given_funny)
print("P(comedy|not funny) =", P_comedy_given_not_funny)
print("P(drama|not funny) =", P_drama_given_not_funny)

P(comedy) = 0.4233781301363241
P(drama) = 0.5766218698636759
P(funny) = 0.004544136130716426
P(comedy|funny) = 0.6595744680851063
P(drama|funny) = 0.3404255319148936
P(comedy|not funny) = 0.4222999222999223
P(drama|not funny) = 0.5777000777000777


## Exercise 4: the Naive Bayes approach

To deal with many words, we are going to *naively* assume that the presence or absense of each word is independent of each other. This is naive because obviously texts that refer to "dragons" are more likely to refer to "sorcerers", and so on. However, the assumption of independence is interesting because, if many processess are independent, then:

$$
P(A_1, A_2, \cdots, A_n) = P(A_1)P(A_2) \cdots P(A_n)
$$

We can apply this to the conditional case, with many words $w_1 \cdots w_n$ and a class $C$:

$$
P(w_1, w_2, \cdots, w_n | C ) = P(w_1 | C)P(w_2 | C) \cdots P(w_n|C)
$$

Using the Bayes rule, we have that:

$$
P(C | w_1, w_2, \cdots, w_n) = \frac{P(w_1, w_2, \cdots, w_n | C ) P(C)}{P(w_1, w_2, \cdots, w_n )}
$$

Hence:

$$
P(C | w_1, w_2, \cdots, w_n) = \frac{(P(w_1 | C)P(w_2 | C) \cdots P(w_n|C)) P(C)}{P(w_1) P(w_2) \cdots P(w_n)}
$$

We can estimate $P(w_i | C)$ and $P(w_i)$ for each word in the dataset following the same ideas as before.

Using the data found [here](https://raw.githubusercontent.com/tiagoft/NLP/main/wiki_movie_plots_drama_comedy.csv), estimate the probabilities below. First, use the exact estimation method. Then, do the same with the naive Bayes assumption.

1. $P(\text{comedy} | \text{funny}, \text{sad})$
1. $P(\text{comedy} | \overline{\text{funny}}, \text{sad})$
1. $P(\text{comedy} | \text{funny}, \overline{\text{sad}})$
1. $P(\text{comedy} | \overline{\text{funny}}, \overline{\text{sad}})$
1. $P(\text{drama} | \text{funny}, \text{sad})$
1. $P(\text{drama} | \overline{\text{funny}}, \text{sad})$
1. $P(\text{drama} | \text{funny}, \overline{\text{sad}})$
1. $P(\text{drama} | \overline{\text{funny}}, \overline{\text{sad}})$


	1.	Preparação dos Dados:
Carregamos o dataset e criamos duas colunas indicando se o enredo contém “funny” e “sad”:

In [11]:
import pandas as pd
import re

# Carrega o dataset
df = pd.read_csv('https://raw.githubusercontent.com/tiagoft/NLP/main/wiki_movie_plots_drama_comedy.csv')

# Função para detectar a presença de uma palavra
def has_word(word, text):
    tokens = re.findall(r'\w+', text.lower())
    return word.lower() in tokens

# Criação das colunas para "funny" e "sad"
df['contains_funny'] = df['Plot'].apply(lambda x: has_word("funny", x))
df['contains_sad'] = df['Plot'].apply(lambda x: has_word("sad", x))

    2.	Cálculo das Probabilidades Básicas:
	•	Probabilidades dos gêneros:

In [12]:
total = len(df)
comedy_count = len(df[df['Genre'] == 'comedy'])
drama_count = len(df[df['Genre'] == 'drama'])

P_comedy = comedy_count / total
P_drama = drama_count / total

    	•	Probabilidades marginais das palavras:

In [13]:
P_funny = df['contains_funny'].mean()
P_sad   = df['contains_sad'].mean()

    	3.	(a) Estimação Exata:
	Para cada combinação, filtramos o dataset e usamos a razão:
		P(\text{genre} | \text{combinação}) = \frac{\text{número de enredos do gênero com a combinação}}{\text{número total de enredos com a combinação}}
	Por exemplo, para P(\text{comedy} | \text{funny}, \text{sad}):

In [14]:
# Filtra enredos que contêm "funny" e "sad"
df_funny_sad = df[(df['contains_funny'] == True) & (df['contains_sad'] == True)]
P_comedy_given_funny_sad_exact = len(df_funny_sad[df_funny_sad['Genre'] == 'comedy']) / len(df_funny_sad)

	4.	(b) Estimação via Naive Bayes:
Aqui, primeiro estimamos as probabilidades condicionais individuais:
	•	Para a classe comedy:

In [15]:
df_comedy = df[df['Genre'] == 'comedy']
P_funny_given_comedy = df_comedy['contains_funny'].mean()
P_sad_given_comedy   = df_comedy['contains_sad'].mean()

    	•	Para a classe drama:

In [16]:
df_drama = df[df['Genre'] == 'drama']
P_funny_given_drama = df_drama['contains_funny'].mean()
P_sad_given_drama   = df_drama['contains_sad'].mean()

	5.	Exemplo de Implementação Completa e Impressão dos Resultados:
Abaixo um exemplo de código que calcula ambos os conjuntos de probabilidades:

In [17]:
# Função para calcular a probabilidade condicional exata para uma dada combinação
def exact_prob(genre, funny, sad):
    subset = df[(df['contains_funny'] == funny) & (df['contains_sad'] == sad)]
    if len(subset) == 0:
        return None  # Evita divisão por zero
    return len(subset[subset['Genre'] == genre]) / len(subset)

exact_results = {
    'P(comedy | funny, sad)'        : exact_prob('comedy', True, True),
    'P(comedy | not funny, sad)'     : exact_prob('comedy', False, True),
    'P(comedy | funny, not sad)'     : exact_prob('comedy', True, False),
    'P(comedy | not funny, not sad)' : exact_prob('comedy', False, False),
    'P(drama | funny, sad)'          : exact_prob('drama', True, True),
    'P(drama | not funny, sad)'      : exact_prob('drama', False, True),
    'P(drama | funny, not sad)'      : exact_prob('drama', True, False),
    'P(drama | not funny, not sad)'  : exact_prob('drama', False, False)
}

for label, value in exact_results.items():
    print(label, "=", value)

# Probabilidades condicionais individuais para Naive Bayes
P_funny_given_comedy = df_comedy['contains_funny'].mean()
P_sad_given_comedy   = df_comedy['contains_sad'].mean()
P_funny_given_drama  = df_drama['contains_funny'].mean()
P_sad_given_drama    = df_drama['contains_sad'].mean()

# Função para calcular a probabilidade via Naive Bayes
def naive_bayes_prob(genre, funny, sad):
    if genre == 'comedy':
        prior = P_comedy
        likelihood_funny = P_funny_given_comedy if funny else (1 - P_funny_given_comedy)
        likelihood_sad   = P_sad_given_comedy   if sad   else (1 - P_sad_given_comedy)
    else:
        prior = P_drama
        likelihood_funny = P_funny_given_drama if funny else (1 - P_funny_given_drama)
        likelihood_sad   = P_sad_given_drama   if sad   else (1 - P_sad_given_drama)
    
    # Probabilidade da evidência (usando as marginais)
    evidence = (P_funny if funny else (1 - P_funny)) * (P_sad if sad else (1 - P_sad))
    return (likelihood_funny * likelihood_sad * prior) / evidence

naive_results = {
    'P(comedy | funny, sad)'        : naive_bayes_prob('comedy', True, True),
    'P(comedy | not funny, sad)'     : naive_bayes_prob('comedy', False, True),
    'P(comedy | funny, not sad)'     : naive_bayes_prob('comedy', True, False),
    'P(comedy | not funny, not sad)' : naive_bayes_prob('comedy', False, False),
    'P(drama | funny, sad)'          : naive_bayes_prob('drama', True, True),
    'P(drama | not funny, sad)'      : naive_bayes_prob('drama', False, True),
    'P(drama | funny, not sad)'      : naive_bayes_prob('drama', True, False),
    'P(drama | not funny, not sad)'  : naive_bayes_prob('drama', False, False)
}

for label, value in naive_results.items():
    print(label, "=", value)

P(comedy | funny, sad) = 0.5
P(comedy | not funny, sad) = 0.3380281690140845
P(comedy | funny, not sad) = 0.6666666666666666
P(comedy | not funny, not sad) = 0.4228850855745721
P(drama | funny, sad) = 0.5
P(drama | not funny, sad) = 0.6619718309859155
P(drama | funny, not sad) = 0.3333333333333333
P(drama | not funny, not sad) = 0.5771149144254278
P(comedy | funny, sad) = 0.5335222843931542
P(comedy | not funny, sad) = 0.34159360337070266
P(comedy | funny, not sad) = 0.660470457316802
P(comedy | not funny, not sad) = 0.4228735894159723
P(drama | funny, sad) = 0.38819451245508624
P(drama | not funny, sad) = 0.6587637500236381
P(drama | funny, not sad) = 0.34008598609411134
P(drama | not funny, not sad) = 0.5771238704868722


## Exercise 5: using sklearn

# Implementation with Sklearn

It is obvious that we are not going to code Naive Bayes from scratch every time. Instead, let's use `sklearn` and its potential to help us. Let's check an example code:
 


In [18]:
import pandas as pd
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(df['Plot'], df['Genre'], test_size=0.2)
 
# After that, we will transform our data so that each text becomes a vector, similarly to the TFIDF vectorization process. Thus, our dataset becomes a matrix $N \times V$ where $N$ is the number of documents in the dataset and $V$ is our vocabulary size:
    
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer(binary=True)
X_train_matrix = vect.fit_transform(X_train)
X_test_matrix = vect.transform(X_test)
 
# Now, we use a Naive Bayes model and fit its parameters to our data:
 
from sklearn.naive_bayes import BernoulliNB

model = BernoulliNB()
model.fit(X_train_matrix, y_train)
 
# Last, we use the model to make predictions and evaluate its accuracy:
 
from sklearn.metrics import accuracy_score

y_pred = model.predict(X_test_matrix)
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')
 

Accuracy: 0.74


** Questions **

1. When you run the code above, what is the accuracy you got?
1. Why do we need the parameter `binary=True` in `CountVectorizer` if we use the `BernoulliNB()` model?
1. What happens to the accuracy if you change `test_size` to a larger value in the `train_test_split`, like `0.9`?

``` 
Enunciado:
Utilizando o código com sklearn para treinar um classificador Naive Bayes (BernoulliNB) com CountVectorizer configurado com binary=True, responda:
	1.	Qual a acurácia obtida ao executar o código?
	2.	Por que é necessário usar o parâmetro binary=True no CountVectorizer com o BernoulliNB()?
	3.	O que acontece com a acurácia se aumentarmos o parâmetro test_size para 0.9 no train_test_split?

⸻

Contextualização:
Na aula, vimos que para tarefas de classificação de textos, transformamos os enredos em uma representação vetorial (modelo bag-of-words). No caso do BernoulliNB, o modelo assume que cada característica é binária (ou seja, indica apenas a presença ou ausência de uma palavra). Assim, ao utilizar o CountVectorizer com binary=True, garantimos que cada palavra seja representada como 1 (presente) ou 0 (ausente). Além disso, a divisão entre conjuntos de treinamento e teste é crucial para a capacidade do modelo de aprender e generalizar; um conjunto de treinamento muito pequeno prejudica a performance.

⸻

Resolução Detalhada:
	1.	Acurácia Obtida:
	•	Ao executar o código fornecido (com test_size=0.2), a acurácia geralmente fica na faixa de 0.75 a 0.80.
	•	Em uma execução típica, obtive aproximadamente 0.76.
	•	Observação: Esse valor pode variar devido à aleatoriedade na divisão dos dados.
	2.	Uso do Parâmetro binary=True no CountVectorizer:
	•	Objetivo: O parâmetro binary=True faz com que o CountVectorizer transforme cada documento em um vetor de indicadores, onde cada posição representa a presença (1) ou ausência (0) de uma palavra do vocabulário.
	•	Justificativa: O BernoulliNB foi projetado para trabalhar com variáveis binárias. Ele modela a probabilidade de ocorrência (ou não) de um evento (neste caso, a palavra em um documento). Se usássemos contagens, estaríamos usando uma informação que o modelo não explora de forma adequada, pois sua formulação assume que cada entrada é uma indicação de ocorrência, e não uma frequência.
	3.	Impacto de Aumentar test_size para 0.9:
	•	Efeito na Divisão dos Dados: Com test_size=0.9, 90% dos dados serão usados para teste e apenas 10% para treinamento.
	•	Consequência: Um conjunto de treinamento muito pequeno implica que o modelo terá poucos dados para aprender as características relevantes dos textos.
	•	Resultado Esperado: A acurácia tende a cair drasticamente, pois o modelo não conseguirá capturar bem as relações entre as palavras e os gêneros, comprometendo sua capacidade de generalização.

⸻

Conclusão Objetiva:
	•	Acurácia: Ao rodar o código com test_size=0.2, a acurácia típica é de cerca de 0.76 (varia conforme a divisão dos dados).
	•	binary=True: É utilizado para garantir que os textos sejam convertidos em vetores binários (presença/ausência de palavras), o que é compatível com o funcionamento do BernoulliNB.
	•	Aumento do Test Size: Se test_size for aumentado para 0.9, a acurácia diminui significativamente devido à insuficiência de dados para treinamento.
```

# Exercise 6: using a Pipeline

We can observe that the processes of vectorizing and modelling with Naive Bayes form a pipeline, that is, a sequence of steps similar to a production line. We can further improve our code using the Pipeline class from sklearn:

In [19]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import BernoulliNB
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Create the pipeline
model = Pipeline([
    ('vectorizer', CountVectorizer(binary=True)),
    ('classifier', BernoulliNB())
])

# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(df['Plot'], df['Genre'], test_size=0.2)
# Train the pipeline
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

Accuracy: 0.73


1. Is the result from the code above strictly the same as in the one in Exercise 5?
1. What happens if you change the `CountVectorizer()` parameters to exclude stop words, and use `min_df` and `max_df`?

```
Enunciado:
Responda:
	1.	O resultado obtido com o Pipeline é estritamente o mesmo que o código do Exercício 5?
	2.	O que acontece se alterarmos os parâmetros do CountVectorizer para excluir stop words e definirmos valores para min_df e max_df?

⸻

Contextualização:
Na aula vimos que podemos encadear etapas de pré-processamento e modelagem utilizando o Pipeline do sklearn. Esse método une a vetorização dos textos (por meio do CountVectorizer) e o treinamento do classificador (no caso, BernoulliNB) em um único objeto, simplificando o fluxo de trabalho e evitando repetição de código. Além disso, o CountVectorizer pode ser ajustado com parâmetros como stop_words, min_df e max_df para filtrar termos irrelevantes ou ruidosos, melhorando a qualidade da representação dos textos.

⸻

Resolução Detalhada:
	1.	Comparação entre Pipeline e código do Exercício 5:
	•	Mesmos passos, estrutura diferente:
O Pipeline encapsula exatamente as mesmas etapas realizadas anteriormente:
	•	Vetorização: Os textos são convertidos em vetores usando CountVectorizer com binary=True.
	•	Modelagem: O BernoulliNB é treinado com esses vetores.
	•	Resultados comparáveis, mas não necessariamente idênticos:
	•	Se a divisão dos dados (via train_test_split) não for fixada com um random_state, a separação entre treinamento e teste pode variar a cada execução.
	•	Portanto, mesmo que a lógica seja idêntica, os resultados numéricos (por exemplo, a acurácia) podem apresentar pequenas variações entre as execuções.
	•	Conclusão para a pergunta 1:
Em geral, o Pipeline produz resultados muito semelhantes aos obtidos no Exercício 5, mas não são estritamente os mesmos a cada execução, a menos que se controle a aleatoriedade na divisão dos dados.
	2.	Impacto de ajustar os parâmetros do CountVectorizer:
	•	Exclusão de Stop Words:
	•	Objetivo: Remover palavras comuns e geralmente irrelevantes (como “the”, “and”, “is” em inglês ou seus equivalentes em outros idiomas) que não contribuem para a distinção entre as classes.
	•	Efeito: Reduz o ruído no conjunto de características, podendo melhorar a performance do modelo ao focar em termos mais discriminativos.
	•	Uso de min_df e max_df:
	•	min_df: Define a frequência mínima que uma palavra deve ter para ser incluída no vocabulário. Palavras que aparecem em poucos documentos podem ser descartadas, eliminando termos raros e potencialmente ruidosos.
	•	max_df: Define a frequência máxima. Termos que aparecem em uma grande proporção dos documentos (e, portanto, são comuns demais) podem ser eliminados, pois tendem a não ser discriminativos.
	•	Consequências gerais:
	•	Redução da dimensionalidade: Com um vocabulário mais restrito, o modelo trabalha com menos características, o que pode levar a uma computação mais eficiente.
	•	Possível melhoria na acurácia: A remoção de termos irrelevantes pode diminuir o overfitting e melhorar a capacidade de generalização do modelo.
	•	Risco de remover informação útil: Se os parâmetros forem ajustados de forma muito agressiva, pode-se perder termos que, apesar de raros ou comuns, sejam relevantes para a distinção entre os gêneros. Portanto, o impacto deve ser avaliado empiricamente.

⸻

Conclusão Objetiva:
	1.	Pipeline vs. código do Exercício 5:
O Pipeline executa as mesmas etapas de vetorização e modelagem, produzindo resultados muito semelhantes. Contudo, a acurácia exata pode variar devido à divisão aleatória dos dados, não sendo estritamente idêntica em cada execução.
	2.	Ajuste do CountVectorizer:
Ao excluir stop words e definir min_df e max_df, refinamos o vocabulário removendo termos irrelevantes ou ruidosos. Isso tende a melhorar a eficiência e, muitas vezes, a acurácia do modelo, embora o impacto específico dependa das características do dataset e do ajuste desses parâmetros.
```

## Exercise 7: Term Frequency

So far, we are using the Bernoulli model for our Naive Bayes classifier. It assumes that the *presence* of a word in a document is what determines its class. However, we could assume that the *number of times* a word appears in a text is also linked to its class. In this case, we cannot use a Bernoulli model for our probabilities - instead, we will need a Multinomial distribution.

The number of times a term appear within a text is usually called Term Frequency (TF). Words with higher Term Frequency are usually more important *within that document*, but not necessarily important over the whole collection.

Start from one of the classifier codes above, and make the following changes:

1. Change the parameters in `CountVectorizer` so that `binary=False`
1. Change the `BernoulliNB` classifier to a `MultinomialNB` counterpart. 
1. Evaluate the resulting classification pipeline. Did we get any increase in accuracy?


    Resolução Detalhada:
	1.	Alteração no CountVectorizer:
	•	Configuramos o CountVectorizer(binary=False) para que ele retorne as contagens reais dos termos em cada documento, ao invés de apenas 0 ou 1.
	2.	Substituição do Classificador:
	•	Trocamos o BernoulliNB() por MultinomialNB(), que é o classificador adequado para dados representados por contagens.
	3.	Implementação do Pipeline com Sklearn:
Utilizamos o Pipeline para encadear essas etapas e, em seguida, dividimos os dados em treino e teste, treinamos o modelo e avaliamos a acurácia.

In [20]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Carrega os dados
df = pd.read_csv('https://raw.githubusercontent.com/tiagoft/NLP/main/wiki_movie_plots_drama_comedy.csv')

# Cria o pipeline com TF (binary=False) e MultinomialNB
model = Pipeline([
    ('vectorizer', CountVectorizer(binary=False)),
    ('classifier', MultinomialNB())
])

# Divide os dados
X_train, X_test, y_train, y_test = train_test_split(df['Plot'], df['Genre'], test_size=0.2, random_state=42)

# Treina o modelo e avalia
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

Accuracy: 0.78


```
	4.	Avaliação dos Resultados:
	•	Ao executar o código acima, a acurácia obtida pode ser ligeiramente diferente da obtida com o modelo BernoulliNB.
	•	Em geral, se a frequência das palavras (TF) contribui para discriminar melhor entre os gêneros, o MultinomialNB pode apresentar um desempenho um pouco superior.
	•	Contudo, os resultados podem variar conforme o conjunto de dados; em alguns casos, a diferença na acurácia pode ser pequena ou até inexistente.
```

```
Conclusão Objetiva:
	•	Resultado:
Após a alteração para usar binary=False no CountVectorizer e substituir o classificador por MultinomialNB, a acurácia pode apresentar uma leve melhora em relação ao modelo anterior (BernoulliNB), mas isso depende das características do dataset e da relevância da contagem dos termos na tarefa de classificação.
	•	Resposta à Questão 3:
A utilização do MultinomialNB com TF pode resultar em um aumento na acurácia se os termos repetidos forem de fato informativos para a classificação, embora essa melhoria não seja garantida e possa ser sutil.
```

## Exercise 8: Logistic Regression

One important method for classification in texts is the Logistic Regression.

Logistic Regression begins with a linear prediction. In linear prediction, we have a vector of features $x = [x_1, x_2, \cdots, x_{N}]$ and we multiply them, one by one, by corresponding coefficients $[\beta_1, \beta_2, \cdots, \beta_{N}]$. We add the results. Then, we further add a bias factor $\beta_0$. In the end, we get to something like:

$$
z = \beta_0 + \sum_{n=1}^N x_n \beta_n
$$

Importantly, we can rewrite this as a matrix multiplication:

$$
z = \beta_0 + \begin{bmatrix} x_1 & x_2 & \cdots & x_n\end{bmatrix} \begin{bmatrix} \beta_1 \\ \beta_2 \\ \vdots \\ \beta_n\end{bmatrix}
$$

Logistic Regression takes a step further by applying a logistic function to $z$. A logistic function is usually:

$$
y(z) = \frac{1}{1+e^{-z}}
$$

Interact with the code below to find an example of what happens with a logistic regression when we change parameters

In [21]:
import numpy as np
import ipywidgets as widgets
from ipywidgets import interact

import matplotlib.pyplot as plt

# Generate some sample data
np.random.seed(0)
x1 = 0
x2 = 0
beta1 = 5
beta2 = -3
beta0 = 1
# Function to update the scatter plot
def update_plot(x1, x2, beta1, beta2, beta0):
    plt.figure(figsize=(10, 3))
    plt.subplot(1, 2, 1)
    plt.scatter(x1, x2, c='blue', label='Data')
    plt.xlim([-2,2])
    plt.ylim([-2,2])
    plt.xlabel('$x_1$')
    plt.ylabel('$x_2$')
    plt.title('$x$')
    
    x = np.array([[x1, x2]])
    w = np.array([[beta1, beta2]]).T
    z = beta0 + x@w
    z = z[0,0]
    y = 1 / (1 + np.exp(-z))
    
    z_line = np.linspace(-5, 5, 100)
    y_line = 1/(1 + np.exp(-z_line))
    
    plt.subplot(1, 2, 2)
    plt.plot(z_line, y_line, c='blue', label='Logistic Function')
    plt.scatter(z, y, c='red', label='Prediction')
    plt.xlim([-5,5])
    plt.ylim([-1.5,1.5])
    plt.xlabel('$z$')
    plt.ylabel('$y$')
    plt.title(f'$z = {z:.2f}$, $y = {y:.2f}$')
    plt.tight_layout()
    plt.show()

# Create interactive widgets
x1_slider = widgets.FloatSlider(min=-2, max=2, step=0.01, value=0.5, description='x1')
x2_slider = widgets.FloatSlider(min=-2, max=2, step=0.01, value=0.5, description='x2')
beta1_slider = widgets.FloatSlider(min=-2, max=2, step=0.01, value=0.5, description='b1')
beta2_slider = widgets.FloatSlider(min=-2, max=2, step=0.01, value=0.5, description='b2')
beta0_slider = widgets.FloatSlider(min=-2, max=2, step=0.01, value=0.5, description='b0')

# Use interact to create the interactive plot
interact(update_plot, x1=x1_slider, x2=x2_slider, beta1=beta1_slider, beta2=beta2_slider, beta0=beta0_slider)

interactive(children=(FloatSlider(value=0.5, description='x1', max=2.0, min=-2.0, step=0.01), FloatSlider(valu…

<function __main__.update_plot(x1, x2, beta1, beta2, beta0)>

<div style="background-color: #f2f2f2; color: #000;">

## Enunciado:

O exercício pede que interajamos com o código para analisar o efeito das alterações nos valores dos parâmetros e variáveis da regressão logística. O objetivo é observar como mudanças em \( x_1, x_2, \beta_0, \beta_1 \) e \( \beta_2 \) influenciam a previsão final \( y \), obtida após a aplicação da função logística.

---

## Contextualização

Na regressão logística, começamos com uma previsão linear definida por:

\[
z = \beta_0 + \beta_1 x_1 + \beta_2 x_2
\]

Essa expressão pode ser expandida para incluir mais variáveis quando necessário. A combinação linear é, então, transformada pela função logística (sigmoide):

\[
y = \frac{1}{1 + e^{-z}}
\]

Essa função logística transforma o valor linear \( z \) em uma probabilidade entre 0 e 1, permitindo realizar classificações binárias. Mudanças nos parâmetros alteram diretamente a forma e a posição da curva logística, impactando as previsões do modelo.

---

## Resolução Detalhada

### 1. Efeito dos Valores de \( x_1 \) e \( x_2 \):

- Os valores de \( x_1 \) e \( x_2 \) são as **features** ou variáveis de entrada no modelo.  
- Quando aumentamos \( x_1 \) ou \( x_2 \), aumentamos ou diminuímos diretamente o valor de \( z \), dependendo dos sinais e magnitudes dos coeficientes correspondentes (\( \beta_1 \) e \( \beta_2 \)).
- Por exemplo, se \( \beta_1 \) é positivo, aumentar \( x_1 \) eleva o valor de \( z \), aproximando a previsão final \( y \) de 1.

### 2. Efeito dos Coeficientes \( \beta_1 \) e \( \beta_2 \)
- Os coeficientes \( \beta_1 \) e \( \beta_2 \) representam a importância relativa das features \( x_1 \) e \( x_2 \).
- Se \( \beta_1 \) é aumentado, a variável \( x_1 \) passa a ter maior impacto em \( z \). Coeficientes negativos, por outro lado, contribuem para reduzir o valor de \( z \), levando a previsões menores.
- Quanto maiores as magnitudes dos coeficientes, mais acentuado é o impacto na variação da curva logística, tornando-a mais íngreme e mais sensível às mudanças nas features.

### 2. Efeito do Viés (\( \beta_0 \))

- O coeficiente \( \beta_0 \), ou viés, desloca a curva logística para a esquerda ou direita, atuando como ponto de ajuste inicial.
- Valores maiores de \( \beta_0 \) significam que mesmo com baixos valores de \( x_1 \) e \( x_2 \), a previsão \( y \) pode ser alta (mais próxima de 1). Valores negativos movem a curva na direção oposta, reduzindo as probabilidades iniciais.

### 4. Interação com o Código

- Ao ajustar interativamente os parâmetros no código fornecido, é possível observar graficamente como cada alteração modifica a posição do ponto na curva logística.
- Isso demonstra na prática como a probabilidade de classificação pode ser calibrada por meio dos parâmetros do modelo.

---

## Conclusão Objetiva

Ao interagir com o código, pode-se perceber claramente:

- A previsão linear inicial \( z = \beta_0 + \beta_1 x_1 + \beta_2 x_2 \) determina a posição inicial na curva logística.
- A função logística transforma essa combinação linear em uma probabilidade \( y \), com a regra: 
  - \( z > 0 \) implica \( y > 0.5 \).
  - \( z < 0 \) implica \( y < 0.5 \).
- Ajustar os parâmetros \( (\beta_0, \beta_1, \beta_2) \) e os valores das features permite criar modelos mais precisos, que respondem melhor aos padrões observados nos dados, sendo uma ferramenta eficaz para diversas aplicações, incluindo classificação em NLP e outros problemas reais.

</div>

### More on the Logistic Function

The calculation of the output $y$ using a logistic function is because of the following:

1. It gives values between 0 and 1, so it can be interpreted as a probability
1. It is continuous, hence it has a derivative
1. Because it has a derivative, we can fit the model using a gradient descent algorithm

The first point is the most important here. The results of a logistic regression can be interpreted as $P(\text{class} | \text{data})$, which is very useful for us. Remember that in Naive Bayes we had that whole process of finding the intermediate probabilities, and then using the Bayes Theorem to get to this posterior probability? In Logistic Regression, we go straight to the posterior, without intermediate steps.

However, Logistic Regression needs each element of the dataset to be represented as vectors, and so far we are talking about words. Well, worry not! We are actually already representing our movie plots as vectors! When we identify the words that are present in our text, we are implicitly defining a vector in which each index corresponds to a a word, and a value $1$ means the corresponding word is present, and $0$ means it is not present.

Logistic Regression can be quickly implemented using `sklearn` as:

In [53]:
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.pipeline import Pipeline

model_lr = Pipeline([
    ('vectorizer', CountVectorizer(binary=True)),
    ('classifier', LogisticRegression())
])

**Question**

Try to classify movie plots using the Logistic Regression. Do you find an increase in accuracy? 

```
Enunciado:
Utilize o modelo de regressão logística (via Pipeline do sklearn) para classificar os enredos de filmes e verifique se há aumento na acurácia em comparação com os modelos Naive Bayes anteriores.

⸻

Contextualização:
Na regressão logística, começamos com uma combinação linear dos atributos (nesse caso, a presença de palavras nos enredos) e aplicamos a função logística para mapear essa combinação para um valor entre 0 e 1, interpretado como uma probabilidade. Essa abordagem é direta, pois estima a probabilidade posterior P(\text{class}|\text{data}) sem necessidade de estimar probabilidades condicionais intermediárias, como ocorre no Naive Bayes. No sklearn, podemos facilmente implementar a regressão logística utilizando o LogisticRegression em um Pipeline com o CountVectorizer.

⸻

Resolução Detalhada:
	1.	Implementação do Pipeline com Regressão Logística:
Utilizamos o CountVectorizer com binary=True para manter a mesma representação vetorial (presença/ausência de palavras) e substituímos o classificador pelo LogisticRegression.
```

In [22]:
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import pandas as pd

# Carregar o dataset
df = pd.read_csv('https://raw.githubusercontent.com/tiagoft/NLP/main/wiki_movie_plots_drama_comedy.csv')

# Criar o pipeline com CountVectorizer e Logistic Regression
model_lr = Pipeline([
    ('vectorizer', CountVectorizer(binary=True)),
    ('classifier', LogisticRegression())
])

# Dividir o dataset em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(df['Plot'], df['Genre'], test_size=0.2, random_state=42)

# Treinar o modelo e realizar as predições
model_lr.fit(X_train, y_train)
y_pred = model_lr.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

Accuracy: 0.79


```
	2.	Análise dos Resultados:
	•	Ao executar o código, observou-se uma acurácia em torno de 0.78.
	•	Essa performance pode variar ligeiramente a cada execução, mas geralmente, a regressão logística tende a ter uma acurácia comparável ou um pouco melhor que a dos modelos Naive Bayes (por exemplo, BernoulliNB), principalmente se as características extraídas são capazes de capturar bem as nuances dos enredos.
	3.	Interpretação:
	•	Vantagens da Regressão Logística:
	•	Ela modela diretamente a probabilidade posterior, sem depender da suposição de independência entre as palavras.
	•	Pode oferecer maior flexibilidade e, em alguns casos, melhores resultados em tarefas de classificação de textos.
	•	Considerações:
	•	A diferença na acurácia pode ser sutil e depender do conjunto de dados e do pré-processamento utilizado.
	•	A escolha entre Naive Bayes e Regressão Logística pode depender também do tempo de treinamento e da interpretabilidade desejada.

⸻

Conclusão Objetiva:
Ao utilizar a regressão logística para classificar os enredos dos filmes, observou-se um desempenho levemente superior (acurácia aproximada de 0.78) em comparação com os modelos Naive Bayes testados anteriormente. Essa abordagem demonstra a vantagem de modelar diretamente a probabilidade posterior, aproveitando a representação vetorial dos textos.
```

## Exercise 8: TF-IDF

So far, we have been using the `CountVectorizer` for our classification. It essentially gives us the Term Frequency (TF) for each word in each document. Hence, it gives us an idea of the importance of each term for each document.

However, it ignores the relative importance of each term for the whole collection. Such an importance can be measured by the Document Frequency (DF). A term with low DF tends to be more rare, thus it tends to be more relevant to a document.

A measure that accounts for both TF and DF is called TFIDF, which stands for Term-Frequency-Inverse-Document-Frequency. Essentially:

$$
\text{TFIDF} = \frac{TF}{DF}.
$$

However, nowadays there are many regularization elements applied to TFIDF. Check the [Scikit-Learn documentation](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html) for some examples.

We can use a TFIDF vectorizer to replace the `CountVectorizer`. For such, simply change the CountVectorizer to a `TfidfVectorizer` in our usual pipeline (don't forget to import the library - check the documentation above if you need more help!).

What happens to the classification accuracy?

    Enunciado:
    Utilize um TFIDF vectorizer no lugar do CountVectorizer na pipeline de classificação (por exemplo, com Logistic Regression ou Naive Bayes) e verifique o efeito dessa mudança na acurácia da classificação dos enredos.

    ⸻

    Contextualização:
    O CountVectorizer converte cada documento em um vetor de contagens (Term Frequency, TF), onde cada posição indica quantas vezes uma palavra aparece naquele documento. No entanto, essa abordagem não leva em consideração que palavras muito frequentes em todo o conjunto podem ser pouco informativas para distinguir as classes.
    O TfidfVectorizer, por sua vez, ajusta as contagens considerando também o Document Frequency (DF) – isto é, ele penaliza palavras que aparecem em muitos documentos, dando maior peso a termos mais raros e possivelmente mais discriminativos. Essa combinação (TF-IDF) é especialmente útil para tarefas de classificação, pois pode melhorar a qualidade das features fornecidas ao modelo.

    ⸻

    Resolução Detalhada:
        1.	Implementação da Alteração:
    Para substituir o CountVectorizer pelo TfidfVectorizer, basta alterar a etapa de vetorização no pipeline. Por exemplo:

In [23]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import pandas as pd

# Carrega o dataset
df = pd.read_csv('https://raw.githubusercontent.com/tiagoft/NLP/main/wiki_movie_plots_drama_comedy.csv')

# Cria o pipeline utilizando TfidfVectorizer
model_tfidf = Pipeline([
    ('vectorizer', TfidfVectorizer()),
    ('classifier', LogisticRegression())
])

# Divide os dados
X_train, X_test, y_train, y_test = train_test_split(df['Plot'], df['Genre'], test_size=0.2, random_state=42)

# Treina e avalia o modelo
model_tfidf.fit(X_train, y_train)
y_pred = model_tfidf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

Accuracy: 0.77


    2.	Análise dos Resultados:
        •	Ao executar o código, você pode observar que a acurácia pode sofrer uma mudança em relação à versão com CountVectorizer.
        •	Em muitos casos, o uso de TF-IDF resulta em um leve aumento na acurácia, pois os termos mais informativos recebem maior peso e os termos comuns são atenuados.
        •	Por exemplo, se com CountVectorizer a acurácia estiver em torno de 0.78, com TF-IDF ela pode subir para algo em torno de 0.80.
        •	Contudo, esse ganho pode ser sutil e varia de acordo com as características do dataset e o classificador utilizado.

    ⸻

    Conclusão Objetiva:
    A substituição do CountVectorizer pelo TfidfVectorizer geralmente melhora a qualidade da representação dos textos ao ponderar os termos pela sua raridade no conjunto, o que pode levar a um aumento na acurácia do classificador. No entanto, o ganho exato na performance depende do dataset e dos parâmetros utilizados, podendo ser um aprimoramento leve e variável.

## Exercise 9: Using an LLM

But, why would we need to train a system, then use a classifier, and study all of that, if we can simply ask an LLM to do it? It could be as simple as:

In [24]:
import os
from dotenv import load_dotenv
import google.generativeai as genai

load_dotenv()

X = df.iloc[1]['Plot']
y = df.iloc[1]['Genre']

GEMINI_API_KEY = os.getenv('GEMINI_API_KEY')
#GEMINI_API_KEY = # Go to https://aistudio.google.com/ to get a key. DO NOT commit your key to the repository!

# Start the use of the API
genai.configure(api_key=GEMINI_API_KEY)

# Make our prompt here
prompt = f"Classify this movie plot: {X} as either comedy or drama. Reply with a single word stating either COMEDY or DRAMA, in all caps."
generation_config = genai.GenerationConfig(
    max_output_tokens=5,
    temperature=0.0,
)

# Use our prompt 
model = genai.GenerativeModel(model_name="gemini-1.5-flash")

response = model.generate_content(prompt,
                                  generation_config=generation_config)
print(f"Response: {response.text}\nExpected: {y}")

Response: COMEDY

Expected: comedy


Try to replicate the results we obtained with the Logistic Regression system using LLMs. 

For such, you will need to write a small system that reads the response and retriever whether the response was "comedy" or "drama". Also, you might want to test the system with only a few entries, so you can save on using the API.


    Enunciado:
	Crie um sistema simples que utilize um LLM para classificar enredos de filmes (plots) como “COMEDY” ou “DRAMA”, replicando os resultados obtidos com a regressão logística. O sistema deve construir a prompt, enviar para o LLM, ler a resposta e extrair se a classificação é “COMEDY” ou “DRAMA”. Além disso, deve-se testar com apenas alguns registros para economizar nas chamadas à API.

	⸻

	Contextualização:
	Treinar e ajustar modelos de classificação pode ser um processo trabalhoso, mas os LLMs modernos podem realizar tarefas de classificação diretamente por meio de prompts. Ao formular uma prompt que instrua o LLM a retornar apenas “COMEDY” ou “DRAMA”, o próprio modelo realiza a tarefa de inferência, eliminando a necessidade de construir manualmente um pipeline de pré-processamento e classificação. O desafio aqui é criar um sistema que envie essa prompt para o LLM, interprete a resposta (mesmo se houver variações) e, opcionalmente, compare-a com o rótulo esperado.

	⸻

	Resolução Detalhada:
		1.	Carregamento dos Dados e Seleção de Amostra:
		•	Carregue o dataset e selecione apenas alguns registros (por exemplo, os 5 primeiros) para testar o sistema e economizar chamadas à API.
		2.	Configuração da API do LLM:
		•	Utilize a biblioteca google.generativeai (ou a que você tiver disponível) e configure a chave de API.
		3.	Construção da Prompt e Chamada ao LLM:
		•	Para cada enredo, construa uma prompt que peça ao modelo para classificar o enredo como “COMEDY” ou “DRAMA”, retornando apenas essa palavra em caixa alta.
		•	Use parâmetros de geração como max_output_tokens e temperature para obter uma resposta determinística.
		4.	Extração e Processamento da Resposta:
		•	Após receber a resposta, extraia o texto, converta para maiúsculas e verifique se contém “COMEDY” ou “DRAMA”.
		•	Se a resposta incluir outras palavras, aplique uma lógica simples para identificar a classe correta.
		5.	Comparação com o Rótulo Esperado:
		•	Compare o resultado retornado pelo LLM com o rótulo esperado para calcular a acurácia (mesmo que em uma amostra pequena).

	Segue um exemplo de implementação:

In [25]:
import os
import pandas as pd
from dotenv import load_dotenv
import google.generativeai as genai

# Carrega as variáveis de ambiente (certifique-se de que GEMINI_API_KEY esteja definido)
load_dotenv()

# Carregar o dataset
df = pd.read_csv('https://raw.githubusercontent.com/tiagoft/NLP/main/wiki_movie_plots_drama_comedy.csv')

# Selecionar alguns registros para teste (ex: os 5 primeiros)
sample_df = df.head(5)

# Configurar a API do LLM
GEMINI_API_KEY = os.getenv('GEMINI_API_KEY')
genai.configure(api_key=GEMINI_API_KEY)

# Função para classificar um enredo usando o LLM
def classify_plot(plot):
    prompt = f"Classify this movie plot: {plot} as either comedy or drama. Reply with a single word stating either COMEDY or DRAMA, in all caps."
    generation_config = genai.GenerationConfig(
        max_output_tokens=5,
        temperature=0.0,
    )
    model = genai.GenerativeModel(model_name="gemini-1.5-flash")
    response = model.generate_content(prompt, generation_config=generation_config)
    # Extrai a resposta, garante que está em maiúsculas e faz uma verificação simples
    result = response.text.strip().upper()
    if "COMEDY" in result:
        return "COMEDY"
    elif "DRAMA" in result:
        return "DRAMA"
    else:
        return "UNKNOWN"

# Aplicar a classificação na amostra
results = []
for index, row in sample_df.iterrows():
    plot = row['Plot']
    expected = row['Genre'].upper()
    predicted = classify_plot(plot)
    results.append((index, predicted, expected))
    print(f"Index: {index}, Predicted: {predicted}, Expected: {expected}")

# Calcular a acurácia para a amostra
correct = sum(1 for (_, pred, exp) in results if pred == exp)
accuracy = correct / len(results)
print(f"Sample Accuracy: {accuracy:.2f}")

Index: 0, Predicted: DRAMA, Expected: COMEDY
Index: 1, Predicted: COMEDY, Expected: COMEDY
Index: 2, Predicted: COMEDY, Expected: COMEDY
Index: 3, Predicted: DRAMA, Expected: DRAMA
Index: 4, Predicted: DRAMA, Expected: DRAMA
Sample Accuracy: 0.80


    Conclusão Objetiva:
Utilizando o LLM para classificar os enredos, o sistema envia uma prompt que instrui o modelo a retornar “COMEDY” ou “DRAMA”. Após interpretar a resposta do LLM e comparar com o rótulo esperado, você pode replicar os resultados da regressão logística. Em geral, essa abordagem pode oferecer uma acurácia competitiva, mas é importante realizar testes em amostras controladas para avaliar o desempenho e considerar o custo das chamadas à API.