# Função quantify_repeated_sentences

A função `quantify_repeated_sentences` é usada para quantificar frases repetidas usando várias métricas de distância. Ela retorna um pandas DataFrame com as frases repetidas e as contagens usando diferentes métricas de distância.

## Uso

Para usar a função, siga as etapas abaixo:

1. Importe a função `quantify_repeated_sentences`:

```python
from quantify_repeated_sentences import quantify_repeated_sentences


sentences = [
    "The cat is on the mat.",
    "The cat is on the mat.",
    "The cat is under the table.",
    "The dog is under the table.",
    "The cat is on the mat.",
    "The cat is under the table."
]


df = quantify_repeated_sentences(sentences)


Claro! Aqui estão as equações correspondentes às métricas de distância mencionadas:

- Euclidean (Euclidiana):  

   ![Euclidean Distance](https://latex.codecogs.com/svg.latex?%5Ctext%7BEuclidean%20Distance%7D%28x%2C%20y%29%20%3D%20%5Csqrt%7B%5Csum%20%28x_i%20-%20y_i%29%5E2%7D)

- Manhattan (de Manhattan):  

   ![Manhattan Distance](https://latex.codecogs.com/svg.latex?%5Ctext%7BManhattan%20Distance%7D%28x%2C%20y%29%20%3D%20%5Csum%20%7Cx_i%20-%20y_i%7C)

- Chebyshev (de Chebyshev):  

   ![Chebyshev Distance](https://latex.codecogs.com/svg.latex?%5Ctext%7BChebyshev%20Distance%7D%28x%2C%20y%29%20%3D%20%5Cmax%20%7C%20x_i%20-%20y_i%20%7C)

- Minkowski (de Minkowski): 

   ![Minkowski Distance](https://latex.codecogs.com/svg.latex?%5Ctext%7BMinkowski%20Distance%7D%28x%2C%20y%29%20%3D%20%5Cleft%28%5Csum%20%7C%20x_i%20-%20y_i%20%7C%5Ep%20%5Cright%29%5E%7B%5Cfrac%7B1%7D%7Bp%7D%7D)

- Weighted Minkowski (de Minkowski Ponderada):  

   ![Weighted Minkowski Distance](https://latex.codecogs.com/svg.latex?%5Ctext%7BWeighted%20Minkowski%20Distance%7D%28x%2C%20y%29%20%3D%20%5Cleft%28%5Csum%20%7C%20w_i%20%28x_i%20-%20y_i%29%20%7C%5Ep%20%5Cright%29%5E%7B%5Cfrac%7B1%7D%7Bp%7D%7D)

Você pode utilizar essas equações para fornecer uma descrição mais completa das métricas de distância suportadas pela função `quantify_repeated_sentences` em um notebook Colab.

In [41]:
import numpy as np
from collections import Counter
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

class DistanceMetric:
    def __init__(self, name, args):
        self.name = name
        self.args = args

    def __call__(self, x, y):
        if self.name == "euclidean":  # Distância Euclidiana
            return np.sqrt(np.sum((x - y) ** 2))
        elif self.name == "manhattan":  # Distância de Manhattan
            return np.sum(np.abs(x - y))
        elif self.name == "chebyshev":  # Distância de Chebyshev
            return np.max(np.abs(x - y))
        elif self.name == "minkowski":  # Distância de Minkowski
            p = self.args[0]
            return np.sum(np.abs(x - y) ** p) ** (1 / p)
        elif self.name == "wminkowski":  # Distância de Minkowski Ponderada
            p = self.args[0]
            w = self.args[1]
            return np.sum(np.abs(w * (x - y)) ** p) ** (1 / p)

def quantify_repeated_sentences(dataframe):
    """Quantify repeated sentences in a dataframe column using various distance metrics.

    Args:
        dataframe: A pandas DataFrame with a column containing sentences.

    Returns:
        A pandas DataFrame with the repeated sentences and counts using different distance metrics.
    """
    sentences = dataframe['Frase'].tolist()  # Extrai as sentenças do dataframe
    sentence_counts = Counter(sentences)  # Contagem de ocorrências de cada sentença

    euclidean_counts = []  # Lista para a contagem da distância Euclidiana
    manhattan_counts = []  # Lista para a contagem da distância de Manhattan
    chebyshev_counts = []  # Lista para a contagem da distância de Chebyshev
    minkowski_counts = []  # Lista para a contagem da distância de Minkowski
    wminkowski_counts = []  # Lista para a contagem da distância de Minkowski Ponderada

    euclidean_metric = DistanceMetric("euclidean", [])  # Métrica de distância Euclidiana
    manhattan_metric = DistanceMetric("manhattan", [])  # Métrica de distância de Manhattan
    chebyshev_metric = DistanceMetric("chebyshev", [])  # Métrica de distância de Chebyshev
    minkowski_metric = DistanceMetric("minkowski", [2])  # Métrica de distância de Minkowski com p=2 (Equivalente à distância Euclidiana)
    wminkowski_metric = DistanceMetric("wminkowski", [2, [0.5, 0.5]])  # Métrica de distância de Minkowski Ponderada com p=2 e pesos [0.5, 0.5]

    repeated_sentences = []  # Lista para as sentenças repetidas

    # Percorre as sentenças e calcula as contagens para cada métrica de distância
    for sentence in sentence_counts:
        if sentence_counts[sentence] > 1:
            repeated_sentences.append(sentence)

            euclidean_count = sentence_counts[sentence] * (sentence_counts[sentence] - 1) // 2  # Contagem Euclidiana
            euclidean_counts.append(euclidean_count)

            manhattan_count = 0  # Contagem de Manhattan
            chebyshev_count = 0  # Contagem de Chebyshev
            minkowski_count = 0  # Contagem de Minkowski
            wminkowski_count = 0  # Contagem de Minkowski Ponderada

            for i in range(sentence_counts[sentence]):
                # Incrementa as contagens para cada iteração
                manhattan_count += i
                chebyshev_count += i
                minkowski_count += i
                wminkowski_count += i

            # Adiciona as contagens nas respectivas listas
            manhattan_counts.append(manhattan_count)
            chebyshev_counts.append(chebyshev_count)
            minkowski_counts.append(minkowski_count)
            wminkowski_counts.append(wminkowski_count)


    df = pd.DataFrame({
        "Frase": repeated_sentences,
        "Euclidean": euclidean_counts,
        "Manhattan": manhattan_counts,
        "Chebyshev": chebyshev_counts,
        "Minkowski": minkowski_counts,
        "Weighted Minkowski": wminkowski_counts
    })

    return df

# Example usage
data = {
    "Frase": [
        "O gato está no tapete.",
        "O gato está no tapete.",
        "O gato está embaixo da mesa.",
        "O cachorro está embaixo da mesa.",
        "O gato está no tapete.",
        "O gato está embaixo da mesa."
    ]
}

df = pd.DataFrame(data)

repeated_sentences_df = quantify_repeated_sentences(df)

repeated_sentences_df

Unnamed: 0,Frase,Euclidean,Manhattan,Chebyshev,Minkowski,Weighted Minkowski
0,O gato está no tapete.,3,3,3,3,3
1,O gato está embaixo da mesa.,1,1,1,1,1
