# 🐍 Python 📄 Detecting Duplicates in Large Volumes of Text with fuzzywuzzy

## ❓ Have you ever tried to clean up a large dataset full of duplicated text? It’s frustrating, right? 🤯 Let's solve this once and for all!

👉 **Solution:** Use Python's `df["text"].duplicated()` and `fuzzywuzzy` to efficiently detect similar texts in a dataset.

## 🔧 How does it work?

- `duplicated()`: This function checks for exact duplicate entries in your dataset.
- `fuzzywuzzy`: Measures text similarity using Levenshtein distance, which allows you to find non-exact matches (fuzzy duplicates).

## 🔎 Why does this matter? 
Handling text data often involves large amounts of information. Without proper cleaning, duplicates can significantly affect data quality, leading to inaccurate models and decisions. 🧠 By detecting duplicates efficiently, we can improve the quality of knowledge bases and social media feeds.

## ✨ Real Example:
Imagine you work with large text datasets from social media and need to clean up duplicate comments that are written slightly differently. By using these methods, you can find and remove similar but non-identical comments, streamlining the data for further analysis.

## ⚙️ Business Impact:

🎯 **Faster Data Processing**: Reduces the time spent on data cleaning.  
🌍 **Better Insights**: Improves the accuracy of models and predictions.  
🚀 **Optimized Knowledge Management**: Helps maintain clean datasets, improving the effectiveness of AI systems.

## 📊 Code Overview:
The code uses `fuzzywuzzy` to compare the similarity of text entries in a dataset and remove near-duplicate values based on a similarity threshold. This helps you clean large volumes of unstructured data efficiently.

## 💭 Reflection:
How would you handle data cleaning in your work with large-scale text data? 🤔

🔗 [Github](https://github.com/jcombari/AI-For-Unstructured-Data/tree/main)

🔑 #DataScience #MachineLearning #AI #DataCleaning #TextMining #Python #FuzzyWuzzy #UnstructuredData #TechForAll #DataScienceTips #KnowledgeManagement #DataQuality #ScienceCommunicator #PythonExperts

---

# 🐍 Python 📄 Detectar duplicados en grandes volúmenes de texto con fuzzywuzzy

## ❓ ¿Alguna vez has intentado limpiar un conjunto de datos masivo lleno de textos duplicados? ¡Es frustrante, verdad? 🤯 ¡Vamos a solucionarlo de una vez por todas!

👉 **Solución:** Usa `df["text"].duplicated()` y `fuzzywuzzy` para detectar de manera eficiente textos similares en un conjunto de datos.

## 🔧 ¿Cómo funciona?

- `duplicated()`: Esta función busca entradas exactas duplicadas en tu conjunto de datos.
- `fuzzywuzzy`: Mide la similitud de los textos usando la distancia de Levenshtein, lo que te permite encontrar coincidencias no exactas (duplicados difusos).

## 🔎 ¿Por qué importa esto?
Trabajar con datos de texto suele implicar grandes volúmenes de información. Si no se limpia adecuadamente, los duplicados pueden afectar la calidad de los datos, llevando a modelos y decisiones imprecisas. 🧠 Detectando duplicados de manera eficiente, podemos mejorar la calidad de las bases de conocimiento y los feeds en redes sociales.

## ✨ Ejemplo Real:
Imagina que trabajas con grandes conjuntos de datos de redes sociales y necesitas limpiar los comentarios duplicados que están escritos de manera ligeramente diferente. Usando estos métodos, puedes encontrar y eliminar comentarios similares, agilizando los datos para análisis posteriores.

## ⚙️ Impacto en el negocio:

🎯 **Procesamiento de Datos Más Rápido**: Reduce el tiempo dedicado a la limpieza de datos.  
🌍 **Mejores Perspectivas**: Mejora la precisión de modelos y predicciones.  
🚀 **Gestión de Conocimiento Optimizada**: Ayuda a mantener conjuntos de datos limpios, mejorando la efectividad de los sistemas de IA.

## 📊 Resumen del Código:
El código utiliza `fuzzywuzzy` para comparar la similitud de las entradas de texto en un conjunto de datos y eliminar los valores casi duplicados basados en un umbral de similitud. Esto ayuda a limpiar grandes volúmenes de datos no estructurados de manera eficiente.

## 💭 Reflexión:
¿Cómo manejarías la limpieza de datos en tu trabajo con grandes volúmenes de datos textuales? 🤔

🔗 [Github](https://github.com/jcombari/AI-For-Unstructured-Data/tree/main)

🔑 #CienciaDeDatos #AprendizajeAutomático #IA #LimpiezaDeDatos #MineríaDeTexto #Python #FuzzyWuzzy #DatosNoEstructurados #TecnologíaParaTodos #ConsejosDeDatos #GestiónDeConocimiento #CalidadDeDatos #ScienceCommunicator #ExpertosEnPython


In [1]:
# Import necessary libraries
import pandas as pd
from fuzzywuzzy import fuzz
from fuzzywuzzy import process

# Example dataset with some similar and duplicate text
data = {'text': ['I love data science!', 
                 'Data science is amazing!', 
                 'I love data science!', 
                 'Data science rocks!', 
                 'Data Science is life']}
df = pd.DataFrame(data)

# Detect exact duplicates in the text column
df['exact_duplicates'] = df['text'].duplicated()

# Function to detect fuzzy duplicates based on a similarity threshold
def fuzzy_duplicates(df, column_name, threshold=80):
    # Create a list of text values in the column
    texts = df[column_name].tolist()
    fuzzy_matches = []
    
    # Compare each text with every other text
    for i, text in enumerate(texts):
        matches = process.extract(text, texts, limit=None)
        
        # Check if any match has a similarity score above the threshold
        for match in matches:
            if match[1] >= threshold and match[0] != text:
                fuzzy_matches.append((i, match[0], match[1]))
    
    return fuzzy_matches

# Detect fuzzy duplicates
fuzzy_matches = fuzzy_duplicates(df, 'text', threshold=80)

# Display the results
print("Exact duplicates detected:")
print(df)
print("\nFuzzy matches found:")
for match in fuzzy_matches:
    print(f"Text: {df['text'][match[0]]} - Similar to: {match[1]} with score {match[2]}")


Exact duplicates detected:
                       text  exact_duplicates
0      I love data science!             False
1  Data science is amazing!             False
2      I love data science!              True
3       Data science rocks!             False
4      Data Science is life             False

Fuzzy matches found:
Text: I love data science! - Similar to: Data Science is life with score 83
Text: Data science is amazing! - Similar to: Data Science is life with score 82
Text: I love data science! - Similar to: Data Science is life with score 83
Text: Data Science is life - Similar to: I love data science! with score 83
Text: Data Science is life - Similar to: I love data science! with score 83
Text: Data Science is life - Similar to: Data science is amazing! with score 82
