# ✨ 🐼 Python-Pandas: Master the Art of Merging Data with "Fuzzy" Keys ✨

Have you ever struggled to merge two datasets, only to find the keys don’t match perfectly due to typos or variations? 🙃 This is more common than you'd think, and it’s where the power of Pandas and Fuzzy Matching comes in.

🔎 **Why does this matter?**  
In the real world, data is rarely perfect. Misspelled names, extra spaces, or abbreviations can make integrating critical information a headache. By using tools like **fuzzywuzzy** for fuzzy joins, you can solve these issues with elegance and precision.

🔧 **Practical Case:**  
Imagine consolidating customer data from two different systems: one contains sales records and the other contact information. Discrepancies in names could be a huge challenge—but not with this technique!

⚙️ **Business Impact:**
- ✔️ Accurately merge complex datasets.
- ✔️ Improve the quality of analysis by reducing inconsistencies.
- ✔️ Speed up decision-making based on reliable data.

📊 **In the code example**, we demonstrate how to use **Pandas** and **fuzzy matching** to identify and merge similar names. The visualization highlights the magic behind the merging process!

💭 **Reflection:**  
How often do you encounter mismatched keys in your data? 🚀 Learn how this technique can transform the way you work with data.

### [GitHub Repository: PyForAll](https://github.com/jcombari/PyForAll)

---

# ✨ 🐼 Python-Pandas: Domina el arte de fusionar datos con claves "fuzzy" ✨

¿Alguna vez has tenido que unir dos datasets, pero las claves no coinciden perfectamente debido a errores tipográficos o variaciones? 🙃 Esto es más común de lo que parece, y aquí es donde brilla la combinación de Pandas y Fuzzy Matching.

🔎 **¿Por qué importa?**  
En el mundo real, los datos no siempre están perfectamente organizados. Nombres mal escritos, espacios adicionales o abreviaturas pueden complicar la integración de información crítica. Usar herramientas como **fuzzywuzzy** para uniones "fuzzy" te permite resolver estos problemas con elegancia y precisión.

🔧 **Caso práctico:**  
Supongamos que estás consolidando datos de clientes provenientes de dos sistemas diferentes: uno contiene registros de ventas y el otro información de contacto. Las discrepancias en los nombres podrían ser un gran desafío, ¡pero no con esta técnica!

⚙️ **Impacto en el negocio:**
- ✔️ Une datasets complejos con precisión.
- ✔️ Mejora la calidad de los análisis al reducir inconsistencias.
- ✔️ Acelera la toma de decisiones basadas en datos confiables.

📊 **En el ejemplo de código**, mostramos cómo usar **Pandas** y **fuzzy matching** para identificar y unir nombres similares. ¡El gráfico resalta visualmente la magia detrás de la unión!

💭 **Reflexión:**  
¿Cuántas veces te has enfrentado a claves con errores en tus datos? 🚀 Descubre cómo esta técnica puede transformar la manera en que trabajas con datos.

### [Repositorio GitHub: PyForAll](https://github.com/jcombari/PyForAll)


In [1]:
# Import necessary libraries
import pandas as pd
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
import Levenshtein


# Example datasets: Sales and Contacts
sales_data = pd.DataFrame({
    "Customer_Name": ["John Doe", "Jane Smith", "Alice Brown", "Charlie Adams"],
    "Sales_Amount": [250, 450, 200, 300]
})

contacts_data = pd.DataFrame({
    "Contact_Name": ["Jon Doe", "Jane Smyth", "Alice Browne", "Charles Adams"],
    "Email": ["john@example.com", "jane@example.com", "alice@example.com", "charles@example.com"]
})

# Function to match names using fuzzy matching
def match_names(sales_names, contact_names):
    matches = []
    for name in sales_names:
        match = process.extractOne(name, contact_names, scorer=fuzz.token_sort_ratio)
        matches.append((name, match[0], match[1]))  # Append (Sales Name, Best Match, Score)
    return pd.DataFrame(matches, columns=["Sales_Name", "Contact_Name", "Score"])

# Apply the matching function
matched_data = match_names(sales_data["Customer_Name"], contacts_data["Contact_Name"])

# Merge datasets based on fuzzy matching
threshold = 80  # Minimum score to consider a match
final_data = sales_data.merge(
    matched_data[matched_data["Score"] >= threshold],
    left_on="Customer_Name",
    right_on="Sales_Name"
).merge(
    contacts_data,
    left_on="Contact_Name",
    right_on="Contact_Name"
).drop(columns=["Sales_Name"])

# Display the original datasets and the final merged data
print("Sales Data:")
print(sales_data)

print("\nContacts Data:")
print(contacts_data)

print("\nFuzzy Merged Data:")
print(final_data)


Sales Data:
   Customer_Name  Sales_Amount
0       John Doe           250
1     Jane Smith           450
2    Alice Brown           200
3  Charlie Adams           300

Contacts Data:
    Contact_Name                Email
0        Jon Doe     john@example.com
1     Jane Smyth     jane@example.com
2   Alice Browne    alice@example.com
3  Charles Adams  charles@example.com

Fuzzy Merged Data:
   Customer_Name  Sales_Amount   Contact_Name  Score                Email
0       John Doe           250        Jon Doe     93     john@example.com
1     Jane Smith           450     Jane Smyth     90     jane@example.com
2    Alice Brown           200   Alice Browne     96    alice@example.com
3  Charlie Adams           300  Charles Adams     92  charles@example.com
