# 🐍 Language Detection in Texts with langdetect 🌍
## ❓ How do you clean multilingual text datasets before sentiment analysis?
🙃 Use `langdetect` to automatically identify the language of each input.

## 👉 Solution
We detect the language and classify the entries. Then, we filter only the Spanish ones for cleaner analysis workflows. 🧹📉

## 🔧 How does it work?
We use `langdetect`, based on Google's language detection algorithm. It handles short texts like tweets or reviews efficiently.

## 🔎 Why does it matter?
🌍 Helps structure multilingual corpora.  
💡 Improves NLP model precision by removing irrelevant languages.  
📊 Prepares clean datasets for better business insights.

## ✨ Real-world use case:
📱 Suppose you collect customer reviews in many languages. You want to analyze only Spanish entries. With `langdetect`, you filter them in seconds and get accurate sentiment analysis.

## ⚙️ Business impact:
✅ More accurate and relevant insights from data.  
✅ Time-saving in preprocessing.  
✅ Outlier detection: discover unexpected languages in your corpus.

## 📊 Code summary:
📌 Generate multilingual sample data.  
📌 Detect language for each sentence.  
📌 Visualize language distribution.  
📌 Filter Spanish-only texts for sentiment analysis.  
📌 Plot the results using `matplotlib`.

🔗[Github](https://github.com/jcombari/AI-For-Unstructured-Data/tree/main)

## 💭 Reflection:
What strategies do you use to manage multilingual data before training your models? 🧠✨

🔑 #DataScience #Python #MachineLearning #NLP #LangDetect #UnstructuredData #AIInnovation #CleanData #YoungProfessionals #LinkedInTech #ScienceCommunication

🔁 If you found this post useful, feel free to share it with your network.  
⚠️ Please do not copy or repost it as your own. Respect original work.

---

# 🐍 Clasificación de textos por idioma con langdetect 🌍
## ❓ ¿Cómo filtrar textos multilingües sin morir en el intento?
🙃 Usa `langdetect` para identificar el idioma de cada texto automáticamente. 

## 👉 Solución
Detectamos el idioma de cada entrada y clasificamos los textos. Luego, filtramos solo los que estén en español para un análisis de sentimientos más preciso. 📈

## 🔧 ¿Cómo funciona?
Utilizamos `langdetect`, una librería basada en el algoritmo de Google para detección de idioma. Se puede aplicar a textos cortos como tweets o reseñas.

## 🔎 ¿Por qué importa?
🤖 Mejora la calidad del procesamiento de lenguaje natural.  
🧠 Permite entrenar modelos más limpios y eficientes.  
🌐 Útil en equipos globales con datos multilingües.  

## ✨ Ejemplo real o Caso práctico:
💬 Supón que tienes comentarios de productos en múltiples idiomas. Solo quieres analizar los que están en español. Con `langdetect`, los identificas y filtras en segundos.

## ⚙️ Impacto en el negocio:
✔️ Mejora la precisión de tus modelos de análisis de sentimiento.  
✔️ Acelera la limpieza y preprocesamiento.  
✔️ Detecta datos fuera de contexto (por ejemplo, mensajes en japonés en un estudio enfocado en Latinoamérica).

## 📊 Resumen de qué se hace en el código:
📌 Generamos un conjunto de textos en diferentes idiomas.  
📌 Detectamos automáticamente el idioma de cada texto.  
📌 Visualizamos cuántos textos hay por idioma.  
📌 Filtramos solo los textos en español para análisis.  
📌 Creamos una visualización con `matplotlib`.

🔗[Github](https://github.com/jcombari/AI-For-Unstructured-Data/tree/main)

💭 Reflexión:
¿Y tú? 🤔 ¿Cómo garantizarías la limpieza lingüística de tus datos antes de entrenar un modelo?

🔑 #DataScience #NaturalLanguageProcessing #Python #AIForGood #MachineLearning #UnstructuredData #LangDetect #NLP #CleanData #JupyterNotebooks #ScienceCommunication

🔁 Si te ha parecido útil, siéntete libre de compartir esta publicación con tu red.  
⚠️ Por favor, no la copies ni la publiques como propia. Respeta el trabajo original.
![image.png](attachment:8ece8598-6f84-45f2-8a4d-adb4511fb68c.png)

In [None]:
# Import required libraries
from langdetect import detect
from langdetect import DetectorFactory
from collections import Counter
import matplotlib.pyplot as plt

# Ensure consistent results
DetectorFactory.seed = 0

# Sample data: multilingual text samples
texts = [
    "Este producto es excelente y llegó muy rápido.",
    "This item exceeded my expectations!",
    "C’est un excellent service client.",
    "Das war eine tolle Erfahrung.",
    "非常に満足しています。",
    "Il prodotto non è come descritto.",
    "Muy buen servicio y atención al cliente.",
    "Fast shipping and great quality.",
    "Me encantó el empaque.",
    "Horrible. Never buying again."
]

# Detect the language of each text
detected_languages = [detect(text) for text in texts]

# Count occurrences of each detected language
lang_counts = Counter(detected_languages)

# Print the detected languages and their counts
print("Detected languages:", lang_counts)

# Filter only texts detected as Spanish ('es')
spanish_texts = [text for text, lang in zip(texts, detected_languages) if lang == 'es']

# Print Spanish-only texts
print("\nSpanish-only texts:")
for t in spanish_texts:
    print("-", t)

# Plot language distribution
plt.figure(figsize=(8, 5))
plt.bar(lang_counts.keys(), lang_counts.values(), color='skyblue')
plt.title("Language Distribution in Text Corpus")
plt.xlabel("Language Code")
plt.ylabel("Number of Texts")
plt.grid(axis='y', linestyle='--', alpha=0.6)
plt.show()


