# Traducción y análisis de sentimiento con aprendizaje automático

La traducción es siempre un problema difícil compuesto por el hecho que existen miles de idiomas y cada uno puede tener distintas reglas gramaticales. Un enfoque es convertir las reglas gramaticales formales para un idioma, como el Inglés, a una estructura no dependiente del idioma, y luego traducirlo al convertirlo de nuevo a otro idioma. Este enfoque significa que deberías realizar los siguientes pasos:

Identificacción. Identifica o etiqueta las palabras en el idioma de entrada en sustantivos, verbos, etc.
Crea la traducción. Produce una traducción directa de cada palabra en el formato del idioma objetivo.
Oración de ejemplo, Inglés a Irlandés
En 'Inglés', la oración I feel happy es de 3 palabras en el orden:

* **sujeto** (I)
* **verbo** (feel)
* **adjetivo** (happy)

Sin embargo, en el idioma 'Irlandés', la misma oración tiene una estructura gramatical muy diferente - emociones como "happy" o "sad" se expresan como `being *upon* you`.

La frase en Inglés `I feel happy` en Irlandés sería `Tá athas orm`. Una traducción literal sería `Happy is upon me`.

Un hablante Irlandés al traducir al Inglés diría `I feel happy`, no `Happy is upon me`, porque el entiende el significado de la oración, aún si las palabras y la estructura de la oración son diferentes.

El orden formal para la oración en Irlandés es:

* **verbo** (Tá or is)
* **adjetivo** (athas, or happy)
* **sujeto** (orm, or upon me)

## Traducción

Un programa de traducción simple podría traducir sólo las palabras, ignorando la estructura de la oración.

✅ Si has aprendido un segundo (o tercero o más) idioma como adulto, podrías haber comenzado pensando en tu idioma nativo, traduciendo un concepto palabra por palabra en tu cabeza al segundo idioma, y luego diciendo tu traducción. Esto es similar a lo que realizan los programas de traducción simple. ¡Es importante superar esta fase para lograr fluidez!

La traducción simple lleva a malas (y algunas veces divertidas) traducciones: `I feel happy` se traduce literalmente a `Mise bhraitheann athas` en Irlandés. Lo cual significa (literalmente) `me feel happy` y no es una oración Irlandesa válida. Aún cuando el Inglés e Irlandés son idiomas hablados en dos islas vecinas muy cercanas, son idiomas muy diferentes con diferentes estructuras gramaticales.

Hasta ahora, has aprendido acerca de los enfoques a las reglas formales para el procesamiento del lenguaje natural. Otro enfoque es ignorar el significado de las palabras, y en su lugar usar aprendizaje automático para detectar patrones. Esto puede funcionar en traducciones si tienes demasiado texto (un corpus) o textos (corpora) tanto en el idioma origen como el destino.

Por ejemplo, considera el caso de Orgullo y Prejuicio, una novela Inglesa muy conocidad escrita por Jane Austen in 1813. Si consultas el libro en Inglés y una traducción humana del libro en Francés, podrías detectar frases en uno que están traducidas idiomáticamente al otro. Lo cual harás en un minuto.

Por ejemplo, cuando una frase en Inglés como `I have no money` se traduce literalmente al Francés, se convertiría en `Je n'ai pas de monnaie`. "Monnaie" es un 'falso cognado' francés, ya que 'money' y 'monnaie' no son sinónimos. Una mejor traducción que la humana sería `Je n'ai pas d'argent`, porque transmite mejor el significado de no tener dinero (en lugar de 'loose change' lo cual es el significado de 'monnaie').

Si un modelo de aprendizaje automático tiene suficientes traducciones humanas para construir un modelo sobre el cual basarse, puede mejorar la precisión de las traducciones al identificar patrones comunes en textos que han sido previamente traducidos por hablantes humanos expertos de ambos idiomas.


### Ejercicio - traducción
Puedes usar TextBlob para traducir oraciones. Prueba la famosa primer línea de Orgullo y Prejuicio:

In [None]:
from textblob import TextBlob

# You should download the book text, clean it, and import it here
with open("pride.txt", encoding="utf8") as f:
    file_contents = f.read()

In [None]:
book_pride = TextBlob(file_contents)
positive_sentiment_sentences = []
negative_sentiment_sentences = []

In [None]:
print("The " + str(len(positive_sentiment_sentences)) + " most positive sentences:")
for sentence in positive_sentiment_sentences:
    print("+ " + str(sentence.replace("\n", "").replace("      ", " ")))
print("The " + str(len(negative_sentiment_sentences)) + " most negative sentences:")
for sentence in negative_sentiment_sentences:
    print("- " + str(sentence.replace("\n", "").replace()))"   