# Lab 04. Detección del idioma y traducción
### `textblob`: otro módulo para tareas de PLN (`NLTK` + `pattern`)

[textblob](http://textblob.readthedocs.org/) es una librería de procesamiento del texto para Python que permite realizar tareas de Procesamiento del Lenguaje Natural como análisis morfológico, extracción de entidades, análisis de opinión, traducción automática, etc. 

Está construida sobre otras dos librerías muy famosas de Python: [NLTK](http://www.nltk.org/) y [pattern](http://www.clips.ua.ac.be/pages/pattern-en). La principal ventaja de [textblob](http://textblob.readthedocs.org/) es que permite combinar el uso de las dos herramientas anteriores en un interfaz más simple.

Vamos a apoyarnos en [este tutorial](http://textblob.readthedocs.org/en/dev/quickstart.html) para aprender a utilizar algunas de sus funcionalidades más llamativas. 

Lo primero es instalar la librería si aún no está instalada, y después importar el objeto `TextBlob` que nos permite acceder a todas las herramentas que incluye.



In [2]:
# si no esta instalado TextBlob en el entorno, ejecutar las siguientes linea de codigo:
!pip install TextBlob
!python -m textblob.download_corpora

from textblob import TextBlob

[nltk_data] Downloading package brown to /Users/juan/nltk_data...
[nltk_data]   Package brown is already up-to-date!
[nltk_data] Downloading package punkt to /Users/juan/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /Users/juan/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/juan/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package conll2000 to /Users/juan/nltk_data...
[nltk_data]   Package conll2000 is already up-to-date!
[nltk_data] Downloading package movie_reviews to
[nltk_data]     /Users/juan/nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!
Finished.


Vamos a crear nuestro primer ejemplo de *textblob* a través del objeto `TextBlob`. Piensa en estos *textblobs* como una especie de cadenas de texto de Python, analaizadas y enriquecidas con algunas características extra. El objeto `t` se podría utilizar para aplicar: detección de idiomas, división en frases, palabras, extracción de entidades... etc, tal y como se ve en todas los métodos que se le pueden aplicar. Por el momento, el foco lo vamos a poner en la traducción automática de textos.

In [3]:
texto = """In new lawsuits brought against the ride-sharing companies Uber and Lyft, the top prosecutors in Los Angeles 
and San Francisco counties make an important point about the lightly regulated sharing economy. The consumers who 
participate deserve a very clear picture of the risks they're taking"""
t = TextBlob(texto)
print([method_name for method_name in dir(t)
                  if callable(getattr(t, method_name))])

['__add__', '__class__', '__contains__', '__delattr__', '__dir__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '_cmpkey', '_compare', '_create_sentence_objects', '_strkey', 'classify', 'correct', 'detect_language', 'ends_with', 'endswith', 'find', 'format', 'index', 'join', 'lower', 'ngrams', 'parse', 'replace', 'rfind', 'rindex', 'split', 'starts_with', 'startswith', 'strip', 'title', 'to_json', 'tokenize', 'translate', 'upper']


## Traducción automática


A partir de cualquier texto procesado con `TextBlob`, podemos acceder a un traductor automático de bastante calidad con el método `.translate()`.  Es obligatorio indicar la lengua de destino y la de origen. 

#### Ejercicio 1. Traduce estos textos de chino (código 'zh-CN') a inglés (código 'en'). Tradúcelos también a español (código 'es').

- oracion_zh = "中国探月工程 亦稱嫦娥工程，是中国启动的第一个探月工程，于2003年3月1日正式启动"

- oracion_zh2 = "DALL-E 2是近几个月来人工智能领域最引人注目的。但谷歌还没有说最后一句话。今天，他们决定展示 IMAGE，他们的新 AI 能够从简短的描述中创建超逼真的图像 OpenAI 工具的替代品，已由 Google 测试和研究，以获得更准确的结果。"


In [3]:
# de chino a inglés y español
oracion_zh = "中国探月工程 亦稱嫦娥工程，是中国启动的第一个探月工程，于2003年3月1日正式启动"
oracion_zh2 = "DALL-E 2是近几个月来人工智能领域最引人注目的。但谷歌还没有说最后一句话。今天，他们决定展示 IMAGE，他们的新 AI 能够从简短的描述中创建超逼真的图像 OpenAI 工具的替代品，已由 Google 测试和研究，以获得更准确的结果。"



#### Ejercicio 2. Traduce esta oración del ruso (código 'ru') al inglés (código 'en') y al español (código 'es')

In [2]:
oracion_ru = "В 1943 году была отправлена в США, где выступала в защиту британской «белой книги», после чего работала в Канаде и Индии."


#### Ejercicio extra. Traduce esta frase en español a sueco.

In [4]:
oracion_es = "La deuda pública ha marcado nuevos récords en España en el tercer trimestre"


#### Curiosidad: Corrección ortográfica

In [48]:
#  corrección ortográfica
b1 = TextBlob("I havv goood speling!")
print(b1.correct())

b3 = TextBlob("Gyrls dont cri")
print(b3.correct())

b4 = TextBlob("Thel examn wis veri dificul")
print(b4.correct())

I have good spelling!
Girls dont cry
The exam was very difficult
