# Creación de un sistema de clasificación de lengua basado en caracteres

Toma algún documento, por ejemplo un artículo de Wikipedia extenso, en tres lenguas diferentes: Español, Inglés, Finés. Con ese documento construye un clasificador de idioma. El programa debe tomar como entrada una cadena o un archivo y debe arrojar como salida la lengua a la que el sistema cree que pertenece (cualquiera de las tres dichas antes).

## Entrenamiento
Para cada documento:
* Obtener la fecuencia relativa de cada letra
* Obtener la frecuencia relativa de cada bigrama
* Obtener la frecuencia relativa de cada trigrama
* Almacenar las distribuciones en una tabla (diccionario) asociada a cada una de las lenguas

Bibliotecas (paquetes) de Python para el uso de nuestro sistema

In [None]:
from collections import Counter
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from operator import itemgetter

Textos para el entrenamiento

In [None]:
textEsp = "La fotosíntesis o función clorofílica es la conversión de materia inorgánica a materia orgánica gracias a la energía que aporta la luz del Sol. En este proceso, la energía lumínica se transforma en energía química estable, siendo el NADPH (nicotín adenín dinucleótido fosfato) y el ATP (adenosín trifosfato) las primeras moléculas en la que queda almacenada esta energía química. Con posterioridad, el poder reductor del NADPH y el potencial energético del grupo fosfato del ATP se usan para la síntesis de hidratos de carbono a partir de la reducción del dióxido de carbono. La vida en nuestro planeta se mantiene fundamentalmente gracias a la fotosíntesis que realizan en el medio acuático las algas, las cianobacterias, las bacterias rojas, las bacterias púrpuras, bacterias verdes del azufre, y en el medio terrestre las plantas, que tienen la capacidad de sintetizar materia orgánica (imprescindible para la constitución de los seres vivos) partiendo de la luz y la materia inorgánica. De hecho, cada año los organismos fotosintetizadores fijan en forma de materia orgánica en torno a 100 000 millones de toneladas de carbono.​ Los orgánulos citoplasmáticos encargados de la realización de la fotosíntesis son los cloroplastos, unas estructuras polimorfas y de color verde (esta coloración es debida a la presencia del pigmento clorofila) propias de las células vegetales. En el interior de estos orgánulos se halla una cámara que alberga un medio interno llamado estroma, que alberga diversos componentes, entre los que cabe destacar enzimas encargadas de la transformación del dióxido de carbono en materia orgánica y unos sáculos aplastados denominados tilacoides, cuya membrana contiene pigmentos fotosintéticos. En términos medios, una célula foliar tiene entre cincuenta y sesenta cloroplastos en su interior. Los organismos que tienen la capacidad de llevar a cabo la fotosíntesis son llamados, fotoautótrofos (otra nomenclatura posible es la de autótrofos, pero se debe tener en cuenta que bajo esta denominación también se engloban aquellas bacterias que realizan la quimiosíntesis) y fijan el CO2 atmosférico. En la actualidad se diferencian dos tipos de procesos fotosintéticos, que son la fotosíntesis oxigénica y la fotosíntesis anoxigénica. La primera de las modalidades es la propia de las plantas superiores, las algas y las cianobacterias, donde el dador de electrones es el agua y, como consecuencia, se desprende oxígeno. Mientras que la segunda, también conocida con el nombre de fotosíntesis bacteriana, la realizan las bacterias purpúreas y verdes del azufre, en las que el dador de electrones es el sulfuro de hidrógeno (H2S), y consecuentemente, el elemento químico liberado no será oxígeno sino azufre, que puede ser acumulado en el interior de la bacteria, o en su defecto, expulsado al agua. Se ha encontrado animales capaces de favorecerse de la fotosíntesis, tales como Elysia chlorotica, una babosa marina con apariencia de hoja, y Ambystoma maculatum, una salamandra. A comienzos del año 2009, se publicó un artículo en la revista científica Nature Geoscience en el que científicos estadounidenses daban a conocer el hallazgo de pequeños cristales de hematita (en el cratón de Pilbara, en el noroeste de Australia), un mineral de hierro datado en el eón Arcaico, reflejando así la existencia de agua rica en oxígeno y, consecuentemente, de organismos fotosintetizadores capaces de producirlo. Según este estudio y atendiendo a la datación más antigua del cratón, la existencia de fotosíntesis oxigénica y la oxigenación de la atmósfera y océanos se habría producido desde hace más de 3.460 millones de años, de lo que se deduciría la existencia de un número considerable de organismos capaces de llevar a cabo la fotosíntesis para oxigenar la masa de agua mencionada, aunque solamente fuese de manera ocasional, si bien la formación biológica de dichos restos está cuestionada."
textIng = "Photosynthesis is a process used by plants and other organisms to convert light energy into chemical energy that, through cellular respiration, can later be released to fuel the organism's activities. This chemical energy is stored in carbohydrate molecules, such as sugars and starches, which are synthesized from carbon dioxide and water – hence the name photosynthesis, from the Greek phōs (φῶς), light, and sunthesis (σύνθεσις), putting together. In most cases, oxygen is also released as a waste product. Most plants, algae, and cyanobacteria perform photosynthesis; such organisms are called photoautotrophs. Photosynthesis is largely responsible for producing and maintaining the oxygen content of the Earth's atmosphere, and supplies most of the energy necessary for life on Earth. Although photosynthesis is performed differently by different species, the process always begins when energy from light is absorbed by proteins called reaction centers that contain green chlorophyll (and other colored) pigments/chromophores. In plants, these proteins are held inside organelles called chloroplasts, which are most abundant in leaf cells, while in bacteria they are embedded in the plasma membrane. In these light-dependent reactions, some energy is used to strip electrons from suitable substances, such as water, producing oxygen gas. The hydrogen freed by the splitting of water is used in the creation of two further compounds that serve as short-term stores of energy, enabling its transfer to drive other reactions: these compounds are reduced nicotinamide adenine dinucleotide phosphate (NADPH) and adenosine triphosphate (ATP), the energy currency of cells. In plants, algae and cyanobacteria, long-term energy storage in the form of sugars is produced by a subsequent sequence of light-independent reactions called the Calvin cycle. In the Calvin cycle, atmospheric carbon dioxide is incorporated into already existing organic carbon compounds, such as ribulose bisphosphate (RuBP). Using the ATP and NADPH produced by the light-dependent reactions, the resulting compounds are then reduced and removed to form further carbohydrates, such as glucose. In other bacteria, different mechanisms such as the reverse Krebs cycle are used to achieve the same end. The first photosynthetic organisms probably evolved early in the evolutionary history of life and most likely used reducing agents such as hydrogen or hydrogen sulfide, rather than water, as sources of electrons. Cyanobacteria appeared later; the excess oxygen they produced contributed directly to the oxygenation of the Earth, which rendered the evolution of complex life possible. Today, the average rate of energy capture by photosynthesis globally is approximately 130 terawatts, which is about eight times the current power consumption of human civilization. Photosynthetic organisms also convert around 100–115 billion tons (91–104 petagrams) of carbon into biomass per year. The phenomenon that plants receive some energy from light – in addition to air, soil, and water – was first discovered in 1779 by Jan Ingenhousz."
textAlm = "Die Photosynthese (altgriechisch φῶς phō̂s, deutsch ‚Licht‘ und σύνθεσις sýnthesis, deutsch ‚Zusammensetzung‘, auch Fotosynthese geschrieben) ist ein physiologischer Prozess zur Erzeugung von energiereichen Biomolekülen aus energieärmeren Stoffen mithilfe von Lichtenergie. Sie wird von Pflanzen, Algen und manchen Bakterien betrieben. Bei diesem biochemischen Vorgang wird mithilfe von lichtabsorbierenden Farbstoffen wie Chlorophyll Lichtenergie in chemische Energie umgewandelt. Diese wird dann zum Aufbau energiereicher organischer Verbindungen (primär Kohlenhydrate) aus energiearmen anorganischen Stoffen (Kohlenstoffdioxid und Wasser) verwendet. Da die energiereichen organischen Stoffe zu Bestandteilen des Lebewesens werden, bezeichnet man deren Synthese als Assimilation. Man unterscheidet zwischen oxygener und anoxygener Photosynthese. Bei der oxygenen wird molekularer Sauerstofferzeugt. Bei der anoxygenen, die nur von manchen Bakterien betrieben wird, entstehen statt Sauerstoff andere anorganische Stoffe, beispielsweise elementarer Schwefel. Die Photosynthese ist der einzige biochemische Prozess, bei dem Lichtenergie, meistens Sonnenenergie, in chemisch gebundene Energie umgewandelt wird. Von ihr hängen indirekt auch nahezu alle heterotrophen (nicht zur Photosynthese fähigen) Lebewesen ab, da sie ihr letztlich ihre Nahrung und auch den zur Energiegewinnung durch aerobe Atmung nötigen Sauerstoff verdanken. Aus dem Sauerstoff entsteht außerdem die schützende Ozonschicht. Auch die UVB-abhängige Bildung von Cholecalciferol (Vitamin D) wird als Photosynthese bezeichnet. Zuerst wird die elektromagnetische Energie in Form von Licht geeigneter Wellenlänge unter Verwendung von Farbstoffen (Chlorophylle, Phycobiline, Carotinoide) absorbiert. Direkt hieran anschließend erfolgt im zweiten Schritt eine Umwandlung der elektromagnetischen Energie in chemische Energie durch Übertragung von Elektronen, die durch die Lichtenergie in einen energiereichen Zustand versetzt wurden (Redoxreaktion) (siehe Phototrophie). Im letzten Schritt wird diese chemische Energie zur Synthese energiereicher organischer Verbindungen verwendet, die den Lebewesen sowohl im Baustoffwechsel für das Wachstum als auch im Energiestoffwechsel für die Gewinnung von Energie dienen. Die ersten beiden Schritte werden als Lichtreaktion bezeichnet und laufen bei Pflanzen im Photosystem I und Photosystem II ab. Der letzte Schritt ist eine weitgehend lichtunabhängige Reaktion. Die Synthese der energiereichen organischen Stoffe geht überwiegend von der Kohlenstoffverbindung Kohlenstoffdioxid aus. Für die Verwertung von muss dieses reduziert werden. Als Reduktionsmittel (Reduktans, Elektronendon(at)oren) dienen die Elektronen oxidierbarer Stoffe: Wasser, elementarer, molekularer Wasserstoff, Schwefelwasserstoff, zweiwertige Eisenionen oder einfache organische Stoffe (wie Säuren und Alkohole, z. B. Acetat bzw. Ethanol). Darüber hinaus können die Elektronen auch aus der Oxidation einfacher Kohlenhydrate gewonnen werden. Welches Reduktans verwendet wird, hängt vom Organismus ab, von seinen Enzymen, die ihm zur Nutzung der Reduktantien zur Verfügung stehen."

Definición de la clase que nos permitirá interacturar con el sistema

In [None]:
class ClasificadorTexto():
  """Clase clasificador de textos"""
  def __init__(self):
    """Constructor, genera las tablas de 1, 2 y 3 gramas.
    Las guarda como atributos de tipo diccionario para cada
    idioma"""

    uno, dos, tres = self.generarTablas(textEsp,"esp")

    esp = dict()
    esp[1] = uno
    esp[2] = dos
    esp[3] = tres
    self.esp = esp

    uno, dos, tres = self.generarTablas(textIng,"ing")

    ing = dict()
    ing[1] = uno
    ing[2] = dos
    ing[3] = tres
    self.ing = ing

    uno, dos, tres = self.generarTablas(textAlm,"alm")

    alm = dict()
    alm[1] = uno
    alm[2] = dos
    alm[3] = tres
    self.alm = alm

  def generarTablas(self,texto,name):
    """Genera las tablas de frecuencias para 1, 2 y 3 gramas
    Parámetros
    texto: A partir del cual genera los n-gramas
    name: nombre, etiqueta que indica el idioma
    
    return 3 dataframes de pandas con cada una de las tablas de 
    frecuencias para 1, 2 y 3 gramas"""

    # 1 grama
    uno = self.dataNGrama(texto,1,name+"1")
    # 2 gramas
    dos = self.dataNGrama(texto,2,name+"2")
    # 3 gramas
    tres = self.dataNGrama(texto,3,name+"3")

    return uno, dos, tres

  def dataNGrama(self,texto,n,name):
    """Genera la tabla de frecuencia para n-gramas
    Parámetros
    texto: texto del cual genera los n-gramas
    n: número de items para los n-gramas
    name: etiqueta del idioma
    
    return dataframe con las frecuencias del texto con n-gramas"""
    ngramas = self.obtenNGramas(texto,n)

    word_freqs = self.obtenFrecuencias(ngramas)
    # log_freqs = np.log(freqs)
    word_freqs = sorted(word_freqs.items(), key=itemgetter(1), reverse=True)
    freqs = np.array([pair[1] for pair in word_freqs])
    freqs_data = pd.DataFrame(data=freqs, columns=[name])

    return freqs_data

  def obtenNGramas(self,texto, n):
    """Función que obtiene n-gramas
    
    Parámetros
    texto: Texto del cual saca los n-gramas
    n: tamaño del grama
    
    return lista con los n-gramas"""
    texto = texto.lower().replace(" ","")
    lista = [texto[i:i+n] for i in range(len(texto)-(n-1))]
    #lista2 = [x for x in lista if " " not in x]
    return lista

  def obtenFrecuencias(self,ngramas):
    """Obtiene las frecuencias de una lista de n-gramas
    
    Parámetros
    ngramas: lista de n-gramas
    
    return objeto counter con las frecuencias"""
    return Counter(ngramas)

  def calcularPearson(self,train,test,nombreTrain,nombreTest):
    """Calcula la probabilidad de Pearson
    
    Parámetros
    train: frecencias de entrenamiento (pd.dataframe)
    test: frecuencias de prueba (pd.dataframe)
    nombreTrain: Etiqueta con información del idioma y n-grama de 
      entrenamiento
    nombreTest: Etiqueta con información del idioma y n-grama de 
      prueba
      
    return probabilidad de Pearson"""
    zipf = train.join(test)
    probPearson = abs(float(zipf.corr()[nombreTrain][nombreTest]))
    return probPearson

  def probabilidad(self, textoPrueba):
    """Método que sirve de interfaz para determinar de que texto se trata
    
    Parámetros
    textoPrueba: Texto para realizar pruebas"""
    # calculamos frecuencias de n-gramas del texto de prueba
    uno, dos, tres = self.generarTablas(textoPrueba,"test")
    test = dict()
    test[1] = uno
    test[2] = dos
    test[3] = tres

    resultados = []

    # Calculamos probabilidades de Español
    print("Español")
    res = 0
    for i in range(1,4):
      print(i,"-grama: ",end="")
      prob = self.calcularPearson(self.esp[i],test[i],"esp"+str(i),"test"+str(i))
      print(prob)
      res += prob
    res/=3
    print("Promedio parecido con Español:",res)
    resultados.append(("Español",res*100))

    # Calculamos probabilidades de Ingles
    print("Inglés")
    res = 0
    for i in range(1,4):
      print(i,"-grama: ",end="")
      prob = self.calcularPearson(self.ing[i],test[i],"ing"+str(i),"test"+str(i))
      print(prob)
      res += prob
    res/=3
    print("Promedio parecido con Ingles:",res)
    resultados.append(("Inglés",res*100))

    # Calculamos probabilidades de Aleman
    print("Aleman")
    res = 0
    for i in range(1,4):
      print(i,"-grama: ",end="")
      prob = self.calcularPearson(self.alm[i],test[i],"alm"+str(i),"test"+str(i))
      print(prob)
      res += prob
    res/=3  
    print("Promedio parecido con Aleman:",res)
    resultados.append(("Aleman",res*100))

    resultados.sort(key=lambda x: x[1],reverse=True)

    print("     RESULTADOS: Tu texto podría estar en",resultados[0][0])

## Clasificación

* Leer la cadena o leer(abrir(archivo)) en variable CADENA
* obtener la frecuencia relativa de cada letra de CADENA
* obtener la frecuencia relativa de cada bigrama de CADENA
* obtener la frecuencia relativa de cada trigrama de CADENA
* Asignar RESULTADO de forma aleatoria a cualquiera de las tres lenguas

Para cada DISTRIBUCION de entrenamiento:
* Encontrar distancia de DISTRIBUCION con distribución CADENA
> Si no existe DISTANCIA_MINIMA entonce asignar distancia a DISTANCIA_MINIMA
> Si DISTANCIA_MINIMA > distancia asignar a RESULTADO lengua asociada a 

DISTRIBUCION
* Devolver DISTRIBUCION

In [None]:
# Librerías webscraping
import requests
import urllib.request
import time
from bs4 import BeautifulSoup

Pruebas utilizando Webscrapping

In [None]:
# PRUEBAS AUTOMÁTICAS EN WIKIPEDIA POR KEYWORD
clasificador = ClasificadorTexto()
prefixes = ['es', 'en', 'de']
for prefix in prefixes:
  if prefix == 'es':
    search = input("Búsqueda en Español: ")
  elif prefix == 'en':
    search = input("Búsqueda en Inglés: ")
  elif prefix == 'de':
    search = input("Búsqueda en Alemán: [Liebe, Hassen, Deutschland] ")
  
  url = 'https://' + prefix + '.wikipedia.org/wiki/' + search
  response = requests.get(url)
  soup = BeautifulSoup(response.text, "html.parser")
  bodyText = soup.find(attrs={"id":"mw-content-text", "class":"mw-body-content mw-content-ltr"})
  paragraphs = bodyText.findAll('p')
  text = ''

  for paragraph in paragraphs:
    text+=paragraph.text
  #print(len(text)) #numero de caracteres
  if len(text)<100:
    raise  Exception ( 'El numero de caracteres es menor que 100' )
  else: 
    #lovprint(text) # Descomentar para ver texto en prompt
    print("PRUEBAS DE IDIOMA: "+prefix)
    clasificador.probabilidad(text)
    print("\n\n")

Búsqueda en Español: Amor
PRUEBAS DE IDIOMA: es
Español
1 -grama: 0.9933830829433886
2 -grama: 0.9946295529734541
3 -grama: 0.985094184839844
Promedio parecido con Español: 0.9910356069188956
Inglés
1 -grama: 0.9810984096525301
2 -grama: 0.9955339252654576
3 -grama: 0.9438363029123694
Promedio parecido con Ingles: 0.9734895459434524
Aleman
1 -grama: 0.9659704888861382
2 -grama: 0.9583639353615214
3 -grama: 0.9881415809424681
Promedio parecido con Aleman: 0.9708253350633759
     RESULTADOS: Tu texto podría estar en Español



Búsqueda en Inglés: Dog
PRUEBAS DE IDIOMA: en
Español
1 -grama: 0.976714260347624
2 -grama: 0.9934695252200318
3 -grama: 0.9104913705083478
Promedio parecido con Español: 0.9602250520253346
Inglés
1 -grama: 0.9964205113397573
2 -grama: 0.9964158146910175
3 -grama: 0.9660736273559799
Promedio parecido con Ingles: 0.9863033177955849
Aleman
1 -grama: 0.9527902164105251
2 -grama: 0.9604357968871707
3 -grama: 0.9349639235537841
Promedio parecido con Aleman: 0.9493966456

Pruebas con textos en diferentes idiomas

In [None]:
clasificador = ClasificadorTexto()

print("PRUEBAS CON ESPAÑOL")
text = "El parque Me llamo Pedro y hoy quiero hablar del parque que hay junto a mi casa. Yo me divierto todos los días en el parque. Allí veo las palomas comiendo y bebiendo agua. También veo pájaros de colores en los árboles. Voy al parque a las cinco de la tarde, cuando termino los deberes de la escuela. Allí veo a mi amigo Juan y a mi amigo Luis. Con ellos juego al escondite y a otros juegos muy entretenidos. Luis se va más temprano del parque porque tiene que ir a la escuela de música a aprender a tocar el piano. Mi padre también va al parque a hacer deporte. Él corre durante una hora después de trabajar. Mi madre solo va los fines de semana porque acaba tarde de trabajar. Ella se sienta siempre en el mismo banco y yo juego mientras con mis amigos. Por la mañana cruzo el parque para ir al colegio, pero no me entretengo para no llegar tarde a clase. De camino al colegio veo al guarda del parque y siempre me da un caramelo de fresa."
clasificador.probabilidad(text)

print("\n\nPRUEBAS CON ALEMAN")
text = "Mein Name ist Anna. Ich komme aus Österreich und lebe seit drei Jahren in Deutschland. Ich bin 15 Jahre alt und habe zwei Geschwister: Meine Schwester heißt Klara und ist 13 Jahre alt, mein Bruder Michael ist 18 Jahre alt. Wir wohnen mit unseren Eltern in einem Haus in der Nähe von München. Meine Mutter ist Köchin, mein Vater arbeitet in einer Bank. Ich lese gerne und mag Tiere: Wir haben einen Hund, zwei Katzen und im Garten einen Teich mit Goldfischen. Ich gehe auch gerne in die Schule, mein Lieblingsfach ist Mathematik. Physik und Chemie mag ich nicht so gerne. Nach der Schule gehe ich oft mit meinen Freundinnen im Park spazieren, manchmal essen wir ein Eis. Am Samstag gehen wir oft ins Kino. Am Sonntag schlafe ich lange, dann koche ich mit meiner Mutter das Mittagessen. Nach dem Essen gehen wir mit dem Hund am See spazieren. Sonntag ist mein Lieblingstag!"
clasificador.probabilidad(text)

print("\n\nPRUEBAS CON INGLÉS")
text = "I live in a house near the mountains. I have two brothers and one sister, and I was born last. My father teaches mathematics, and my mother is a nurse at a big hospital. My brothers are very smart and work hard in school. My sister is a nervous girl, but she is very kind. My grandmother also lives with us. She came from Italy when I was two years old. She has grown old, but she is still very strong. She cooks the best food! My family is very important to me. We do lots of things together. My brothers and I like to go on long walks in the mountains. My sister likes to cook with my grandmother. On the weekends we all play board games together. We laugh and always have a good time. I love my family very much."
clasificador.probabilidad(text)

print("\n\nPRUEBAS CON KOREANO")
text = "광합성(光合成, 영어: photosynthesis, 문화어: 빛합성)은 식물 및 다른 생명체가 빛에너지를 화학 에너지로 전환하기 위해 사용하는 과정이다. 전환된 화학 에너지는 나중에 생명체의 활동에 에너지를 공급하기 위해 방출될 수 있다. 이 화학 에너지는 이산화 탄소와 물로부터 합성된 당과 같은 탄수화물 분자에 저장된다. 광합성이란 이름은 그리스어 (\"phōs\", \"light\", \"빛\"을 의미함)와 σύνθεσις (\"synthesis\", \"합성\"을 의미함)에서 유래하였다.대부분의 경우 광합성에서 산소는 부산물로 방출된다. 대부분의 식물, 조류 및 남세균은 광합성을 수행하는데, 이러한 생물을 광독립영양생물이라고 한다. 광합성은 지구 대기 중의 산소를 생산하고 유지하는데 큰 역할을 하며, 지구상의 생명체에게 필요한 유기 화합물과 대부분의 에너지를 공급한다. 광합성은 생물 종에 따라 다르게 수행되지만, 빛에너지가 엽록체의 틸라코이드 막에 존재하는 광계(광합성 색소와 단백질로 구성된 복합체)의 반응 중심 색소로 전달되고 고에너지 전자를 방출하면서 과정이 시작된다. 식물에서 이러한 단백질들은 잎 세포에서 가장 풍부한 엽록체라고 불리는 세포소기관의 내부에 있고, 세균에서는 세포막에 묻혀 있다. 이러한 광의존적 반응에서는 물(H2O)과 같은 적당한 물질로부터 전자를 떼어내는데 빛에너지를 사용하고, 부산물로 산소(O2)를 생성한다. 물의 광분해에 의해 방출되는 전자는 단기 에너지 저장의 역할을 하는 두 가지 화합물의 생성에 사용되고, 생성된 화합물은 다른 반응들을 진행시키는데 사용된다. 이들 화합물은 환원된 니코틴아마이드 아데닌 다이뉴클레오타이드 인산(NADPH)과 세포의 \"에너지 화폐\"인 아데노신 삼인산(ATP)이다. 식물, 조류 남세균에서 장기 에너지 저장의 역할을 하는 당(糖)은 캘빈 회로라고 불리는 일련의 광비의존적 반응에 의해 생성된다. 어떤 세균은 동일한 목적을 달성하기 위해 리버스 시트르산 회로와 같은 다른 기작을 사용한다. 캘빈 회로에서 대기 중의 이산화 탄소는 리불로스 1,5-이중인산(RuBP)와 같은 이미 식물 체내에 존재하는 유기 화합물과 결합한다. 광의존적 반응에 의해 생성된 ATP와 NADPH를 사용하여, 반응물들을 환원시키고 포도당과 같은 탄수화물을 생성한다. 최초의 광합성 생물은 생물의 진화 역사에서 초기에 진화했을 가능성이 높으며, 전자공여체로 물보다는 수소(H2)나 황화 수소와 같은 환원제를 사용했을 가능성이 크다.[6] 남세균은 나중에 출현했는데, 남세균이 생산한 과량의 산소는 지구의 산소 공급에 직접적으로 기여했으며,[7] 이는 보다 복잡한 생물로의 진화를 가능하게 했다. 오늘날 전세계적으로 광합성에 의한 에너지 포획량은 약 130 테라와트이며,[8][9][10] 이는 현재 인류 문명의 전력 소비량의 약 8배에 달한다. 광합성 생물은 연간 약 100-115억톤의 탄소를 바이오매스로 전환시킨다."
clasificador.probabilidad(text)


PRUEBAS CON ESPAÑOL
Español
1 -grama: 0.9849234207991028
2 -grama: 0.9869058822657303
3 -grama: 0.9299666218073238
Promedio parecido con Español: 0.967265308290719
Inglés
1 -grama: 0.9441981289382949
2 -grama: 0.9892045743883414
3 -grama: 0.9084275388421532
Promedio parecido con Ingles: 0.9472767473895966
Aleman
1 -grama: 0.9579278246655939
2 -grama: 0.9435614693394946
3 -grama: 0.9628840731156821
Promedio parecido con Aleman: 0.9547911223735902
     RESULTADOS: Tu texto podría estar en Español


PRUEBAS CON ALEMAN
Español
1 -grama: 0.9763600558233699
2 -grama: 0.9755213792694125
3 -grama: 0.9257346174205621
Promedio parecido con Español: 0.9592053508377815
Inglés
1 -grama: 0.96701495451535
2 -grama: 0.9739904985047468
3 -grama: 0.9154490722374184
Promedio parecido con Ingles: 0.9521515084191717
Aleman
1 -grama: 0.9808752640611954
2 -grama: 0.9793124578180851
3 -grama: 0.9591079069659194
Promedio parecido con Aleman: 0.9730985429483999
     RESULTADOS: Tu texto podría estar en Aleman



# Conclusiones
Dentro de los requisitos de calcular una distancia mínima, solo necesitamos contemplar un porcentaje mínimo. El problema aquí es que no conocemos realmente como funciona la probabilidad de Pearson. Podemos ver este problema desde los porcentajes arrojados, donde ningúno sale menor a 80% para ningún caso (lenguaje/n-grama). 

Podríamos resolver esto con algún tipo de asesoramiento, y buscaré información sobre este tipo de correlación con mis profesores durante la semana. Mientras tanto, esta primera iteración para los pocos días de la entrega, es buena y funcional.


# Bibliografía
Notebook del profesor Mijangos

https://github.com/VMijangos/Curso-Procesamiento-de-Lenguaje-Natural/blob/master/Notebooks/08b%20Generacion_with_Zipf.ipynb

William J. Turkel y Adam Crymble

https://programminghistorian.org/es/lecciones/palabras-clave-en-contexto-n-grams

# Solución del profesor

## Definición del modelo

In [40]:
# Bibliotecas importantes
from collections import Counter
from typing import Iterable
from numpy import array, dot
from numpy.linalg import norm
from pandas.core.series import Series
import pandas as pd
#import numpy as np

In [41]:
# función para obtener los ngramas
def obtenNGramas(texto, n):
    """Función que obtiene n-gramas
    
    Parámetros
    texto: Texto del cual saca los n-gramas
    n: tamaño del grama
    
    return lista con los n-gramas"""
    texto = texto.lower().replace(" ","")
    lista = [texto[i:i+n] for i in range(len(texto)-(n-1))]
    return lista

In [42]:
# Similitud del coseno
def cosSim(V,U):
  '''Función que regresa la similitud cosenoidal de dos vectores
  
  Parámetros
  U,V: vectores del mismo tamaño

  return coseno entre ambos vectores
  '''
  return (dot(V,U) / (norm(V)*norm(U)))#**2 # si tomamos el cuadrado, sale más 
  # discriminante la función

In [43]:
# obtener los features (características)
# en este caso, los n gramas
def obtenerCaract(maxNGrams,texto):
  '''Función para obtener todos los n-gramas desde 1 hasta 
  maxNGrams dentro de un texto
  
  Parámetros
  maxNGrams: Longitud máxima de los n-gramas
  texto: Texto de donde sacar los n-gramas

  return lista de n-gramas
  '''
  # input = hola; returns [h, o, l, a, ho, ol, la, hol, ola]
  return [el for n in range(1,maxNGrams+1) for el in obtenNGramas(texto,n)]

In [44]:
# crea vector de los ngramas
def crearVectorNGramas(texto,nombre):
  '''Crea el vector de un texto, ocupa las funciones anteriores
  Parámetros
  texto: texto de donde sacar la información
  nombre: etiqueta del vector
  
  return objeto tipo series de pandas
  '''
  caracteristicas = obtenerCaract(3,texto)
  return Series(caracteristicas,name=nombre).value_counts(normalize=True)


## Pruebas con el modelo

In [23]:
# textos para entrenar
textEsp = "La fotosíntesis o función clorofílica es la conversión de materia inorgánica a materia orgánica gracias a la energía que aporta la luz del Sol. En este proceso, la energía lumínica se transforma en energía química estable, siendo el NADPH (nicotín adenín dinucleótido fosfato) y el ATP (adenosín trifosfato) las primeras moléculas en la que queda almacenada esta energía química. Con posterioridad, el poder reductor del NADPH y el potencial energético del grupo fosfato del ATP se usan para la síntesis de hidratos de carbono a partir de la reducción del dióxido de carbono. La vida en nuestro planeta se mantiene fundamentalmente gracias a la fotosíntesis que realizan en el medio acuático las algas, las cianobacterias, las bacterias rojas, las bacterias púrpuras, bacterias verdes del azufre, y en el medio terrestre las plantas, que tienen la capacidad de sintetizar materia orgánica (imprescindible para la constitución de los seres vivos) partiendo de la luz y la materia inorgánica. De hecho, cada año los organismos fotosintetizadores fijan en forma de materia orgánica en torno a 100 000 millones de toneladas de carbono.​ Los orgánulos citoplasmáticos encargados de la realización de la fotosíntesis son los cloroplastos, unas estructuras polimorfas y de color verde (esta coloración es debida a la presencia del pigmento clorofila) propias de las células vegetales. En el interior de estos orgánulos se halla una cámara que alberga un medio interno llamado estroma, que alberga diversos componentes, entre los que cabe destacar enzimas encargadas de la transformación del dióxido de carbono en materia orgánica y unos sáculos aplastados denominados tilacoides, cuya membrana contiene pigmentos fotosintéticos. En términos medios, una célula foliar tiene entre cincuenta y sesenta cloroplastos en su interior. Los organismos que tienen la capacidad de llevar a cabo la fotosíntesis son llamados, fotoautótrofos (otra nomenclatura posible es la de autótrofos, pero se debe tener en cuenta que bajo esta denominación también se engloban aquellas bacterias que realizan la quimiosíntesis) y fijan el CO2 atmosférico. En la actualidad se diferencian dos tipos de procesos fotosintéticos, que son la fotosíntesis oxigénica y la fotosíntesis anoxigénica. La primera de las modalidades es la propia de las plantas superiores, las algas y las cianobacterias, donde el dador de electrones es el agua y, como consecuencia, se desprende oxígeno. Mientras que la segunda, también conocida con el nombre de fotosíntesis bacteriana, la realizan las bacterias purpúreas y verdes del azufre, en las que el dador de electrones es el sulfuro de hidrógeno (H2S), y consecuentemente, el elemento químico liberado no será oxígeno sino azufre, que puede ser acumulado en el interior de la bacteria, o en su defecto, expulsado al agua. Se ha encontrado animales capaces de favorecerse de la fotosíntesis, tales como Elysia chlorotica, una babosa marina con apariencia de hoja, y Ambystoma maculatum, una salamandra. A comienzos del año 2009, se publicó un artículo en la revista científica Nature Geoscience en el que científicos estadounidenses daban a conocer el hallazgo de pequeños cristales de hematita (en el cratón de Pilbara, en el noroeste de Australia), un mineral de hierro datado en el eón Arcaico, reflejando así la existencia de agua rica en oxígeno y, consecuentemente, de organismos fotosintetizadores capaces de producirlo. Según este estudio y atendiendo a la datación más antigua del cratón, la existencia de fotosíntesis oxigénica y la oxigenación de la atmósfera y océanos se habría producido desde hace más de 3.460 millones de años, de lo que se deduciría la existencia de un número considerable de organismos capaces de llevar a cabo la fotosíntesis para oxigenar la masa de agua mencionada, aunque solamente fuese de manera ocasional, si bien la formación biológica de dichos restos está cuestionada."
textIng = "Photosynthesis is a process used by plants and other organisms to convert light energy into chemical energy that, through cellular respiration, can later be released to fuel the organism's activities. This chemical energy is stored in carbohydrate molecules, such as sugars and starches, which are synthesized from carbon dioxide and water – hence the name photosynthesis, from the Greek phōs (φῶς), light, and sunthesis (σύνθεσις), putting together. In most cases, oxygen is also released as a waste product. Most plants, algae, and cyanobacteria perform photosynthesis; such organisms are called photoautotrophs. Photosynthesis is largely responsible for producing and maintaining the oxygen content of the Earth's atmosphere, and supplies most of the energy necessary for life on Earth. Although photosynthesis is performed differently by different species, the process always begins when energy from light is absorbed by proteins called reaction centers that contain green chlorophyll (and other colored) pigments/chromophores. In plants, these proteins are held inside organelles called chloroplasts, which are most abundant in leaf cells, while in bacteria they are embedded in the plasma membrane. In these light-dependent reactions, some energy is used to strip electrons from suitable substances, such as water, producing oxygen gas. The hydrogen freed by the splitting of water is used in the creation of two further compounds that serve as short-term stores of energy, enabling its transfer to drive other reactions: these compounds are reduced nicotinamide adenine dinucleotide phosphate (NADPH) and adenosine triphosphate (ATP), the energy currency of cells. In plants, algae and cyanobacteria, long-term energy storage in the form of sugars is produced by a subsequent sequence of light-independent reactions called the Calvin cycle. In the Calvin cycle, atmospheric carbon dioxide is incorporated into already existing organic carbon compounds, such as ribulose bisphosphate (RuBP). Using the ATP and NADPH produced by the light-dependent reactions, the resulting compounds are then reduced and removed to form further carbohydrates, such as glucose. In other bacteria, different mechanisms such as the reverse Krebs cycle are used to achieve the same end. The first photosynthetic organisms probably evolved early in the evolutionary history of life and most likely used reducing agents such as hydrogen or hydrogen sulfide, rather than water, as sources of electrons. Cyanobacteria appeared later; the excess oxygen they produced contributed directly to the oxygenation of the Earth, which rendered the evolution of complex life possible. Today, the average rate of energy capture by photosynthesis globally is approximately 130 terawatts, which is about eight times the current power consumption of human civilization. Photosynthetic organisms also convert around 100–115 billion tons (91–104 petagrams) of carbon into biomass per year. The phenomenon that plants receive some energy from light – in addition to air, soil, and water – was first discovered in 1779 by Jan Ingenhousz."
textAlm = "Die Photosynthese (altgriechisch φῶς phō̂s, deutsch ‚Licht‘ und σύνθεσις sýnthesis, deutsch ‚Zusammensetzung‘, auch Fotosynthese geschrieben) ist ein physiologischer Prozess zur Erzeugung von energiereichen Biomolekülen aus energieärmeren Stoffen mithilfe von Lichtenergie. Sie wird von Pflanzen, Algen und manchen Bakterien betrieben. Bei diesem biochemischen Vorgang wird mithilfe von lichtabsorbierenden Farbstoffen wie Chlorophyll Lichtenergie in chemische Energie umgewandelt. Diese wird dann zum Aufbau energiereicher organischer Verbindungen (primär Kohlenhydrate) aus energiearmen anorganischen Stoffen (Kohlenstoffdioxid und Wasser) verwendet. Da die energiereichen organischen Stoffe zu Bestandteilen des Lebewesens werden, bezeichnet man deren Synthese als Assimilation. Man unterscheidet zwischen oxygener und anoxygener Photosynthese. Bei der oxygenen wird molekularer Sauerstofferzeugt. Bei der anoxygenen, die nur von manchen Bakterien betrieben wird, entstehen statt Sauerstoff andere anorganische Stoffe, beispielsweise elementarer Schwefel. Die Photosynthese ist der einzige biochemische Prozess, bei dem Lichtenergie, meistens Sonnenenergie, in chemisch gebundene Energie umgewandelt wird. Von ihr hängen indirekt auch nahezu alle heterotrophen (nicht zur Photosynthese fähigen) Lebewesen ab, da sie ihr letztlich ihre Nahrung und auch den zur Energiegewinnung durch aerobe Atmung nötigen Sauerstoff verdanken. Aus dem Sauerstoff entsteht außerdem die schützende Ozonschicht. Auch die UVB-abhängige Bildung von Cholecalciferol (Vitamin D) wird als Photosynthese bezeichnet. Zuerst wird die elektromagnetische Energie in Form von Licht geeigneter Wellenlänge unter Verwendung von Farbstoffen (Chlorophylle, Phycobiline, Carotinoide) absorbiert. Direkt hieran anschließend erfolgt im zweiten Schritt eine Umwandlung der elektromagnetischen Energie in chemische Energie durch Übertragung von Elektronen, die durch die Lichtenergie in einen energiereichen Zustand versetzt wurden (Redoxreaktion) (siehe Phototrophie). Im letzten Schritt wird diese chemische Energie zur Synthese energiereicher organischer Verbindungen verwendet, die den Lebewesen sowohl im Baustoffwechsel für das Wachstum als auch im Energiestoffwechsel für die Gewinnung von Energie dienen. Die ersten beiden Schritte werden als Lichtreaktion bezeichnet und laufen bei Pflanzen im Photosystem I und Photosystem II ab. Der letzte Schritt ist eine weitgehend lichtunabhängige Reaktion. Die Synthese der energiereichen organischen Stoffe geht überwiegend von der Kohlenstoffverbindung Kohlenstoffdioxid aus. Für die Verwertung von muss dieses reduziert werden. Als Reduktionsmittel (Reduktans, Elektronendon(at)oren) dienen die Elektronen oxidierbarer Stoffe: Wasser, elementarer, molekularer Wasserstoff, Schwefelwasserstoff, zweiwertige Eisenionen oder einfache organische Stoffe (wie Säuren und Alkohole, z. B. Acetat bzw. Ethanol). Darüber hinaus können die Elektronen auch aus der Oxidation einfacher Kohlenhydrate gewonnen werden. Welches Reduktans verwendet wird, hängt vom Organismus ab, von seinen Enzymen, die ihm zur Nutzung der Reduktantien zur Verfügung stehen."

In [24]:
# definimos nuestro corpus y sus etiquetas
corpus = [textEsp, textIng, textAlm]
etiquetas = ["es", "en", "ge"]
# creamos un dataframe vacio
df = pd.DataFrame()
# para cada etiqueta de nuestro corpus
for i in range(len(etiquetas)):
  etiqueta = etiquetas[i]
  documento =corpus[i]
  vec = crearVectorNGramas(documento, nombre=etiqueta)
  df = df.append(vec)

df = df.T.fillna(0)

In [25]:
df

Unnamed: 0,es,en,ge
(,0.000706,0.000883,0.001322
(a,0.000101,0.000252,0.000240
(ad,0.000101,0.000000,0.000000
(e,0.000202,0.000000,0.000000
(en,0.000101,0.000000,0.000000
...,...,...,...
‚,0.000000,0.000000,0.000240
‚l,0.000000,0.000000,0.000120
‚li,0.000000,0.000000,0.000120
‚z,0.000000,0.000000,0.000120


In [28]:
# Corriendo un ejemplo
# definimos el nombre y el texto de prueba
testName = "TEST"
test = "Esta es una prueba"
# hacemos lo mismo que arriba, determinamos el vector de 
# n gramas para el texto
test_vec = crearVectorNGramas(test, nombre=testName)
# teniendo los n-gramas y sus frecuencias relativas, lo
# juntamos con la tabla de los textos de entrenamiento
tmp = df.join(test_vec).fillna(0)

# ahora viene lo bueno
dist = []
# para cada texto, sacamos la similitud cosenoidal entre
# las frecuencias para el texto de entrenamiento y las
# frecuencias del texto de prueba
for etiqueta in etiquetas:
  # aquí se saca la similitud
  d = cosSim(tmp[testName], tmp[etiqueta])
  # agregamos dicho valor a la lista dist
  dist.append(d)
  # imprimimos cuanto salió para dicho idioma
  print(f"{etiqueta}: {d}")

# determinamos con cual de los textos salió una similitud mayor
print(etiquetas[dist.index(max(dist))])

es: 0.5941551490174085
en: 0.5457663068772154
ge: 0.5162746336278806
es


## Función para hacer predicciones

In [59]:
# Librerías webscraping
import requests
import urllib.request
import time
from bs4 import BeautifulSoup
# agrupandolo en una función
class CategorizacionTextos():
  def __init__(self):
    self.etiquetas = ['es', 'en', 'de']
    self.tabla = self.obtenerTexto()

  def predecir(self,texto):
    # Corriendo un ejemplo
    # definimos el nombre y el texto de prueba
    testName = "TEST"
    test = texto
    # hacemos lo mismo que arriba, determinamos el vector de 
    # n gramas para el texto
    test_vec = crearVectorNGramas(test, nombre=testName)
    # teniendo los n-gramas y sus frecuencias relativas, lo
    # juntamos con la tabla de los textos de entrenamiento
    tmp = self.tabla.join(test_vec).fillna(0)

    # ahora viene lo bueno
    dist = []
    # para cada texto, sacamos la similitud cosenoidal entre
    # las frecuencias para el texto de entrenamiento y las
    # frecuencias del texto de prueba
    for etiqueta in self.etiquetas:
      # aquí se saca la similitud
      d = cosSim(tmp[testName], tmp[etiqueta])
      # agregamos dicho valor a la lista dist
      dist.append(d)
      # imprimimos cuanto salió para dicho idioma
      print("{0}: {1:.2f}%".format(etiqueta,d*100))

    # determinamos con cual de los textos salió una similitud mayor
    print("Probablemente tu texto esté en "+etiquetas[dist.index(max(dist))])

  def obtenerTexto(self):
    # se inicializa el diccionario de textos
    textos = dict()
    # se inicializan los datos de busqueda
    prefixes = self.etiquetas
    palabras = ['amor','love','Liebe']
    # para cada idioma
    for i in range(len(prefixes)):
      # tomamos su prefijo y su palabra
      search = palabras[i]
      prefix = prefixes[i]

      # se define la url de busqueta
      url = 'https://' + prefix + '.wikipedia.org/wiki/' + search
      # se obtiene la respuesta a la petición
      response = requests.get(url)
      # se ocupa BeautifulSoup para darle formato html
      soup = BeautifulSoup(response.text, "html.parser")
      # se obtiene el cuerpo de la busqueda, donde viene el texto
      bodyText = soup.find(attrs={"id":"mw-content-text", 
                                  "class":"mw-body-content mw-content-ltr"})
      # se toma todos los elementos con etiqueta p html
      paragraphs = bodyText.findAll('p')

      # se concatenan todos los parrafos
      text = ''
      for paragraph in paragraphs:
        text+=paragraph.text
      text.replace("\n","").replace("\t","")

      textos[prefix]=text
      
    # creamos un dataframe vacio
    df = pd.DataFrame()
    # para cada etiqueta de nuestro corpus
    for i in range(len(prefixes)):
      etiqueta = prefixes[i]
      documento = textos[etiqueta]
      vec = crearVectorNGramas(documento, nombre=etiqueta)
      df = df.append(vec)

    return df.T.fillna(0)

In [60]:
cat = CategorizacionTextos()

In [62]:
prueba = "Ich weisse nicht"
cat.predecir(prueba)
prueba = "Yo no se"
cat.predecir(prueba)
prueba = "I don't know"
cat.predecir(prueba)

es: 17.08%
en: 23.51%
de: 30.60%
Probablemente tu texto esté en ge
es: 19.84%
en: 18.79%
de: 11.12%
Probablemente tu texto esté en es
es: 11.30%
en: 14.40%
de: 9.15%
Probablemente tu texto esté en en
