
# Proyecto
### Erick Fernando López Fimbres.  
#### erick.lopez.fimbres@gmail.com

## Limpieza

Para poder utilizar las tecnicas apropiadas de procesamiento del lenguaje natural, primero debemos de limpiar los datos que estan en el archivo bajado de wikipedia, en nuestro caso se llama **"todas_las_enfermedades.xml"**, el cual esta situado en la carpeta **datos** de este proyecto.

Está es una de las etapas más importantes, puesto que para poder obtener resultados debemos darle un tratamiento a los datos, al rededor del 80% del tiempo es invertido en esta etapa.

Nuestro primer paso será la elaboración de un **lexicón** el cual se define como **conjunto de lexemas en un contexto determinado** en nuestro caso será construir un lexicon específico para el contexto de enfermedades. 




## Lexicón

La idea básica en la construcción de un lexicón es optimizar la cantidad de términos en nuestro diccionario: muchas palabras permiten reconocer muchas características en un texto, pero representan un alto costo computacional; pocos términos en el lexicón es computacionalmente manejable, pero carece de capacidad para reconocer las características de un texto. Entonces el lexicón ideal es una combinación entre ambas el cual nos permite obtener características con un número de palabras no muy elevado pero tampoco demaciado reducido.

A continuación procederemos a crear nuestro lexicón con el archivo **"todas_las_enfermedades.xml"** bajado de wikipedia.

### Estructura de los datos

Primero procederemos a analizar la estructura de los datos del archivo que nos genera wikipedia, para así poder procesar los datos y limpiarlos.

In [8]:
import xml.etree.ElementTree as ET
tree = ET.parse("datos/Enfermedades_geneticas.xml")
#tree = ET.parse("datos/todas_las_enfermedades.xml")
root = tree.getroot()

print(root.tag, root.text)
for row, child in zip(range(3), root):
    print("1 ", child.tag, child.attrib)
    for grandchild in child:
        print("2   ", grandchild.tag, grandchild.attrib)
        for grand2child in grandchild:
            print("3     ", grand2child.tag, grand2child.attrib)
    print()

{http://www.mediawiki.org/xml/export-0.10/}mediawiki 
  
1  {http://www.mediawiki.org/xml/export-0.10/}siteinfo {}
2    {http://www.mediawiki.org/xml/export-0.10/}sitename {}
2    {http://www.mediawiki.org/xml/export-0.10/}dbname {}
2    {http://www.mediawiki.org/xml/export-0.10/}base {}
2    {http://www.mediawiki.org/xml/export-0.10/}generator {}
2    {http://www.mediawiki.org/xml/export-0.10/}case {}
2    {http://www.mediawiki.org/xml/export-0.10/}namespaces {}
3      {http://www.mediawiki.org/xml/export-0.10/}namespace {'key': '-2', 'case': 'first-letter'}
3      {http://www.mediawiki.org/xml/export-0.10/}namespace {'key': '-1', 'case': 'first-letter'}
3      {http://www.mediawiki.org/xml/export-0.10/}namespace {'key': '0', 'case': 'first-letter'}
3      {http://www.mediawiki.org/xml/export-0.10/}namespace {'key': '1', 'case': 'first-letter'}
3      {http://www.mediawiki.org/xml/export-0.10/}namespace {'key': '2', 'case': 'first-letter'}
3      {http://www.mediawiki.org/xml/export-0

Marcamos como 1, 2 y 3 los niveles descendientes del nodo raíz y posteriores. Una exploración detallada muestra que los nodos que nos interesan son los que marcamos a continuación:

![](imagenes/interes_export.png)



Analizando a detalle los elementos del nivel 1

In [9]:
for index, child in zip(range(len(root)), root):
    if(child.tag.find("page") < 0):
        print(index, child.tag)

0 {http://www.mediawiki.org/xml/export-0.10/}siteinfo


El unico nodo que no nos interesa a este nivel es root[0]

In [10]:
#Descartamos el primer hijo y analizamos el segundo
child = root[1]
for grandchild in child:
    if(grandchild.tag.find("title") >= 0):
        title = grandchild.text
        print(title)
    if(grandchild.tag.find("revision") >= 0): 
        for grand2child in grandchild:
            if(grand2child.tag.find("text") >= 0):
                text = grand2child.text
                print(text)

Neurofibromatosis
{{Ficha de enfermedad
| nombre         = Neurofibromatosis
| imagen         = Early neurofibromatosis.jpg
| pie            = Paciente con neurofibromatosis temprana y [[Manchas café con leche|manchas color café con leche]].
| DiseasesDB     = 
| CIE-10         = {{CIE-10|Q|85|0}}
| CIE-9          = {{CIE-9|237.7}}
| CIE-O          = {{CIE-0|9540|0}}
| CIAP-2         = A90
| OMIM           = 162200
| MedlinePlus    =
| eMedicineSubj  = derm
| eMedicineTopic = 287
| MeshID         = D017253 
}}

Las '''neurofibromatosis''' son trastornos [[Genética|genéticos]] del [[sistema nervioso]] que afectan principalmente al desarrollo y crecimiento de los tejidos de las [[célula]]s [[nervio|neurales]] (nerviosas). 

Estos trastornos ocasionan [[tumor]]es que crecen en los [[nervio]]s y producen otras anormalidades tales como cambios en la [[piel]] y deformidades en los [[huesos]]. Las neurofibromatosis ocurren en ambos sexos y en todos los grupos étnicos. Se transmiten a la desce

Ahora limpiaremos el texto:

In [14]:
from bs4 import BeautifulSoup
import re

child = root[1]
for grandchild in child:
    if(grandchild.tag.find("title") >= 0):
        title = grandchild.text
        print(title)
    if(grandchild.tag.find("revision") >= 0): 
        for grand2child in grandchild:
            if(grand2child.tag.find("text") >= 0):
                #Obtener el texto del nodo
                text = grand2child.text.lower()
                #Eliminar las cadenas que inician en {{ seguidas de 
                #cualquier cosa excepto }} y terminadas con }}
                text = re.sub('{{[^}}]*}}', '', text)
                #Misma idea, pero con el caracter especial \[ \] y Category:
                text = re.sub('\[\[Category:[^\]\]]*\]\]', '', text)
                #... y entre === ===
                text = re.sub('={3}[\w]+={3}', '', text)
                #... y entre == ==
                text = re.sub('={2}[\w]+={2}', '', text)
                #Extrae el texto de entre el código html... casi
                text = BeautifulSoup(text, "lxml").get_text()
                text = re.sub("<img([\w\W]+?)/?>", "", text)
                #Eliminar direcciones http
                text = re.sub('\w+:\/{2}[\d\w-]+(\.[\d\w-]+)*(?:(?:\/[^\s/]*))*', ' ', text) 
                #... y direcciones de correo
                text = re.sub('[\w\.-]+@[\w\.-]+', " ", text)
                #... y direcciones wikt*
                text = re.sub('\[\[wikt[^|]*|', '', text)
                #Eliminar puntos decorativos como en S.H.I.E.L.D.
                text = text.replace(".","")
                #elimina las listas que aparecen así: 
                # * algo
                # * otra cosa
                text = text.replace("*","")             
                
                words = text.split()
                #Reenplazar el usos de apostrofos
                texto = [word for word in words]
                texto = " ".join(texto)
                #Eliminar otros caracteres no alfabéticos
                texto = re.sub("[^\w*]", " ", texto)
                texto = re.sub("[\d]", " ", texto)
                #Eliminar palabras repetidas consecutivas
                words = re.sub(r'\b(\w+)(\s+\1\b)+', r'\1', texto).split()
                texto = " ".join(words)
                
                print(texto)

Neurofibromatosis
cie o ciap a omim medlineplus emedicinesubj derm emedicinetopic meshid d las neurofibromatosis son trastornos genética genéticos del sistema nervioso que afectan principalmente al desarrollo y crecimiento de los tejidos de las célula s nervio neurales nerviosas estos trastornos ocasionan tumor es que crecen en los nervio s y producen otras anormalidades tales como cambios en la piel y deformidades en los huesos las neurofibromatosis ocurren en ambos sexos y en todos los grupos étnicos se transmiten a la descendencia de forma autosómica dominante los científicos han clasificado los trastornos como neurofibromatosis tipo nf y neurofibromatosis tipo nf cada una con una alteración en un cromosoma diferente ledbetter dh rich dc o connell p et al precise localization of nf to q by balanced translocation am j hum genet y seizinger br martuza rl gusella jf loss of genes on chromosome in tumorigenesis of human acoustic neuroma nature respectivamente existen otros tipos o varia