Taller 2.ipynb

{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "<img src='https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcQ-VfNtOyJbsaxu43Kztf_cv1mgBG6ZIQZEVw&usqp=CAU'>\n",
    "\n",
    "# Procesamiento de Lenguage Natural\n",
    "\n",
    "## Taller #2: Adquisición de textos"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Punto 1:\n",
    "\n",
    "- Descomprimir el archivo `.zip` de los poemas\n",
    "- Leer cada uno de sus archivos\n",
    "- Responder: ¿Cuál archivo tiene el mayor número de palabras?"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Vamos a importr las librerias\n",
    "import bs4 as bs\n",
    "import urllib.request\n",
    "import pandas as pd\n",
    "import os\n",
    "from zipfile import ZipFile"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "direccion ='archivos/poemas.zip'"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [],
   "source": [
    "#descomprimir el archivo zip\n",
    "\n",
    "with ZipFile(direccion) as archivo:\n",
    "    archivo.extractall('archivos/')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "A un general (Julio Corta╠üzar).txt\n",
      "Aqui╠ü (Octavio Paz).txt\n",
      "Si╠ündrome (Mario Benedetti).txt\n"
     ]
    }
   ],
   "source": [
    "for raiz,dirs,archivos in os.walk('archivos/poemas'):\n",
    "    for archivo in archivos:\n",
    "        print(archivo)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Abrir archivo en Python\n",
    "with open(\"archivos/poemas/A un general (Julio Corta╠üzar).txt\") as archivo:\n",
    "    poema1 = archivo.read()\n",
    "with open(\"archivos/poemas/Aqui╠ü (Octavio Paz).txt\") as archivo:\n",
    "    poema2 = archivo.read()\n",
    "with open(\"archivos/poemas/Si╠ündrome (Mario Benedetti).txt\") as archivo:\n",
    "    poema3 = archivo.read()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [],
   "source": [
    "pom=poema1.split()\n",
    "pom1=poema2.split()\n",
    "pom2=poema3.split()\n",
    "lista=[pom,pom1,pom2]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "El poema mas largo contiene  53 palabras, y es el poema en la posicion  2\n",
      "['TodavÃ\\xada', 'tengo', 'casi', 'todos', 'mis', 'dientes', 'casi', 'todos', 'mis', 'cabellos', 'y', 'poquÃ\\xadsimas', 'canas', 'puedo', 'hacer', 'y', 'deshacer', 'el', 'amor', 'trepar', 'una', 'escalera', 'de', 'dos', 'en', 'dos', 'y', 'correr', 'cuarenta', 'metros', 'detrÃ¡s', 'del', 'Ã³mnibus', 'o', 'sea', 'que', 'no', 'deberÃ\\xada', 'sentirme', 'viejo', 'pero', 'el', 'grave', 'problema', 'es', 'que', 'antes', 'no', 'me', 'fijaba', 'en', 'estos', 'detalles.']\n"
     ]
    }
   ],
   "source": [
    "var=0\n",
    "for i in lista:\n",
    "    if var < len(i):\n",
    "        var = len(i)\n",
    "        poema= lista.index(i)\n",
    "print(\"El poema mas largo contiene \", var , \"palabras, y es el poema en la posicion \",poema)\n",
    "print(lista[poema])"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Punto 2:\n",
    "\n",
    "- Hacer Web Scraping de 10 biografías en Wikipedia (en búcle)\n",
    "- Obtener el **encabezado** de cada biografía\n",
    "- Obtener todos los **contenidos** y **etiquetas de título** asociados a los **links** del primer párrafo"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [],
   "source": [
    "#Vamos hacer una lista con las URL \n",
    "links = ['https://es.wikipedia.org/wiki/Juanes','https://es.wikipedia.org/wiki/Shakira','https://es.wikipedia.org/wiki/Radamel_Falcao_Garc%C3%ADa','https://es.wikipedia.org/wiki/James_Rodr%C3%ADguez','https://es.wikipedia.org/wiki/Caterine_Ibarg%C3%BCen','https://es.wikipedia.org/wiki/Nairo_Quintana','https://es.wikipedia.org/wiki/Egan_Bernal','https://es.wikipedia.org/wiki/Orlando_Duque','https://es.wikipedia.org/wiki/Juan_Guillermo_Cuadrado','https://es.wikipedia.org/wiki/Duv%C3%A1n_Zapata']"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "['https://es.wikipedia.org/wiki/Juanes', 'https://es.wikipedia.org/wiki/Shakira', 'https://es.wikipedia.org/wiki/Radamel_Falcao_Garc%C3%ADa', 'https://es.wikipedia.org/wiki/James_Rodr%C3%ADguez', 'https://es.wikipedia.org/wiki/Caterine_Ibarg%C3%BCen', 'https://es.wikipedia.org/wiki/Nairo_Quintana', 'https://es.wikipedia.org/wiki/Egan_Bernal', 'https://es.wikipedia.org/wiki/Orlando_Duque', 'https://es.wikipedia.org/wiki/Juan_Guillermo_Cuadrado', 'https://es.wikipedia.org/wiki/Duv%C3%A1n_Zapata']\n"
     ]
    }
   ],
   "source": [
    "print(links)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "https://es.wikipedia.org/wiki/Juanes\n",
      "https://es.wikipedia.org/wiki/Shakira\n",
      "https://es.wikipedia.org/wiki/Radamel_Falcao_Garc%C3%ADa\n",
      "https://es.wikipedia.org/wiki/James_Rodr%C3%ADguez\n",
      "https://es.wikipedia.org/wiki/Caterine_Ibarg%C3%BCen\n",
      "https://es.wikipedia.org/wiki/Nairo_Quintana\n",
      "https://es.wikipedia.org/wiki/Egan_Bernal\n",
      "https://es.wikipedia.org/wiki/Orlando_Duque\n",
      "https://es.wikipedia.org/wiki/Juan_Guillermo_Cuadrado\n",
      "https://es.wikipedia.org/wiki/Duv%C3%A1n_Zapata\n"
     ]
    }
   ],
   "source": [
    "for i in links:\n",
    "    print(i)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [],
   "source": [
    "#Vamos a descargar las paginas web\n",
    "fuente=[]\n",
    "for i in links:\n",
    "    request= urllib.request.urlopen(i)\n",
    "    fuente=fuente + [request.read()]\n",
    "    request.close() "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [],
   "source": [
    "soup=[]\n",
    "for i in fuente:\n",
    "    soup = soup + [bs.BeautifulSoup(i, 'html.parser')]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[['Juanes'], ['Shakira'], ['Radamel Falcao García'], ['James Rodríguez'], ['Caterine Ibargüen'], ['Nairo Quintana'], ['Egan Bernal'], ['Orlando Duque'], ['Juan Guillermo Cuadrado'], ['Duván Zapata']]\n"
     ]
    }
   ],
   "source": [
    "encabezados=[]\n",
    "for i in soup:\n",
    "    encabezados = encabezados + [i.find('h1').contents]\n",
    "print(encabezados)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {},
   "outputs": [],
   "source": [
    "Cuerpo=[]\n",
    "for i in soup:\n",
    "    Cuerpo = Cuerpo + [i.find('p')]\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[<a href=\"/wiki/Carolina_del_Pr%C3%ADncipe\" title=\"Carolina del Príncipe\">Carolina del Príncipe</a>, <a href=\"#cite_note-Nombre-1\"><span class=\"corchete-llamada\">[</span>1<span class=\"corchete-llamada\">]</span></a>, <a href=\"/wiki/Santa_Marta_(Colombia)\" title=\"Santa Marta (Colombia)\">Santa Marta</a>, <a href=\"#cite_note-4\"><span class=\"corchete-llamada\">[</span>4<span class=\"corchete-llamada\">]</span></a>, <a href=\"/wiki/Orden_de_Boyac%C3%A1\" title=\"Orden de Boyacá\">ODB</a>, <a href=\"/wiki/Giro_de_Italia\" title=\"Giro de Italia\">Giro de Italia</a>, <a href=\"/wiki/Tour_de_Francia\" title=\"Tour de Francia\">Tour de Francia</a>, <a class=\"mw-redirect\" href=\"/wiki/Santiago_de_Cali\" title=\"Santiago de Cali\">Cali</a>, <a href=\"/wiki/Necocl%C3%AD\" title=\"Necoclí\">Necoclí</a>, <a href=\"/wiki/Padilla_(Cauca)\" title=\"Padilla (Cauca)\">Padilla, Cauca</a>]\n"
     ]
    }
   ],
   "source": [
    "contenido=[]\n",
    "for i in Cuerpo:\n",
    "    contenido = contenido +[i.find('a')]\n",
    "print(contenido)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[['Carolina del Príncipe'], [<span class=\"corchete-llamada\">[</span>, '1', <span class=\"corchete-llamada\">]</span>], ['Santa Marta'], [<span class=\"corchete-llamada\">[</span>, '4', <span class=\"corchete-llamada\">]</span>], ['ODB'], ['Giro de Italia'], ['Tour de Francia'], ['Cali'], ['Necoclí'], ['Padilla, Cauca']]\n"
     ]
    }
   ],
   "source": [
    "contenido=[]\n",
    "for i in Cuerpo:\n",
    "    contenido = contenido +[i.find('a').contents]\n",
    "print(contenido)"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.7.4"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}