# Archivos en Internet

<hr>

Esto no es web-scrapping, pero también podemos descargar archivos que están en Internet desde un programa y procesarlos como los archivos de disco.

Hay varias librerías: `urllib` , `urllib2` , `urllib3`, etc.

In [1]:
# La librería para acceder a archivos en Internet:

import urllib

# Elijo el Quijote, cómo no, disponible en la librería Gutenberg:

url_quijote = "https://www.gutenberg.org/cache/epub/2000/pg2000.txt"
f = urllib.request.urlopen(url_quijote)

# Ahora f es como un archivo más. Por eso podemos aplicarle la función readlines:
texto_en_bruto = f.readlines()

for linea in texto_en_bruto[613:620]:
    print(linea)

b'En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho\r\n'
b'tiempo que viv\xc3\xada un hidalgo de los de lanza en astillero, adarga antigua,\r\n'
b'roc\xc3\xadn flaco y galgo corredor. Una olla de algo m\xc3\xa1s vaca que carnero,\r\n'
b'salpic\xc3\xb3n las m\xc3\xa1s noches, duelos y quebrantos los s\xc3\xa1bados, lantejas los\r\n'
b'viernes, alg\xc3\xban palomino de a\xc3\xb1adidura los domingos, consum\xc3\xadan las tres\r\n'
b'partes de su hacienda. El resto della conclu\xc3\xadan sayo de velarte, calzas de\r\n'
b'velludo para las fiestas, con sus pantuflos de lo mesmo, y los d\xc3\xadas de\r\n'


**Observaciones**:

Los string con "b" son ejemplares de objetos de tipo bytes, en vez de strings. La consecuencia principal es que sus elementos son caracteres ASCII exclusivamente, y los caracteres de posiciones superiores a 128 tienen que estar expresados con caracteres de escape.

Arreglamos esto:

In [2]:
texto = [l.decode("utf8") for l in texto_en_bruto]

for linea in texto[613:620]:
    print(linea)

En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho

tiempo que vivía un hidalgo de los de lanza en astillero, adarga antigua,

rocín flaco y galgo corredor. Una olla de algo más vaca que carnero,

salpicón las más noches, duelos y quebrantos los sábados, lantejas los

viernes, algún palomino de añadidura los domingos, consumían las tres

partes de su hacienda. El resto della concluían sayo de velarte, calzas de

velludo para las fiestas, con sus pantuflos de lo mesmo, y los días de



**Observaciones**:

Cada línea genera dos saltos: el propio de la línea ("\r\n") y el que efectúa la instrucción `print`. Te muestro dos maneras de arreglarlo:

In [3]:
# Quitar los fines de línea de las líneas:

for linea in texto[613:620]:
    print(linea.strip())

print("-----------------------------------------------------------------")
print()

# Evitar que print ponga su propio fin de línea:

for linea in texto[613:620]:
    print(linea, end="")

En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho
tiempo que vivía un hidalgo de los de lanza en astillero, adarga antigua,
rocín flaco y galgo corredor. Una olla de algo más vaca que carnero,
salpicón las más noches, duelos y quebrantos los sábados, lantejas los
viernes, algún palomino de añadidura los domingos, consumían las tres
partes de su hacienda. El resto della concluían sayo de velarte, calzas de
velludo para las fiestas, con sus pantuflos de lo mesmo, y los días de
-----------------------------------------------------------------

En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho
tiempo que vivía un hidalgo de los de lanza en astillero, adarga antigua,
rocín flaco y galgo corredor. Una olla de algo más vaca que carnero,
salpicón las más noches, duelos y quebrantos los sábados, lantejas los
viernes, algún palomino de añadidura los domingos, consumían las tres
partes de su hacienda. El resto della concluían sayo de velarte, calzas

**Observaciones**:

Ya puestos, vamos a seleccionar las palabras y a limpiarlas, por el principio y por el final, de los caracteres de puntuación:

In [4]:
palabras = "Dijo Don Quijote: ¿Qué tal Sancho? Bien señor, pero rendido; y dolorido por los lances del día..."

print([palabra for palabra in palabras.split()])
print([palabra.strip(" ,;:.¡!¿?") for palabra in palabras.split()])

['Dijo', 'Don', 'Quijote:', '¿Qué', 'tal', 'Sancho?', 'Bien', 'señor,', 'pero', 'rendido;', 'y', 'dolorido', 'por', 'los', 'lances', 'del', 'día...']
['Dijo', 'Don', 'Quijote', 'Qué', 'tal', 'Sancho', 'Bien', 'señor', 'pero', 'rendido', 'y', 'dolorido', 'por', 'los', 'lances', 'del', 'día']


In [5]:
# Hagámoslo ahora con un fragmento de nuestro Quijote:

for linea in texto[613:625]:
    palabras = linea.strip().split()
    print(palabras)
    pal_limpias = [palabra.strip(" ,;:.¡!¿?") for palabra in palabras]
    print(pal_limpias)
    print()

['En', 'un', 'lugar', 'de', 'la', 'Mancha,', 'de', 'cuyo', 'nombre', 'no', 'quiero', 'acordarme,', 'no', 'ha', 'mucho']
['En', 'un', 'lugar', 'de', 'la', 'Mancha', 'de', 'cuyo', 'nombre', 'no', 'quiero', 'acordarme', 'no', 'ha', 'mucho']

['tiempo', 'que', 'vivía', 'un', 'hidalgo', 'de', 'los', 'de', 'lanza', 'en', 'astillero,', 'adarga', 'antigua,']
['tiempo', 'que', 'vivía', 'un', 'hidalgo', 'de', 'los', 'de', 'lanza', 'en', 'astillero', 'adarga', 'antigua']

['rocín', 'flaco', 'y', 'galgo', 'corredor.', 'Una', 'olla', 'de', 'algo', 'más', 'vaca', 'que', 'carnero,']
['rocín', 'flaco', 'y', 'galgo', 'corredor', 'Una', 'olla', 'de', 'algo', 'más', 'vaca', 'que', 'carnero']

['salpicón', 'las', 'más', 'noches,', 'duelos', 'y', 'quebrantos', 'los', 'sábados,', 'lantejas', 'los']
['salpicón', 'las', 'más', 'noches', 'duelos', 'y', 'quebrantos', 'los', 'sábados', 'lantejas', 'los']

['viernes,', 'algún', 'palomino', 'de', 'añadidura', 'los', 'domingos,', 'consumían', 'las', 'tres']
['viern

## Referencias

Ya decíamos que esto no es *web scrapping*. Si esto te ha gustado, apriétate el cinturón y sigue el camino con Beautiful Soup, o amplía con el manejo de expresiones regulares, o si estás interesado en el procesamiento de texto escrito en español o inglés, adeante con nltk...