# Socket

## Inicializar Socket

Los sockets nos sirven para leer datos desde direcciones web

In [1]:
import socket

mysock = socket.socket(socket.AF_INET, socket.SOCK_STREAM) # Crea el socket
mysock.connect(('data.pr4e.org', 80)) # Conecta el socket a una direccion
cmd = 'GET http://data.pr4e.org/romeo.txt HTTP/1.0\r\n\r\n'.encode() # Manda un comando a esa direccion web y lo codifica en UNICODE
mysock.send(cmd)

while True:
    data = mysock.recv(512)
    if len(data) < 1:
        break
    print(data.decode())
mysock.close()

HTTP/1.1 200 OK
Date: Thu, 31 Aug 2023 23:50:44 GMT
Server: Apache/2.4.18 (Ubuntu)
Last-Modified: Sat, 13 May 2017 11:22:22 GMT
ETag: "a7-54f6609245537"
Accept-Ranges: bytes
Content-Length: 167
Cache-Control: max-age=0, no-cache, no-store, must-revalidate
Pragma: no-cache
Expires: Wed, 11 Jan 1984 05:00:00 GMT
Connection: close
Content-Type: text/plain

But soft what light through yonder window breaks
It is the east and Juliet is the sun
Arise fair sun and kill the envious moon
Who is already s
ick and pale with grief



# urllib

La libreria urllib no es mas que una libreria que implementa y simplifica toda la libreria de sockets, para que esta sea mas facil de usar y comunicarse con direcciones web

## Codigo equivalente de Sockets en urllib

In [2]:
import urllib

fhand = urllib.request.urlopen('http://data.pr4e.org/romeo.txt') # Regresa lo que haya en esa direccion URL pero codificado
for line in fhand:
    print(line.decode().strip()) # Imprime y decodifica la informacion de la URL


But soft what light through yonder window breaks
It is the east and Juliet is the sun
Arise fair sun and kill the envious moon
Who is already sick and pale with grief


## Trata tu respuesta como un archivo

Podras usar tu respuesta como un archivo comun y corriente, solo no olvides de siempre decodificar los datos

In [3]:
import urllib

fhand = urllib.request.urlopen('http://data.pr4e.org/romeo.txt') # Regresa lo que haya en esa direccion URL pero codificado

count = dict()
for line in fhand:
    words = line.decode().split() # Imprime y decodifica la informacion de la URL
    for word in words:
        count[word] = count.get(word, 0) + 1
        
print(count)

{'But': 1, 'soft': 1, 'what': 1, 'light': 1, 'through': 1, 'yonder': 1, 'window': 1, 'breaks': 1, 'It': 1, 'is': 3, 'the': 3, 'east': 1, 'and': 3, 'Juliet': 1, 'sun': 2, 'Arise': 1, 'fair': 1, 'kill': 1, 'envious': 1, 'moon': 1, 'Who': 1, 'already': 1, 'sick': 1, 'pale': 1, 'with': 1, 'grief': 1}


# BeautifulSoup

Leer texto es facil pero leer codigos HTML puede ser mas complicado, por lo cual tendremos a nuestra disposicion una libreria que nos facilitara esta lectura

In [20]:
import urllib
from bs4 import BeautifulSoup

url = 'https://www.coursera.org'
html = urllib.request.urlopen(url).read() # Regresa el HTML, el cual leemos pero codificado
soup = BeautifulSoup(html, 'html.parser') # Usa lo que acabamos de recibir y lo divide en partes HTML

tags = soup('a') # Devuelve las etiquetas de tipo 'a'
for tag in tags:
    print(tag.get('href', None)) # Imprime todos los href dentro de las etiquetas 'a' que encontro
        

https://www.coursera.org/
https://www.coursera.org/business?utm_content=corp-to-home-for-enterprise&utm_campaign=website&utm_medium=coursera&utm_source=header&utm_term=b-out
https://www.coursera.org/campus?utm_content=corp-to-landing-for-campus&utm_campaign=website&utm_medium=coursera&utm_source=header&utm_term=b-out
https://www.coursera.org/government?utm_content=corp-to-landing-for-government&utm_campaign=website&utm_medium=coursera&utm_source=header&utm_term=b-out
/
/degrees
/mastertrack
/certificates/learn
/career-academy/?trk_ref=globalnav
/?authMode=login
/?authMode=signup
https://www.coursera.org/coding-challenges?utm_medium=coursera&utm_source=bluebanner&utm_campaign=coding
/business?utm_campaign=website&utm_content=banner-from-B2C-home-try-business&utm_medium=coursera&utm_source=enterprise
/about/partners
/illinois
/duke
/google
/umich
/ibm
/imperial
/stanford
/penn
/career-academy?trk_ref=camodule
/professional-certificates/google-project-management?trk_ref=camodule
/professi