[![img/pythonista.png](img/pythonista.png)](https://www.pythonista.io)

# Introducción a Internet y *HTTP*. 

## Breve introducción a Internet.

Internet es una red de comunicaciones global basada en [la familia de protocolos de internet](https://es.wikipedia.org/wiki/Familia_de_protocolos_de_internet), también conocida como el conjunto de protocolos *TCP/IP*. A través de Internet y sus diversos protocolos es posible acceder a servicios tan diversos como:

* Correo electrónico.
* Mensajería instantánea y chats.
* Comercio electrónico.
* Telefonia.
* Transmisión de audio y video.
* Acceso a la web.

Los protocolos *TPC/IP* fueron desarrollados inicialmente por [Vinton Cerf](https://es.wikipedia.org/wiki/Vinton_Cerf) y [Robert Kahn](https://es.wikipedia.org/wiki/Robert_Kahn) en la década de 1970 para el proyecto [ARPANET](https://es.wikipedia.org/wiki/ARPANET), el cual posteriormente evolucionó en Internet.


**Nota:** En este capítulo se mencionarán brevemente los protocolos [*IP*](https://es.wikipedia.org/wiki/Protocolo_de_internet), [*DNS*](https://es.wikipedia.org/wiki/Sistema_de_nombres_de_dominio), [*SSL/TLS*](https://es.wikipedia.org/wiki/Transport_Layer_Security) y [*HTTPS*](https://es.wikipedia.org/wiki/Protocolo_seguro_de_transferencia_de_hipertexto), mientras que el protocolo [*HTTP*](https://es.wikipedia.org/wiki/Protocolo_de_transferencia_de_hipertexto) será el tema central del curso.

### El modelo *OSI*.

El [modelo *OSI*](https://es.wikipedia.org/wiki/Modelo_OSI), por las siglas en inglés de "modelo de interconexión de sistemas abiertos" correspondiente al estándar *ISO/IEC 7498-1* es un modelo de referencia que facilita la comunicación e interacción entre diversos componentes de una red de comunicaciones de datos.

El modelo *OSI* consta de 7 capas:

1. Capa física.
* Capa de enlace.
* Capa de red.
* Capa de transporte.
* Capa de sesión.
* Capa de presentación.
* Capa de aplicación.

Cada uno de los protocolos de la familia *TCP/IP* es implementado en alguna de estas capas.

Para mayor referencia sobre los protocolos *TCP/IP* y su implementación en las capas del modelo *OSI* es posible consultar la siguiente liga.

https://en.wikipedia.org/wiki/List_of_network_protocols_(OSI_model)

## Localizadores Uniformes de Recursos (*URL*).

Es posible acceder a un recurso disponble en Internet mediante los "Localizadores Uniformes de Recursos, o *URL* por sus siglas en inglés. 


### Estructura de una *URL*.

Una *URL* presenta la siguiente estructura general: 

Para un recurso que requiere de autenticación:
 
```
<esquema>://<usuario>:<contraseña>@<anfitrión>:<puerto>/<ruta>?<consultas>
```

Para un recurso que no requiere de autenticación:
 
```
<esquema>://<anfitrión>:<puerto>/<ruta>?<consultas>
```

Donde:

* ```<esquema>``` es el protocolo o medio que se utilizará para acceder a un recurso.
    * Para *HTTP* se usa ```http```.
    * Para *HTTPS* se usa ```https```.
    * Para un recuros en el sistema de archivos local se usa ```file```. 
* ```<usuario>``` es el nombre del usuario con el que se accederá al recurso en el caso de que el acceso requiera de autenticación.
* ```<contraseña>```es la contraseña del usuario con el que se accederá al recurso en el caso de que el acceso requiera de autenticación.
* ```<anfitrión>``` indica la dirección en la que se encuentra el sistema anfitrión (host) al que se quiere acceder.
* ```<puerto>``` es el puerto en el que el servicio está habilitado.
    * *HTTP* utiliza el puerto ```80``` por defecto.
    * *HTTPS* utiliza el puerto ```443``` por defecto.
* ```<ruta>``` es la ruta donde se encuentra localizado el recurso dentro del servidor.
* ```<consulta>``` es una sucesión de parámtestros que pueden ser procesados por el sistema anfitrión.

### Estructura de una consulta (query).

Las consultas son una sucesión de parámetros ```<nombre>=<valor>``` separados por el caracter ```&``` de la siguiente forma:

```
<nombre 1>=<valor 1>&<nombre 2>=<valor 2>&...&<nombre n>=<valor m>
```

Los parámetros no se utilizan para localizar un recurso. Los parámetros datos que pueden ser procesados por el sistema anfitrión.

**Ejemplo:**

* La siguiente *URL* realizará lo siguiente:
    * Realizará una conexión *HTTPS* en el puerto ```443``` con el sistema anfitrión localizado en ```www.google.com```.
    * buscará al recurso localizado en la ruta ```search```.
    * Enviará el parámetro ```q=pythonista```.

https://www.google.com/search?q=pythonista

Al ingresar la *URL* desde un navegador, el resultado será la búsqueda del término ```pythonista``` en Google.

<img src="img/01/google_py.png" width="500">

## Acceso a un anfitrión (*host*).

Los sistemas anfitriones son equipos o sistemas de cómputo los cuales están distribuídos por todo el mundo y cuyos servicios pueden ser accedidos de dos maneras:

* Mediante su dirección *IP*.
* Mediante su nombre de dominio.

## Direcciones *IP*.

Una [dirección *IP*](https://es.wikipedia.org/wiki/Direcci%C3%B3n_IP) es un número único que identifica a un nodo de red de un servidor específico. Un servidor puede tener más de un nodo de red, por lo que cada nodo tendría una direccion *IP* diferente y única.

La "Internet Asigned Numbres Authority" ([*IANA*](https://www.iana.org/)) es la organización encargada de asignar y distribuir los segmentos de direcciones *IP* a las diversas organizaciones privadas y gubernamentales.

## Direcciones *IP* versión 4 (*IPv4*).

La especificación de los identificadores *IPv4* fue definida por la "Internet Engineering Task Force" ([*IETF*](https://ietf.org/about/)) en el [*RFC 6864*](https://tools.ietf.org/html/rfc6864).

Las direcciones *IPv4* son las de uso más común. Corresponden a un número de 32 bits expresado por 4 segmentos de números que van de ```0``` a ```255``` (8 bits) separados por un punto ```.```.


**Ejemplo:**

La dirección *IPv4* donde se encuentra el servidor de Pythonista® es ```142.4.217.131```.

Debido al auge de Internet, a partir del año 2011 la reserva de direcciones *IPv4* se ha agotado. Sin embargo, aún cuando las reservas están agotadas, todavía es posible reutilizar y administrar las direcciones *IPv4* existentes.

### Clases de redes IPv4.

A partir de la totalidad de direcciones *IP* disponibles se distribuyeron varias redes de diversas clases.  


| Tipo | Rango | Número máximo de direcciones |
| :---------: | :----: | :---: |
| Clase A | ```1.0.0.1``` a ```126.255.255.254```| 16 millones en 127 redes |
| Clase B |	```128.1.0.1``` a ```191.255.255.254``` | 65,000 en 16,000 redes |
| Clase C |	```192.0.1.1``` a ```223.255.254.254``` | 254 en 2 millones de redes |
| Clase D |	```224.0.0.0``` a ```239.255.255.255``` | Reservada |
| Clase E | ```240.0.0.0``` a ```254.255.255.254``` | Reservada | 

### Las "intranets" y los rangos de direcciones *IP* privados.

Una intranet es una red privada basada en el conjunto de protocolos *TCP/IP*, en la que a cada interfaz de red de los sistemas locales se le asigna una dirección *IP* en un rango privado y sólo es posible acceder a Internet por medio de un [ruteador](https://es.wikipedia.org/wiki/Router).

Los rangos de direcciones *IP* privados son un conjunto de direcciones que pueden ser asignados a una intranet sin que existan colisiones con las direcciones *IP* públicas.

Los segmentos de red para direcciones *IP* privadas son:

* Clase A que va de ```10.0.0.0``` a ```10.255.255.255```.
* Clase B que va de ```172.16.0.0``` a ```172.31.255.255```.
* Clase C que va de ```192.168.0.0``` a ```192.168.255.255```.

### *CIDR*.

*Classless Inter-Domain Routing* (*CIDR*) es un estándar de red para la interpretación de direcciones *IP*. los bloques *CIDR* comparten una misma secuencia inicial de bits en la representación binaria de sus direcciones *IP*.

Los bloques CIDR *IPv4* se identifican usando una sintaxis similar a la de las direcciones *IPv4*: cuatro números decimales separados por puntos, seguidos de una barra de división y un número de 0 a 32.

Los primeros cuatro números decimales son la dirección *IPv4*, y el número tras la barra es la longitud de prefijo, contando desde la izquierda, y representa el número de bits comunes a todas las direcciones incluidas en el bloque *CIDR*.

El número de *IPs* que define la longitud del prefijo corresponde a $ 2^{32 - n} $. 

**Ejemplo:**

El bloque: ```201.107.4.0/13``` define el rango de 524,288 direcicones *IP* que van de ```201.104.0.0``` a ```201.111.255.255```

```

https://es.wikipedia.org/wiki/Classless_Inter-Domain_Routing

https://www.ipaddressguide.com/cidr

## Direcciones *IP* versión 6 (*IPv6*).

A partir de la necesidad de contar con un mayor número de direcciones *IP* disponibles, fue publicada la especificación de los identificadores *IPv6*, la cual fue definida en el [*RFC 3513*](https://tools.ietf.org/html/rfc3513).

Las direcciones *IPv6* son un número de 128 bits expresado por 8 segmentos de números hexadecimales que van de ```0``` a ```FFFF``` (```65535```), separados por dos puntos ```:```. Los valores iguales a ```0``` pueden ser omitidos.

**Ejemplo:**

La dirección *IPv6* donde se encuentra el servidor de Pythonista® es ```fe80::a6bf:1ff:fe08:aee4```.

### *DNS*, dominios y subdominios.

Aún cuando las direcciones *IP* pueden identificar con precisión a un *host*, éstas no son fáciles de memorizar por parte de los seres humanos. Es  por ello que fueron creados los "nombres de dominio" y el "sistema de nombres de dominio" o [*DNS*](https://es.wikipedia.org/wiki/Sistema_de_nombres_de_dominio) por sus siglas en inglés.

La "Corporación de Internet para la Asignación de Nombres y Números" o [*ICANN*](
https://www.icann.org/) por sus siglas en  inglés, es la organización encargada en definir y asignar y distribuir los nombres de dominos válidos de Internet.

Gracias al *DNS* es posible relacionar uno o más nombres de dominio a una dirección *IP* utilizando una estructura como la siguiente.

```
<subdominio>.<nombre de dominio>
```

Donde:

* ```<nombre de dominio>``` es un nombre de domino válido que apunta a una dirección IP.
* ```<subdominio>``` es una extensión del nombre de dominio que puede apuntar a una dirección *IP* distinta a la del dominio. Los subdominios permiten ofrecer servicios diferenciados dentro de un mismo dominio. 

**Ejemplos:**

* ```google.com``` es el dominio propiedad de la empresa Google.
* ```www.google.com``` apunta al servicio de búsqueda de Google.
* ```docs.google.com``` apunta al servicio de gestión de documentos de Google.
* ```mail.google.com``` apunta al servicio de correo electrónico de Google.

### *Registars*.

Los nombres de dominio pueden ser adquiridos mediante un "*registrar*" autorizado por *ICANN*, el cual por lo general también ofrece servicios de *DNS*.

Una vez adquirido un dominio es posible definir cualquier número de subdominios relacionados mediante el proveedor de servicios *DNS*.

### Dominios de nivel superior (*TLD*).

Un nombre de dominio se compone de un nombre y un "dominio de nivel superior" o [*TLD*](https://en.wikipedia.org/wiki/Top-level_domain), por sus siglas en inglés,  de la siguiente forma.
```
<nombre>.<TLD>
```

Los TLD se utilizan primordialmente para:
* Definir la actividad de una organilzación, como es el caso de:
    * ```.com``` para organizaciones comerciales.
    * ```.edu``` para organizaciones educativas. 
    * ```.net``` para organizaciones especializadas en comunicaciones de red. 
    * ```.org``` para organizaciones sin fines de lucro.
    * ```.mil``` para organizaciones militares. 
* Definir la región o país al que pertence la organización, como es el caso de:
    * ```.mx``` para México.
    * ```.es``` para España.
    * ```.io``` para la región del Oceano Índico.
    * ```.lat``` para Latinoamérica.
* Definir el tipo de servicio que se ofrece, como es el caso de:
    * ```.info``` para servicios de información.
    * ```.xxx``` para servicios de entretenimiento para adultos.
    * ```mobi``` para aplicaciones móviles.

La gestión de cada *TLD* puede ser asignada a una organización en particular, la cual fija las reglas para poder adquirir un dominio con dicho *TLD*.

Los *TLD* pueden combinarse de tal forma que describan una actividad en una región.

**Ejemplos:**

* ```google.com``` es el dominio primario de Google.
* ```google.com.mx``` es el dominio de Google para México.
* ```google.com.es``` es el dominio de Google para España.

### *localhost*.

Es común que al desarrollar una aplicación web o diseñar un sitio web se haga desde una máquina de escritorio la cual ofrecería un servicio web local para consulta interna.

En la mayoría de los sistemas, el nombre ```localhost``` permite conectarse a un servicio que corre en el mismo equipo sin necesidad de contar con una interfaz de red. Este nombre por lo general está relacionado con la dirección *IP* ```127.0.0.1```.

Por seguridad, muchas herramientas de desarrollo de aplicaciones web están configuradas por defecto para conectarse exclusivamente a ```localhost```.

**Ejemplo:**

En caso de estar viendo este contenido desde una notebook de *Jupyter* corriendo desde un equipo propio, es muy probable que el navegador apunte a ```http://localhost:8888```.

## Los protocolos *HTTP* y *HTTPS*.

### El protocolo  *HTTP*.

*HTTP* es una especificación que forma parte de la familia de protocolos de Internet y su nombre se refiere a las siglas en inglés de "Protocolo de Transferencia de Hipertexto".

Creado por [Tim Berners-Lee](https://es.wikipedia.org/wiki/Tim_Berners-Lee) en 1989, es el protocolo utilizado para acceder y publicar en la *World Wide Web*, o simplemente la web.

Actualmente el [World Wide Web Consortium (*W3C*)](https://www.w3.org) es la entidad encargada, entre otras cosas, de publicar la especificación del protocolo *HTTP*. La versión más reciente es *HTTP/2*, pero la mayoría de los servidores utilizan la versión *HTTP/1.1*.

Para saber mas sobre *HTTP* se puede consultar el siguiente enlace:

https://developer.mozilla.org/es-ES/docs/Web/HTTP

#### Características de *HTTP*.

*HTTP* está basado en  una arquitectura cliente-servidor en la que se intercambian peticiones (requests) por parte del cliente y respuestas (responses) por parte del servidor y tiene las siguientes caracterísiticas. 

* **Sin estado.** Es decir, que cada una de las transacciones request/response que se realizan no afectan al estado del cliente o del servidor, además de que cada transacción es totalmente independiente de el resto.
* **Independiente del contenido.** Aún cuando es muy común que un servidor *HTTP* entregue documentos en formato *HTML*, no existe restricción en el tipo de recurso al que se pueda acceder.
* **Sin conexión.** Una vez que la transacción petición/respuesta es terminada, la conexión entre cliente y servidor es destruida.


### El protocolo *HTTPS*.

*HTTPS* es una variación de *HTTP* que permite cifrar las comunicaciones entre el cliente y el servidor por medio del protocolo [*SSL/TLS*](https://es.wikipedia.org/wiki/Transport_Layer_Security).

Organizaciones como Google y Mozilla dan preferencia a los sitios que tienen implementado *HTTPS* e incluso advierten que los sitios que no cuentan con dicha implementación son inseguros.

## Conexiones *HTTP*.

Una conexion entre un cliente y un servidor web consiste en un intercambio de mensajes en ambas direcciones. 

Las características de seguridad, duración y estado de estas conexiones son el resultado de una negociación entre el cliente y el servidor.

## Mensajes *HTTP*.

Las comunicaciones entre el cliente y el servidor consisten en un serie de intercambios de mensajes.

* Los mensajes que envía un cliente a un servidor mediante una *URL* se conocen como "peticiones" (*requests*).
* Los mensajes que un servidor envía al cliente después de haber procesado la petición se conocen como "respuestas" (*responses*).

### Estructura de un mensaje de *HTTP*.

Los mensajes de *HTTP* son conjuntos de datos transmitidos en formato binario en codificación [*ASCII*](https://es.wikipedia.org/wiki/ASCII).

Tanto las peticiones como las respuestas tiene una estructura compuesta primordialmente por:

* Una línea de inicio, con la descripción general del mensaje.
* Una serie de encabezados (headers), los cuales corresponden a ciertos campos que definen las caracterśiticas del mensaje y que se encuentran definidos en la [*RFC 4229*]( https://tools.ietf.org/html/rfc4229).
* Una línea en blanco.
* El cuerpo (body) del mensaje, el cual contienen los datos del mensaje.

Para conocer más con respecto a los mensajes *HTTP* es posible consultar el siguiente enlace:

https://developer.mozilla.org/es/docs/Web/HTTP/Messages

## Métodos de *HTTP*.

El protocolo *HTTP* define métodos o "verbos", los cuales permiten realizar peticiones específicas entre un cliente y un servidor. Algunos de los métodos más utilizados son:

* ```GET``` se utiliza para obtener los datos de un recurso a partir de una *URL*. La información enviada mediante ```GET``` puede ser añadida a marcadores y puede ser regsitrada en las bitácoras del servidor.
* ```HEAD``` es similar al método ```GET```, pero el servidor sólo proporcionará los encabezados respuesta y el mensaje de estado resultante.
* ```POST``` se utiliza para cear un recurso. Los datos enviados no son expuestos en la *URL* sino que son enviados dentro de la estructura de la petición. 
* ```PUT``` se utiliza para sustituir un recurso existente y su estructura es similar a la de ```POST```.
* ```PATCH``` es un método que se utiliza para modificar parcialmente un recurso.
* ```DELETE``` es un método que se utiliza para eliminar un recurso.
* ```OPTIONS``` es un método que se utiliza para para describir las opciones de comunicación para el recurso de destino.
* ```CONNECT``` es un método que permite crear un túnel capaz de de contener un flujo (stream) ded datos.
* ```TRACE``` es un método que describe la ruta y las transacciones de una conexión.

La sdiguiente liga contiene más informaciójn sobre los métodos *HTTP*: 

https://developer.mozilla.org/es/docs/Web/HTTP/Methods.

### Idempotencia.

Un método es 'idempotente' cuando no importan las veces que se envíe la misma petición, ésta dará el mismo resultado.

### Seguridad.

Un método se considera seguro si no modifica los recursos a los que accede.

|  Método  |  Idempotente  |  Seguro  |
| -------- | ------------- | -------- |
|  ```GET```  | Sí | Sí |
|  ```HEAD```  | Sí | Sí |
|  ```DELETE```  |Sí| No |
|  ```POST``` | No | No|
|  ```PUT```  | Sí | No|
|  ```PATCH``` |No| No| 

**Advertencia:** La seguridad de un método depende de su implementación y aún cuando se considera como una mala práctica, es posible que los métodos como ```GET``` sean capaces de modificar al recurso al que acceden.

## Códigos de estado.

Los códigos de estado permiten informar al cliente sobre la manera en la que ha sido procesada la petición. Está conformado por un número entero de 3 dígitos. En caso de que la petición haya sido procesada exitosamente, el servidor regresa el número ```200```.

### Tipos por el número inicial:

* 1xx Información.
* 2xx Éxito.
* 3xx Redireccionamiento.
* 4xx Error del cliente.
* 5xx Error del servidor.

Puede consultar los mensajes de estado de *HTTP* en la siguiente liga: http://www.restapitutorial.com/httpstatuscodes.html

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2021.</p>