# El lenguaje de programación Python🐍 - Intermedio

 **<div style="text-align: right"> Samuel Arturo Garrido Sánchez</div>**

Python es un lenguaje de programación **multiparadigma**, muy útil para demasiadas ramas de la investigación, desarrollos y procesos. 
Su filosofía radica en un código legible que cualquier persona no enfocada en el área de programación, pueda comprender.

![](img/let.png)

# ¿Qué es Python?

Python es un lenguaje de programación interpretado cuya filosofía hace hincapié en la legibilidad de su código.

Se trata de un lenguaje de programación multiparadigma, ya que soporta orientación a objetos, programación imperativa y, en menor medida, programación funcional. Es un lenguaje interpretado, dinámico y multiplataforma.

Es administrado por la Python Software Foundation. Posee una licencia de código abierto, denominada Python Software Foundation License, que es compatible con la Licencia pública general de GNU a partir de la versión 2.1.1, e incompatible en ciertas versiones anteriores.

![](img/python.jpg)

### Las ventajas de Python pueden ser muchas pero en las que destacan:

- La cantidad de bibliotecas que contiene, tipos de datos y funciones incorporadas en el propio lenguaje, que ayudan a realizar muchas tareas habituales sin necesidad de tener que programarlas desde cero.

- La sencillez y velocidad con la que se crean los programas. Un programa en Python puede tener de 3 a 5 líneas de código menos que su equivalente en Java o C.

- La cantidad de plataformas en las que podemos desarrollar, como Unix, Windows, OS/2, Mac, Amiga y otros.

- Además, Python es gratuito, incluso para propósitos empresariales.

## Expresiones Regulares 📝

Una expresión regular es un modelo con el que el motor de expresiones regulares intenta buscar una coincidencia en el texto de entrada. Un modelo consta de uno o más literales de carácter, operadores o estructuras.

**En otras palabras, buscamos PATRONES.**


La siguiente tabla nos muestra algunas formas de poder denotar un conjunto de símbolos por ejemplo un dígito puede escribirse como `\d` pero `\d+` significa todos los números de cualquier longitud.`\w` significa una letra pero `\w+` significa todas las palabras habidas y por haber de todos los idiomas. 

![](img/picu.png)


Digamos que somos desarrolladores de software en una compañía donde un programa nos genera un **LOG** (traducción: Bitácora) y este es un texto largo largo largo. Un log es como el chismógrafo donde cada acción que hagas o los printf() que coloque el programador van al registro, como su nombre lo dice, una bitácora.

Ejemplo:

    109.169.248.247 - - [12/Dec/2015:18:25:11 +0100] "GET /administrator/ HTTP/1.1" 200 4263 
    109.169.248.247 - - [13/Dec/2015:18:25:11 +0100] "POST /administrator/index.php HTTP/1.1" 200 4494 
    46.72.177.4 - - [15/Dec/2015:18:31:08 +0100] "GET /administrator/ HTTP/1.1" 200 4263 
    46.72.177.4 - - [15/Dec/2015:18:31:08 +0100] "POST /administrator/index.php HTTP/1.1" 200 4494
    83.167.113.100 - - [17/Dec/2015:18:31:25 +0100] "GET /administrator/ HTTP/1.1" 200 4263 
    83.167.113.100 - - [18/Dec/2015:18:31:25 +0100] "POST /administrator/index.php HTTP/1.1" 200 4494 

Si su trabajo consistiera en, tengo un archivo con más de 100 Millones de éstas líneas, me respondan las siguientes preguntas:

- ¿Cuántas conexiones se realizaron del 12 al 15 de Diciembre por /administrator y con el método POST?
- ¿Cuántas conexiones GET de usuarios que no sean /administrator se realizaron en horario de 12 am a 9 am?
- ¿Cuántas conexiones fueron exitosas (Código 200) el 13 y 14 de Diciembre?

### ¿Nos ponemos a contar? 🤯 

Quien no tenga nada que hacer en cuarentena, adelante. Sin embargo podríamos calcularlo con solo unas cuántas líneas de código. Lo veremos más adelante, mientras tanto lo básico.

Python tiene un paquete incorporado llamado **re**, que se puede usar para trabajar con expresiones regulares.
Puedes comenzar a usar expresiones regulares usando el módulo **re**.

**Funciones incluidas en el paquete:**


- `findall`: Devuelve una lista que contiene todas las coincidencias
- `search`:	 Devuelve un objeto Match si hay una coincidencia en cualquier parte de la cadena
- `split`:	 Devuelve una lista donde la cadena se ha dividido en cada coincidencia
- `sub`:	 Reemplaza una o varias coincidencias con una cadena
- `match`:	 Determina si la expresión coincide al principio de la cadena

In [46]:
import re

p = re.compile(r'\d+')

x = p.findall('11 es un número y 12 también, después tenemos al 13, 14, 15 y sin olvidar al 20')

print(x)

if x:
    print("Hay al menos una coincidencia!")
else:
    print("No hay coincidencias")

['11', '12', '13', '14', '15', '20']
Hay al menos una coincidencia!


In [55]:
expresion = "(^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$)"

correo = "correo_prote.co_4@gmail.com"

print(re.match(expresion, correo))

if re.match(expresion, correo):
    print("Es válida ✅")
else:
    print("NO es válida ❌")

<_sre.SRE_Match object; span=(0, 27), match='correo_prote.co_4@gmail.com'>
Es válida ✅


## Contestemos las preguntas iniciales con un archivo externo

### 1. ¿Cuántas conexiones se realizaron del 12 al 15 de Diciembre por /administrator y con el método POST?

**Expresión regular:** `\d+\.\d+\.\d+\.\d+ - - \[1[2-5]\/Dec\/\d+:.{17}POST \/administrator\/.+`

In [48]:
import re

#Compilamos nuestra expresión regular
miExpresionRegular = re.compile(r'\d+\.\d+\.\d+\.\d+ - - \[1[2-5]\/Dec\/\d+:.{17}POST \/administrator\/.+')

#Al abrir el archivo apache.log como 'archivo' has esto:

with open('apache.log') as archivo:
    contenido = archivo.read()
    print("Número de conexiones del 12-15 Dic POST por arministrador: ",len(miExpresionRegular.findall(contenido)))
    
    print("\nEjemplos: \n")
    print(miExpresionRegular.findall(contenido)[0]+"\n")
    print(miExpresionRegular.findall(contenido)[1])

Número de conexiones del 12-15 Dic POST por arministrador:  425

Ejemplos: 

109.169.248.247 - - [12/Dec/2015:18:25:11 +0100] "POST /administrator/index.php HTTP/1.1" 200 4494 "http://almhuette-raith.at/administrator/" "Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20100101 Firefox/34.0" "-"

46.72.177.4 - - [12/Dec/2015:18:31:08 +0100] "POST /administrator/index.php HTTP/1.1" 200 4494 "http://almhuette-raith.at/administrator/" "Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20100101 Firefox/34.0" "-"


### 2. ¿Cuántas conexiones GET de usuarios que no sean /administrator se realizaron en horario de 12 am a 9 am?

**Expresión regular:** `\d+\.\d+\.\d+\.\d+ - - \[\d+\/\w+\/\d+:0[0-9]:\d+:\d+ \+\d+\] "GET \/(?!administrator).+`

In [38]:
import re

#Compilamos nuestra expresión regular
miExpresionRegular2 = re.compile(r'\d+\.\d+\.\d+\.\d+ - - \[\d+\/\w+\/\d+:0[0-9]:\d+:\d+ \+\d+\] "GET \/(?!administrator).+')

#Al abrir el archivo apache.log como 'archivo' has esto:

with open('apache.log') as archivo:
    contenido = archivo.read() # Lee su contenido
    print("Número de conexiones GET no realizadas por /administrator de 0 am a 9 am: ",len(miExpresionRegular2.findall(contenido))) #Imprime el tamaño del arreglo de todas las coincidencias
    print("\nEjemplos: \n") 
    print(miExpresionRegular2.findall(contenido)[0]+"\n")
    print(miExpresionRegular2.findall(contenido)[1])

Número de conexiones GET no realizadas por /administrator de 0 am a 9 am:  36

Ejemplos: 

188.143.232.11 - - [13/Dec/2015:00:01:23 +0100] "GET /apache-log/access.log HTTP/1.1" 200 75060 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)" "-"

66.249.66.19 - - [13/Dec/2015:00:40:24 +0100] "GET / HTTP/1.1" 200 10479 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" "-"


### 3. ¿Cuántas conexiones fueron exitosas (Código 200) el 13 y 14 de Diciembre?

**Expresión regular:** `\d+\.\d+\.\d+\.\d+ - - \[1[3-4]\/Dec\/\d+:\d+:\d+:\d+ \+\d+\] "\w+ [^ ]+ [^ ]+ 200 .+`

In [56]:
import re

#Compilamos nuestra expresión regular
miExpresionRegular3 = re.compile(r'\d+\.\d+\.\d+\.\d+ - - \[1[3-4]\/Dec\/\d+:\d+:\d+:\d+ \+\d+\] "\w+ [^ ]+ [^ ]+ 200 .+')

#Al abrir el archivo apache.log como 'archivo' has esto:

with open('apache.log') as archivo:
    contenido = archivo.read() # Lee su contenido
    print("Conexiones Exitosas (200) el 13 y 14 de Diciembre: ",len(miExpresionRegular3.findall(contenido))) #Imprime el tamaño del arreglo de todas las coincidencias
    print("\nEjemplos: \n") 
    print(miExpresionRegular3.findall(contenido)[0]+"\n")
    print(miExpresionRegular3.findall(contenido)[1])

Conexiones Exitosas (200) el 13 y 14 de Diciembre:  636

Ejemplos: 

109.106.143.62 - - [13/Dec/2015:00:00:20 +0100] "GET /administrator/ HTTP/1.1" 200 4263 "-" "Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20100101 Firefox/34.0" "-"

109.106.143.62 - - [13/Dec/2015:00:00:20 +0100] "POST /administrator/index.php HTTP/1.1" 200 4494 "http://almhuette-raith.at/administrator/" "Mozilla/5.0 (Windows NT 6.0; rv:34.0) Gecko/20100101 Firefox/34.0" "-"


# Bases de Datos