# Cuantificadores


Un Cuantificador que precede a un carácter cuantifica las veces que este carácter puede aparecer.

* `?` El carácter que precede puede aparecer como mucho una vez.
* `+` El carácter que le precede debe aparecer al menos una vez.
* `*` El carácter que le precede puede aparecer cero, una, o más veces.

* `{}` Las llaves juegan el papel de meta caracteres, para que cumplan su funcionalidad deben estar después de la expresión regular y encierran uno o varios números.
* `{n}` Indica que coincide n veces.
* `{n,}` Indica que coincide más n veces.
* `{,n}` Indica que coincide hasta n veces.
* `{n,m}` Indica que coincide más n veces y menos de m veces.

# Alternación

* `$` El signo de dólar representa el final de la cadena de caracteres o el final de la línea.

* `^` El acento representa el inicio de la cadena.

# Agrupación

* `()` Los paréntesis son usados para la aplicación de operadores sobre más de un carácter.
* `[]` Los corchetes agrupan caracteres en grupos o clases. Son útiles cuando es necesario buscar uno de un grupo de caracteres.
* `[a-z]` Especifica un rango de caracteres.
* `[^.... ]` Lista de caracteres excluidos
* `|` Una barra vertical separa las alternativas. Realiza el papel de o.
* `.` El punto busca cualquier carácter sin incluir los saltos de línea.

# Barra invertida

Se utiliza para escapar el siguiente carácter de la expresión de búsqueda de forma que este adquiera un significado especial o deje de tenerlo.


* `\e` — Representa la tecla “Esc” o “Escape”.
* `\d` — Representa un dígito del 0 al 9.
* `\w` — Representa cualquier carácter alfanumérico.
* `\s` — Representa un espacio en blanco.
* `\D` — Representa cualquier carácter que no sea un dígito del 0 al 9.
* `\W` — Representa cualquier carácter no alfanumérico.
* `\S` — Representa cualquier carácter que no sea un espacio en blanco.
* `\A` — Representa el inicio de la cadena. No un carácter sino una posición.
* `\Z` — Representa el final de la cadena. No un carácter sino una posición.
* `\b` — Marca la posición de una palabra limitada por espacios en blanco, puntuación o el inicio/final de una cadena.
* `\B` — Marca la posición entre dos caracteres alfanuméricos o dos no-alfanuméricos.

# El signo de admiración

* `!` El signo de admiración representa una búsqueda negativa, en otras palabras que no incluya la palabra que especificamos.

# Metacaracteres especiales

* `\t` — Representa un tabulador.
* `\r` — Representa el “retorno de carro” o “regreso al inicio” o sea el lugar en que la línea vuelve a iniciar.
* `\n` — Representa la “nueva línea” el carácter por medio del cual una línea de inicio.
* `\f` — Representa un salto de página
* `\v` — Representa un tabulador vertical

# Otras representaciones

* `[:digit:]` <- Digitos del 0 al 9.
* `[:lower:]` <- Letras en monuscula
* `[:upper:]` <- Letras mayusculas
* `[:alpha:]` <- Caractes alfabeticos
* `[:alnum:]` <- Digitos y caracteres alfanumerico
* `[:punct:]` <- Puntuación
* `[:graph:]` <- Caracter graficos [:alnum:] y [:punct:]
* `[:blank:]` <- Caracter en blanco espacio y tabulador
* `[:space:]` <- Caracteres de espacios : espacio, tabulador, nueva linea y otros caracteres de espacio.
* `[:print:]` <- Caracteres imprimibles: [:alnum:], [:punct:] y [:space:].



In [5]:
import pandas as pd
import re
import os


# Practica

In [3]:
txt = "4278659Juan Eduar(458) 321-456Laura, M. Perez555-6542Pedro. Velez Marin555 8904Luis Quintero565-556-5656Martha, Juarez665656Dr. Maria velez"

In [165]:
x_name = re.findall("[a-zA-Z]+\.?,? ?[a-zA-Z]+\.? ?[a-zA-Z]+", txt)

In [166]:
x_numeros = re.findall("\(?[0-9]+\)?-? ?[0-9]+-?[0-9]+", txt)

In [168]:
df = pd.DataFrame()

In [171]:
df['nombres'] = x_name
df['telefonos'] = x_numeros

In [172]:
df

Unnamed: 0,nombres,telefonos
0,Juan Eduar,4278659
1,"Laura, M. Perez",(458) 321-456
2,Pedro. Velez Marin,555-6542
3,Luis Quintero,555 8904
4,"Martha, Juarez",565-556-5656
5,Dr. Maria velez,665656


# Saber ubicación

In [177]:
re.search("[0-9]+", "pruba de 1247657468")

<re.Match object; span=(9, 19), match='1247657468'>

# Cortar

In [179]:
re.split(" ", "pruba de 1247657468")

['pruba', 'de', '1247657468']

# Reemplazar

In [5]:
re.sub("Python", "R", "Python es un lenguaje")

'R es un lenguaje'

# Ejercicio mineria y lectura

In [6]:
os.chdir('BasesDatos/')

In [7]:
# Abrimos la conexión y leemos el archivo
con = open("Base_dificil_leer.txt", "r") 

# leemos el contenido del archivo
documento = con.readlines()

mes = [] 
anio = []
contador_tablas = 0
lista_df = []
for linea in documento:
    if re.search("[a-zA-Z]+.[0-9]+", linea) is not None:
        mes.append( re.findall( "[a-zA-Z]+", linea)[0])
        anio.append( re.findall("[0-9]+", linea)[0])
        contador_tablas = contador_tablas + 1

    elif re.search("[a-zA-Z]+,", linea) is not None:
        titulos = re.split(",", linea)

    elif re.search("[0-9]+,", linea) is not None:
        data = re.split(",", linea)
        data = [i.strip()for i in data]
        data[1] = anio[contador_tablas-1] + ' '+  mes[contador_tablas-1] + ' ' + data[1]
        lista_df.append(tuple(data))




In [8]:
df = pd.DataFrame(lista_df,columns= titulos)
df.head()

Unnamed: 0,id,dia,precipitacion\n
0,1,2020 Enero 10,3.5
1,2,2020 Enero 05,0.35
2,3,2020 Enero 06,5.0
3,4,2020 Enero 20,1.25
4,5,2020 Enero 21,1.6


In [157]:
from datetime import datetime
import locale
locale.setlocale(locale.LC_TIME, 'es_ES.UTF-8')

'es_ES.UTF-8'

In [161]:
df.dia = pd.to_datetime(df.dia, format="%Y %B %d")

In [162]:
df.head()

Unnamed: 0,id,dia,precipitacion\n
0,1,2020-01-10,3.5
1,2,2020-01-05,0.35
2,3,2020-01-06,5.0
3,4,2020-01-20,1.25
4,5,2020-01-21,1.6
