# Regex


Regex "Regular expressions" se usa para encontrar coincidencia "match" de patrones "patterns" en cadenas de texto. Las expresiones regulares, se escriben en un lenguaje de formato condensado.

En general, una expresión regular se puede ver como un patrón dado a regex junto con unos datos. Luego, regex analiza los datos utilizando ese patrón y devuelve fragmentos de texto para su posterior manipulación.

In [1]:
#re.search(pattern, string, flags=0)

Por qué usar regex? 

* Para revisar si un patrón existe en los datos.
* Para obtener todas las instancias de un patrón de los datos 
* Para limpiar los datos usando un patón, generalmente división de strings. 

### Documentación 
Python 3: https://docs.python.org/3/library/re.html \
Regex ampliado por terceros: https://pypi.org/project/regex/

In [2]:
import re

### Funciones

In [3]:
texto = "Hoy es un buen dia."
patron = "buen"
#texto = "Hoy es un mal dia."

In [4]:
if re.search(patron,texto): #re.search evalua si el patron esta en cualquier parte del texto
    print(":)")
else:
    print(":(")

:)


In [5]:
if re.match("Hoy",texto): #re.match evalua si el patron esta al inicio del texto
    print("Hoy")
else:
    print("Otro día")

Hoy


In [6]:
re.search(patron,texto) #Objeto de tipo re.Match, este objeto siempre contiene un valor booleano de verdadero
#print(re.search(patron,texto))

<re.Match object; span=(10, 14), match='buen'>

In [7]:
print(re.match("Ayer",texto)) #Si no se encuentra el patrón no se devuelve ningún objeto

None


In [8]:
Texto = '''Bogotá, oficialmente bogotá, Distrito Capital (antiguamente, Santafé de bogotá y originalmente, Santafé),
es la capital de la República de Colombia y del departamento de Cundinamarca.
'''

In [9]:
re.findall('Bogotá',Texto)#re.findall devuelve el patron tantas veces y en el orden en el que lo encuentra en el Texto

['Bogotá']

In [10]:
bogota = re.findall('Bogotá',Texto,re.IGNORECASE)
print(bogota)
len(bogota)

#La bandera "flag" re.IGNORECASE o re.I vuelve a la función insensible a mayúsculas o minúsculas.

['Bogotá', 'bogotá', 'bogotá']


3

### Caracteres Especiales 

In [11]:
notas = "55243154034005555324"

In [12]:
re.findall("5",notas)

['5', '5', '5', '5', '5', '5', '5']

In [13]:
re.findall("^5",notas)#"^" marca el inicio de un string

['5']

In [14]:
re.findall("$5",notas)#"$" marca el final de un string

[]

In [15]:
#Si quisieramos ver cuantos 5 y 4 hay, escribir 54 no funcionaria pues esto devolveria unicamente cuando los dos numeros estan 
#juntos y ordenados de la forma "54"
re.findall("54",notas)

['54']

In [16]:
#Por ello, usamos un conjunto de caracteres
re.findall("[54]",notas)#"[]" indica un conjunto de caracteres

['5', '5', '4', '5', '4', '4', '5', '5', '5', '5', '4']

In [17]:
re.findall("[0-2]",notas)#Tambien podemos indicar rangos de letras ej: [a-z] o numeros ej: [0-9]

['2', '1', '0', '0', '0', '2']

In [18]:
re.findall("[5|4][3]",notas)# "|" or

['43', '53']

In [19]:
re.findall("[^5]",notas)# "^" not

['2', '4', '3', '1', '4', '0', '3', '4', '0', '0', '3', '2', '4']

In [20]:
#Cuidado! Algunos caracteres dentro de [] cambian su significado 
re.findall("^[^5]",notas)

[]

### Cuantificadores
Cuando no se especifica el cuantificador por defecto es 1, como en los ejemplos anteriores

In [21]:
re.findall("5{2,5}",notas) #repeticiones dentro de un rango

['55', '5555']

In [None]:
re.findall("5{2}",notas) #exacto numero de repeticiones

In [None]:
#Cuidado! En Regex la sintaxis debe ser rigurosa
re.findall("5{2 }",notas) 

In [None]:
re.findall("54*",notas)#"*" Indica que el string puede estar seguido 0 o más veces por el último carácter 

In [None]:
re.findall("543*",notas)

In [None]:
re.findall("54+",notas) #"*" Indica que el string debe estar seguido 1 o más veces por el último carácter 

In [None]:
re.findall("5555",notas)

In [None]:
re.findall("55?",notas) #"?" Indica que el string debe estar seguido 0 o 1 vez por el el último carácter 

### Ejemplo práctico

In [None]:
import pandas as pd
data = pd.read_csv(r'CLEAN_FIFA23_official_data.csv')
data.head(10)

In [None]:
nationality = '  '.join(str(value) for value in data['Nationality'])

In [None]:
nationality

In [None]:
type(nationality)

In [None]:
len(re.findall("Portugal",nationality))

In [None]:
re.findall('\d',nationality) #Busca dígitos decimal Unicode [0-9] y otros

In [None]:
len(re.findall("nan",nationality))

In [None]:
len(re.findall("None",nationality))

In [None]:
nacionalidades = nationality.split('  ') #Divide el string a partir del patron dado
nacionalidades[:10]

In [None]:
re.split(r'  ',nationality) == nationality.split('  ') 

In [None]:
conteo_nacionalidades = {}

for nacion in nacionalidades:
    coincidencias = re.findall(nacion, ' '.join(nacionalidades))
    conteo_nacionalidades[nacion] = len(coincidencias)

print(conteo_nacionalidades)

In [None]:
maxPais = max(conteo_nacionalidades.items(), key=lambda x: x[1])[0]
maxPaisJugadores = max(conteo_nacionalidades.items(), key=lambda x: x[1])[1]

print(f"El pais: {maxPais} es el más representado en el dataset con {maxPaisJugadores} jugadores.") #f-string

In [None]:
nacionalidades_ordenadas = sorted(conteo_nacionalidades.items(), key=lambda x: x[1], reverse=True)
print(nacionalidades_ordenadas)

In [None]:
names = '  '.join(str(value) for value in data['Name'])
names[:100]

In [None]:
len(re.findall("George",names))

In [None]:
len(re.findall("Jorge",names))

In [None]:
names = re.sub('George','Jorge',names)

In [None]:
len(re.findall("George",names))

In [None]:
len(re.findall('\d',names))

In [None]:
names = re.sub('\d','',names)
names[:100]