# Regex


Regex "Regular expressions" se usa para encontrar coincidencia "match" de patrones "patterns" en cadenas de texto. Las expresiones regulares, se escriben en un lenguaje de formato condensado.

En general, una expresión regular se puede ver como un patrón dado a regex junto con unos datos. Luego, regex analiza los datos utilizando ese patrón y devuelve fragmentos de texto para su posterior manipulación.

In [1]:
#re.search(pattern, string, flags=0)

Por qué usar regex? 

* Para revisar si un patrón existe en los datos.
* Para obtener todas las instancias de un patrón de los datos 
* Para limpiar los datos usando un patón, generalmente división de strings. 

### Documentación 
Python 3: https://docs.python.org/3/library/re.html \
Regex ampliado por terceros: https://pypi.org/project/regex/

In [1]:
import re

### Funciones

In [3]:
texto = "Hoy es un buen dia."
patron = "buen"
#texto = "Hoy es un mal dia."

In [4]:
if re.search(patron,texto): #re.search evalua si el patron esta en cualquier parte del texto
    print(":)")
else:
    print(":(")

:)


In [5]:
if re.match("Hoy",texto): #re.match evalua si el patron esta al inicio del texto
    print("Hoy")
else:
    print("Otro día")

Hoy


In [6]:
re.search(patron,texto) #Objeto de tipo re.Match, este objeto siempre contiene un valor booleano de verdadero
#print(re.search(patron,texto))

<re.Match object; span=(10, 14), match='buen'>

In [7]:
print(re.match("Ayer",texto)) #Si no se encuentra el patrón no se devuelve ningún objeto

None


In [8]:
Texto = '''Bogotá, oficialmente bogotá, Distrito Capital (antiguamente, Santafé de bogotá y originalmente, Santafé),
es la capital de la República de Colombia y del departamento de Cundinamarca.
'''

In [9]:
re.findall('Bogotá',Texto)#re.findall devuelve el patron tantas veces y en el orden en el que lo encuentra en el Texto

['Bogotá']

In [10]:
bogota = re.findall('Bogotá',Texto,re.IGNORECASE)
print(bogota)
len(bogota)

#La bandera "flag" re.IGNORECASE o re.I vuelve a la función insensible a mayúsculas o minúsculas.

['Bogotá', 'bogotá', 'bogotá']


3

### Caracteres Especiales 

In [11]:
notas = "55243154034005555324"

In [12]:
re.findall("5",notas)

['5', '5', '5', '5', '5', '5', '5']

In [13]:
re.findall("^5",notas)#"^" marca el inicio de un string

['5']

In [14]:
re.findall("$5",notas)#"$" marca el final de un string

[]

In [15]:
#Si quisieramos ver cuantos 5 y 4 hay, escribir 54 no funcionaria pues esto devolveria unicamente cuando los dos numeros estan 
#juntos y ordenados de la forma "54"
re.findall("54",notas)

['54']

In [16]:
#Por ello, usamos un conjunto de caracteres
re.findall("[54]",notas)#"[]" indica un conjunto de caracteres

['5', '5', '4', '5', '4', '4', '5', '5', '5', '5', '4']

In [17]:
re.findall("[0-2]",notas)#Tambien podemos indicar rangos de letras ej: [a-z] o numeros ej: [0-9]

['2', '1', '0', '0', '0', '2']

In [18]:
re.findall("[5|4][3]",notas)# "|" or

['43', '53']

In [19]:
re.findall("[^5]",notas)# "^" not

['2', '4', '3', '1', '4', '0', '3', '4', '0', '0', '3', '2', '4']

In [20]:
#Cuidado! Algunos caracteres dentro de [] cambian su significado 
re.findall("^[^5]",notas)

[]

### Cuantificadores
Cuando no se especifica el cuantificador por defecto es 1, como en los ejemplos anteriores

In [21]:
re.findall("5{2,5}",notas) #repeticiones dentro de un rango

['55', '5555']

In [None]:
re.findall("5{2}",notas) #exacto numero de repeticiones

In [None]:
#Cuidado! En Regex la sintaxis debe ser rigurosa
re.findall("5{2 }",notas) 

In [None]:
re.findall("54*",notas)#"*" Indica que el string puede estar seguido 0 o más veces por el último carácter 

In [None]:
re.findall("543*",notas)

In [None]:
re.findall("54+",notas) #"*" Indica que el string debe estar seguido 1 o más veces por el último carácter 

In [None]:
re.findall("5555",notas)

In [None]:
re.findall("55?",notas) #"?" Indica que el string debe estar seguido 0 o 1 vez por el el último carácter 

### Ejemplo práctico

In [2]:
import pandas as pd
data = pd.read_csv(r'CLEAN_FIFA23_official_data.csv')
data.head(10)

Unnamed: 0.1,Unnamed: 0,ID,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,...,Position,Joined,Loaned From,Contract Valid Until,Height(cm.),Weight(lbs.),Release Clause(£),Kit Number,Best Overall Rating,Year_Joined;
0,0,209658.0,L. Goretzka,27.0,https://cdn.sofifa.net/players/209/658/23_60.png,Germany,https://cdn.sofifa.net/flags/de.png,87.0,88.0,FC Bayern München,...,SUB,2018-07-01,,2026.0,189.0,180.81,157000000.0,8.0,0.0,2018;
1,1,212198.0,Bruno Fernandes,27.0,https://cdn.sofifa.net/players/212/198/23_60.png,Portugal,https://cdn.sofifa.net/flags/pt.png,86.0,87.0,Manchester United,...,LCM,2020-01-30,,2026.0,179.0,152.145,155000000.0,8.0,0.0,2020;
2,2,224334.0,M. Acuña,30.0,https://cdn.sofifa.net/players/224/334/23_60.png,Argentina,https://cdn.sofifa.net/flags/ar.png,85.0,85.0,Sevilla FC,...,LB,2020-09-14,,2024.0,172.0,152.145,97700000.0,19.0,0.0,2020;
3,3,192985.0,K. De Bruyne,31.0,https://cdn.sofifa.net/players/192/985/23_60.png,Belgium,https://cdn.sofifa.net/flags/be.png,91.0,91.0,Manchester City,...,RCM,2015-08-30,,2025.0,181.0,154.35,198900000.0,17.0,0.0,2015;
4,4,224232.0,N. Barella,25.0,https://cdn.sofifa.net/players/224/232/23_60.png,Italy,https://cdn.sofifa.net/flags/it.png,86.0,89.0,Inter,...,RCM,2020-09-01,,2026.0,172.0,149.94,154400000.0,23.0,0.0,2020;
5,5,212622.0,J. Kimmich,27.0,https://cdn.sofifa.net/players/212/622/23_60.png,Germany,https://cdn.sofifa.net/flags/de.png,89.0,90.0,FC Bayern München,...,RDM,2015-07-01,,2025.0,177.0,165.375,182000000.0,6.0,0.0,2015;
6,6,197445.0,D. Alaba,30.0,https://cdn.sofifa.net/players/197/445/23_60.png,Austria,https://cdn.sofifa.net/flags/at.png,86.0,86.0,Real Madrid CF,...,LCB,2021-07-01,,2026.0,180.0,171.99,113800000.0,4.0,0.0,2021;
7,7,187961.0,22 Paulinho,32.0,https://cdn.sofifa.net/players/187/961/22_60.png,Brazil,https://cdn.sofifa.net/flags/br.png,83.0,83.0,Al Ahli,...,LCM,2021-07-22,,2024.0,183.0,176.4,48500000.0,15.0,0.0,2021;
8,8,208333.0,E. Can,28.0,https://cdn.sofifa.net/players/208/333/23_60.png,Germany,https://cdn.sofifa.net/flags/de.png,82.0,82.0,Borussia Dortmund,...,SUB,2020-02-18,,2024.0,186.0,189.63,51900000.0,23.0,0.0,2020;
9,9,210514.0,João Cancelo,28.0,https://cdn.sofifa.net/players/210/514/23_60.png,Portugal,https://cdn.sofifa.net/flags/pt.png,88.0,88.0,Manchester City,...,LB,2019-08-07,,2027.0,182.0,163.17,152600000.0,7.0,0.0,2019;


In [3]:
nationality = '  '.join(str(value) for value in data['Nationality'])

In [4]:
nationality

"Germany  Portugal  Argentina  Belgium  Italy  Germany  Austria  Brazil  Germany  Portugal  Italy  Croatia  Serbia  Spain  Spain  Argentina  Croatia  Netherlands  France  Colombia  Serbia  England  Uruguay  Morocco  Croatia  Egypt  Italy  Spain  England  Spain  France  Portugal  Spain  Algeria  Brazil  Ukraine  United States  Brazil  Spain  Côte d'Ivoire  France  Poland  Chile  Uruguay  France  England  France  Germany  France  Germany  Netherlands  France  England  Spain  England  England  Argentina  Italy  Colombia  Uruguay  Senegal  Argentina  Brazil  Spain  Belgium  Brazil  Portugal  Spain  Spain  Portugal  England  Central African Republic  England  Italy  Denmark  France  Nigeria  Spain  Mexico  Argentina  Austria  Turkey  Portugal  Argentina  Germany  Portugal  Canada  Denmark  Netherlands  France  France  Spain  Portugal  Brazil  Spain  Argentina  Spain  Argentina  Brazil  Italy  Portugal  France  Brazil  Wales  Germany  Austria  Germany  Germany  France  Scotland  Italy  Engla

In [5]:
type(nationality)

str

In [6]:
len(re.findall("Portugal",nationality))

338

In [7]:
re.findall('\d',nationality) #Busca dígitos decimal Unicode [0-9] y otros

[]

In [8]:
len(re.findall("nan",nationality))

16

In [9]:
len(re.findall("None",nationality))

0

In [10]:
nacionalidades = nationality.split('  ') #Divide el string a partir del patron dado
nacionalidades[:10]

['Germany',
 'Portugal',
 'Argentina',
 'Belgium',
 'Italy',
 'Germany',
 'Austria',
 'Brazil',
 'Germany',
 'Portugal']

In [11]:
re.split(r'  ',nationality) == nationality.split('  ') 

True

In [12]:
conteo_nacionalidades = {}

for nacion in nacionalidades:
    coincidencias = re.findall(nacion, ' '.join(nacionalidades))
    conteo_nacionalidades[nacion] = len(coincidencias)

print(conteo_nacionalidades)

{'Germany': 1038, 'Portugal': 338, 'Argentina': 843, 'Belgium': 266, 'Italy': 517, 'Austria': 231, 'Brazil': 537, 'Croatia': 162, 'Serbia': 116, 'Spain': 990, 'Netherlands': 455, 'France': 864, 'Colombia': 283, 'England': 1531, 'Uruguay': 416, 'Morocco': 87, 'Egypt': 23, 'Algeria': 54, 'Ukraine': 70, 'United States': 345, "Côte d'Ivoire": 106, 'Poland': 328, 'Chile': 175, 'Senegal': 112, 'Central African Republic': 3, 'Denmark': 227, 'Nigeria': 115, 'Mexico': 261, 'Turkey': 325, 'Canada': 76, 'Wales': 137, 'Scotland': 225, 'Romania': 290, 'Czech Republic': 90, 'Ghana': 116, 'Korea Republic': 284, 'Bosnia and Herzegovina': 47, 'Mali': 53, 'Slovakia': 46, 'Armenia': 7, 'Norway': 292, 'Switzerland': 188, 'Cameroon': 74, 'Peru': 286, 'Jamaica': 26, 'Zambia': 7, 'Guinea': 65, 'Sweden': 322, 'North Macedonia': 30, 'Russia': 66, 'Tunisia': 25, 'Malta': 3, 'Angola': 16, 'Republic of Ireland': 308, 'Ecuador': 344, 'Benin': 10, 'Paraguay': 301, 'Montenegro': 23, 'Australia': 214, 'Comoros': 8, '

In [13]:
maxPais = max(conteo_nacionalidades.items(), key=lambda x: x[1])[0]
maxPaisJugadores = max(conteo_nacionalidades.items(), key=lambda x: x[1])[1]

print(f"El pais: {maxPais} es el más representado en el dataset con {maxPaisJugadores} jugadores.") #f-string

El pais: England es el más representado en el dataset con 1531 jugadores.


In [14]:
nacionalidades_ordenadas = sorted(conteo_nacionalidades.items(), key=lambda x: x[1], reverse=True)
print(nacionalidades_ordenadas)

[('England', 1531), ('Germany', 1038), ('Spain', 990), ('France', 864), ('Argentina', 843), ('Brazil', 537), ('Italy', 517), ('Netherlands', 455), ('Uruguay', 416), ('Japan', 378), ('Venezuela', 348), ('United States', 345), ('Ecuador', 344), ('Portugal', 338), ('Poland', 328), ('Turkey', 325), ('China PR', 325), ('Sweden', 322), ('Republic of Ireland', 308), ('Paraguay', 301), ('Norway', 292), ('Romania', 290), ('Peru', 286), ('Korea Republic', 284), ('Colombia', 283), ('Belgium', 266), ('Mexico', 261), ('Austria', 231), ('Denmark', 227), ('Scotland', 225), ('Bolivia', 216), ('Australia', 214), ('Saudi Arabia', 200), ('Switzerland', 188), ('India', 188), ('Chile', 175), ('Croatia', 162), ('Wales', 137), ('Serbia', 116), ('Ghana', 116), ('Niger', 116), ('Nigeria', 115), ('Senegal', 112), ("Côte d'Ivoire", 106), ('Greece', 105), ('Czech Republic', 90), ('Morocco', 87), ('Canada', 76), ('Cameroon', 74), ('Ukraine', 70), ('Russia', 66), ('Guinea', 65), ('Northern Ireland', 61), ('South Af

In [34]:
names = '  '.join(str(value) for value in data['Name'])

names[:100]

'L. Goretzka  Bruno Fernandes  M. Acuña  K. De Bruyne  N. Barella  J. Kimmich  D. Alaba  22\xa0Paulinho '

In [16]:
len(re.findall("George",names))

3

In [17]:
len(re.findall("Jorge",names))

12

In [18]:
names = re.sub('George','Jorge',names)

In [19]:
len(re.findall("George",names))

0

In [20]:
len(re.findall('\d',names))

13770

In [27]:
names = re.sub('\d','',names)
names[:100]

'L. Goretzka  Bruno Fernandes  M. Acuña  K. De Bruyne  N. Barella  J. Kimmich  D. Alaba  \xa0Paulinho  E'

In [23]:
print(type(names))

<class 'str'>


In [39]:
x = str('12\xa0paulinho')

In [42]:
print(x)

12 paulinho


In [43]:
len(re.findall('\d',x))

2