# üìò CityAI ‚Äì Cerca de textos amb Expressions Regulars (RegEx)

Aquesta s√®rie de llibretes utilitza dades obertes de l‚ÄôAjuntament de Barcelona per practicar conceptes d‚Äôalgor√≠smica. En aquest llibreta en concret es treballaran els patrons de text expressats mitjan√ßant expressions regulars per tal de fer cerques dins de cadenes de text m√©s llargues.

## üß† Objectius

Familiaritzar-se amb l'√∫s de les expressions regulars dins del context de Python, i veure la seva aplicaci√≥ a casos reals.

## ‚úçÔ∏è Exercici 1: Validar les adreces de correu entrades pels ciutadans

L'Ajuntament de Barcelona t√© un formulari de suggeriments i queixes per als ciutadans i necessita assegurar-se que les adreces de correu que s'hi han introdu√Øt s√≥n v√†lides per tal de poder respondre'ls i resoldre la incid√®ncia.

Crea una funci√≥ que comprovi si l'adre√ßa introdu√Øda:
- T√© un s√≠mbol @
- La part abans de @ no comen√ßa ni acaba amb . o -
- La part despr√©s de @ acaba en .com, .net, o .org
- Tamb√© considerem que darrere de l'arroba hi ha d'haver un car√†cter alfab√®tic, per exemple $...@e.com$
- Considerem que la m√≠nima adre√ßa v√†lida pot ser de la forma $b@e.com$, que s√≥n 7 car√†cters. √âs a dir, un car√†cter v√†lid davant de l'arroba, un v√†lid despr√©s i .com, .net o .org

Si ho fa, digues 'Correcte'. Si no, digues 'Incorrecte'. 

Fes dues versions d'aquesta funci√≥. Una primera que faci aquestes comprovacions sense utilitzar expressions regulars i una segona funci√≥ que utilitzi expressions regulars.

Exemples: 

- $ \text{"test@example.com"} \rightarrow \text{"Correcte"}$
- $ \text{"test@example.c"}  \rightarrow \text{"Incorrecte"}$
- $ \text{"-test@example.com"} \rightarrow \text{"Incorrecte"}$
- $ \text{"test@.com"} \rightarrow \text{"Incorrecte"}$
- $ \text{"test@example.net"} \rightarrow \text{"Correcte"}$
- $ \text{"test.@example.com"} \rightarrow \text{"Incorrecte"}$

In [2]:
import re
from typing import Final

In [3]:
def validar_adreca_manual(adreca: str) -> str:
    """
    Funci√≥ que comprova si una adre√ßa de correu electr√≤nic √©s v√†lida. 
    Per ser-ho, 
    - T√© un s√≠mbol @
    - La part abans de @ no comen√ßa ni acaba amb . o -
    - La part despr√©s de @ acaba en .com, .net, o .org
    - Tamb√© considerem que darrere de l'arroba hi ha d'haver un car√†cter alfab√®tic, per exemple $...@e.com$
    - Considerem que la m√≠nima adre√ßa v√†lida pot ser de la forma $b@e.com$, que s√≥n 7 car√†cters. √âs a dir, un car√†cter v√†lid davant de l'arroba, un v√†lid despr√©s i .com, .net o .org

    Par√†metres:
    -----------
    adreca : str
        L'adre√ßa de correu electr√≤nic a comprovar

    Retorna:
    --------
    str
        Missatge que indica si l'adre√ßa √©s correcte o incorrecte
    """
    if (len(adreca) < 7): return "Incorrecte"
    if (adreca.count("@") != 1): return "Incorrecte"
    
    index_at: int = adreca.find("@")
    local: str = adreca[:index_at]
    domain: str = adreca[index_at + 1:]

    BAD_CHARS: Final[set["str"]] = {".", "-"}
    if local[0] in BAD_CHARS or local[-1] in BAD_CHARS: return "Incorrecte"

    if not domain[0].isalpha(): return "Incorrecte"
    if domain[-4:] not in {".com", ".org", ".net"}: return "Incorrecte"

    return "Correcte"

In [None]:
def validar_adreca_regex(adreca):
    """
    Funci√≥ que comprova si una adre√ßa de correu electr√≤nic √©s v√†lida. 
    Per ser-ho, 
    - T√© un s√≠mbol @
    - La part abans de @ no comen√ßa ni acaba amb . o -
    - La part despr√©s de @ acaba en .com, .net, o .org
    - Tamb√© considerem que darrere de l'arroba hi ha d'haver un car√†cter alfab√®tic, per exemple $...@e.com$
    - Considerem que la m√≠nima adre√ßa v√†lida pot ser de la forma $b@e.com$, que s√≥n 7 car√†cters. √âs a dir, un car√†cter v√†lid davant de l'arroba, un v√†lid despr√©s i .com, .net o .org

    Par√†metres:
    -----------
    adreca : str
        L'adre√ßa de correu electr√≤nic a comprovar

    Retorna:
    --------
    str
        Missatge que indica si l'adre√ßa √©s correcte o incorrecte
    """
    if len(re.findall(r"@", adreca)) != 1: return "Incorrecte"
    
    m: Match = re.search(r"@", adreca)
    index_at: int = m.start()
    local: str = adreca[:index_at]  
    domain: str = adreca[index_at + 1:]

    if re.match(r"^(?![.-]).+(?<![.-])$", local) is None: return "Incorrecte"
    if re.match(r"^[a-zA-Z].*\.(com|net|org)$", domain) is None: return "Incorrecte"

    return "Correcte"

In [5]:
assert(validar_adreca_manual("test@example.com") == "Correcte")
assert(validar_adreca_manual("test@example.c") == "Incorrecte")
assert(validar_adreca_manual("-test@example.com") == "Incorrecte")
assert(validar_adreca_manual("test@.com") == "Incorrecte")
assert(validar_adreca_manual("test@example.net") == "Correcte")
assert(validar_adreca_manual("test.@example.com") == "Incorrecte")

In [None]:
assert(validar_adreca_regex("test@example.com") == "Correcte")
assert(validar_adreca_regex("test@example.c") == "Incorrecte")
assert(validar_adreca_regex("-test@example.com") == "Incorrecte")
assert(validar_adreca_regex("test@.com") == "Incorrecte")
assert(validar_adreca_regex("test@example.net") == "Correcte")
assert(validar_adreca_regex("test.@example.com") == "Incorrecte")

## ‚úçÔ∏è Exercici 2: Identificar codis postals v√†lids del Regne Unit

L'Ajuntament de Barcelona s'est√† plantejant fer la documentaci√≥ per agermanar Barcelona amb alguna ciutat del Regne Unit i ha intensificat la correspond√®ncia que mant√© amb aquest pa√≠s. Malhauradament, com que els treballadors de l'Ajuntament no estan familiaritzats amb el format del Regne Unit, est√† havent m√©s errors dels habituals.

Fes una funci√≥ que comprovi si un codi postal √©s v√†lid al Regne Unit o no utilitzant expressions regulars.

Si ho √©s, fes que digui "# √©s correcte!". Si no, que digui "# no √©s un codi postal v√†lid!"
(on # √©s el codi postal que est√† validant).

Aqu√≠ tens una llista dels diferents codis que hi havia escrits en adreces de cartes dirigides al Regne Unit i a qu√® correponen:

* "SW1A 0AA"   $ \rightarrow $   House of Commons
* "SW1A 1AA"   $ \rightarrow $   Palau de Buckingham
* "SW1A 2AA"   $ \rightarrow $   Downing Street
* "BX3 2BB"   $ \rightarrow  $   Barclays Bank
* "DH98 1BT"   $ \rightarrow $   British Telecom
* "N1 9GU"   $ \rightarrow   $   Diari Guardian
* "E98 1TT"   $ \rightarrow  $   The Times
* "TIM E22"   $ \rightarrow  $   Un codi postal fals
* "A B1 A22"   $ \rightarrow $   Un codi postal no v√†lid
* "EC2N 2DB"   $ \rightarrow $   Deutsche Bank
* "SE9 2UG"   $ \rightarrow  $   Universitat de Greenwhich
* "N1 0UY"   $ \rightarrow   $   Islington, Londres
* "EC1V 8DS"   $ \rightarrow $   Clerkenwell, Londres
* "B42 1LG"   $ \rightarrow  $   Birmingham
* "B28 9AD"   $ \rightarrow  $   British Radio 
* "W12 7RJ"   $ \rightarrow  $   London, centre de not√≠cies de la BBC
* "BBC 007"   $ \rightarrow  $   Un codi postal no v√†lid


In [9]:
VALID_POSTAL: Final[str] = (
    "SW1A 0AASW1A 1AASW1A 2AABX3 2BBDH98 1BTN1 9GUE98 1TTEC2N 2DBSE9 2UG" + 
    "N1 0UYEC1V 8DSB42 1LGB28 9ADW12 7RJ"
)

def validar_codi_postal(codi):
    """Funci√≥ que comprova si un codi postal del Regne Unit √©s correcte.
    
    Par√†metres:
    -----------
    codi_postal : str
        El codi postal que cal comprovar.

    Retorna:
    --------
    str
        Missatge que indica si el codi postal √©s correcte o incorrecte.
    """

    if re.search(codi, VALID_POSTAL) == None:
        return codi + "no √©s un codi postal v√†lid!"
    
    return codi + "√©s correcte"


Fes una altra funci√≥ que donant-li una llista de codis t'imprimeixi per pantalla si cadascun d'ells √©s un codi v√†lid al Regne Unit o no, i et retorni un diccionari de codis on es pugui cercar si √©s un codi v√†lid (True) o no v√†lid (False).

In [10]:
def validar_molts_codis(codis_postals):
    """Comprova si els codis postals del Regne Unit d'una llista s√≥n valids.

    Par√†metres:
    -----------
    codis_postals : list[str]
        La llista de codis postals que cal comprovar.

    Retorna:
    --------
    dict[bool]
        Diccionari amb els codis postals de la llista on indica si cadascun
        d'ells √©s correcte o incorrecte.
    """
    d: dict[str, bool] = {}
    for codi in codis_postals:
            if re.search(codi, VALID_POSTAL) != None:
                d[codi] = True
            else:
                d[codi] = False
    
    return d

In [11]:
codis_dubtosos = [
        "SW1A 0AA", # House of Commons
        "SW1A 1AA", # Palau de Buckingham
        "SW1A 2AA", # Downing Street
        "BX3 2BB",  # Barclays Bank
        "DH98 1BT", # British Telecom
        "N1 9GU",   # Guardian Newspaper
        "E98 1TT",  # The Times
        "TIM E22",  # Codi postal fals
        "A B1 A22", # Codi postal no v√†lid
        "EC2N 2DB", # Deutsche Bank
        "SE9 2UG",  # Universitat de Greenwhich
        "N1 0UY",   # Islington, Londres
        "EC1V 8DS", # Clerkenwell, Londres
        "B42 1LG",  # Birmingham
        "B28 9AD",  # British Radio 
        "W12 7RJ",  # Londres, BBC News Centre
        "BBC 007"   # Codi postal no v√†lid
    ]
diccionari_codis_valids = {
        "SW1A 0AA": True, # House of Commons
        "SW1A 1AA": True, # Palau de Buckingham
        "SW1A 2AA": True, # Downing Street
        "BX3 2BB": True,  # Barclays Bank
        "DH98 1BT": True, # British Telecom
        "N1 9GU": True,   # Guardian Newspaper
        "E98 1TT": True,  # The Times
        "TIM E22": False,  # Codi postal fals
        "A B1 A22": False, # Codi postal no v√†lid
        "EC2N 2DB": True, # Deutsche Bank
        "SE9 2UG": True,  # Universitat de Greenwhich
        "N1 0UY": True,   # Islington, Londres
        "EC1V 8DS": True, # Clerkenwell, Londres
        "B42 1LG": True,  # Birmingham
        "B28 9AD": True,  # British Radio 
        "W12 7RJ": True,  # Londres, BBC News Centre
        "BBC 007": False   # Codi postal no v√†lid
} 
assert(validar_molts_codis(codis_dubtosos) == diccionari_codis_valids)