# Capítol 4 - Algorismes i Text

### 4.1 Acronims

In [1]:
def acronim(frase):
    """
    Aquesta funció retorna l'acrònim d'una frase.
    
    Parameters
    ----------
    frase: string
    
    Returns
    -------
    acronim: string
    """
    return ''.join([paraula[0].upper() for paraula in frase.split(' ')])

In [2]:
assert acronim("Hola que tal") == 'HQT'

### 4.2 Alfabet aviació

In [3]:
def aviacio(cadena):
    """
    Aquesta funció converteix una cadena d'entrada a l'alfabet fonètic.
    
    Parameters
    ----------
    cadena: string
    
    Returns
    -------
    traducció: string
    """
    argot = {
        'A': 'Alpha', 'B': 'Bravo', 'C': 'Charlie', 'D': 'Delta', 'E': 'Echo',
        'F': 'Foxtrot', 'G': 'Golf', 'H': 'Hotel', 'I': 'India', 'J': 'Juliet',
        'K': 'Kilo', 'L': 'Lima', 'M': 'Mike', 'N': 'November', 'O': 'Oscar',
        'P': 'Papa', 'Q': 'Quebec', 'R': 'Romeo', 'S': 'Sierra', 'T': 'Tango', 
        'U': 'Uniform', 'V': 'Victor', 'W': 'Whiskey', 'X': 'Xray', 'Y': 'Yankee',
    }
    
    return [ argot[caracter] for caracter in cadena.upper()]

In [4]:
assert aviacio('YtH') == ['Yankee', 'Tango', 'Hotel']

### 4.3 Cadenes Isomorfes

In [5]:
def isomorf(cadX, cadY):
    """
    Aquesta funció comprova si dues cadenes son isomorfes
    
    Parameters
    ----------
    cadX: String
    cadY: String
    
    Returns
    -------
    esIsomorf: bool
    """
    
    if len(cadX) != len(cadY):
        return False
    
    diccionariXY = {}
    diccionariYX = {}
    
    for x,y in zip(cadX, cadY):
        diccionariXY[x] = y
        diccionariYX[y] = x
        
    for x, y in zip(cadX, cadY):
        if (diccionariXY[x] != y or diccionariYX[y] != x):
            return False
    return True

In [6]:
assert isomorf('CBAABC', 'DEFFED') == True
assert isomorf('XXX', 'YYY') == True
assert isomorf('RAMBUNCTIOUSLY', 'THERMODYNAMICS') == True
assert isomorf('XXY', 'XYY') == False
assert isomorf('ABAB', 'CD') == False

In [7]:
def tria_paraules_isomorfes(llista, paraula):
    """
    Aquesta funció retorna totes les paraules d'una llista isomorfes a una paraula en concret.
    
    Parameters
    ----------
    llista: list
    paraula: sting
    
    Returns
    -------
    llistaIsomorfes: list
    """
    #return [p for p in llista if isomorf(p, paraula)]
    llista_isomorfes = []
    for p in llista:
        if isomorf(p, paraula):
            llista_isomorfes.append(p)
            
    return llista_isomorfes

In [8]:
assert tria_paraules_isomorfes(['gag', 'sos', 'mim', 'gat', 'gos'], 'rar') == ['gag', 'sos', 'mim']
assert tria_paraules_isomorfes(['gag', 'sos', 'mim', 'gat', 'gos'], 'rap') == ['gat', 'gos']

### 4.4 Totes les subcadenes

In [9]:
def totes_subcadenes(cadena):
    """
    Aquesta funció retorna totes les subcadenes de la cadena donada
    
    Parameters
    ----------
    cadena: string
    
    Returns
    -------
    subcadenes: list
    """
    #return [cadena[init : end+1] for init in range(len(cadena)) for end in range(init, len(cadena))]
    sub_cadenes = []
    for init in range(len(cadena)):
        for end in range(init, len(cadena)):
            sub_cadenes.append(cadena[init : end+1])
            
    return sub_cadenes

In [10]:
assert len(totes_subcadenes('abcd')) == int((len('abcd') *(len('abcd') + 1)/2))
assert totes_subcadenes('abcd') == ['a', 'ab', 'abc', 'abcd', 'b', 'bc', 'bcd', 'c', 'cd', 'd']

### 4.5 Levenstein

In [11]:
!wget https://raw.githubusercontent.com/algorismica2019/problemes/master/HUMAN-DNA.txt

--2020-09-13 15:07:10--  https://raw.githubusercontent.com/algorismica2019/problemes/master/HUMAN-DNA.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.112.133
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.112.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 60190 (59K) [text/plain]
Saving to: 'HUMAN-DNA.txt.1'


2020-09-13 15:07:10 (644 KB/s) - 'HUMAN-DNA.txt.1' saved [60190/60190]



In [12]:
def levensthein(patro, text, dlt = 2, insr = 2, subs = 1):
    """
    Aquesta funció implementa l'algorisme de Levensthein.
    
    Parameters
    ----------
    patro: string
    text: sting
    
    dlt: int (default)
    insr: int (default)
    subs: int (default)
        Costos d'edició
        
    Returns
    -------
    minDistance: int
    """
    
    # Calculem la llargada del patro 
    max_row = len(patro) +1 
    # Calculem la llargada del text 
    max_col = len(text)+1

    # Inicialitzem la matriu, les insercions davant del patró tenen cost 0
    distance_matrix = [[0] * max_col for x in range(max_row)]
    for i in range(max_row):  # els esborrats tenen cost 2
        distance_matrix[i][0] = i*2

    # Avancem calculant distàncies
    # Les i són les files, la 0 ja la tenim
    for i in range(1, max_row):  
        # les j són les columnes, la 0 ja la tenim
        for j in range(1, max_col):   
            deletion = distance_matrix[i-1][j] + dlt
            insertion = distance_matrix[i][j-1] + insr
            # hi ha correspondència
            if patro[i-1] == text[j-1]: 
                substitution = distance_matrix[i-1][j-1] 
            else:
                substitution = distance_matrix[i-1][j-1] + subs
            distance_matrix[i][j] = min(insertion, deletion, substitution)
                               
    return min(distance_matrix[max_row-1])



def dna(patro, fitxer = 'HUMAN-DNA.txt'):
    """
    Aquesta funció aplica l'algorisme de Levensthein sobre una seqüència del dna per trobar diferents patrons.
    
    Parameters
    ----------
    patro: string
    fitxer: string (default)
    
    Returns
    -------
    linia: int
    distanciafinal: int
    """

    # On guardarem els resultats
    linia = 0
    distanciafinal = 0
       
    # carreguem el fitxer
    f = open(fitxer, "r")
    textl = f.readlines()
    f.close()     
        
    # proposem una distancia maxima 
    distanciafinal = len(patro) * 2

    # per a cada linia
    # indl es l'index de la linia
    for indl, text in enumerate(textl):

        # eliminem els caracters sobrants \n
        text = text.rstrip()

        # calculem la distància entre aquesta línia i el patró        
        distancialinia = levensthein(patro, text)

        # comparem les distancies de les diferents linies per guardar la mínima 
        if distancialinia < distanciafinal:
            distanciafinal = distancialinia
            linia = indl + 1

    return linia, distanciafinal

In [13]:
assert dna('AGATACATTAGACAATAGAGATGTGGTC') == (32, 11)
assert dna('GTCAGTCTGGCCTTGCCATTGGTGCCACCA') == (352, 11)
assert dna('TACCGAGAAGCTGGATTACAGCATGTACCATCAT') == (233, 13)

### 4.6 Majúscules i minúscules

In [14]:
def rle(text):
    """
    Aquesta funció retorna un text codificat segons run length encoding.
    
    Parameters
    ----------
    text: string
        text a codificar
        
    Returns
    -------
    text: string
        text codificat
    """

    lletraactual = text[0]
    
    # Primera lletra
    comptador = 1  
    
    # Iniciem el text codificat
    textcodificat = lletraactual  
    
    for caracter in text:
        # Comptant quantes ocurrències hi ha
        if caracter == lletraactual:
            comptador += 1 
            
        # resetegem i acumulem    
        else:  
            lletraactual = caracter
            textcodificat = textcodificat + str(comptador) + lletraactual
            comptador = 1
            
    textcodificat = textcodificat + str(comptador)
    
    return textcodificat

In [15]:
assert rle("ABBBBNNNEEEDDDZZAAAAA") == 'A2B4N3E3D3Z2A5'
assert rle("BBBBBBBBBBBBBBBBBWWWWWWZAAA") == 'B18W6Z1A3'

### 4.7 Subcadena més llarga sense cap caràcter repetit

In [16]:
def subcadena_mes_llarga(cadena):
    """
    Aquesta funció identifica la subcadena més llarga sense cap caràcter repetit.
    
    Parameters
    ----------
    cadena: string 
        Cadena donada
        
    Returns
    -------
    subcadena: string
        Subcadena més llarga sense caràcters repetits
    """
    n = len(cadena)
    
    # fem un diccionari amb els caràcters
    diccCaracters = {caracter: False for caracter in cadena}  
    
    # la solució es basa en una finestra que es redefineix cada cop
    # que troba un caràcter repetit
    iniciFinestra = 0
    
    # inici i final de la finestra, el final és el darrer caràcter vist
    # el principi és el primer caràcter no repetit des del final de la
    # finestra
    iniciSubcadena = 0
    finalSubcadena = 0
    
    # inici i final de la subcadena més llarga trobada fins al moment
    for finalFinestra in range(0, n):
        
        if diccCaracters[cadena[finalFinestra]]:
            # si el caràcter ja hi era
            while (cadena[iniciFinestra] != cadena[finalFinestra]):
                diccCaracters[cadena[iniciFinestra]] = False
                iniciFinestra += 1
                # desplacem la finestra a partir de la
                # primera aparició del caràcter, sense incloure'l.
            iniciFinestra += 1
        
        else:
            diccCaracters[cadena[finalFinestra]] = True
            # anotem el caràcter com a existent
            finalFinestra += 1
            # com que no hi ha repeticions augmentem la finestra
            if finalSubcadena - iniciSubcadena < finalFinestra - iniciFinestra:
                # revisem que la nova subcadena no sigui més llarga
                # que la que teniem guardada
                iniciSubcadena = iniciFinestra
                finalSubcadena = finalFinestra
                
    return cadena[iniciSubcadena:finalSubcadena]

In [17]:
assert subcadena_mes_llarga('lacadenamesllarga') == 'namesl'
assert subcadena_mes_llarga('mesllarga') == 'mesl'
assert subcadena_mes_llarga('aaa') ==  'a'

### 4.8 Subseqüència en comú més llarga

In [18]:
import itertools 

def subsequencia_comu_v1(paraula1, paraula2):
    """
    Aquesta funció identifica la longitud de la subseqüència mes llarga mitjançanat força bruta.
    
    Parameters
    ----------
    paraula1: string
    paraula2: string
    
    Returns
    -------
    numCaractersComuns: int
    """
    
    def extreure_sub_sequencies(paraula):
        n = len(paraula)
        return set([''.join(comb) for lenght in range(1, len(paraula) + 1) for comb in list(itertools.combinations(paraula, lenght))])
            
    seq1 = extreure_sub_sequencies(paraula1)
    seq2 = extreure_sub_sequencies(paraula2)
    
    intersect = seq1.intersection(seq2)
    if len(intersect):
        numCaractersComuns = len(sorted(intersect, key = lambda x: len(x))[-1])
        return numCaractersComuns
    
    return 0

In [19]:
assert subsequencia_comu_v1('STUTVST', 'TVUSTS') == 4

In [20]:
def subsequencia_comu_v2(paraula1, paraula2):
    # el teu codi
    return numCaractersComuns

In [21]:
def subsequencia_comu_v3(cadena1, cadena2):
    """
    Aquesta funció identifica la longitud de la subseqüència
    compartida més llarga. 
    En aquest algorisme s'optimitzen els càlculs amb una taula on es guarden
    les solucions parcials
    Parameters
    ----------
    cadena1: string
    cadena2: string 
        Cadenes en les que buscar la subseqüència
        
    Returns
    -------
    numCaractersComuns: int
        Longitud de la subseqüència més llarga
    """
    
    longcad1 = len(cadena1)
    longcad2 = len(cadena2)
    
    # Cal definir fila dins el bucle perquè altrament totes les files són la mateixa
    taulaSolucions=[[0] * (longcad1 + 1) for i in range(longcad2 + 1)]
        
    # La casella[i][j] guarda el valor de longitud de la
    # subseqüència més llarga entre cadena1[0:j] i cadena2[0:i]
    
    for j in range(1, longcad1+1):
        for i in range(1, longcad2+1):
            temp = max(taulaSolucions[i-1][j],  taulaSolucions[i][j-1])
            if cadena1[j-1] == cadena2[i-1]:
                taulaSolucions[i][j] = taulaSolucions[i-1][j-1]+1
            else:
                taulaSolucions[i][j] = temp

    return(taulaSolucions[longcad2][longcad1])

In [22]:
assert subsequencia_comu_v3('XMJYAUZ','MZJAWU') == 4

## Adreces UK

In [23]:
import re

codis = [
        "SW1A 0AA", # House of Commons
        "SW1A 1AA", # Buckingham Palace
        "SW1A 2AA", # Downing Street
        "BX3 2BB", # Barclays Bank
        "DH98 1BT", # British Telecom
        "N1 9GU", # Guardian Newspaper
        "E98 1TT", # The Times
        "TIM E22", # a fake postcode
        "A B1 A22", # not a valid postcode
        "EC2N 2DB", # Deutsche Bank
        "SE9 2UG", # University of Greenwhich
        "N1 0UY", # Islington, London
        "EC1V 8DS", # Clerkenwell, London
        "WC1X 9DT", # WC1X 9DT
        "B42 1LG", # Birmingham
        "B28 9AD", # British Radio 
        "W12 7RJ", # London, BBC News Centre
        "BBC 007" # not a valid postcode
    ]

pc_re = r"[A-z]{1,2}[0-9R][0-9A-Z]? [0-9][ABD-HJLNP-UW-Z]{2}"

for postcode in codis:
    r = re.search(pc_re, postcode)
    if r:
        print(postcode + " matched!")
    else:
        print(postcode + " is not a valid postcode!")

SW1A 0AA matched!
SW1A 1AA matched!
SW1A 2AA matched!
BX3 2BB matched!
DH98 1BT matched!
N1 9GU matched!
E98 1TT matched!
TIM E22 is not a valid postcode!
A B1 A22 is not a valid postcode!
EC2N 2DB matched!
SE9 2UG matched!
N1 0UY matched!
EC1V 8DS matched!
WC1X 9DT matched!
B42 1LG matched!
B28 9AD matched!
W12 7RJ matched!
BBC 007 is not a valid postcode!
