# üìò CityAI ‚Äì Cerca de textos a les subvencions p√∫bliques

Aquest notebook utilitza dades obertes de l‚ÄôAjuntament de Barcelona per practicar conceptes d‚Äôalgor√≠smica. En concret es treballaran els algorismes de cerca de text exacte i altres algorismes de manipulaci√≥ de cadenes.

## üß† Objectius

Aprofundir en els algorismes vistos a teoria, i veure la seva aplicaci√≥ en un cas real.

## ‚úçÔ∏è Exercici 1: LLegir les dades del fitxer i guardar-les en una llista

L'Ajuntament de Barcelona guarda i publica les dades de les subvencions que concedeix en un fitxer p√∫blic. Aquest fitxer t√© les seg√ºents dades:
+ L'entitat municipal que ha concedit la subvenci√≥
+ L'any en qu√® s'ha concedit la subvenci√≥
+ La tipologia de subvenci√≥
+ L'objecte de la subvenci√≥
+ L'import sol.licitat

*Nota*: Hem reduit el fitxer i simplificat les dades per facilitar  treballar-hi. Per aixo treballarem amb el fitxer SubvencionsReduitNetejat.csv

Escriu una funci√≥ que llegeixi les dades de SubvencionsReduitNetejat.csv i les guardi en una llista de llistes.

In [19]:
from typing import Any

In [32]:
def llegir_dades(nom_fitxer:str)->list[list[any]]:
    """
    Aquesta funci√≥ llegeix les dades dels fitxers de subvencions de l'Ajuntament 
    de Barcelona i retorna una llista de llistes
    
    Parameters
    ----------
    nom_fitxer:str
    
    Returns
    -------
    dades: list[list[any]]
    """
    dades: list[list[str]] = []
    with open(nom_fitxer, "r") as file:
        for line in file:
            aux: list[Any] = line.split(";")
            aux[1], aux[-1] = int(aux[1]), int(aux[-1])
            dades.append(aux)
    
    return dades

In [33]:
# ‚úÖ Asserts p√∫blics
dades = llegir_dades("SubvencionsReduitNetejat.csv")
assert(dades[5]==['Ajuntament de Barcelona', 2022, 'Convocatoria 2022 Impuls socioeconomic del territori IMPULSEM', 'L estiu Cooperatiu de Sant Marti', 400000])
assert(dades[159]==['Ajuntament de Barcelona', 2017, 'CONVOCATORIA GENERAL DE SUBVENCIONS 2017  SANT ANDREU', 'CULTURA INTERBARRIAL', 12000])

## ‚úçÔ∏è Exercici 2 ‚Äì Subvencions d'un tema.

Hi ha alguna subvenci√≥ relacionada amb els gegants? (cerca exacta per Horspool)

Aplica l'algorisme de Horspool de teoria per buscar alguns temes espec√≠fics dins dels objectes de  les subvencions. Els temes s'han de trobar tant si estan en maj√∫scula com en min√∫scula.

Prova de trobar "gegant", "salud", "cultura", "teatre", "infancia"

Si els trobes retorna la fila de dades que els cont√© i destaca la seva aparaci√≥ amb ** davant i ** darrera del text trobat.

Per ex. buscar_patro(dades,"gegant") ha de retornar (mira codi Markdown)
[['Ajuntament de Barcelona',
  2019,
  'CONVOCATORIA GENERAL DE SUBVENCIONS 2019. HORTA GUINARDO',
  'Una **gegant**a  Carmela  i els seus cap grossos.',
  46700]]

Pots trobar una explicaci√≥ detallada de l'algoritme de Hoorspol en aquest v√≠deo:  
https://www.youtube.com/watch?v=PHXAOKQk2dw  
(tamb√© anomenat algoritme de Boyer‚ÄìMoore‚ÄìHorspool, ja que √©s una simplificaci√≥ de l'algoritme de Boyer-Moore).

In [None]:
def BoyerMooreHorspool(patro:str, text:str)->int:    
    """
    If patro in text, return the index of the first char of the patro in the text, 
    if patro not in text, return -1
        
    Algorithm idea:
        i = 0 points to the text
        j = len(patro) - 1 points to the end of the patro
        ---
        comparison between text[i + j] and patro[j]:
            j = len(patron) - 1
            while(patro[j] == text[i + j])
                j -= 1
                if j == -1: return i
            
            if [i + j] in skip:
                i += skip[i + j]
            else: i += len(patron)
        ---
        | i = 0
        onionnnnnnnnnn
        onion
            ^ j = 4
    """
    length: int = len(patro)
    skip: dict[str, int] = create_skip(patro)
    i: int = 0  # points to the beginning of the text

    while i <= (len(text) - length):
        j: int = length - 1  # points to the last char of patro
        while (patro[j] == text[i + j]):
            j -= 1
            if j == -1: return i
        
        if text[i + j] in skip:
            i += skip[text[i+length-1]]
        else:
            i += length
    
    return -1  # if patro not in text



def create_skip(patro:str) -> dict[str, int]:
    """
    Creates a dictionary of skip in the Horspool traverse
    """
    skip: dict[str, int] = {}
    for i in range(0, len(patro) - 1):
        skip[patro[i]] = len(patro) - 1 - i
    
    return skip


In [None]:
def buscar_patro(text: list[list[Any]], patro: str) -> list[list[Any]]:
    """
    Returns every list that contains patro, inserted ** before and after the patro
    If patro not in text, returns nothing
    ---
    Parameters:
    text: list[list[Any]]
        List of list[Any], which every list[Any] may contain patro.
        list[Any] contains 5 elements
        list[Any]'s 2nd element and least element can't contain patro
    patro: str
        The str to be searched in text
    ---
    Return:
    Every list that contains patro, modified with **. Packed in list[list[Any]]
    """
    list_patron: list[list[Any]] = []
    possible_index: list[int] = [0, 2, 3]
    for line in text:
        for index in possible_index:
            position: int = BoyerMooreHorspool(patro, line[index])
            if position != -1:
                line[index] = assert_pompompurins(position, len(patro), line[index])
                list_patron.append(line)
            break
    
    return list_patron


def assert_pompompurins(position: int, length: int, text: str) -> str:
    """
    This method asserts ** to the beginning and the end to 
    the str which it's first character is at text[position]
    The name of this method is Pompompurins because he has an * on his body
    ---
    Parameters:
    position: int
        is the index of the first char of the word
    length: int
        length of the word
    text: str
        text[position] is the first char of the word
    """

    return text[:position] + "**" + text[position:position+length] + "**" + text[position+length:]

In [58]:
# ‚úÖ Asserts p√∫blics
assert(buscar_patro(dades,"infancia")) == [['Ajuntament de Barcelona',
  2017,
  'AJUTS',
  'Ajut del programa Promocio i participacio **infancia**',
  52290],
 ['Ajuntament de Barcelona',
  2017,
  'AJUTS',
  'Ajut del programa Promocio i participacio **infancia**',
  53070],
 ['Ajuntament de Barcelona',
  2018,
  'AJUTS',
  'Ajut del programa Promocio i participacio **infancia**',
  47850],
 ['Ajuntament de Barcelona',
  2017,
  'AJUTS',
  'Ajut del programa Promocio i participacio **infancia**',
  3960]]

42
42
42
42


## ‚úçÔ∏è Exercici 3 ‚Äì Abreviaci√≥ d'entitats.

Hi ha tantes subvencions que l'ajuntament ha decidit guardar els noms de les entitats que concedeixen els ajuts de forma abreujada, guardant nom√©s les seves inicials. Per exemple: Institut Municipal Barcelona Esports es guardar√† com IMBE

Escriu una funci√≥ que a partir d'una frase sense punts, comes, accents, n√∫meros ni cap signe de puntuaci√≥, imprimeixi l'acr√≤nim corresponent.

In [67]:
def acronim(frase: str) -> str:
    """
    Aquesta funci√≥ retorna l'acr√≤nim d'una frase.
    
    Parameters
    ----------
    frase: string
    
    Returns
    -------
    acronim: string
    """
    list_word: list[str] = frase.split()
    return "".join([word[0] for word in list_word])

In [70]:
# ‚úÖ Asserts p√∫blics
assert(acronim("Institut Municipal Barcelona Esports")) == "IMBE"
assert(acronim("Institut Municipal Barcelona Esports")) == "IMBE"

## ‚úçÔ∏è Exercici 4 ‚Äì Alfabet d'aviaci√≥

Com que ara hi ha tantes sigles, sovint hi ha confusions per tel√®fon, i els responsables de l'ajuntament han adoptat l'alfabet de l'aviaci√≥ per a comunicar-se.

Alfabet d'aviaci√≥:
|   |   |   |   |   |
|---|---|---|---|---|
| A | B | C | D | E |
| Alpha | Bravo | Charlie | Delta | Echo |
| F | G | H | I | J |
| Foxtrot | Golf | Hotel | India | Juliet |
| K | L | M | N | O |
| Kilo | Lima | Mike | November | Oscar |
| P | Q | R | S | T |
| Papa | Quebec | Romeo | Sierra | Tango |
| U | V | W | X | Y |
| Uniform | Victor | Whiskey | X-ray | Yankee |
| Z |   |   |   |   |
| Zulu |   |   |   |   |

Escriu una funci√≥ que, usant un diccionari, converteixi una cadena de lletres a l'alfabet d'aviaci√≥, generant una llista de sortida.

Per exemple: IMBE generar√† la llista [India, Mike, Bravo, Echo]

In [76]:
def aviacio(cadena: str):
    """
    Aquesta funci√≥ converteix una cadena d'entrada a l'alfabet fon√®tic.
    
    Parameters
    ----------
    cadena: string
    
    Returns
    -------
    traduccio: string
    """
    abreviation: dict[str:str] = {
        "A":"Alpha", "B":"Bravo", "C":"Charlie", "D":"Delta", "E":"Echo", 
        "F":"Foxtrot", "G":"Golf", "H":"Hotel", "I":"India", "J":"Juliet", 
        "K":"Kilo", "L":"Lima", "M":"Mike", "N":"November", "O":"Oscar", 
        "P":"Papa", "Q":"Quebec", "R":"Romeo", "S":"Sierra", "T":"Tango", 
        "U":"Uniform", "V":"Victor", "W":"Wiskey", "X":"X-ray", "Y":"Yankee", 
        "Z":"Zulu"
    }
    cadena = cadena.upper()
    traduccio: list[str] = [abreviation[char] for char in cadena]

    return traduccio

In [77]:
# ‚úÖ Asserts p√∫blics
assert aviacio('YtH') == ['Yankee', 'Tango', 'Hotel']