# Esercizio: Trova la password

Immagina di essere un sistemista maldestro che non ricorda più la password per accedere a un sistema, ma sei sicuro di averla salvata in chiaro in un file `.xml`, da qualche parte nella cartella `/files_esercizi/esempi/` del nostro repository. 

Si tratta di un documento XML che contiene varie informazioni sull'utente, forse il login o l'e-mail, non ricordi, ma sicuramente contiene la password.

Purtroppo non sai qual è il file. Hai molti file, e alcuni di essi sono anche molto lunghi, quindi aprirli uno per uno per fare una ricerca a tutto testo con un editor di testo è impensabile. Soprattutto, hai cose più urgenti da fare e il tempo è denaro! Quindi decidi di scrivere un breve script in Python che cerchi la password al posto tuo.

Ricordi che tutte le informazioni sull'utente erano memorizzate in attributi XML e sei certo che la password sia memorizzata in un attributo chiamato proprio... `password`. Che fantasia!

Hai appena letto che il modulo `lxml` è perfetto per processare molti file XML, anche di grandi dimensioni, quindi decidi di installarlo con `pip` (nel tuo virtual environment, ovviamente!;).

Decidi di procedere per gradi di difficoltà dato che non hai mai usato la libreria `lxml`.

### Per cominciare...

Crei due file di prova `prova_pwd_facile.xml` e `prova_pwd_difficile.xml` e li metti nella cartella `/files_esercizi/esempi/` del nostro repo. I file a questo punto esistono già e hanno seguente aspetto:


Esempio file `prova_pwd_facile.xml`:

```xml
<profile><account login="login" password="secret"/></profile>
```

Output attesto:

<pre>
secret
</pre>

Esempio file `prova_pwd_difficile.xml`:

```xml
<result>
  <webpage link="lxml.de"></webpage>
  <users>
    <!-- Commento a tradimento: la password="è questa" -->
    <user id="239" password="qwerty"><info email="a@a.a"/></user>
  </users>
</result>
```

Output atteso:

<pre>
qwerty
</pre>


### Cosa devo fare?

In pratica devi navigare attraverso l'albero del documento XML utilizzando la libreria `lxml`, trovare un attributo chiamato `password`, leggerne il valore (la password vera e propria) e restituirlo in qualche modo.

### STEP 1.1: Versione semplificata con `prova_pwd_facile.xml`

Dato che a un'attenta analisi il problema si rivela essere un po' più complesso di quanto potrebbe apparire a prima vista, decidi intanto di partire con un algoritmo che trova la password tra gli attributi di uno dei "figli diretti" della root. Se la password non viene trovata, restituisci `None`.

Guardiamo il file:

```xml
<profile><account login="login" password="secret"/></profile>
```

In questo caso il tag `<account>`, che contiene la password, è un "figlio diretto" della root `<profile>`.

> NOTA: Quindi, per intendersi, processando invece il file `prova_pwd_difficile.xml`, in questa prima fase, anche `None` è una risposta valida.

Inizia provando a scrivere del codice che estrae la password dal file [`prova_pwd_facile.xml`](../../files_esercizi/esempi/prova_pwd_facile.xml).

In [7]:
from lxml import etree

xml_file = '../../files_esercizi/esempi/prova_pwd_facile.xml'

# Fa direttamente il parsing del file XML e ottiene il nodo radice
root = etree.parse(xml_file).getroot()

# Per ogni elemento figlio della root
for child_elem in root:
    # Controlla se l'elemento corrente ha un attributo "password"
    password = child_elem.get('password')
    # Se l'attributo "password" è presente, esce dal ciclo
    if password is not None:
        break

# Stampa la password
print(password)

secret


In [8]:
from lxml import etree

with open('../../files_esercizi/esempi/prova_pwd_facile.xml', 'rb') as file_in:

    # Legge il contenuto del file come una stringa
    xml_content = file_in.read()

    # Fa il parsing del contenuto XML usando la funzione 'fromstring'
    root = etree.fromstring(xml_content)

    # Per ogni elemento figlio della root
    for child_elem in root:
        # Controlla se l'elemento corrente ha un attributo "password"
        password = child_elem.get('password')
        # Se l'attributo "password" è presente, esce dal ciclo
        if password is not None:
            break

    # Stampa la password
    print(password)

secret


### STEP 1.2: Versione semplificata con `prova_pwd_difficile.xml`

Prova a fare anche la prova con [`prova_pwd_difficile.xml`](../../files_esercizi/esempi/prova_pwd_difficile.xml), dovresti ottenere `None`.

In [9]:
from lxml import etree

xml_file = '../../files_esercizi/esempi/prova_pwd_difficile.xml'

# Fa direttamente il parsing del file XML e ottiene il nodo radice
root = etree.parse(xml_file).getroot()

# Per ogni elemento figlio della root
for child_elem in root:
    # Controlla se l'elemento corrente ha un attributo "password"
    password = child_elem.get('password')
    # Se l'attributo "password" è presente, esce dal ciclo
    if password is not None:
        break

# Stampa la password
print(password)

None


In [10]:
from lxml import etree

with open('../../files_esercizi/esempi/prova_pwd_difficile.xml', 'rb') as file_in:

    # Legge il contenuto del file come una stringa
    xml_content = file_in.read()

    # Fa il parsing del contenuto XML usando la funzione 'fromstring'
    root = etree.fromstring(xml_content)

    # Per ogni elemento figlio della root
    for child_elem in root:
        # Controlla se l'elemento corrente ha un attributo "password"
        password = child_elem.get('password')
        # Se l'attributo "password" è presente, esce dal ciclo
        if password is not None:
            break

    # Stampa la password
    print(password)

None


### STEP 2: Metti l'algoritmo in una funzione

Dato che dovrai eseguire questo codice per ciascun file XML presente nella cartella in cui vuoi effettuare la ricerca, hai pensato che è il momento di  implementare una funzione `find_password(root)`. 

Questa funzione dovrebbe avere un solo parametro che accetta un oggetto `etree.Element` in questo caso lo chiami `root` perché intendi passare l'elemento root alla funzione.



In [20]:
from lxml import etree

# Definisce una funzione che cerca la password negli elementi figli del nodo radice
def find_password(root):
    # Per ogni elemento figlio della root
    for child_elem in root:
        # Controlla se l'elemento corrente ha un attributo "password"
        password = child_elem.get('password')
        # Se l'attributo "password" è presente, esce dal ciclo
        if password is not None:
            break
    return password


xml_file = '../../files_esercizi/esempi/prova_pwd_facile.xml'
# xml_file = '../../files_esercizi/esempi/prova_pwd_difficile.xml'

# Fa direttamente il parsing del file XML e ottiene il nodo radice
root = etree.parse(xml_file).getroot()

# Chiama la funzione 'find_password' passando il nodo radice
found_password = find_password(root)

print(found_password)

secret


### STEP 3: Navigare in tutti i rami, ricorsivamente

Ora sei pronto per migliorare l'algoritmo e provare a cercare in qualunque elemento della struttura XML.

In [3]:
from lxml import etree

def find_password(root):
    for elem in root:
        if 'password' in elem.keys():
            return elem.get('password')
        if len(elem):  # Se l'elemento corrente ha figli
            return find_password(elem)  # Richiama ricorsivamente la funzione 'find_password'
    return None

# xml_file = '../../files_esercizi/esempi/prova_pwd_facile.xml'
xml_file = '../../files_esercizi/esempi/prova_pwd_difficile.xml'

# Fa direttamente il parsing del file XML e ottiene il nodo radice
root = etree.parse(xml_file).getroot()

# Chiama la funzione 'find_password' passando il nodo radice
found_password = find_password(root)

print(found_password)

secret
