In questo esercizio ti chiediamo di indagare, per un perimetro di aziende, una porzione della loro [nota integrativa](https://it.wikipedia.org/wiki/Nota_integrativa) per analizzare le loro categorie di spesa e cercarvi poi in particolare indicazioni sulle loro spese energetiche valutando l'impatto di tale voce sul totale dei loro costi per servizi tenendo anche in considerazione il settore di attività dell'azienda (determinato dal [codice ATECO](https://it.wikipedia.org/wiki/ATECO)).

### Contesto

Nel bilancio di esercizio le aziende riportano il totale dei loro costi di produzione e il dettaglio per alcune sottovoci.
Ecco un esempio:

![](imgs/conto_economico_bb9b38b12839.png)

A commento del bilancio, in una specifica sezione delle note integrative, le aziende illustrano in dettaglio tali voci fornendo spesso tabelle che offrono una granularità maggiore.
Ecco le note corrispondenti all'esempio precedente:

![](imgs/nota_integrativa_bb9b38b12839.png)

Tale sezione contiene testo in formato HTML.

Le tabelle che vi si possono estrarre riportano spesso, oltre al valore dell'ultimo anno, anche i valori di spesa del precedente esercizio (cui non siamo interessati in questo frangente).

### Input

Viene fornito in input un file che contiene le seguenti colonne:
   - `Atoka ID`: un identificativo dell'azienda
   - `Codice ATECO 2007`: il codice ATECO dell'azienda
   - `Descrizione ATECO 2007`: una label relativa al codice ATECO dell'azienda
   - `HTML`: la sezione della nota integrativa da analizzare relativa ai costi di produzione
   - `costi_produzione`: il valore totale dei costi di produzione 
   - `costi_servizi`: il valore della sotto-voce dei costi di produzione relativa all'acquisto di servizi dove vengono contabilizzati i costi per spese energetiche

In [264]:
import pandas as pd

In [266]:
input_df = pd.read_csv('analisi_spesa_da_note_integrative_20210319.zip')

In [267]:
input_df.head()

Unnamed: 0,Atoka ID,Codice ATECO 2007,Descrizione ATECO 2007,HTML,costi_produzione,costi_servizi
0,fe0f2a2426c7,68.20.02,Affitto di aziende,"\n <p style=""text-align: justify;""><span styl...",4398880.0,1332892.0
1,f9ed72d78870,01.2,COLTIVAZIONE DI COLTURE PERMANENTI,"<p style=""text-align: justify;""><span style=""f...",334301.0,56842.0
2,f8cd0f483c5a,30.11.02,Cantieri navali per costruzioni metalliche e n...,"<span style='font:7.0pt ""Times New Roman""'></s...",8122105.0,3519079.0
3,d3ea46a2e05e,23.51.00,Produzione di cemento,"<div style=""margin:10px; padding:0px;"">\n\t<p ...",99161175.0,37313502.0
4,ca44e0154273,62.01.00,Produzione di software non connesso all'edizione,"<span style=""font-family:'Arial';font-size:12p...",2596157.0,378691.0


### Task

Ti chiediamo di:

1. **estrarre le tabelle** dalla sezione della nota integrativa (suggerimento: usare la funzione `read_html` di pandas)


2. provare a **classificare/raggruppare le voci di spesa** (spesso le aziende usano espressioni simili ma non identiche per riferirsi allo stesso tipo di spesa: ad esempio un'azienda potrebbe usare la dizione "energia" e un'altra "energia elettrica" etc.)


3. concentrarti poi sulle **spese in energia** per calcolarne il valore per ciascuna azienda


4. analizzare la **distribuzione di tali spese** e l'impatto su costi per i servizi e costi di produzione tenendo in considerazione il settore ATECO in cui opera l'azienda.

### Nota metodologica

1. **Linguaggio**: il nostro linguaggio di elezione è Python e ci piace molto condurre analisi e documentare su Jupyter notebooks però non mettiamo alcun vincolo sul linguaggio e gli strumenti da utilizzare per la soluzione del problema


2. **Livello di approfondimento**: la pulizia delle tabelle e il lavoro sulle categorie di spesa è in linea di principio senza fine. Non ti chiediamo un output né perfetto, né completo, ma il minimo di sviluppo per farci capire il tuo approccio. Può andar bene anche semplicemente scrivere o dirci a voce quali sono i limiti dell'approccio adottato e come si potrebbero affrontare avendo più tempo. Non serve assolutamente ingegnerizzare la soluzione.


3. **Copertura**: non tutte le aziende riportano il dettaglio delle spese energetiche e magari molte lo fanno usando espressioni poco convenzionali. Qui come altrove non chiediamo di riuscire a predicare qualcosa su tutte le aziende. Ci interessa più il metodo che la copertura.


4. **Richieste di spiegazioni**: scrivici per qualunque dubbio su dati, richieste etc.


5. **Effort**: non ti chiediamo di investirci delle giornate. Se alcuni passaggi richiedono troppo tempo limitati a descriverci come li effettueresti.