In [1]:
import pandas as pd
import numpy as np

In [2]:
path = r"C:\Users\ianto\Desktop\python\file"

# Importare dati da un file .csv

In [3]:
clienti = pd.read_csv(filepath_or_buffer = path + r"\Clienti.csv",
            sep = ";",  #separtore del file, la virgola è il default
            header = 0, #per indicare quale riga contiene contiene l'intestazione, 
                      #0 vuol dire che l'intestazione è nella prima riga
                      #se non c'è intestazione utilizzare None
            #names = ["NumeroCliente","IsActive","Nome","Cognome","DataNascita"] 
            # se non avessi l'intestazione assegnerei i nome con l'attributo names          
            usecols = ["NumeroCliente","Nome","DataNascita","Regione"],  #colonne che vogliamo importare           
            #dtype = {"NumeroCliente":np.str}, #tipi delle colonne
            #parse_dates=["DataNascita"], #colonne da importare come date
            #dayfirst=True, #MOLTO IMPORTANTE, per indicare che nelle date il giorno è indicato prima del mese
            #decimal=".", #separatore dei decimali, il default è il punto
            #index_col = "NumeroCliente", #impostare una colonna come indice
            #nrows = 10 #numero di righe da importare,
            #skiprows = 0, #per saltare alcune righe all'inizio del file
            )


In [4]:
#NOTA INTERESSANTE: altro modo di comporre il percorso del file
import os
os.path.join(path,"Clienti.csv")

'C:\\Users\\ianto\\Desktop\\python\\file\\Clienti.csv'

In [5]:
clienti.head(5)

Unnamed: 0,NumeroCliente,Nome,DataNascita,Regione
0,1,Nicoletta,01/01/2010,
1,2,Giovanni,01/03/1976,Lazio
2,3,Marco,01/04/1980,Lazio
3,4,Giovanna,01/05/1977,Lazio
4,5,Alice,01/06/1969,Sicilia


In [7]:
#Per visualizzare tutte le righe e tutte le colonne
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

## Ricavare informazioni sul dataframe 

In [6]:
type(clienti)

pandas.core.frame.DataFrame

In [7]:
clienti.dtypes

NumeroCliente     int64
Nome             object
DataNascita      object
Regione          object
dtype: object

In [8]:
clienti.info()  

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39 entries, 0 to 38
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   NumeroCliente  39 non-null     int64 
 1   Nome           39 non-null     object
 2   DataNascita    39 non-null     object
 3   Regione        38 non-null     object
dtypes: int64(1), object(3)
memory usage: 1.3+ KB


In [9]:
clienti.columns

Index(['NumeroCliente', 'Nome', 'DataNascita', 'Regione'], dtype='object')

In [10]:
clienti.shape

(39, 4)

In [11]:
clienti.index

RangeIndex(start=0, stop=39, step=1)

## Perché i type sono importanti

La prossima istruzione genera un errore perché il metodo year può essere applicato solo a colonne di tipo datetime 

In [None]:
clienti["DataNascita"].dt.year

Occorre prima convertira la colonna nel tipo date

In [12]:
clienti['DataNascita'] =  clienti['DataNascita'].astype("datetime64[ns]")

In [14]:
clienti.head(5)

Unnamed: 0,NumeroCliente,Nome,DataNascita,Regione
0,1,Nicoletta,2010-01-01,
1,2,Giovanni,1976-01-03,Lazio
2,3,Marco,1980-01-04,Lazio
3,4,Giovanna,1977-01-05,Lazio
4,5,Alice,1969-01-06,Sicilia


In [15]:
clienti.dtypes

NumeroCliente             int64
Nome                     object
DataNascita      datetime64[ns]
Regione                  object
dtype: object

In [17]:
clienti["DataNascita"].head(5).dt.year

0    2010
1    1976
2    1980
3    1977
4    1969
Name: DataNascita, dtype: int32

# Importare file da excel

In [18]:
from_excel = pd.read_excel(io = path + r'/FattureDettaglio.xlsx',
                          sheet_name = 'Tabelle1',
                          usecols = 'A:D,F',
                           header = 0
                          )

In [19]:
type(from_excel)

pandas.core.frame.DataFrame

In [20]:
from_excel.head(5)

Unnamed: 0,IdFattura,IdProdotto,PrezzoUnitario,Quantita,Omaggio
0,1,4,28.8,28,0.0
1,1,13,38.0,24,0.0
2,2,1,7.3,18,0.0
3,2,3,14.4,4,0.0
4,2,9,12.0,43,0.0


In [21]:
from_excel.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 904 entries, 0 to 903
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   IdFattura       904 non-null    int64  
 1   IdProdotto      904 non-null    int64  
 2   PrezzoUnitario  904 non-null    float64
 3   Quantita        904 non-null    int64  
 4   Omaggio         903 non-null    float64
dtypes: float64(2), int64(3)
memory usage: 35.4 KB


# Importare file JSON

In [22]:
clienti_j = pd.read_json(path_or_buf = path + "/Clienti.json")
clienti_j.head(5)

Unnamed: 0,IdCliente,IsActive,Nome,Cognome,DataNascita,Nazione,Cap,Telefono,Email,Regione,Fax
0,1,True,Nicola,5CF71,2010-01-01,Francia,81622,39 320 3231,Nicola.5CF71@gmail.com,,
1,2,True,Giovanni,A83C2,1976-03-01,Italia,82786,328 32312,Giovanni.A83C2tiscali.com,Lazio,328 32312
2,3,True,Marco,7929A,1980-04-01,Italia,19341,+(39) 327 38312,Marco.7929A@gmail.com,Lazio,+(39) 327 38312
3,4,True,Giovanna,270BC,1977-05-01,Italia,64791,39 320 22312,Giovanna.270BCtiscali.com,Lazio,
4,5,True,Alice,C5B4D,1969-06-01,Italia,99172,320 7231,Alice.C5B4D@gmail.com,Sicilia,320 7231


In [23]:
clienti2_j = pd.read_json(path_or_buf = path + "/Clienti2.json")
clienti2_j.head(5)

Unnamed: 0,Cognome,DataNascita,IdCliente,IsActive,Residenza,Contatti,Nome
0,Rossi,1972-05-01,40,True,"{'Nazione': 'Italia', 'Regione': 'Molise'}","[39 320 3231, 39 320 1123]",
1,,1980-05-01,41,True,"{'Nazione': 'Italia', 'Regione': 'Lombardia'}","[39 320 3199, 39 320 8833]",Nicola


In [24]:
clienti2_j.dtypes

Cognome        object
DataNascita    object
IdCliente       int64
IsActive       object
Residenza      object
Contatti       object
Nome           object
dtype: object

In [25]:
import json

with open(path + "/Clienti2.json", "r") as f:
    data_json = json.load(f)
clienti2_j = pd.json_normalize(data_json)

In [26]:
clienti2_j.head(5)

Unnamed: 0,Cognome,DataNascita,IdCliente,IsActive,Contatti,Residenza.Nazione,Residenza.Regione,Nome
0,Rossi,1972-05-01,40,True,"[39 320 3231, 39 320 1123]",Italia,Molise,
1,,1980-05-01,41,True,"[39 320 3199, 39 320 8833]",Italia,Lombardia,Nicola


OSSERVAZIONE: con Python potremmo anche lavorare direttamente data_json di tipo lista di dizionari

In [27]:
data_json

[{'Cognome': 'Rossi',
  'DataNascita': '1972-05-01',
  'IdCliente': 40,
  'IsActive': 'true',
  'Residenza': {'Nazione': 'Italia', 'Regione': 'Molise'},
  'Contatti': ['39 320 3231', '39 320 1123']},
 {'Nome': 'Nicola',
  'DataNascita': '1980-05-01',
  'IdCliente': 41,
  'IsActive': 'true',
  'Residenza': {'Nazione': 'Italia', 'Regione': 'Lombardia'},
  'Contatti': ['39 320 3199', '39 320 8833']}]

In [28]:
type(data_json[0])

dict

# Importiamo un altro file csv più complesso

In [29]:
fatture = pd.read_csv(filepath_or_buffer = path + '/Fatture.csv',
            sep = ";",  #separtore del file
            header = None,
            names = ["NumeroFattura","Tipologia","Importo","Iva","IdCliente","ResidenzaCliente","DataFattura","NumeroFornitore"],
            decimal = ","
            )

In [30]:
fatture.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18 entries, 0 to 17
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   NumeroFattura     18 non-null     int64  
 1   Tipologia         18 non-null     object 
 2   Importo           18 non-null     float64
 3   Iva               17 non-null     float64
 4   IdCliente         18 non-null     int64  
 5   ResidenzaCliente  18 non-null     object 
 6   DataFattura       18 non-null     object 
 7   NumeroFornitore   16 non-null     float64
dtypes: float64(3), int64(2), object(3)
memory usage: 1.3+ KB


Creiamo una nuova colonna DataFattura2 convertendo DataFattura con il metodo astype

In [31]:
fatture['DataFattura2'] =  fatture['DataFattura'].astype("datetime64[ns]")

La conversione è errata, la data 01/03/2017 è diventata 2017-01-03

In [32]:
fatture.head(5)

Unnamed: 0,NumeroFattura,Tipologia,Importo,Iva,IdCliente,ResidenzaCliente,DataFattura,NumeroFornitore,DataFattura2
0,1,A,1120.0,20.0,1,Molise,01/01/2018,1.0,2018-01-01
1,2,V,32.0,20.0,2,Puglia,01/03/2017,1.0,2017-01-03
2,3,A,45.0,20.0,3,Lombardia,01/06/2017,1.0,2017-01-06
3,4,V,64.0,20.0,3,Lombardia,30/01/2019,1.0,2019-01-30
4,5,A,12.0,20.0,5,Umbria,01/01/2018,1.0,2018-01-01


Dobbiamo specificare il formato di partenza tramite l'argomento format del metodo di pandas to_datetime

In [33]:
fatture['DataFattura2'] =  pd.to_datetime(fatture['DataFattura'],
                                format="%d/%m/%Y",
                                )

In [None]:
fatture.head(5)

ATTENZIONE! Il prossimo blocco di codice importa le date in modo errato

In [None]:
fatture2 = pd.read_csv(filepath_or_buffer = path + '/Fatture.csv',
            sep = ";",  #separtore del file
            header = None,
            names = ["NumeroFattura","Tipologia","Importo","Iva","IdCliente","ResidenzaCliente","DataFattura","NumeroFornitore"],
            decimal = ",",
            parse_dates = ["DataFattura"]
            )
fatture2

La prossima conversione fallisce perché non posso convertire in int64 una colonna che contiene dei null

In [None]:
fatture['NumeroFornitore'] = fatture['NumeroFornitore'].astype('int64')

Per acquisire i null come intero devo usare il tipo Int64

In [34]:
fatture['NumeroFornitore'] = fatture['NumeroFornitore'].astype('Int64')

Oppure sostituire prima i null con un altro valore

In [35]:
fatture['Iva'] = fatture['Iva'].fillna(0).astype(np.int64)

In [36]:
fatture.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18 entries, 0 to 17
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   NumeroFattura     18 non-null     int64         
 1   Tipologia         18 non-null     object        
 2   Importo           18 non-null     float64       
 3   Iva               18 non-null     int64         
 4   IdCliente         18 non-null     int64         
 5   ResidenzaCliente  18 non-null     object        
 6   DataFattura       18 non-null     object        
 7   NumeroFornitore   16 non-null     Int64         
 8   DataFattura2      18 non-null     datetime64[ns]
dtypes: Int64(1), datetime64[ns](1), float64(1), int64(3), object(3)
memory usage: 1.4+ KB


## Attenzione alla conversione in stringa

In [37]:
fatture2 = fatture.copy()

In [38]:
fatture2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18 entries, 0 to 17
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   NumeroFattura     18 non-null     int64         
 1   Tipologia         18 non-null     object        
 2   Importo           18 non-null     float64       
 3   Iva               18 non-null     int64         
 4   IdCliente         18 non-null     int64         
 5   ResidenzaCliente  18 non-null     object        
 6   DataFattura       18 non-null     object        
 7   NumeroFornitore   16 non-null     Int64         
 8   DataFattura2      18 non-null     datetime64[ns]
dtypes: Int64(1), datetime64[ns](1), float64(1), int64(3), object(3)
memory usage: 1.4+ KB


In [39]:
fatture2.head(5)

Unnamed: 0,NumeroFattura,Tipologia,Importo,Iva,IdCliente,ResidenzaCliente,DataFattura,NumeroFornitore,DataFattura2
0,1,A,1120.0,20,1,Molise,01/01/2018,1,2018-01-01
1,2,V,32.0,20,2,Puglia,01/03/2017,1,2017-03-01
2,3,A,45.0,20,3,Lombardia,01/06/2017,1,2017-06-01
3,4,V,64.0,20,3,Lombardia,30/01/2019,1,2019-01-30
4,5,A,12.0,20,5,Umbria,01/01/2018,1,2018-01-01


In [40]:
fatture2['NumeroFornitore'] = fatture2['NumeroFornitore'].astype('str')

In [41]:
fatture2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18 entries, 0 to 17
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   NumeroFattura     18 non-null     int64         
 1   Tipologia         18 non-null     object        
 2   Importo           18 non-null     float64       
 3   Iva               18 non-null     int64         
 4   IdCliente         18 non-null     int64         
 5   ResidenzaCliente  18 non-null     object        
 6   DataFattura       18 non-null     object        
 7   NumeroFornitore   18 non-null     object        
 8   DataFattura2      18 non-null     datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(3), object(4)
memory usage: 1.4+ KB


Il null è diventato una stringa 

In [42]:
fatture2.head(5)

Unnamed: 0,NumeroFattura,Tipologia,Importo,Iva,IdCliente,ResidenzaCliente,DataFattura,NumeroFornitore,DataFattura2
0,1,A,1120.0,20,1,Molise,01/01/2018,1,2018-01-01
1,2,V,32.0,20,2,Puglia,01/03/2017,1,2017-03-01
2,3,A,45.0,20,3,Lombardia,01/06/2017,1,2017-06-01
3,4,V,64.0,20,3,Lombardia,30/01/2019,1,2019-01-30
4,5,A,12.0,20,5,Umbria,01/01/2018,1,2018-01-01


Riconverto la stringa in null. Facciamo comunque sempre dei test perché su Pandas potrei varie tipologie di null

In [43]:
fatture2['NumeroFornitore'] = fatture2['NumeroFornitore'].astype('str').replace('<NA>',  pd.NA)

In [44]:
fatture2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18 entries, 0 to 17
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   NumeroFattura     18 non-null     int64         
 1   Tipologia         18 non-null     object        
 2   Importo           18 non-null     float64       
 3   Iva               18 non-null     int64         
 4   IdCliente         18 non-null     int64         
 5   ResidenzaCliente  18 non-null     object        
 6   DataFattura       18 non-null     object        
 7   NumeroFornitore   16 non-null     object        
 8   DataFattura2      18 non-null     datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(3), object(4)
memory usage: 1.4+ KB


In [45]:
fatture2.head(5)

Unnamed: 0,NumeroFattura,Tipologia,Importo,Iva,IdCliente,ResidenzaCliente,DataFattura,NumeroFornitore,DataFattura2
0,1,A,1120.0,20,1,Molise,01/01/2018,1,2018-01-01
1,2,V,32.0,20,2,Puglia,01/03/2017,1,2017-03-01
2,3,A,45.0,20,3,Lombardia,01/06/2017,1,2017-06-01
3,4,V,64.0,20,3,Lombardia,30/01/2019,1,2019-01-30
4,5,A,12.0,20,5,Umbria,01/01/2018,1,2018-01-01


## Attenzione a non dimenticare .copy()

In [46]:
fatture_new = fatture
fatture_new["NumeroFattura"]=1

In [47]:
fatture_new.head(1)

Unnamed: 0,NumeroFattura,Tipologia,Importo,Iva,IdCliente,ResidenzaCliente,DataFattura,NumeroFornitore,DataFattura2
0,1,A,1120.0,20,1,Molise,01/01/2018,1,2018-01-01


Anche la colonna NumeroFattura del dataframe fatture è stata modificata!

In [49]:
fatture.head(1)

Unnamed: 0,NumeroFattura,Tipologia,Importo,Iva,IdCliente,ResidenzaCliente,DataFattura,NumeroFornitore,DataFattura2
0,1,A,1120.0,20,1,Molise,01/01/2018,1,2018-01-01


# Esercizio 1: Import da un file di testo strutturato

Apriamo il file e salviamo il suo contenuto nella stringa testo. Supponiamo di voler creare un DataFrame contenente l'AccessId e la sequenza

In [50]:
with open(path + "/file_input_fasta.txt", "r") as f:
    testo = f.read()

In [51]:
#OSSERVAZIONE: il codice precedente è equivalente a
f = open(path + "/file_input_fasta.txt", "r")
testo = f.read()
f.close()

In [52]:
testo

'>MG581699.1 Lepiota psalion voucher WU 5152\nTAAGCATATCAATAAGCGGAGGAAAAGAAACTAACAAGGATTCCCCCTAGTAACTGCGAGTGAAGCGGGA\n\n>NR_119449.1 Lepiota scaberula UC 1860006 ITS region\nGTGAACCTGCGGAAGGATCATTATTGAATAATCTTGGTTGGTTGTAGCTGGCTCTTCGGAGTATGTGCAC\n'

In [53]:
type(testo)

str

Osserviamo che il carattere > indica l'inizio di una nuova riga. Dividiamo il testo in una lista di più elementi utilizzando il carattere > come separatore

In [54]:
lista = testo.split(">")

In [55]:
type(lista)

list

In [56]:
lista

['',
 'MG581699.1 Lepiota psalion voucher WU 5152\nTAAGCATATCAATAAGCGGAGGAAAAGAAACTAACAAGGATTCCCCCTAGTAACTGCGAGTGAAGCGGGA\n\n',
 'NR_119449.1 Lepiota scaberula UC 1860006 ITS region\nGTGAACCTGCGGAAGGATCATTATTGAATAATCTTGGTTGGTTGTAGCTGGCTCTTCGGAGTATGTGCAC\n']

accediamo ai singoli elementi della lista

In [57]:
lista[0]

''

In [58]:
lista[1]

'MG581699.1 Lepiota psalion voucher WU 5152\nTAAGCATATCAATAAGCGGAGGAAAAGAAACTAACAAGGATTCCCCCTAGTAACTGCGAGTGAAGCGGGA\n\n'

In [59]:
lista[2]

'NR_119449.1 Lepiota scaberula UC 1860006 ITS region\nGTGAACCTGCGGAAGGATCATTATTGAATAATCTTGGTTGGTTGTAGCTGGCTCTTCGGAGTATGTGCAC\n'

Cicliamo sugli elementi della lista

In [60]:
for el in lista:
    print(el)


MG581699.1 Lepiota psalion voucher WU 5152
TAAGCATATCAATAAGCGGAGGAAAAGAAACTAACAAGGATTCCCCCTAGTAACTGCGAGTGAAGCGGGA


NR_119449.1 Lepiota scaberula UC 1860006 ITS region
GTGAACCTGCGGAAGGATCATTATTGAATAATCTTGGTTGGTTGTAGCTGGCTCTTCGGAGTATGTGCAC



In [61]:
#OSSERVAZIONE: il codice precedente è equivalente a
for i in range(len(lista)):
    print(lista[i])


MG581699.1 Lepiota psalion voucher WU 5152
TAAGCATATCAATAAGCGGAGGAAAAGAAACTAACAAGGATTCCCCCTAGTAACTGCGAGTGAAGCGGGA


NR_119449.1 Lepiota scaberula UC 1860006 ITS region
GTGAACCTGCGGAAGGATCATTATTGAATAATCTTGGTTGGTTGTAGCTGGCTCTTCGGAGTATGTGCAC



Eliminiamo il primo elemento della lista

In [62]:
lista.pop(0)

''

In [63]:
lista

['MG581699.1 Lepiota psalion voucher WU 5152\nTAAGCATATCAATAAGCGGAGGAAAAGAAACTAACAAGGATTCCCCCTAGTAACTGCGAGTGAAGCGGGA\n\n',
 'NR_119449.1 Lepiota scaberula UC 1860006 ITS region\nGTGAACCTGCGGAAGGATCATTATTGAATAATCTTGGTTGGTTGTAGCTGGCTCTTCGGAGTATGTGCAC\n']

Per il momento concentriamoci sul primo elemento della lista. Cerchiamo di recuperare l'AccessId

In [64]:
lista[0].split("\n")

['MG581699.1 Lepiota psalion voucher WU 5152',
 'TAAGCATATCAATAAGCGGAGGAAAAGAAACTAACAAGGATTCCCCCTAGTAACTGCGAGTGAAGCGGGA',
 '',
 '']

In [65]:
lista[0].split("\n")[0]

'MG581699.1 Lepiota psalion voucher WU 5152'

In [66]:
lista[0].split("\n")[0].split(" ")

['MG581699.1', 'Lepiota', 'psalion', 'voucher', 'WU', '5152']

In [67]:
lista[0].split("\n")[0].split(" ")[0]

'MG581699.1'

Analogamente recuperiamo la sequenza

In [68]:
lista[0].split("\n")[1]

'TAAGCATATCAATAAGCGGAGGAAAAGAAACTAACAAGGATTCCCCCTAGTAACTGCGAGTGAAGCGGGA'

Cerchiamo di generalizzare il tutto con un ciclo for creando una lista di liste

In [69]:
lista_dati = []
for el in lista:
    accessId = el.split("\n")[0].split(" ")[0]
    seq =  el.split("\n")[1]
    lista_dati.append([accessId,  seq])

In [70]:
lista_dati

[['MG581699.1',
  'TAAGCATATCAATAAGCGGAGGAAAAGAAACTAACAAGGATTCCCCCTAGTAACTGCGAGTGAAGCGGGA'],
 ['NR_119449.1',
  'GTGAACCTGCGGAAGGATCATTATTGAATAATCTTGGTTGGTTGTAGCTGGCTCTTCGGAGTATGTGCAC']]

Avrei potuto creare anche una lista di dizionari

In [71]:
lista_dizionari = []
for el in lista:
    accessId = el.split("\n")[0].split(" ")[0]
    seq =  el.split("\n")[1]
    lista_dizionari.append({"accessId":accessId,  "seq:":seq})

In [72]:
lista_dizionari

[{'accessId': 'MG581699.1',
  'seq:': 'TAAGCATATCAATAAGCGGAGGAAAAGAAACTAACAAGGATTCCCCCTAGTAACTGCGAGTGAAGCGGGA'},
 {'accessId': 'NR_119449.1',
  'seq:': 'GTGAACCTGCGGAAGGATCATTATTGAATAATCTTGGTTGGTTGTAGCTGGCTCTTCGGAGTATGTGCAC'}]

Inseriamo i dati in un dataframe partendo dalla lista di liste

In [73]:
df = pd.DataFrame(columns = ['accessid','sequenza'], data = lista_dati)
df

Unnamed: 0,accessid,sequenza
0,MG581699.1,TAAGCATATCAATAAGCGGAGGAAAAGAAACTAACAAGGATTCCCC...
1,NR_119449.1,GTGAACCTGCGGAAGGATCATTATTGAATAATCTTGGTTGGTTGTA...


oppure dalla lista di dizionari

In [74]:
df = pd.DataFrame(data = lista_dizionari)
df

Unnamed: 0,accessId,seq:
0,MG581699.1,TAAGCATATCAATAAGCGGAGGAAAAGAAACTAACAAGGATTCCCC...
1,NR_119449.1,GTGAACCTGCGGAAGGATCATTATTGAATAATCTTGGTTGGTTGTA...


In [75]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   accessId  2 non-null      object
 1   seq:      2 non-null      object
dtypes: object(2)
memory usage: 164.0+ bytes


# Funzioni

Condensiamo il codice precedente in una funzione:

In [76]:
def acquisisci_file_fasta():
    path = r"C:\Users\ianto\Desktop\python\file"
    
    #acquisiamo il contenuto del file all'interno della variabile testo
    with open(path + r"\file_input_fasta.txt","r") as f:
        testo = f.read()
    
    #creiamo una lista a partire dalla variabile di tipo stringa ed eliminiamo il primo elemento
    lista = testo.split(">")
    lista.pop(0)
    
    #creiamo una lista vuota da popolare con gli elementi della lista precedente
    lista_dati = []
    for el in lista:
        accessId = el.split("\n")[0].split(" ")[0]
        seq =  el.split("\n")[1]
        lista_dati.append([accessId,  seq])
    
    #utilizziamo la lista appena creata per definire un DataFrame di Pandas
    df = pd.DataFrame(columns = ['accessid','sequenza'], data = lista_dati)
    return df

Chiamiamo la funzione

In [77]:
dataframe = acquisisci_file_fasta()
dataframe

Unnamed: 0,accessid,sequenza
0,MG581699.1,TAAGCATATCAATAAGCGGAGGAAAAGAAACTAACAAGGATTCCCC...
1,NR_119449.1,GTGAACCTGCGGAAGGATCATTATTGAATAATCTTGGTTGGTTGTA...


Aggiungiamo i parametri di input

In [78]:
def acquisisci_file_fasta(path, file ):
    
    #acquisiamo il contenuto del file all'interno della variabile testo
    with open(os.path.join(path,file),"r") as f:
        testo = f.read()
        
    #creiamo una lista a partire dalla variabile di tipo stringa ed eliminiamo il primo elemento
    lista = testo.split(">")
    lista.pop(0)
    
    #creiamo una lista vuota da popolare con gli elementi della lista precedente
    lista_dati = []
    for el in lista:
        accessId = el.split("\n")[0].split(" ")[0]
        seq =  el.split("\n")[1]
        lista_dati.append([accessId,  seq])
        
    #utilizziamo la lista appena creata per definire un DataFrame di Pandas
    df = pd.DataFrame(columns = ['accessid','sequenza'], data = lista_dati)
    
    return df

Chiamiamo la funzione

In [79]:
dataframe = acquisisci_file_fasta(path = r"C:\Users\ianto\Desktop\python\file", file = "file_input_fasta.txt")
dataframe

Unnamed: 0,accessid,sequenza
0,MG581699.1,TAAGCATATCAATAAGCGGAGGAAAAGAAACTAACAAGGATTCCCC...
1,NR_119449.1,GTGAACCTGCGGAAGGATCATTATTGAATAATCTTGGTTGGTTGTA...


# Esercizio 2: importiamo un file excel contenente più fogli

valorizziamo l'argomento sheet_name con None

In [80]:
data = pd.read_excel(path+r"\Dati_su_piu_fogli.xlsx",sheet_name=None)

ottengo una variabile di tipo dizionario

In [81]:
type(data)

dict

Un dizionario è un insieme di coppie chiave-valore. Visualizziamo l'elenco delle chiavi

In [82]:
data.keys()

dict_keys(['Fatture', 'Clienti', 'Fornitori'])

Visualizziamo il valore della chiave Fatture

In [84]:
data["Fatture"].head(5)

Unnamed: 0,IdFattura,Tipologia,Importo,Iva,IdCliente,IdFornitore
0,1,A,40,20.0,1,1.0
1,2,V,32,20.0,2,1.0
2,3,A,45,20.0,3,1.0
3,4,V,64,20.0,3,1.0
4,5,A,12,20.0,5,1.0


posso fare un ciclo sulle chiavi

In [85]:
for chiave in data.keys():
    numero_righe = len(data[chiave])
    print(f'il foglio {chiave} ha {numero_righe} righe')

il foglio Fatture ha 18 righe
il foglio Clienti ha 39 righe
il foglio Fornitori ha 5 righe


Posso rimuovere chiavi da un dizionario

In [86]:
del data["Fornitori"]
data.keys()

dict_keys(['Fatture', 'Clienti'])

Posso aggiungere o sovrascrivere una chiave

In [87]:
data["Fornitori"] = pd.read_excel(path+r"\Dati_su_piu_fogli.xlsx",sheet_name="Fornitori")
data.keys()

dict_keys(['Fatture', 'Clienti', 'Fornitori'])

Se volessi creare io direttamente una variabile con un dizionario dovrei usare questa sintassi

In [88]:
dizionario = {"chiave 1":"primo valore", 
              "chiave 2":["a",3],
              "chiave 3": 1}

In [89]:
dizionario

{'chiave 1': 'primo valore', 'chiave 2': ['a', 3], 'chiave 3': 1}

# Api: application programming interface

In [90]:
import requests

Creiamo una variabile con l'url per la chiamata api

In [91]:
url = "https://api.github.com/repos/iantomasinicola/PortfolioDataAnalyst"

Utilizziamo il metodo get della libreria requests

In [92]:
res = requests.get(url)

Controlliamo che lo status_code sia 200

In [93]:
res.status_code

200

Visualizziamo il contenuto della risposta: i dati sono difficilmente lavorabili

In [None]:
res.content

Anche in formato testo la situazione è difficilmente gestibile

In [None]:
res.text

Invece convertendo i dati in json, posso utilizzare le funzionalità dei dizionari di Python!

In [None]:
res.json()

In [95]:
json_res = res.json()

In [96]:
type(json_res)

dict

Accedo a dei valori specifici del dizionario

In [97]:
nome = json_res["name"]
nome

'PortfolioDataAnalyst'

In [98]:
url_home = json_res["owner"]["html_url"]
url_home

'https://github.com/iantomasinicola'

In [99]:
topics = json_res["topics"]
topics

['data-analysis', 'excel', 'python', 'sql']

In [100]:
type(topics)

list

In [101]:
print(json_res["description"])

Progetto di Data analysis con Python, Microsoft Sql Server e Excel


Vediamo come possiamo creare un DataFrame

In [102]:
nuovo_dict = {"name": json_res["name"],
              "stato": json_res["owner"]["html_url"],
              "topics":json_res["topics"]}

In [103]:
nuovo_dict

{'name': 'PortfolioDataAnalyst',
 'stato': 'https://github.com/iantomasinicola',
 'topics': ['data-analysis', 'excel', 'python', 'sql']}

In [104]:
pd.DataFrame(nuovo_dict)

Unnamed: 0,name,stato,topics
0,PortfolioDataAnalyst,https://github.com/iantomasinicola,data-analysis
1,PortfolioDataAnalyst,https://github.com/iantomasinicola,excel
2,PortfolioDataAnalyst,https://github.com/iantomasinicola,python
3,PortfolioDataAnalyst,https://github.com/iantomasinicola,sql


# Esercizio 3: fare degli esperimenti con l'url per ottenere una lista di repository

In [105]:
url = "https://api.github.com/users/iantomasinicola/repos"

# API in libreria

Sito web con informazioni di bioinformatica

https://www.ncbi.nlm.nih.gov/genbank/

La libreria biopython richiede di installare componenti di C++ troppo pesanti, guardiamo solo il codice.

In [None]:
from Bio import Entrez
from Bio import SeqIO

In [None]:
Entrez.email = "nicola.iantomasi@yimp.it"

Effettuiamo una chiamata get utilizzando direttamente il metodo efetch di Entrez.

In [None]:
handle = Entrez.efetch(db="nucleotide", id="AY851612", rettype="gb", retmode="text")

In [None]:
type(handle)

In [None]:
handle.read()

In [None]:
handle.read()

Utilizziamo nuovamente efetch, ma questa volta salviamo il risultato in una variabile

In [None]:
dati = handle.read()

In [None]:
type(dati)

In [None]:
dati[:300]

biopython contiene anche dei moduli specifici per leggere e lavorare il risultato della chiamata api

In [None]:
handle = Entrez.efetch(db="nucleotide", id="AY851612", rettype="gb", retmode="text")
dati = SeqIO.read(handle, 'genbank')

In [None]:
type(dati)

In [None]:
print(dati)

Estraiamo la descrizione del nucleotide

In [None]:
dati.description

# Lettura da SQL Server

In [106]:
import getpass
import pandas as pd
from sqlalchemy import create_engine

In [107]:
server_name = 'LAPTOP-UDP6N0UL\\SQLEXPRESS'
database_name = 'CorsoSQL'
utente = getpass.getpass(prompt='Inserisci nome utente: ')
password = getpass.getpass(prompt='Inserisci la password: ')

conn_str = f'mssql+pyodbc://{utente}:{password}@{server_name}/{database_name}?driver=ODBC+Driver+17+for+SQL+Server'

Inserisci nome utente:  ········
Inserisci la password:  ········


In [108]:
engine = create_engine(conn_str)

In [110]:
df = pd.read_sql( sql = "SELECT * \
                    FROM Clienti \
                    WHERE RegioneResidenza = 'Lombardia'", 
             con = engine)

In [111]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   IdCliente         3 non-null      int64 
 1   Nome              3 non-null      object
 2   Cognome           3 non-null      object
 3   DataNascita       3 non-null      object
 4   RegioneResidenza  3 non-null      object
dtypes: int64(1), object(4)
memory usage: 252.0+ bytes


In [112]:
df = pd.read_sql( sql = "SELECT * \
                    FROM Clienti \
                    WHERE RegioneResidenza = 'Lombardia'", 
             con = engine,
             parse_dates = "DataNascita")

In [113]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   IdCliente         3 non-null      int64         
 1   Nome              3 non-null      object        
 2   Cognome           3 non-null      object        
 3   DataNascita       3 non-null      datetime64[ns]
 4   RegioneResidenza  3 non-null      object        
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 252.0+ bytes


Esempio di lettura del server e del database da un file di configurazione

In [114]:
import json
with open(r"C:\Users\ianto\Desktop\python\config.json", 'r') as config_file:
    config_data = json.load(config_file)

server_name = config_data['server_name']
database_name = config_data['database_name']

utente = getpass.getpass(prompt='Inserisci nome utente: ')

password = getpass.getpass(prompt='Inserisci la password: ')

conn_str = f'mssql+pyodbc://{utente}:{password}@{server_name}/{database_name}?driver=ODBC+Driver+17+for+SQL+Server'

engine = create_engine(conn_str)

Inserisci nome utente:  ········
Inserisci la password:  ········


In [115]:
pd.read_sql( sql = "SELECT * \
                    FROM Clienti \
                    WHERE RegioneResidenza = 'Lombardia'", 
             con = engine,
             parse_dates = "DataNascita")

Unnamed: 0,IdCliente,Nome,Cognome,DataNascita,RegioneResidenza
0,6,Alberto,Marino,1980-02-03,Lombardia
1,7,Maria,Guarino,1980-01-08,Lombardia
2,8,Giacomo,Sacco,1980-10-11,Lombardia


# Lettura da MongoDB

importiamo la libreria pymongo

In [116]:
from pymongo import MongoClient

Connettiamoci al database. In contesti non didattici dovremmo seguire le policy di sicurezza del reparto IT per connetterci al database

In [117]:
client = MongoClient("mongodb://localhost:27017")

Posizioniamoci sul database corso_mongo_db

In [118]:
db = client.corso_mongodb

Proviamo ad eseguire una query

In [119]:
result = db.fatture.find(
                {"importo":{"$gt" : 25}},
                {"id_fattura":1,
                 "data_fattura":1,
                 "importo":1,
                 "_id":0}
                );

la variabile result è un cursore di pymongo

In [120]:
type(result)

pymongo.synchronous.cursor.Cursor

applicando il metodo next possiamo lavorare il contenuto del cursore "un documento alla volta"

In [121]:
document = result.next()

In [122]:
print(document)

{'id_fattura': 1, 'importo': Decimal128('120.12'), 'data_fattura': datetime.datetime(2018, 1, 1, 0, 0)}


In [123]:
type(document)

dict

posso utilizzare tutte le funzionalità dei dizionari di Python

In [124]:
document["id_fattura"]

1

eseguiamo più volte il metodo next, dopo aver scorso tutti gli elementi del cursore otteremo un errore

In [125]:
result.next()

{'id_fattura': 2,
 'importo': Decimal128('32.212'),
 'data_fattura': datetime.datetime(2017, 3, 1, 0, 0)}

possiamo lavorare con i cursori anche tramite cicli for

In [126]:
result = db.fatture.find(
                {"importo":{"$gt" : 65}},
                {"id_fattura":1,
                 "data_fattura":1,
                 "importo":1,
                 "_id":0}
                );

for document in result:
    print(document)

{'id_fattura': 1, 'importo': Decimal128('120.12'), 'data_fattura': datetime.datetime(2018, 1, 1, 0, 0)}
{'id_fattura': 9, 'importo': Decimal128('67'), 'data_fattura': datetime.datetime(2018, 1, 1, 0, 0)}
{'id_fattura': 13, 'importo': Decimal128('87.23'), 'data_fattura': datetime.datetime(2016, 1, 3, 0, 0)}


o salvando i dati in una lista

In [127]:
result = db.fatture.find(
                {"importo":{"$gt" : 65}},
                {"id_fattura":1,
                 "data_fattura":1,
                 "importo":1,
                 "_id":0}
                );

lista = list(result)

In [128]:
lista

[{'id_fattura': 1,
  'importo': Decimal128('120.12'),
  'data_fattura': datetime.datetime(2018, 1, 1, 0, 0)},
 {'id_fattura': 9,
  'importo': Decimal128('67'),
  'data_fattura': datetime.datetime(2018, 1, 1, 0, 0)},
 {'id_fattura': 13,
  'importo': Decimal128('87.23'),
  'data_fattura': datetime.datetime(2016, 1, 3, 0, 0)}]

In [129]:
lista[0]

{'id_fattura': 1,
 'importo': Decimal128('120.12'),
 'data_fattura': datetime.datetime(2018, 1, 1, 0, 0)}

o salvando i dati in un DataFrame di pandas

In [130]:
import pandas as pd
result = db.fatture.find(
                {"importo":{"$gt" : 65}},
                {"id_fattura":1,
                 "data_fattura":1,
                 "importo":1,
                 "_id":0}
                );

result_df = pd.DataFrame(result)

In [131]:
result_df

Unnamed: 0,id_fattura,importo,data_fattura
0,1,120.12,2018-01-01
1,9,67.0,2018-01-01
2,13,87.23,2016-01-03


posso eseguire anche aggregazioni

In [133]:
result = db.clienti.aggregate(
                      [
                        {"$lookup":{"from"        : "fatture",
                                    "localField"  : "id_cliente", 
                                    "foreignField": "id_cliente", 
                                    "as"          : "fatture"   }
                        },
                        {"$project":{"id_cliente":True,
                                     "fatture.importo":True,
                                     "_id":False}},
                        {"$limit":3}
                    ]);

for document in result:
    print(document)

{'id_cliente': 1, 'fatture': [{'importo': Decimal128('120.12')}, {'importo': Decimal128('34')}, {'importo': Decimal128('21')}, {'importo': Decimal128('24')}]}
{'id_cliente': 2, 'fatture': [{'importo': Decimal128('32.212')}, {'importo': Decimal128('21')}, {'importo': Decimal128('87.23')}]}
{'id_cliente': 3, 'fatture': [{'importo': Decimal128('45')}, {'importo': Decimal128('64')}, {'importo': Decimal128('12')}, {'importo': Decimal128('67')}]}


Attenzione alle date. Vediamo come diventa questo filtro
{
    "data_spesa": ISODate("2020-03-01T08:00:00.000Z")
}

In [134]:
from datetime import datetime, tzinfo, timezone
result = db.spese.find({'data_spesa': datetime(2020, 3, 1, 8, 0, 0 ,tzinfo=timezone.utc)});

for document in result:
    print(document)


{'_id': 1, 'nome_prodotto': 'Prodotto1', 'prezzo': Decimal128('10'), 'quantita': 2, 'data_spesa': datetime.datetime(2020, 3, 1, 8, 0)}


Possiamo indicare anche i microsecondi

In [135]:
from datetime import datetime, tzinfo, timezone
result = db.spese.find({'data_spesa': datetime(2020, 3, 1, 8, 0, 0, 100000,tzinfo=timezone.utc)});

for document in result:
    print(document)
