In [None]:
import pandas as pd
import numpy as np

# Importare dati da un file .csv

In [None]:
clienti = pd.read_csv(filepath_or_buffer = r"File/Clienti.csv",
            sep = ";",  #separtore del file, la virgola è il default
            header = 0, #per indicare quale riga contiene contiene l'intestazione, 
                      #0 vuol dire che l'intestazione è nella prima riga
                      #se non c'è intestazione utilizzare None
            #names = ["NumeroCliente","IsActive","Nome","Cognome","DataNascita"] 
            # se non avessi l'intestazione assegnerei i nome con l'attributo names          
            usecols = ["NumeroCliente","Nome","DataNascita","Regione"],  #colonne che vogliamo importare           
            #dtype = {"NumeroCliente":np.str}, #tipi delle colonne
            #parse_dates=["DataNascita"], #colonne da importare come date
            #dayfirst=True, #MOLTO IMPORTANTE, per indicare che nelle date il giorno è indicato prima del mese
            #decimal=".", #separatore dei decimali, il default è il punto
            #index_col = "NumeroCliente", #impostare una colonna come indice
            #nrows = 10 #numero di righe da importare,
            #skiprows = 0, #per saltare alcune righe all'inizio del file
            )


In [None]:
#NOTA INTERESSANTE: altro modo di comporre il percorso del file
import os
path = r"C:\Users\ianto\Desktop\Corso python\file"
os.path.join(path,"Clienti.csv")

In [None]:
clienti.head(5)

In [None]:
#Per visualizzare tutte le righe e tutte le colonne
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

In [None]:
clienti.head(5)

## Ricavare informazioni sul dataframe 

In [None]:
type(clienti)

In [None]:
clienti.dtypes

In [None]:
clienti.info()  

In [None]:
clienti.columns

In [None]:
clienti.shape

In [None]:
clienti.index

## Perché i type sono importanti

La prossima istruzione genera un errore perché il metodo year può essere applicato solo a colonne di tipo datetime 

In [None]:
clienti["DataNascita"].dt.year

Occorre prima convertira la colonna nel tipo date

In [None]:
clienti['DataNascita'] =  clienti['DataNascita'].astype("datetime64[ns]")

In [None]:
clienti.head(5)

In [None]:
clienti.dtypes

In [None]:
clienti.head(10)

In [None]:
clienti["DataNascita"].dt.year[0:5]

# Importare file da excel

In [None]:
from_excel = pd.read_excel(io = r"File/FattureDettaglio.xlsx",
                          sheet_name = 'Tabelle1',
                           usecols = 'A:D,F',
                           header = 0
                          )

In [None]:
type(from_excel)

In [None]:
from_excel.head(5)

In [None]:
from_excel.info()

# Importare file JSON

In [None]:
clienti_j = pd.read_json(path_or_buf = r"File/Clienti.json")
clienti_j.head(5)

In [None]:
clienti2_j = pd.read_json(path_or_buf = r"File/Clienti2.json")
clienti2_j.head(5)

In [None]:
clienti2_j.dtypes

In [None]:
import json

with open(path + "/Clienti2.json", "r") as f:
    data_json = json.load(f)
clienti2_j = pd.json_normalize(data_json)

In [None]:
clienti2_j.head(5)

OSSERVAZIONE: con Python potremmo anche lavorare direttamente data_json

In [None]:
data_json

In [None]:
type(data_json[0])

# Importiamo un altro file csv più complesso

In [None]:
fatture = pd.read_csv(filepath_or_buffer = r"File/Fatture.csv",
            sep = ";",  #separtore del file
            header = None,
            names = ["NumeroFattura","Tipologia","Importo","Iva","IdCliente","ResidenzaCliente","DataFattura","NumeroFornitore"],
            decimal = ","
            )

In [None]:
fatture.info()

Creiamo una nuova colonna DataFattura2 convertendo DataFattura con il metodo astype

In [None]:
fatture['DataFattura2'] =  fatture['DataFattura'].astype("datetime64[ns]")

La conversione è errata, la data 01/03/2017 è diventata 2017-01-03

In [None]:
fatture.head(5)

Dobbiamo specificare il formato di partenza tramite l'argomento format del metodo di pandas to_datetime

In [None]:
fatture['DataFattura2'] =  pd.to_datetime(fatture['DataFattura'],
                                format="%d/%m/%Y",
                                )

In [None]:
fatture.head(5)

ATTENZIONE! Il prossimo blocco di codice importa le date in modo errato

In [None]:
fatture2 = pd.read_csv(filepath_or_buffer = r"File/Fatture.csv",
            sep = ";",  #separtore del file
            header = None,
            names = ["NumeroFattura","Tipologia","Importo","Iva","IdCliente","ResidenzaCliente","DataFattura","NumeroFornitore"],
            decimal = ",",
            parse_dates = ["DataFattura"]
            )
fatture2.head(5)

La prossima conversione fallisce perché non posso convertire in int64 una colonna che contiene dei null

In [None]:
fatture['NumeroFornitore'] = fatture['NumeroFornitore'].fillna(-1).astype('int64')

Per acquisire i null come intero devo usare il tipo Int64

In [None]:
fatture['NumeroFornitore'] = fatture['NumeroFornitore'].astype('Int64')

Oppure sostituire prima i null con un altro valore

In [None]:
fatture['Iva'] = fatture['Iva'].fillna(0).astype(np.int64)

In [None]:
fatture.info()

In [None]:
fatture.head(5)

## Attenzione alla conversione in stringa

In [None]:
fatture2 = fatture

In [None]:
fatture2.info()

In [None]:
fatture2.head(5)

In [None]:
fatture2['NumeroFornitore'] = fatture2['NumeroFornitore'].astype('str')

In [None]:
fatture2.info()

Il null è diventato una stringa 

In [None]:
fatture2.head(5)

Riconverto la stringa in null. Facciamo comunque sempre dei test perché su Pandas potrei varie tipologie di null

In [None]:
fatture2['NumeroFornitore'] = fatture2['NumeroFornitore'].astype('str').replace('nan',  pd.NA).fillna(0)


In [None]:
fatture2.info()

In [None]:
fatture2.head(5)

## Attenzione a non dimenticare .copy()

In [None]:
fatture_new = fatture
fatture_new["NumeroFattura"]=2

In [None]:
fatture_new.head(5)

Anche la colonna NumeroFattura del dataframe fatture è stata modificata!

In [None]:
fatture.head(5)

# Esercizio: importiamo un file excel contenente più fogli

valorizziamo l'argomento sheet_name con None

In [None]:
data = pd.read_excel(r"File/Dati_su_piu_fogli.xlsx",
                    sheet_name=["Fatture","Clienti"])

In [None]:
type(data)

In [None]:
data.keys()

In [None]:
data["Fatture"].head(5)

Un dizionario è un insieme di coppie chiave-valore. Visualizziamo l'elenco delle chiavi

Visualizziamo il valore della chiave Fatture

In [None]:
data["Clienti"].head(5)

posso fare un ciclo sulle chiavi

In [None]:
for chiave in data.keys():
    numero_righe = len(data[chiave])
    print(f'il foglio {chiave} ha {numero_righe} righe')

Posso rimuovere chiavi da un dizionario

# Api: application programming interface

In [None]:
import requests

Creiamo una variabile con l'url per la chiamata api

In [None]:
url = "https://api.github.com/repos/iantomasinicola/PortfolioDataAnalyst"

Utilizziamo il metodo get della libreria requests

In [None]:
res = requests.get("https://api.github.com/repos/iantomasinicola/PortfolioDataAnalyst")
res

Controlliamo che lo status_code sia 200

In [None]:
res.status_code

Visualizziamo il contenuto della risposta: i dati sono difficilmente lavorabili

In [None]:
res.content[0:500]

Anche in formato testo la situazione è difficilmente gestibile

In [None]:
res.text[0:500]

Invece convertendo i dati in json, posso utilizzare le funzionalità dei dizionari di Python!

In [None]:
res.json()

In [None]:
json_res = res.json()

In [None]:
type(json_res)

Accedo a dei valori specifici del dizionario

In [None]:
owner = json_res["owner"]["avatar_url"]
owner

In [None]:
url_home = json_res["owner"]["html_url"]
url_home

In [None]:
topics = json_res["topics"]
topics

In [None]:
type(topics)

In [None]:
print(json_res["description"])

In [None]:
lista = [[json_res["name"], json_res["owner"]["html_url"],json_res["topics"]]]

In [None]:
lista

In [None]:
pd.DataFrame(columns=["name","owner","topics"], data= lista)

Vediamo come possiamo creare un DataFrame

In [None]:
nuovo_dict = {"name": json_res["name"],
              "stato": json_res["owner"]["html_url"],
              "topics":json_res["topics"]}

In [None]:
nuovo_dict

In [None]:
pd.DataFrame(nuovo_dict)

# Esercizio 2: fare degli esperimenti con l'url per ottenere una lista di repository

In [None]:
url = "https://api.github.com/users/iantomasinicola/repos"

In [None]:
progetti = requests.get(url).json()

In [None]:
lista = []
for el in progetti:
    url = "https://api.github.com/repos/iantomasinicola/" + el["name"]
    lista.append([ el["name"], requests.get(url).json()["topics"] ])
lista

In [None]:
lista = []
for el in progetti:
    lista.append([ el["name"], requests.get(url).json()["topics"] ])
lista

In [None]:
pd.DataFrame(columns=["NomeProgetto","Argomento"],data=lista)