# Analisi dimensioni di qualità dei dataset originali

Questo notebook presenta l'analisi di qualità dei dati per i dataset originali, nell'ordine:

- il dataset sulla produzione di CO2
- il dataset sul consumo di carburanti fossili (benzine e gasolio)
- il dataset sul consumo di carbone
- il dataset sull'energia pulita utilizzata
- i dati sulla popolazione

Per prima cosa, importiamo i necessari pacchetti Python e carichiamo i dati

In [1]:
import pandas as pd

In [2]:
co2 = pd.read_csv("./Dataset/Puliti_da_usare/CO2_cleaned.csv")
carbone = pd.read_csv("./Dataset/Puliti_da_usare/Charcoal_UNData.csv")
carburanti = pd.read_csv("./Dataset/Puliti_da_usare/Gas and Diesel 2011-2016.csv", sep=";", quotechar='"')
energia_pulita = pd.read_csv("./Dataset/Puliti_da_usare/renewable_energy_consumption.csv", sep=";", quotechar='"')
popolazione = pd.read_csv("./Dataset/Puliti_da_usare/Population.csv", sep=";", quotechar='"')
nomi_codici_paesi = pd.read_csv("./Dataset/Puliti_da_usare/Country-codes-v1.csv", sep=";", quotechar='"')
gdp = pd.read_csv("./Dataset/finali/PIL.csv", sep=";", quotechar='"')
polveri_sottili = pd.read_csv("./Dataset/finali/Polveri sottili.csv", sep=";", quotechar='"')

Creiamo delle funzioni helper che calcolino la completezza degli attributi, delle tuple e della tabella di un generico dataset:

In [3]:
def completezza_attributi(dataset):
    """Calcola la completezza degli attributi di un dataset."""
    totale = dataset.shape[0]
    non_nulli = dataset.count()
    
    return non_nulli, totale

In [4]:
def completezza_tuple(dataset):
    """Calcola la completezza di tupla di un dataset."""
    num_attributi = dataset.shape[1]
    num_null_in_tupla = [row.isnull().count() for row in dataset]
    
    return num_null_in_tupla

In [5]:
def completezza_tabella(dataset):
    """Calcola la completezza di tabella in un dataset."""
    totali_non_null = dataset.count().sum()
    totali = dataset.shape[0] * dataset.shape[1]
    
    return totali_non_null, totali

## Completezza di tabella

Vediamo la completezza a livello di tabella per tutti i dataset:

In [6]:
tutti_dataset = {"CO2": co2, "carbone": carbone, "carburanti": carburanti,
                "energia_pulita": energia_pulita, "popolazione": popolazione,
                "nomi_codici_paesi": nomi_codici_paesi,
                "GDP": gdp,
                "Polveri sottili": polveri_sottili}

In [7]:
for nome_dataset in tutti_dataset:
    dataset = tutti_dataset[nome_dataset]
    totali_non_null, totali = completezza_tabella(dataset)
    print("Dataset '{}'".format(nome_dataset))
    print("Completezza di tabella: {:4.2f}%, con {} elementi non nulli su {} totali\n"
          .format((totali_non_null / totali) * 100, totali_non_null, totali))

Dataset 'CO2'
Completezza di tabella: 76.87%, con 2669 elementi non nulli su 3472 totali

Dataset 'carbone'
Completezza di tabella: 92.58%, con 23108 elementi non nulli su 24960 totali

Dataset 'carburanti'
Completezza di tabella: 85.64%, con 118659 elementi non nulli su 138558 totali

Dataset 'energia_pulita'
Completezza di tabella: 96.05%, con 4818 elementi non nulli su 5016 totali

Dataset 'popolazione'
Completezza di tabella: 94.58%, con 4994 elementi non nulli su 5280 totali

Dataset 'nomi_codici_paesi'
Completezza di tabella: 96.59%, con 1443 elementi non nulli su 1494 totali

Dataset 'GDP'
Completezza di tabella: 90.17%, con 4999 elementi non nulli su 5544 totali

Dataset 'Polveri sottili'
Completezza di tabella: 48.92%, con 2712 elementi non nulli su 5544 totali



## Completezza degli attributi

Per ogni dataset, vediamo ora la completezza dei suoi attributi:

In [8]:
for nome_dataset in tutti_dataset:
    dataset = tutti_dataset[nome_dataset]
    non_nulli, totale = completezza_attributi(dataset)
    print("#------ Dataset '{}' -------------------------#".format(nome_dataset))
    print("Shape ({}, {}) completezza sugli attributi:"
          .format(dataset.shape[0], dataset.shape[1]))
    print(non_nulli / totale)
    print("\nNumero di tuple con attributo non nullo (su {}):".format(dataset.shape[0]))
    print(non_nulli)
    print("\n\n")

#------ Dataset 'CO2' -------------------------#
Shape (217, 16) completezza sugli attributi:
Series Name      1.000000
Series Code      1.000000
Country Name     1.000000
Country Code     1.000000
1990 [YR1990]    0.797235
2000 [YR2000]    0.917051
2008 [YR2008]    0.935484
2009 [YR2009]    0.935484
2010 [YR2010]    0.935484
2011 [YR2011]    0.935484
2012 [YR2012]    0.949309
2013 [YR2013]    0.949309
2014 [YR2014]    0.944700
2015 [YR2015]    0.000000
2016 [YR2016]    0.000000
2017 [YR2017]    0.000000
dtype: float64

Numero di tuple con attributo non nullo (su 217):
Series Name      217
Series Code      217
Country Name     217
Country Code     217
1990 [YR1990]    173
2000 [YR2000]    199
2008 [YR2008]    203
2009 [YR2009]    203
2010 [YR2010]    203
2011 [YR2011]    203
2012 [YR2012]    206
2013 [YR2013]    206
2014 [YR2014]    205
2015 [YR2015]      0
2016 [YR2016]      0
2017 [YR2017]      0
dtype: int64



#------ Dataset 'carbone' -------------------------#
Shape (4160, 6) com