# Python Case Study - Papers

The goal of this exercise is to explore a dataset of 10,000 Computer Science papers, compiled in a CSV file through web scraping. Mission: gain insights through descriptive analysis, evaluate data quality, and query them.

## Data Quality Assessment

Per pulire i dati è necessario verificare che i record siano letti correttamente.

In [1]:
import pandas as pd

df = pd.read_csv("papers.csv", quotechar='"')
df.shape

(10000, 7)

L'argomento quotechar serviva ad evitare che gli /n dividano il record. Abbiamo poi verificato che in realtà Python legge correttamente i record.

In [None]:
df.head()

In [None]:
df.tail()

Il passo successivo è trovare e gestire i valori mancanti

In [None]:
df.isnull().sum()

In [None]:
df.info()

Risultano esserci molti valori mancanti, eccetto in due colonne.

In [None]:
df.columns

In [None]:
record_na = df.isna().sum(axis=1)
record_na.sort_values(ascending=False)
df1 = df.drop(index=record_na[record_na == 4].index)

In [None]:
df1.isnull().sum()

In [None]:
df["importing_date"].unique()

La variabile importing_date ha un numero di missing molto elevato, superiore al 70%. In relazione agli scopi dell'analisi non sembra essere una variabile importante, quindi viene rimossa.

In [None]:
df2 = df1.drop(["importing_date"], axis=1)

In [None]:
df2.shape

abbiamo sacrificato il 27% del dataset, perchè i record avevano più della metà dei field mancanti

In [None]:
df2.isnull().sum()

Dato che i missing data di "date" corrispondono al 2,89% dei record, e la variabile non ha un importanza elevata, possiamo ignorarli

In [None]:
df2[df2.duplicated(keep=False)].sort_values("abstract")

Infine, rimuoviamo i record duplicati

In [None]:
df3 = df2.drop_duplicates()
df3.shape