# Data inspectie

Als eerste stap importeren we de pandas packages, die we gebruiken om onze data te laden en te inspecteren. 

In [2]:
import pandas as pd

Hierna gebruiken we de pandas functie `read_csv` on ons databestand in te laden. Dit ingeladen bestand noemen we een `ddataframe`. 

In [3]:
data = pd.read_csv('data/data.csv', index_col = 0)

Om te kijken of de data goed is ingeladen, gebruiken we de `head()` functie. In onderstaande functie geeft de `4` aan dat we de eerste vier rijen willen bekijken. 

In [4]:
data.head(4)

Unnamed: 0,identifier,type,title,date,content,subcategory,category,Year,DL score,spatial
24,http://resolver.kb.nl/resolve?urn=ddd:01106750...,artikel,Bij de aanstaande winterdienstregeling,1880/09/15 00:00:00,Bij de aanstaande winterdienstregeling op de S...,trein,trein,1880,72.188139,Landelijk
25,http://resolver.kb.nl/resolve?urn=MMKB23:00142...,advertentie,Advertentie,1883/06/23 00:00:00,"W.H.C.DEBOCK, Piet Heinstraat, 43. (6108) BADG...",trein,trein,1883,45.115453,Landelijk
52,http://resolver.kb.nl/resolve?urn=ddd:01106783...,artikel,In ons artikel: „Waar schuilt het euvel?”,1881/10/25 00:00:00,In ons artikel: „Waar schuilt het euvel?” (13 ...,trein,trein,1881,74.074074,Landelijk
66,http://resolver.kb.nl/resolve?urn=ddd:01028294...,artikel,BUITENLAND. (Vervolg.) Het Ongeluk der Tay-Bri...,1880/01/05 00:00:00,"Woensdag zijn de"" voortgezette operatie» der d...",trein,trein,1880,70.454545,Landelijk


## Ontdubbelen van de data

Een goede gewoonte, is om als eerste stap altijd te controleren of er niet per ongeluk dubbelingen in de dataset zijn beland. Het wil wel eens gebeuren dat bij het verzamelen van de data er per ongeluk dingen dubbel in de dataset belanden, bijvoorbeeld als op verschillende momenten er data is verzameld en dit later gecombineerd wordt. 

In onze eerste check kijken we of er niet per ongeluk dubbele rijen in onze dataset zijn beland. Een dubbele rij houdt in dat er twee rijen zijn waarvan elke waarde in elke cel indentiek is. Pandas heeft een handige functie `drop_duplicates` die je kan gebruiken om je dataset te ontdubbelen. Je kan deze functie gebruiken om zowel rijen die compleet identiek zijn te verwijderen, of om rijen te verwijderen waarvan enkel één of meerdere kolommen dubbelingen bevatten. 

Met onderstaande functie verwijderen we de rijen die in zijn geheel dubbel voorkomen. 
Maar omdat we ook willen weten of er überhaupt dubbelen in de dataset zaten, tellen we eerst het aantal rijen in ons dataframe met de `len()` functie. 


In [5]:
len(data)

21961

Hierna roepen we de `drop_duplicates()` functie aan, en vervangen ons huidige dataframe voor de variant zonder duplicaten. 

In [6]:
data = data.drop_duplicates()

Indien er dubbelen voorkwamen, zijn deze nu verwijderd uit ons dataframe. We kunnen nu dus weer de lengte printen om zo te kijken of er inderdaad dubbele rijen in zaten. 

In [7]:
len(data)

21942

Nu we er zeker van zijn dat er geen dubbele rijen meer in ons dataframe zitten, willen we ook graag kijken of we wel echt te maken hebben met alleen unieke artikelen. Het kan bijvoorbeeld voorkomen dat er aan een artikel dubbel voorkomt, met bijvoorbeeld twee keer een andere categorie of subcategorie. 

Elk artikel heeft zijn eigen identifier. We kunnen dus het aantal unieke identifiers tellen om te zien hoeveel unieke artikelen er in de set zitten. We doen dit door de functie `nunique()` aan te roepen op de functie `identifier`. 

In [8]:
data['identifier'].nunique()

21942

Zoals je ziet zijn er net zoveel unieke identifiers als rijen in het dataframe. Dit betekent dat elke rij een uniek artikel bevat. 

## Inspecteren van de kolominhoud

Nadat de dataset is ontdubbelt op de gewenste manieren, willen we een globale check doen op de inhoud van de kolommen. Hierbij kijken we nog niet in detail naar de inhoud, maar kijken we vooral of er geen onverwachtste of afwijkende waardes voorkomen. Indien er wel afwijkende waardes voorkomen, moet er een beslissing worden gemaakt over hoe hiermee om te gaan. Wat hiervoor de beste aanpak is verschilt per situatie. 

### Categoriale waardes

We beginnen met een inspectie van de kolommen met categoriale waardes. Hierbij kan het bijvoorbeeld voorkomen dat er typfouten gemaakt zijn in de categorieën, of dat er op meerdere manieren naar dezelfde categorie wordt verwezen. 

We gebruiken hiervoor de functie `unique()`. Deze kijkt net als de functie hierboven naar het aantal unieke waardes. Maar in plaats van ze te tellen, toont hij welke waardes er in de kolom voorkomen. 

In [9]:
data['type'].unique()

array(['artikel', 'advertentie', 'familiebericht'], dtype=object)

Bekijk nu zelf welke waardes er voorkomen in de kolommen `subcategory`, `category` en `spatial`

In [None]:
## Code for subcategory

In [None]:
## Code for category

In [None]:
## Code for spatial

Zoals je ziet komt er in de kolom `subcategory` zowel het woord `locomotief` als `lokomotief` voor. Er kan besloten worden dit zo te laten, of om dit aan te passen naar één van de twee varianten. In dit geval kiezen we ervoor het zo te laten, aangezien deze woorden gebruikt waren als zoekquery. 

## Numerieke waardes

Naast categoriale waares zijn er ook kolommen met numerieke waardes, zoals `date`. Deze wil je niet printen met de functie `unique`, omdat je dan een onoverzichtelijk overzicht krijgt met vele waardes. 

Om te kijken of de inhoud van numerieke kolommen overeen komt met de verwachting, wordt vaak naar de laagste en hoogste waarde gekeken. 

Dit kun je doen met de `min()` en `max()` functies.

In [None]:
data['date'].min()

In [None]:
data['date'].max()

Bekijk nu zelf de minimale en maximale waardes van de kolom waarin enkel het jaar staat. Komt dit overeen met de minimale en  maximale waardes die je zou verwachten naar aanleiding van de datums?

In [None]:
## Code voor het minimale jaar

In [10]:
## Code voor het maximale jaar

Ook de kolom `DL score` is numeriek. Aangezien dit om een percentage gaat, verwachten we een waarde tussen de 0 en de 100. Bekijk of dit inderdaad het geval is. 

In [None]:
## Code voor minimale DL score

In [11]:
## Code voor max DL score

Om te kijken of er geen hele korte of extreem lange artikelen inzitten, kun je de lengte van artikelen uitrekenen en een extra kolom aan je dataframe toevoegen met de lengte per artikel. Vervolgens kun je hier ook de min en max van bekijken. Dit kan je gebruiken om te kijken of je bepaalde artikellengtes wil uitsluiten (bijv. artikelen van 0 woorden of juist 10.000 woorden). 

Het berekenen van de lengte toen we heel arbitrair door de artikelen te splitsen op spaties. Deze methode is niet 100% correct maar geeft wel een goed globaal beeld. 

Er zijn meerdere manieren om extra kolommen met berekende waardes toe te voegen aan een dataframe. In deze workshop gebruiken wij voornamelijk de `apply` functie. 

De code hieronder werkt als volgt:
* `data['length'] =` geeft aan dat je een nieuwe kolom wilt maken die `length` heet
* `mdata['content'].apply` geeft aan dat je een functie wilt uitvoeren op de inhoud van de kolom `content`. Dit wordt rij per rij gedaan.
* `lamnda x:` stopt per rij de inhoud van de kolom `content` in de variabele `x`
* `len(x.split())` gebruikt eerst de `split` functie om de inhoud van `x` op te splitsen op basis van spaties. Dit geeft als resultaat een lijst van woorden. Vervolgens wordt de functie `len` gebruikt om het aantal woorden te tellen. 


In [12]:
data['length'] = data['content'].apply(lambda x: len(x.split()))

We bekijken de eerste twee regels van ons dataframe om te kijken of er inderdaad een nieuwe kolom is aangemaakt. 

In [13]:
data.head(2)

Unnamed: 0,identifier,type,title,date,content,subcategory,category,Year,DL score,spatial,length
24,http://resolver.kb.nl/resolve?urn=ddd:01106750...,artikel,Bij de aanstaande winterdienstregeling,1880/09/15 00:00:00,Bij de aanstaande winterdienstregeling op de S...,trein,trein,1880,72.188139,Landelijk,489
25,http://resolver.kb.nl/resolve?urn=MMKB23:00142...,advertentie,Advertentie,1883/06/23 00:00:00,"W.H.C.DEBOCK, Piet Heinstraat, 43. (6108) BADG...",trein,trein,1883,45.115453,Landelijk,563


Bekijk nu zelf de minimale en maximale waarde van de kolom `length`.

In [None]:
## Code voor minimale waarde

In [None]:
## Code voor maximale waarde

## Lege cellen

Als laatste willen we nog weten of er NaN (not a number) of Null waardes in ons dataframe zitten. Deze kunnen namelijk problemen opleveren bij bepaalde functies. 

We kunnen de `isnull()` functie hiervoor gebruiken, met de functie `any`. Deze functie kijkt voor elke cel in het dataframe of er een lege waarde in zit. 

In [14]:
data[data.isnull().any(axis= 1)]

Unnamed: 0,identifier,type,title,date,content,subcategory,category,Year,DL score,spatial,length
30850,http://resolver.kb.nl/resolve?urn=ddd:01006170...,artikel,,1874/01/15 00:00:00,"De Heer L. Hoefman, gezagvoerder van het stoom...",trein,trein,1874,64.586847,Regionaal/lokaal,593
48475,http://resolver.kb.nl/resolve?urn=ddd:01006082...,artikel,,1873/10/10 00:00:00,Na hetgeen wij gisteren omtrent het feest mede...,trein,trein,1873,72.997033,Regionaal/lokaal,674


Zoals je kunt zien zijn er twee rijen gevonden waarin de kolom `title` geen waarde bevat. We kiezen er voor om deze kolommen te verwijderen. Dit doen we met de `dropna()` functie. 

In [15]:
data = data.dropna()

Hierna draaien we nog een keer de `isnull()` functie. Deze geeft nu een leeg dataframe terug, omdat alle lege waardes zijn verwijderd. 

In [16]:
data[data.isnull().any(axis= 1)]

Unnamed: 0,identifier,type,title,date,content,subcategory,category,Year,DL score,spatial,length


## Dataframe opslaan

Na deze controles en aanpassingen, slaan we het nieuwe dataframe op. 

In [17]:
data.to_csv('data/data_new.csv')