# Pandas indexen, series en dataframes
## Een Pandas Series bevat een NumPy array
Een Pandas Series is een kolom met data. Achterliggend wordt er een NumPy array gebruikt (zie .values). Maar wanneer we een Series afdrukken, zien we dat er iets meer aan de hand is. Er is een extra kolom (naast de waarden die we voorzien hebben) met de getallen 0, 1, 2, en 3.

In [None]:
import pandas as pd

data = pd.Series([0.25, 0.5, 0.75, 1.0])
print("Het type van de values in een Series:", type(data.values))
print(data)

## De RangeIndex
Die getallen vormen de index (vergelijk met de index in een databank). 
In dit geval is dat een *RangeIndex* omdat de index automatisch gegenereerd is. Achter de schermen is er waarschijnlijk een range()-functie gebruikt om die te genereren. Vandaar dat we een *RangeIndex*-object terugkrijgen met een *start* en *stop* en een *step*.

We kunnen die index gebruiken om de bijbehorende waarde op te vragen. Index 1 verwijst hier naar de tweede element. 

In [None]:
import pandas as pd

data = pd.Series([0.25, 0.5, 0.75, 1.0])
print(data.index)
print(f"{data[1]=}")

# Pandas dataframes
## Dataframe vs Series
Een Dataframe is een reeks van Series die dezelfde index delen

In [None]:
import pandas as pd
inwoners_dict = {"Antwerpen": 560_000, "Mechelen": 90_000, "Leuven": 100_000, "Gent": 260_000, "Brugge": 120_000, "Hasselt": 90_000}
oppervlakte_dict = {"Antwerpen": 200, "Mechelen": 65, "Leuven": 60, "Gent": 155, "Brugge": 140, "Hasselt": 130}

inwoners = pd.Series(inwoners_dict)
oppervlakte = pd.Series(oppervlakte_dict)

df_steden = pd.DataFrame({'inwoners':inwoners, 'oppervlakte': oppervlakte})
print(df_steden)

## Dataframe index (rijen) en columns (kolommen)
Een dataframe heeft één index en een reeks kolommen (Series)

In [None]:
import pandas as pd
inwoners_dict = {"Antwerpen": 560_000, "Mechelen": 90_000, "Leuven": 100_000, "Gent": 260_000, "Brugge": 120_000, "Hasselt": 90_000}
oppervlakte_dict = {"Antwerpen": 200, "Mechelen": 65, "Leuven": 60, "Gent": 155, "Brugge": 140, "Hasselt": 130}

inwoners = pd.Series(inwoners_dict)
oppervlakte = pd.Series(oppervlakte_dict)

df_steden = pd.DataFrame({'inwoners':inwoners, 'oppervlakte': oppervlakte})
print(f"{df_steden.index=}")
print(f"{df_steden.columns=}")

## We kunnen de rijen (indexen) en de kolommen gebruiken:
Wat is de oppervlakte van de gemeente Antwerpen?  
Let op de volgorde: df_steden[kolom][rij]  (verwarrend, want anders dan NumPy, oplossing volgt later)
df_steden[kolom] geeft een Series terug die we kunnen aanspreken via de index


In [None]:
import pandas as pd
inwoners_dict = {"Antwerpen": 560_000, "Mechelen": 90_000, "Leuven": 100_000, "Gent": 260_000, "Brugge": 120_000, "Hasselt": 90_000}
oppervlakte_dict = {"Antwerpen": 200, "Mechelen": 65, "Leuven": 60, "Gent": 155, "Brugge": 140, "Hasselt": 130}

inwoners = pd.Series(inwoners_dict)
oppervlakte = pd.Series(oppervlakte_dict)

df_steden = pd.DataFrame({'inwoners':inwoners, 'oppervlakte': oppervlakte})
print(f"De oppervlakte van Antwerpen is {df_steden['oppervlakte']['Antwerpen']} km².")

## Informatie over een DataFrame
Een dataframe heeft een *info()*-methode waarmee we een algemeen beeld kunnen krijgen van de data die aanwezig zijn. We zien hier dat de index bestaat uit 6 items: van Antwerpen tot Hasselt

Er zijn twee kolommen (inwoners en oppervlakte). Die bevatten elk 6 niet-NULL waarden en zijn van het type 'np.int64'

In [None]:
print(f'{type(df_steden['inwoners']['Antwerpen'])=}', end='\n\n')
print('df_steden.info():')
df_steden.info()

## Enkele datatypes (buiten int64)
We hebben ook nog booleans, floats en datums.

In [None]:
import pandas as pd
serie1 = pd.Series(['Karen', 'Kristel', 'Kathleen'])
serie2 = pd.Series([True, False, True])
serie3 = pd.Series([100_000.0, 120_000.5, 90_000.2])
serie4 = pd.Series([pd.to_datetime('1974-10-28'), pd.to_datetime('1975-12-10'), pd.to_datetime('1978-06-18')])
df = pd.DataFrame({'naam': serie1, 'goede zangeres': serie2, 'jaarinkomen': serie3, 'geboortedatum': serie4})
df.info()

## En hoe zit het met None-waarden?
None (NoneType in Python) leverde heel wat problemen op. Hoe zit dat met Pandas?

In [None]:
import pandas as pd
serie1 = pd.Series(['Karen', 'Kristel', None])
serie2 = pd.Series([True, False, None])
serie3 = pd.Series([100_000.0, 120_000.5, None])
serie4 = pd.Series([pd.to_datetime('1974-10-28'), pd.to_datetime('1975-12-10'), None])
df = pd.DataFrame({'naam': serie1, 'goede zangeres': serie2, 'jaarinkomen': serie3, 'geboortedatum':serie4})
print(f"{serie1.dtype=}")
print(f"{serie2.dtype=}")
print(f"{serie3.dtype=}")
print(f"{serie4.dtype=}")
print(f'{type(df['naam'][0])=}')
print(f'{type(df['goede zangeres'][0])=}')
print(f'{type(df['jaarinkomen'][0])=}')
print(f'{type(df['geboortedatum'][0])=}')
print(df)
df.info()

## De nieuwe Pandas-types
In Numpy is het niet zo eenvoudig om met ontbrekende waarden te werken. Er is een type *np.nan*, maar dit werkt alleen met float-waarden. Wanneer we dus een lijst van booleans hebben met een ontbrekende waarde, moet het type *float* worden. In Pandas heeft men tegenwoordig een eigen *pandas-datatypes*: pd.StringDtype() en pd.BooleanDtype(). Dit zijn strings en booleans die wel een ontbrekende waarde kunnen bevatten. 

Pandas heeft ook een eigen 'lege' waarde: pd.NA ('\<NA\>' in de output)

In [None]:
import pandas as pd
serie1 = pd.Series(['Karen', 'Kristel', None], dtype=pd.StringDtype()) #of 'string'
serie2 = pd.Series([True, False, None], dtype=pd.BooleanDtype()) #of 'boolean'
serie3 = pd.Series([100_000.0, 120_000.5, None], dtype=pd.Float64Dtype()) # of 'Float64'
serie4 = pd.Series([pd.to_datetime('1974-10-28'), pd.to_datetime('1975-12-10'), None])
df = pd.DataFrame({'naam': serie1, 'goede zangeres': serie2, 'jaarinkomen': serie3, 'geboortedatum':serie4})
print(f"{serie1.dtype=}")
print(f"{serie2.dtype=}")
print(f"{serie3.dtype=}")
print(f"{serie4.dtype=}")
print(f'{type(df['naam'][0])=}')
print(f'{type(df['goede zangeres'][0])=}')
print(f'{type(df['jaarinkomen'][0])=}')
print(f'{type(df['geboortedatum'][0])=}')
print(df)
df.info()

## Een dataframe lezen van een CSV-bestand
We beginnen met een bestand te downloaden.

In [4]:
import requests
data = requests.get('https://learn.walsoftcomputers.com/csv/cleaned_bi.csv')
BI_CSV = 'bi_cleaned.csv'
with open(BI_CSV, mode='wb') as f:
    f.write(data.content)

Om een csv-bestand te lezen kunnen we in Pandas *read_csv* gebruiken. In dit geval moeten we de correcte 'encoding' meegeven. De standaard encoding is 'utf-8'. In dit geval is het bestand oorspronkelijk op een Windows commputer gemaakt met de standaard encoding van Windows: 'windows-1252'. 

Om een idee te krijgenv van de inhoud van het dataframe, kunnen we de *head()*-functie gebruiken. Die geeft de eerste 5 records terug. 

In [None]:
df = pd.read_csv(BI_CSV, encoding='windows-1252') # encoding zorgt ervoor dat Bjørn goed ingelezen wordt
df.head()

## De info()-functie van een Dataframe
Met de *info()* functie zien we dat de stringkolommen ingelezen zijn als object

In [None]:
df.info()

## De describe()-functie van een Dataframe
De *describe()*-functie geeft statistische informatie terug over de getalkolommen. Wanneer we ook informatie over de tekstkolommen willen zien, kunnen we (include='ALL') meegeven. In dat laatste geval krijgen we *NaN* voor de statistische rijen van de tekstkolommen en NaN voor *unique*, *top* en *freq* voor de getalkolommen:
- unique: hoeveel unieke waarden zijn
- top: welke waarde komt het meeste voor
- freq: hoe dikwijls komt die topwaarde voor.

In [None]:
df.describe() #of df.describe(include='all')

## Hulp bij types voor Pandas
We kunnen Pandas helpen bij het herkennen van types. In dit geval willen we het pd.StringDtype gebruiken voor de object-kolommen (dat zijn allemaal strings)

In [None]:
types = {'fNAME':pd.StringDtype(), 'lNAME':pd.StringDtype(), 'gender':pd.StringDtype(),
         'country':pd.StringDtype(), 'residence':pd.StringDtype(), 'prevEducation':pd.StringDtype()}
df = pd.read_csv(BI_CSV, encoding='windows-1252', dtype=types)
df.info()