# Numpy arrays en Pandas Series
## Een Pandas Series bevat een NumPy array
Een Pandas Series is een kolom met data. Achterliggend wordt er een NumPy array gebruikt (zie .values). Maar wanneer we een Series afdrukken, zien we dat er iets meer aan de hand is. Er is een extra kolom (naast de waarden die we voorzien hebben) met de getallen 0, 1, 2, en 3.

In [1]:
import pandas as pd

data = pd.Series([0.25, 0.5, 0.75, 1.0])
print("Het type van de values in een Series:", type(data.values))
print(data)

Het type van de values in een Series: <class 'numpy.ndarray'>
0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64


## De RangeIndex
Die getallen vormen de index (vergelijk met de index in een databank). 
In dit geval is dat een *RangeIndex* omdat de index automatisch gegenereerd is. Achter de schermen is er waarschijnlijk een range()-functie gebruikt om die te genereren. Vandaar dat we een *RangeIndex*-object terugkrijgen met een *start* en *stop* en een *step*.

We kunnen die index gebruiken om de bijbehorende waarde op te vragen. Index 1 verwijst hier naar de tweede element. 

In [12]:
import pandas as pd

data = pd.Series([0.25, 0.5, 0.75, 1.0])
print(data.index)
print(f"{data[1]=}")

RangeIndex(start=0, stop=4, step=1)
data[1]=np.float64(0.5)


## Een andere index
In plaats van de index te laten genereren door Pandas, is het dikwijls handig om zelf een index mee te geven. Hier zien we dat de index geen getal moet zijn. 

De index 'b' verwijst hier ook naar het tweede element.

In [13]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
print(data)
print(data.index)
print(f"{data['b']=}")

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64
Index(['a', 'b', 'c', 'd'], dtype='object')
data['b']=np.float64(0.5)


## Een andere Index
Een index kan eender welke gegevens bevatten. Het moeten zelfs geen opeenvolgende waarden zijn. 

In [None]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2, 5, 3, 7])
print(data)
print(data.index)
print(f"{data[5]=}")

## Indexen en slicing
We kennen indexen ook van NumPy arrays (en Python lists). Hoe zit het met de *slicing*-mogelijkheden? Valt je hier iets op (in vergelijking met NumPy arrays en Python lists)?

In [None]:
import pandas as pd
steden = {"Antwerpen": 560_000, "Mechelen": 90_000, "Leuven": 100_000, "Gent": 260_000, "Brugge": 120_000, "Hasselt": 90_000}
data = pd.Series(steden)
print("data['Mechelen':'Gent']=", data['Mechelen':'Gent'], sep='\n')

# Pandas dataframes
## Dataframe vs Series
Een Dataframe is een verzameling van Series die dezelfde index delen

In [18]:
import pandas as pd
inwoners_dict = {"Antwerpen": 560_000, "Mechelen": 90_000, "Leuven": 100_000, "Gent": 260_000, "Brugge": 120_000, "Hasselt": 90_000}
oppervlakte_dict = {"Antwerpen": 200, "Mechelen": 65, "Leuven": 60, "Gent": 155, "Brugge": 140, "Hasselt": 130}

inwoners = pd.Series(inwoners_dict)
oppervlakte = pd.Series(oppervlakte_dict)

df_steden = pd.DataFrame({'inwoners':inwoners, 'oppervlakte': oppervlakte})
print(df_steden)


           inwoners  oppervlakte
Antwerpen    560000          200
Mechelen      90000           65
Leuven       100000           60
Gent         260000          155
Brugge       120000          140
Hasselt       90000          130


## Dataframe index (rijen) en columns (kolommen)

In [20]:
import pandas as pd
inwoners_dict = {"Antwerpen": 560_000, "Mechelen": 90_000, "Leuven": 100_000, "Gent": 260_000, "Brugge": 120_000, "Hasselt": 90_000}
oppervlakte_dict = {"Antwerpen": 200, "Mechelen": 65, "Leuven": 60, "Gent": 155, "Brugge": 140, "Hasselt": 130}

inwoners = pd.Series(inwoners_dict)
oppervlakte = pd.Series(oppervlakte_dict)

df_steden = pd.DataFrame({'inwoners':inwoners, 'oppervlakte': oppervlakte})
print(f"{df_steden.index=}")
print(f"{df_steden.columns=}")

df_steden.index=Index(['Antwerpen', 'Mechelen', 'Leuven', 'Gent', 'Brugge', 'Hasselt'], dtype='object')
df_steden.columns=Index(['inwoners', 'oppervlakte'], dtype='object')


## We kunnen de rijen (indexen) en de kolommen gebruiken:
Wat is de oppervlakte van de gemeente Antwerpen?  
Let op de volgorde: df_steden[kolom][rij]  
df_steden[kolom] geeft een Series terug die we kunnen aanspreken via de index


In [2]:
import pandas as pd
inwoners_dict = {"Antwerpen": 560_000, "Mechelen": 90_000, "Leuven": 100_000, "Gent": 260_000, "Brugge": 120_000, "Hasselt": 90_000}
oppervlakte_dict = {"Antwerpen": 200, "Mechelen": 65, "Leuven": 60, "Gent": 155, "Brugge": 140, "Hasselt": 130}

inwoners = pd.Series(inwoners_dict)
oppervlakte = pd.Series(oppervlakte_dict)

df_steden = pd.DataFrame({'inwoners':inwoners, 'oppervlakte': oppervlakte})
print(f"De oppervlakte van Antwerpen is {df_steden['oppervlakte']['Antwerpen']} km².")

De oppervlakte van Antwerpen is 200 km².


## Informatie over een DataFrame
Een dataframe heeft een *info()*-methode waarmee we een algemeen beeld kunnen krijgen van de data die aanwezig zijn. We zien hier dat de index bestaat uit 6 items: van Antwerpen tot Hasselt

Er zijn twee kolommen (inwoners en oppervlakte). Die bevatten elk 6 niet-NULL waarden en zijn van het type 'np.int64'

In [8]:
print(f'{type(df_steden['inwoners']['Antwerpen'])=}', end='\n\n')
print('df_steden.info():')
df_steden.info()

type(df_steden['inwoners']['Antwerpen'])=<class 'numpy.int64'>

df_steden.info():
<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, Antwerpen to Hasselt
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype
---  ------       --------------  -----
 0   inwoners     6 non-null      int64
 1   oppervlakte  6 non-null      int64
dtypes: int64(2)
memory usage: 316.0+ bytes


## Enkele datatypes (buiten int64)

In [None]:
import pandas as pd
serie1 = pd.Series(['Karen', 'Kristel', 'Kathleen'])
serie2 = pd.Series([True, False, True])
serie3 = pd.Series([100_000.0, 120_000.5, 90_000.2])
df = pd.DataFrame({'naam': serie1, 'goede zangeres': serie2, 'jaarinkomen': serie3})
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   naam            3 non-null      object 
 1   goede zangeres  3 non-null      bool   
 2   jaarinkomen     3 non-null      float64
dtypes: bool(1), float64(1), object(1)
memory usage: 183.0+ bytes


## En hoe zit het met None-waarden?

In [26]:
import pandas as pd
serie1 = pd.Series(['Karen', 'Kristel', None])
serie2 = pd.Series([True, False, None])
serie3 = pd.Series([100_000.0, 120_000.5, None])
df = pd.DataFrame({'naam': serie1, 'goede zangeres': serie2, 'jaarinkomen': serie3})
print(f"{serie1.dtype=}")
print(f"{serie2.dtype=}")
print(f"{serie3.dtype=}")
print(f'{type(df['naam'][0])=}')
print(f'{type(df['goede zangeres'][0])=}')
print(f'{type(df['jaarinkomen'][0])=}')
df.info()

serie1.dtype=dtype('O')
serie2.dtype=dtype('O')
serie3.dtype=dtype('float64')
type(df['naam'][0])=<class 'str'>
type(df['goede zangeres'][0])=<class 'bool'>
type(df['jaarinkomen'][0])=<class 'numpy.float64'>
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   naam            2 non-null      object 
 1   goede zangeres  2 non-null      object 
 2   jaarinkomen     2 non-null      float64
dtypes: float64(1), object(2)
memory usage: 204.0+ bytes


## De nieuwe Pandas-types
In Numpy is het niet zo eenvoudig om met ontbrekende waarden te werken. Er is een type *np.nan*, maar dit werkt alleen met float-waarden. Wanneer we dus een lijst van booleans hebben met een ontbrekende waarde, moet het type *float* worden. In Pandas heeft men tegenwoordig een eigen *pandas-datatypes*: pd.StringDtype() en pd.BooleanDtype(). Dit zijn strings en booleans die wel een ontbrekende waarde kunnen bevatten. 

Pandas heeft ook een eigen 'lege' waarde: pd.NA ('\<NA\>' in de output)

In [29]:
import pandas as pd
serie1 = pd.Series(['Karen', 'Kristel', None], dtype=pd.StringDtype()) #of 'string'
serie2 = pd.Series([True, False, None], dtype=pd.BooleanDtype()) #of 'boolean'
serie3 = pd.Series([100_000.0, 120_000.5, None], dtype=pd.Float64Dtype()) # of 'Float64'
df = pd.DataFrame({'naam': serie1, 'goede zangeres': serie2, 'jaarinkomen': serie3})
print(f"{serie1.dtype=}")
print(f"{serie2.dtype=}")
print(f"{serie3.dtype=}")
print(f'{type(df['naam'][0])=}')
print(f'{type(df['goede zangeres'][0])=}')
print(f'{type(df['jaarinkomen'][0])=}')
print(df)
df.info()

serie1.dtype=string[python]
serie2.dtype=BooleanDtype
serie3.dtype=Float64Dtype()
type(df['naam'][0])=<class 'str'>
type(df['goede zangeres'][0])=<class 'numpy.bool'>
type(df['jaarinkomen'][0])=<class 'numpy.float64'>
      naam  goede zangeres  jaarinkomen
0    Karen            True     100000.0
1  Kristel           False     120000.5
2     <NA>            <NA>         <NA>
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   naam            2 non-null      string 
 1   goede zangeres  2 non-null      boolean
 2   jaarinkomen     2 non-null      Float64
dtypes: Float64(1), boolean(1), string(1)
memory usage: 189.0 bytes


## Een dataframe lezen van een CSV-bestand
We beginnen met een bestand te downloaden.

In [32]:
import requests
data = requests.get('https://learn.walsoftcomputers.com/csv/cleaned_bi.csv')
BI_CSV = 'bi_cleaned.csv'
with open(BI_CSV, mode='wb') as f:
    f.write(data.content)

Om een csv-bestand te lezen kunnen we in Pandas *read_csv* gebruiken. In dit geval moeten we de correcte 'encoding' meegeven. De standaard encoding is 'utf-8'. In dit geval is het bestand oorspronkelijk op een Windows commputer gemaakt met de standaard encoding van Windows: 'windows-1252'. 

Om een idee te krijgenv van de inhoud van het dataframe, kunnen we de *head()*-functie gebruiken. Die geeft de eerste 5 records terug. 

In [36]:
df = pd.read_csv(BI_CSV, encoding='windows-1252') #zorg ervoor dat Bjørn goed ingelezen wordt
df.head()

Unnamed: 0,fNAME,lNAME,Age,gender,country,residence,entryEXAM,prevEducation,studyHOURS,Python,DB
0,Christina,Binger,44,Female,Norway,Private,72,Masters,158,59.0,55
1,Alex,Walekhwa,60,Male,Kenya,Private,79,Diploma,150,60.0,75
2,Philip,Leo,25,Male,Uganda,Sognsvann,55,High School,130,74.0,50
3,Shoni,Hlongwane,22,Female,RSA,Sognsvann,40,High School,120,75.853333,44
4,Maria,Kedibone,23,Female,RSA,Sognsvann,65,High School,122,91.0,80


Met de *info()* functie zien we dat de stringkolommen ingelezen zijn als object

In [35]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 11 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   fNAME          77 non-null     object 
 1   lNAME          77 non-null     object 
 2   Age            77 non-null     int64  
 3   gender         77 non-null     object 
 4   country        77 non-null     object 
 5   residence      77 non-null     object 
 6   entryEXAM      77 non-null     int64  
 7   prevEducation  77 non-null     object 
 8   studyHOURS     77 non-null     int64  
 9   Python         77 non-null     float64
 10  DB             77 non-null     int64  
dtypes: float64(1), int64(4), object(6)
memory usage: 6.7+ KB


De *describe()*-functie geeft statistische informatie terug over de getalkolommen. Wanneer we ook informatie over de tekstkolommen willen zien, kunnen we (include='ALL') meegeven. In dat laatste geval krijgen we *NaN* voor de statistische rijen van de tekstkolommen en NaN voor *unique*, *top* en *freq* voor de getalkolommen:
- unique: hoeveel unieke waarden zijn
- top: welke waarde komt het meeste voor
- freq: hoe dikwijls komt die topwaarde voor.

In [None]:
df.describe() #of df.describe(include='all')

Unnamed: 0,fNAME,lNAME,Age,gender,country,residence,entryEXAM,prevEducation,studyHOURS,Python,DB
count,77,77,77.0,77,77,77,77.0,77,77.0,77.0,77.0
unique,71,66,,2,13,3,,5,,,
top,Grethe,Olsen,,Female,Norway,Private,,Bachelor,,,
freq,2,2,,43,49,33,,25,,,
mean,,,35.207792,,,,76.753247,,149.714286,75.853333,69.467532
std,,,10.341966,,,,16.475784,,12.743272,15.206208,17.033701
min,,,21.0,,,,28.0,,114.0,15.0,30.0
25%,,,27.0,,,,69.0,,144.0,72.0,56.0
50%,,,33.0,,,,80.0,,156.0,81.0,71.0
75%,,,42.0,,,,90.0,,158.0,85.0,83.0


## Hulp voor Pandas
We kunnen Pandas helpen bij het herkennen van types. In dit geval willen we het pd.StringDtype gebruiken voor de object-kolommen (dat zijn allemaal strings)

In [39]:
types = {'fNAME':pd.StringDtype(), 'lNAME':pd.StringDtype(), 'gender':pd.StringDtype(),
         'country':pd.StringDtype(), 'residence':pd.StringDtype(), 'prevEducation':pd.StringDtype()}
df = pd.read_csv(BI_CSV, encoding='windows-1252', dtype=types)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 11 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   fNAME          77 non-null     string 
 1   lNAME          77 non-null     string 
 2   Age            77 non-null     int64  
 3   gender         77 non-null     string 
 4   country        77 non-null     string 
 5   residence      77 non-null     string 
 6   entryEXAM      77 non-null     int64  
 7   prevEducation  77 non-null     string 
 8   studyHOURS     77 non-null     int64  
 9   Python         77 non-null     float64
 10  DB             77 non-null     int64  
dtypes: float64(1), int64(4), string(6)
memory usage: 6.7 KB


# Index-objecten
## Een index is een immutable NumPy array
Een Index is te vergelijken met een NumPy array. Maar de array is *immutable* (de elementen kunnen niet gewijzigd worden.)

In [None]:
import pandas as pd
index = pd.Index([2, 6, 9])
print(index[0])
print(f'{index.size=}, {index.shape=}, {index.ndim=}, {index.dtype=}')
index[0] = 1

## Indexen kunnen gecombineerd worden met 'set-operaties'

In [36]:
import pandas as pd
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])
print(f"{indA.intersection(indB)=}")
print(f"{indA.union(indB)=}")
print(f"{indA.difference(indB)=}")
print(f"{indA.symmetric_difference(indB)=}")

indA.intersection(indB)=Index([3, 5, 7], dtype='int64')
indA.union(indB)=Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')
indA.difference(indB)=Index([1, 9], dtype='int64')
indA.symmetric_difference(indB)=Index([1, 2, 9, 11], dtype='int64')
