# Data les 2 - Pandas basics, datatypes en visualisaties

Notebook bij les 2 van de leerlijn data van S3 - AI. 

© Auteur: Rianne van Os

**Voorbereiding voor deze les:** Lees de theorie in het notebook en maak t/m opdracht 2.5

We gaan nu leren werken met pandas, een van de meest gebruikte Pyhton libraries voor data analyse en data science. Deze library is gebouwd op numpy en bevat allerlei functionaliteit om te werken met gestructureerde data, oftewel data die in een excel-sheet past. Dit is zo'n uitgebreide library dat we nooit alles kunnen behandelen, maar om een beeld te krijgen van wat mogelijk is in pandas volgen we de 'getting started' tutorials uit de pandas documentatie (https://pandas.pydata.org/docs/getting_started/intro_tutorials/index.html). 
Daarnaast leggen we je in de notebooks nog wat andere functionaliteit uit. We verwachten dat je met deze basis genoeg weet om zelf je kennis uit te breiden met behulp van de pandas documentatie, google of een LLM als je dat nodig hebt.

Naast pandas zijn er meerdere andere python libraries die in de beroepspraktijk gebruikt worden voor de verwerking van data. Polars (https://pola.rs/) is veelbelovend omdat het sneller is dan pandas. Ook is het mogelijk om in python te werken met database queries in SQL, zoals jullie in S2 gedaan hebben. Wij hebben ervoor gekozen jullie pandas aan te leren omdat dit vooralsnog de meest gebruikte library is onder data scientisten in de praktijk en er omdat er uitgebreide documentatie beschikbaar is.

Je zult in dit notebook steeds gevraagd worden een tutorial (of een andere bron) door te nemen en vervolgens een aantal oefenopdrachten te maken. De datasets die in de getting started tutorials gebruikt worden zijn te downloaden op de pagina van de tutorials. Type de voorbeelden zelf uit, run de code en probeer aanpassingen te maken.

Eerst importeren we pandas, het is gebruikelijk om dit te doen `as pd`. Mogelijk moet je zelf pandas eerst nog installeren.

In [None]:
# Importeer pandas
import pandas as pd

## DataFrame en Series
Volg deze tutorial: https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html


### Data opdracht 2.1
1. Creeër een DataFrame met behulp van `pd.DataFrame(...)`  waarbij het dataframe overeenkomt met onderstaande tabel. 
2. Geef het gemiddelde cijfer van de opdracht weer. (In de tutorial werd de methode .max() genoemd, wat zou je nodig hebben voor het gemiddelde?)
3. Geef het laagste cijfer van het tentamen weer.
4. Welke statistieken van de cijfers van Opdracht en Tentamen krijg je nog meer als je de `.describe()` methode aanroept op dit dataframe?

| Studentnummer |Opdracht | Tentamen | Geslaagd |
| ------------- |-------- | -------- | -------- |
| 302341 | 5,5 | 6,1 | Ja |
| 314345 | 6,2 | 4,2 | Nee |
| 374232 | 7,1 | 8,3 | Ja |
| 352352 | 9,3 | 7,8 | Ja |

In [None]:
df = pd.DataFrame({
    "Studentnummer": [ 302341, 314345],
    "Opdracht": [ 5.5, 6.2 ],
    "Tentamen": [ 6.1, 4.2, ],
    "Geslaagd": [ True, False ]
})
df

In [None]:
df['Opdracht'].mean()

In [None]:
df.Tentamen.min()

In [None]:
df.describe()

## Lezen en schrijven van datasets
Volg deze tutorial: https://pandas.pydata.org/docs/getting_started/intro_tutorials/02_read_write.html

Gebruik de dataset vgsales.csv voor het maken van onderstaande opdrachten, je kunt deze vinden in databronnen folder. Deze dataset bevat verkoopcijfers van videogames. De data is wat oud, maar is prima om de pandas functionaliteit mee te oefenen. Deze dataset heeft de volgende kolommen:
    
* Rank - Ranking of overall sales
* Name - The games name
* Platform - Platform of the games release (i.e. PC,PS4, etc.)
* Year - Year of the game's release
* Genre - Genre of the game
* Publisher - Publisher of the game
* NA_Sales - Sales in North America (in millions)
* EU_Sales - Sales in Europe (in millions)
* JP_Sales - Sales in Japan (in millions)
* Other_Sales - Sales in the rest of the world (in millions)
* Global_Sales - Total worldwide sales.

### Data opdracht 2.2

Voer de volgende stappen uit:
1. Lees de dataset in vgsales.csv in.
2. Bekijk de eerste 5 rijen.
3. Bekijk de laatste 10 rijen.
4. Bekijk de datatypes van de kolommen.
5. Welke kolommen bevatten nulls? (Een null-waarde betekent dat dat datapunt mist)
6. Schrijf de dataset weg als csv naar je eigen home folder.

In [None]:
vgsales = pd.read_csv("../databronnen/vgsales.csv")
vgsales.head(5)

In [None]:
vgsales[-10:]
vgsales.tail(10)

In [None]:
vgsales.dtypes

In [None]:
vgsales.isnull().any()

In [None]:
vgsales.info()

In [None]:
vgsales.to_csv('~/videogames.csv', sep=';')

## Data selectie
Volg deze tutorial: https://pandas.pydata.org/docs/getting_started/intro_tutorials/03_subset_data.html

Een andere handige functie die je moet kennen is `sort_values()` (zie https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html). Hiermee kun je je dataset sorteren op een gegeven kolom. 

### Data opdracht 2.3
1. Selecteer enkel de kolom "EU_Sales" uit de dataset vgsales.
2. Creeër een nieuw DataFrame met alle rijen waarbij Year niet null is. Maak hierbij gebruik van methode notna()
3. Creeër een nieuw DataFrame met alle games waarvan de global sales groter was dan 10 miljoen.
4. Bij hoeveel games was de global sales kleiner dan 0.5 miljoen?
5. Maak een nieuw DataFrame met de 2e t/m de 6e kolom en de 15e t/m de 30e rij.
6. Creeër een nieuw dataframe met alleen data van 2006, sorteer deze data op EU_Sales, van hoog naar laag.
7. Hoeveel spellen van Nintendo zijn er in 2008 uitgekomen in het Genre Racing?

In [None]:
vgsales['EU_Sales']

In [None]:
year = vgsales[vgsales['Year'].notna()]
year.isnull().any()

In [None]:
sales10mil = vgsales[vgsales['Global_Sales'] > 10]
sales10mil.tail()

In [None]:
len(vgsales[vgsales['Global_Sales'] < .5])

In [None]:
# 5
vgsales.iloc[16:32, 1:8]

In [None]:
vgsales[vgsales['Year'] == 2006].sort_values("EU_Sales", ascending=False)

In [None]:
len( vgsales[vgsales["Genre"] == "Racing"][vgsales["Publisher"] == "Nintendo"] )

In [None]:
# of 
len(vgsales[ (vgsales["Genre"] == "Racing") & (vgsales["Publisher"] == "Nintendo")])

## Kolommen toevoegen en verwijderen
Volg deze tutorial: https://pandas.pydata.org/docs/getting_started/intro_tutorials/05_add_columns.html

Daarnaast is het ook handig om kolommen te kunnen verwijderen. Dit kan met de methode `.drop()`. 

In [None]:
#Een voorbeeld:
df = pd.read_csv('../databronnen/vgsales.csv')
df.drop('Other_Sales', axis=1)

Deze bewerking verandert het dataframe df zelf niet, er wordt een dataframe teruggegeven zonder de kolom 'Other_Sales'. Als je het dataframe df zelf wilt veranderen, moet je de parameter `inplace=True` meegeven. Merk op dat we ook de parameter `axis = 1` meegegeven hebben. Deze parameter geeft aan dat we een kolom willen verwijderen. Als je een rij wilt verwijderen, moet je `axis = 0` meegeven. Deze 'axis' parameter heb je al gebruikt bij numpy, en zul je ook nog vaker tegenkomen in pandas, bijvoorbeeld bij het berekenen van statistieken per kolom of per rij.

### Data opdracht 2.4
1. Creeër een nieuwe kolom bij de vgsales dataset genaamd Total_Sales. De waarde in deze kolom is de som van NA_Sales, EU_Sales, JP_Sales, Other_Sales. Controleer of de waarden in deze kolom gelijk zijn aan Global_Sales.
2. Drop de kolom Global_Sales

In [None]:
vgsales["Total_Sales"] = vgsales["NA_Sales"] + vgsales["EU_Sales"] + vgsales["JP_Sales"] + vgsales ["Other_Sales"]
vgsales["Total_Sales"] == vgsales["Global_Sales"]



In [None]:
vgsales.head(2)

In [None]:
(vgsales["Total_Sales"] == vgsales["Global_Sales"]).sum() / len(vgsales)

In [None]:
vgsales2 = vgsales.drop("Global_Sales", axis=1)
vgsales2.columns

In [None]:
(vgsales["Total_Sales"] == vgsales["NA_Sales"] + vgsales["EU_Sales"] + vgsales["JP_Sales"] + vgsales ["Other_Sales"]).sum() / len(vgsales)


### Beschrijvende statistiek
Net zoals in numpy kun je ook van een kolom in een pandas dataframe verschillende statistieken berekenen. Bekijk daarvoor de eerste voorbeelden van deze tutorial: https://pandas.pydata.org/docs/getting_started/intro_tutorials/06_calculate_statistics.html

De voorbeelden onder **Aggregating statistics grouped by category** bekijken we in de volgende les.

### Data opdracht 2.5


1. Lees blokAcijfers.txt in als pandas dataframe.
2. Verander de kolomnamen naar: ['vak1', 'vak2', 'vak3']
3. Bereken het gemiddelde, het minimum en het maximum cijfer van ieder vak.
4. Voeg een nieuwe kolom toe aan het dataframe met het gemiddelde cijfer per student.

In [None]:
cijfers = pd.read_csv("../databronnen/blokAcijfers.csv")
cijfers.mean(), cijfers.min(axis=0), cijfers.max(axis=0)

In [None]:
cijfers = pd.read_table("../databronnen/blokAcijfers.txt", header=None)
cijfers.columns = ["vak1", "vak2", "vak3"]
cijfers["gemiddeld"] = cijfers.mean(axis=1)
cijfers

## Data types

In een numpy array hebben we enkel gewerkt met numerieke datatypes, in een pandas dataframe kun je ook andere datatypes opslaan. Hierboven heb je al gezien dat je met `df.dtypes` kunt bekijken wat de types van de objecten zijn, vanuit een python perspectief. 

Ook vanuit de statistiek onderscheiden we verschillende typen variabelen, namelijk *kwalitatieve* en *kwantitatieve* variabelen. Kwalitatieve variabelen zijn niet uit te drukken in getallen, maar zijn categorisch. Denk aan *geslacht*, *plaats* of *diersoort*. In een pandas dataframe worden deze categorische waarden meestal weergegeven met een *string*, wat al dtype Object heeft. Ook is het mogelijk om iedere categorie een getal te geven, bijvoorbeeld `man = 0`, `vrouw = 1`. Dan kun je dit met *integers* in je dataframe aangeven, maar deze cijfers hebben dan op zichzelf geen betekenis.

Kwantitatieve waarden zijn numeriek. Hierin onderscheiden we 2 types, namelijk discrete en continue variabelen. Discrete variabelen kunnen alleen gehele waardes aannemen, denk aan het aantal kinderen dat iemand heeft of het aantal studenten in de klas. In python is dit vaak een *int*. Continue variabelen kunnen 'alle' waarden aannemen, denk aan *lengte* of *gewicht*. In python is dit meestal een *float*. 

In de statistiek worden variabelen ook vaak opgedeeld in meetniveaus. Daarbij worden 4 soorten onderscheiden: nominaal, ordinaal, interval en ratio. Lees deze bron over de verschillende meetniveaus: https://blog.bijleshuis.be/statistiek-variabelen-opdelen. 

Het kennen van deze type variabelen helpt je om te bepalen welke statistieken je uit kunt rekenen of welke visualisaties je kunt maken. Later ga je zien dat dit ook van belang is om te bepalen welke machine learning modellen geschikt zijn voor je data en welke datapreparatie stappen er nodig zijn.

### Data opdracht 2.6
1. Bepaal voor alle kolommen in de vgsales dataset of deze kwalitatieve of kwantitatieve variabele bevat.
2. Bepaal van de kwalitatieve variabelen of ze nominaal of ordinaal zijn. Bepaal van de kwantitatieve variabelen of ze continu of discreet zijn.
3. Bekijk de dtypes van de kolommen. Komt dit overeen met wat je zou verwachten?
4. Bepaal per kolom welke centrummaten je zou kunnen berekenen, bereken deze en beargumenteer of dit een zinvol inzicht heeft gegeven.


In [None]:
print(vgsales.dtypes)
vgsales.head()


* Rank: kwalitatief, nominaal
* Name: kwalitatief, nominaal
* Platform: kwalitatief, nominaal
* Year: kwantitatief, discreet, interval
* Genre: kwalitatief, nominaal
* Publisher: kwalitatief, nominaal
* Alle type Sales: kwantitatief, continu, ratio

In [None]:
for col in ['Name', 'Platform', 'Genre', 'Publisher']:
    print('Modus', col, vgsales[col].mode())

NB. Spellen zitten er soms vaker in! (Per console een datapunt.)

In [None]:
vgsales[['Year', 'EU_Sales']].mean(), vgsales[['Year', 'EU_Sales']].median(), vgsales[['Year', 'EU_Sales']].mode()

## Visualisaties en distributies
Er zijn verschillende visualisaties die veel gebruikt worden in de data-exploratie fase. Lees deze blog over verschillende veelgebruikte grafieken: https://blog.bijleshuis.be/grafieken-maken-soorten-grafieken

Lees tot het einde, het stuk over het uitleggen van je grafiek is erg belangrijk!

In dit blog wordt verwezen naar verschillende software om grafieken te maken, maar wij doen dit natuurlijk in python. Voor het maken van veelvoorkomende grafieken kunnen we uit de voeten met de plotfunctionaliteit van pandas. Wil je iets uitgebreiders doen, dan zul je gebruik moeten maken van andere plotting libraries. 

De meeste plotting libraries maken gebruik van `matplotlib` en het is heel handig hier wat van te weten (https://matplotlib.org/stable/). Daarnaast wordt `seaborn` vaak gebruikt omdat je met weinig code toch best mooie visualisaties kan maken (https://seaborn.pydata.org/). Het is handig de basis van deze packages te kennen, maar ook LLM's zijn erg goed in het genereren van code als je de visualisatie die je wilt hebben beschrijft. Je hoeft dus zeker niet alle functionaliteit uit die plotting libraries te kennen. 

Laten we eerst maar eens kijken wat we kunnen met de plotfunctionaliteit van pandas. Om dit te illustreren maken we gebruik van de *Palmer Penguins dataset*. Deze dataset bevat kenmerken van drie verschillende pinguinsoorten die leven in Antarctica. De kolommen in deze dataset:
- species: De soort pinguïn (Adelie, Chinstrap of Gentoo)
- island: Het eiland waar de pinguïn is waargenomen (Biscoe, Dream of Torgersen)
- bill_length_mm: De lengte van de snavel van de pinguïn in millimeters, gemeten van de punt tot waar de snavel het schedel raakt
- bill_depth_mm: De hoogte van de snavel in millimeters
- flipper_length_mm: De lengte van de vleugel van de pinguïn in millimeters
- body_mass_g: De massa van het lichaam van de pinguïn in gram
- sex: Het geslacht van de pinguïn (mannelijk of vrouwelijk)



Voordat we visualisaties gaan maken, lezen we de dataset in en bekijken we de belangrijkste statistieken. De python library *seaborn* kan gebruikt worden voor visualisaties, maar deze bevat ook enkele datasets. We gebruiken deze library dan ook om de dataset in te laden. De functie `sns.load_dataset()` geeft ons de dataset in de vorm van een pandas dataframe.

In [None]:
#importeer libraries voor visualisatie
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
pinguins_df = sns.load_dataset("penguins")
pinguins_df.describe()

### Visualisaties voor univariate exploratie 
Eerst gaan we kijken naar een paar grafieken die je kunt gebruiken om de verdeling van 1 enkele variabel te onderzoeken. Voor numerieke waarden wordt de boxplot en het histogram veel gebruikt. 

In [None]:
#voorbeeld boxplot met plot-functionaliteit van pandas
pinguins_df.plot.box(column=['flipper_length_mm'])

In deze boxplot zien we dat de alle pinquins een flipperlengte hebben tussen de 172 en 231 mm. De meeste pinquins hebben een flipperlengte tussen de 190 en de de 213 mm. Dit hadden we natuurlijk ook al uit de beschrijvende statistieken hierboven af kunnen lezen. Wat wel snel te zien is in deze boxplot, is dat er geen *outliers* zijn.

Om echt inzicht in de verdeling van de flipperlengte te krijgen is een histogram relevanter.

In [None]:
# voorbeeld histogram met plot-functionaliteit van pandas
pinguins_df.plot.hist(column=['flipper_length_mm'], bins=20)

Hier valt meteen op dat er 2 of misschien wel 3 pieken te zien zijn. Dit is in deze dataset logisch, omdat deze gegevens bevat van 3 verschillende pinguinsoorten. Waarschijnlijk is bij iedere soort de lengte van de flipper anders verdeeld. Soms weet je vantevoren niet dat je met meerdere soorten te maken hebt en kan het maken van een histogram helpen om dat te gaan onderzoeken.

### Visualisatie van een categorische variabele
Als je een categorische variabelen wilt weergeven, heb je altijd óók een numerieke waarde nodig om weer te geven. Vaak is dit het aantal observaties per categorie of per combinatie van categoriën.
Zie hieronder een barplot van heet aantal pinguins per soort.

In [None]:
pinguins_df['species'].hist()

In [None]:
#barchart met aantal observaties per soort met plot-functionaliteit van pandas
pinguins_df['species'].value_counts().plot(kind='bar', stacked=True)

We zien dat er meer Adelie-pinguïns zijn dan Gentoo-pinguïns in deze dataset. De Chinstrap pinguin komt duidelijk het minste voor. We kunnen geen conclusies trekken over het aantal pinguins van deze soorten op antarctica, want we weten niet hoe de data verzameld is.

### Visualisaties voor bivariate exploratie
Hierboven hebben we 1 variabele gevisualiseerd, maar we kwamen er meteen al achter dat het veel interessanter is om 2 variabelen met elkaar te vergelijken. Bijvoorbeeld de soort en de flipperlengte. Hier hebben we te maken met een **nominale** en een **continue** variabele. We kunnen dan een boxplot of een histogram per categorie tonen.

#### Een numerieke en een categorische variabele

In [None]:
#toon boxplot van de flipperlengte per soort pinguin
pinguins_df.plot.box(column=['flipper_length_mm'], by='species')

We zien hier direct dat de Gentoo-pinguin veel grotere flippers heeft dan de andere twee soorten. Laten we dit nu ook in een histogram bekijken.

In [None]:
#histogram van de flipperlengte per soort pinguin met plot-functionaliteit van pandas
pinguins_df.plot.hist(column=['flipper_length_mm'], by='species', bins=20, figsize=(5, 10))

De manier waarop dit geplot wordt maakt het niet erg makkelijk om de verschillende soorten te vergelijken. We maken gebruik van seaborn om dit te verbeteren. Met matplotlib voegen we vervolgens titels toe aan de grafiek en de assen.

In [None]:
# Histogram van flipperlengte per soort pinguin met seaborn
sns.histplot(data=pinguins_df, x="flipper_length_mm", hue="species", 
             bins=15, kde=True, element="step", common_norm=False)
plt.title("Histogram van flipperlengte per pinguïnsoort")
plt.xlabel("Flipperlengte (mm)")
plt.ylabel("Aantal pinguïns")


Hier zien we direct dat de gemiddelde flipperlengte van de Gentoo veel groter is dan die van de andere 2 omdat de piek veel verder naar rechts ligt. De hoogte van de pieken per soort kun je niet goed met elkaar vergelijken, deze hangen af van het aantal observaties en we hebben nog niet bekeken hoe vaak iedere soort voorkomt in de dataset.m

#### Vergelijken van 2 numerieke variabelen
Om de samenhang van 2 numerieke waarden te bekijken kun je gebruik maken van een scatterplot. Hieronder zien we een scatterplot van de snavellengte en de snavelhoogte van pinguins.

In [None]:
#scatterplot van snavellengte en snavelhoogte met plot-functionaliteit van pandas
pinguins_df.plot.scatter(x='bill_length_mm', y='bill_depth_mm')
plt.xlabel("Snavellengte (mm)")
plt.ylabel("Snavelbreedte (mm)")
plt.title("Snavellengte vs. Snavelbreedte van pinguïns")

We zien hier 2 of 3 verschillende groepen bij elkaar liggen, dit zullen opnieuw de pinguinsoorten zijn. Laten we deze plot opnieuw per soort maken. Hier gebruiken we weer seaborn voor.

In [None]:
#scatterplot van snavellengte en snavelhoogte per soort met seaborn
sns.scatterplot(data=pinguins_df, x="bill_length_mm", y="bill_depth_mm", hue="species")
plt.xlabel('snavellengte (mm)')
plt.ylabel('snaveldiepte (mm)')
plt.title('Snavel lengte en diepte per soort pinguïn')

We zien inderdaad dat de observaties van de verschillende soorten pinguins bij elkaar liggen. Ook zien we dat er grofweg gezegd kan worden dat als de lengte van de snavel groter is, de diepte dat ook is. Dit verband is bij de Gentoo duidelijker te zien dan bij de Adeliepinguin. Dat is goed te zien in onderstaande visualisaties.

In [None]:
#scatterplot van de snavellengte en snavelhoogte van de Adeliepinguïn
adelie = pinguins_df[pinguins_df['species'] == 'Adelie']
adelie.plot.scatter(x='bill_depth_mm', y='bill_length_mm')
plt.title("Snavellengte vs. snavelhoogte van de Adeliepinguïn")
plt.xlabel("Snavellengte (mm)")
plt.ylabel("Snavel hoogte (mm)")

In [None]:
gentoo = pinguins_df[pinguins_df['species'] == 'Gentoo']
gentoo.plot.scatter(x='bill_depth_mm', y='bill_length_mm')
plt.title("Snavellengte vs. snavelhoogte van de Gentoo-pinguïn")
plt.xlabel("Snavellengte (mm)")
plt.ylabel("Snavel hoogte (mm)")

In bovenste 2 visualisaties zie je dat bij de Gentoopinguin er een duidelijk verband is tussen de snavellengte en de snavelhoogte. Bij de Adeliepinguïn is dat minder duidelijk, de punten liggen meer verspreid. In een latere les gaan we dit soort verbanden verder onderzoeken.

### Afhankelijke en onafhankelijke variabelen
Bij het maken van zo'n  scatterplot is het altijd belangrijk om je af te vragen hoe de variabelen van elkaar afhangen. Veroorzaakt de verandering in de ene variabele een verandering in de andere variabele? Dan noemen we de veroorzaker de **onafhankelijke** variabele en de variabele die meeverandert de **afhankelijke** variabele. De onafhankelijke variable plot je op de x-as en de afhankelijke op de y-as. Bij snavellengte en snavelhoogte is dat misschien wat moeilijk te bepalen, maar als je lengte en gewicht van een pinguin (of een mens) gaat plotten, dan is het logischer dat het gewicht van de lengte afhangt, dan andersom. De onafhankelijke variabele lengte plot je dus op de x-as de afhankelijke variabele gewicht plot je op de y-as.



### Visualiseren van 2 categorische variabelen

Als je 2 categorische variabelen met elkaar wilt vergelijken, heb je opnieuw óók een numerieke waarde nodig om weer te geven. Vaak is dit het aantal observaties per categorie of per combinatie van categoriën. Hieronder een voorbeel van een barchart, die weergeeft hoe vaak elke soort pinguïn voorkomt in de dataset, uitgesplitst per geslacht.

In [None]:
# Barchart die aantal observaties per soort en geslacht toont, met seaborn
sns.countplot(data=pinguins_df, x='species', hue='sex')
plt.title('Aantal pinguïns per soort en geslacht')
plt.xlabel('Soort')
plt.ylabel('Aantal')
plt.legend(title='Geslacht')

Het ziet ernaar uit dat de onderzoekers hun best hebben gedaan net zoveel data van mannetjes- als van vrouwtjespinguins te verzamelen. Waarom dit afwijkt bij de Gentoopinguin is niet duidelijk.

Een ander veelvoorkomende grafiek is een *line chart*, deze gebruik je om een tijdreeks te visualiseren. In deze dataset komt dit niet voor, maar hier zie je een voorbeeld van hoe je dat met seaborn zou kunnen doen: https://seaborn.pydata.org/generated/seaborn.lineplot.html

Je hebt nu een aantal voorbeelden van visualisaties gezien, gemaakt met verschillende libraries. Maak onderstaande opdracht om hier zelf mee te oefenen. 

### Data opdracht 2.7

Maak visualisaties om de volgende inzichten te geven. Je mag een LLM gebruiken om de code voor de visualisatie te genereren. Het gaat erom dat je zelf nadenkt over wat een goede visualisatie zou zijn en als je bedacht hebt welke visualisatie je wilt maken en wat er op de assen moet staan, dan formuleer je een opdracht voor de LLM om de code te genereren. Neem de gegenereerde code goed door, zodat je kunt controleren wat er gebeurt en er ook meteen iets van leert. Voeg waar nodig comments toe voor je eigen begrip. Benoem ook telkens wat er in de visualisatie te zien is.
1. Maak een visualisatie om te laten zien of er een verschil is in gewicht bij mannetjes en vrouwtjes Gentoo pinguins.
2. Onderzoek met een visualisatie of er een verband is tussen flipperlengte en gewicht bij de vrouwtjes van de Adeliepiguin.
3. Maak een visualisatie om een verband te laten zien tussen de soort pinguin en de eilanden waarop ze voorkomen.

In [None]:
pinguins_df.info()

In [None]:
pinguins_df[pinguins_df['species'] == 'Gentoo'].plot.box(column=['body_mass_g'], by='sex')

In [None]:
pinguins_df[(pinguins_df['species'] == 'Adelie') & (pinguins_df['sex'] == 'Female')].plot.scatter(x='flipper_length_mm', y='body_mass_g')


In [None]:
pinguins_df[(pinguins_df['species'] == 'Adelie') & (pinguins_df['sex'] == 'Female')][['flipper_length_mm', 'body_mass_g']].corr()

In [None]:
# Barchart die aantal observaties per soort en geslacht toont, met seaborn
sns.countplot(data=pinguins_df, x='species', hue='island')
plt.title('Aantal pinguïns per soort en afkomst')
plt.xlabel('Soort')
plt.ylabel('Aantal')
plt.legend(title='Afkomst')

## Data opdracht 2.8 - voorbereiding op PI 
Ga naar: https://insideairbnb.com/get-the-data/
Hier kun je van verschillende steden de data van airbnb downloaden van het jaar 2024. Kies een stad die je interessant vindt en download de dataset listings.csv. Exploreer deze data. Denk aan:
- Welke kolommen zijn aanwezig?
- Wat is het datatype van deze kolommen? Welke meetniveaus horen daarbij?
- Zijn er null-waardes?
- Kun je interessante statistieken weergeven?

Bedenk een reis die je naar deze stad zou willen maken. Hoeveel nachten zou je weg willen? In welke wijk wil je verblijven? Hoeveel mag het kosten? Wat voor andere eisen heb je aan de kamer die je wilt huren? Maak telkens een nieuwe subset van de dataset om uit te zoeken of er plekken zijn die aan je eisen voldoen. 

Exploreer nu opnieuw de hele dataset met behulp van visualisaties. Geef de verdelingen van variabelen en de relatie tussen variabelen weer. Licht steeds duidelijk toe wat je toont en benoem opvallende zaken. 



