In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# 1. Inladen van de dataset
df = pd.read_csv("groot_bestand.csv")

# 2. Basis info
print("🔹 Shape:", df.shape)
print("🔹 Kolommen:", df.columns.tolist())
print("\n--- INFO ---")
print(df.info())
print("\n--- Beschrijvende statistieken ---")
print(df.describe(include="all").transpose().head(20))

# 3. Missing values per kolom
print("\n--- Missing values ---")
print(df.isnull().sum().sort_values(ascending=False).head(20))

# 4. Distributie van numerieke variabelen (price, points)
df["points"].hist(bins=20, edgecolor="black")
plt.title("Verdeling punten (points)")
plt.xlabel("Points")
plt.ylabel("Aantal")
plt.show()

df["price"].dropna().hist(bins=50, edgecolor="black")
plt.title("Verdeling prijs (price)")
plt.xlabel("Prijs ($)")
plt.ylabel("Aantal")
plt.show()

# 5. Topcategorieën (country, variety)
print("\n--- Top 10 countries ---")
print(df["country"].value_counts().head(10))

print("\n--- Top 10 varieties ---")
print(df["variety"].value_counts().head(10))

# 6. Relatie tussen prijs en punten
print("\n--- Correlatie price-points ---")
print(df[["points", "price"]].corr())

df.plot.scatter(x="price", y="points", alpha=0.3)
plt.title("Relatie tussen prijs en punten")
plt.xlabel("Prijs ($)")
plt.ylabel("Punten")
plt.xlim(0, 500)  # uitschieters beperken
plt.show()

# 7. Tekstuele data verkennen (description)
df["desc_len"] = df["description"].str.len()
print("\n--- Lengte beschrijvingen ---")
print(df["desc_len"].describe())
df["desc_len"].hist(bins=50)
plt.title("Lengte van beschrijvingen")
plt.xlabel("Aantal karakters")
plt.ylabel("Aantal")
plt.show()


In [None]:
# eerste rijen data
(df.head())


Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery,desc_len
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia,172
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos,227
2,2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm,186
3,3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian,199
4,4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks,249


In [None]:
import pandas as pd

# Eerst bestand inladen (pas pad aan als nodig)
df = pd.read_csv("groot_bestand.csv")

# Nu controleren of er dubbele titles zijn
n_unique = df["title"].nunique()
n_total = len(df)

print(f"Totaal aantal rijen: {n_total}")
print(f"Aantal unieke titles: {n_unique}")
print(f"Duplicaten in titles: {n_total - n_unique}")

# Voorbeeld van titels die vaker dan 1 keer voorkomen
dupes = df["title"].value_counts()
print(dupes[dupes > 1].head(50))


Totaal aantal rijen: 129971
Aantal unieke titles: 118840
Duplicaten in titles: 11131
title
Gloria Ferrer NV Sonoma Brut Sparkling (Sonoma County)                                         11
Korbel NV Brut Sparkling (California)                                                           9
Segura Viudas NV Extra Dry Sparkling (Cava)                                                     8
Segura Viudas NV Aria Estate Extra Dry Sparkling (Cava)                                         7
Gloria Ferrer NV Blanc de Noirs Sparkling (Carneros)                                            7
Ruinart NV Brut Rosé  (Champagne)                                                               7
Mumm Napa NV Brut Prestige Sparkling (Napa Valley)                                              6
Boizel NV Brut Réserve  (Champagne)                                                             6
Pierre Sparr NV Brut Réserve Sparkling (Crémant d'Alsace)                                       6
Bailly-Lapierre NV Brut  (C

In [None]:
import pandas as pd

# Eerst bestand inladen (pas pad aan als nodig)
df = pd.read_csv("groot_bestand.csv")

# Nu controleren of er dubbele titles zijn
n_unique = df["taster_name"].nunique()
n_total = len(df)

print(f"Totaal aantal rijen: {n_total}")
print(f"Aantal unieke titles: {n_unique}")
print(f"Duplicaten in titles: {n_total - n_unique}")

# Voorbeeld van titels die vaker dan 1 keer voorkomen
dupes = df["taster_name"].value_counts()
print(dupes[dupes > 0].head(50))


Totaal aantal rijen: 129971
Aantal unieke titles: 19
Duplicaten in titles: 129952
taster_name
Roger Voss            25514
Michael Schachner     15134
Kerin O’Keefe         10776
Virginie Boone         9537
Paul Gregutt           9532
Matt Kettmann          6332
Joe Czerwinski         5147
Sean P. Sullivan       4966
Anna Lee C. Iijima     4415
Jim Gordon             4177
Anne Krebiehl MW       3685
Lauren Buzzeo          1835
Susan Kostrzewa        1085
Mike DeSimone           514
Jeff Jenssen            491
Alexander Peartree      415
Carrie Dykes            139
Fiona Adams              27
Christina Pickard         6
Name: count, dtype: int64


In [None]:
import pandas as pd

# Eerst bestand inladen (pas pad aan als nodig)
df = pd.read_csv("groot_bestand.csv")

# Nu controleren of er dubbele titles zijn
n_unique = df["country"].nunique()
n_total = len(df)

print(f"Totaal aantal rijen: {n_total}")
print(f"Aantal unieke titles: {n_unique}")
print(f"Duplicaten in titles: {n_total - n_unique}")

# Voorbeeld van titels die vaker dan 1 keer voorkomen
dupes = df["country"].value_counts()
print(dupes[dupes > 1].head(50))


Totaal aantal rijen: 129971
Aantal unieke titles: 43
Duplicaten in titles: 129928
country
US                        54504
France                    22093
Italy                     19540
Spain                      6645
Portugal                   5691
Chile                      4472
Argentina                  3800
Austria                    3345
Australia                  2329
Germany                    2165
New Zealand                1419
South Africa               1401
Israel                      505
Greece                      466
Canada                      257
Hungary                     146
Bulgaria                    141
Romania                     120
Uruguay                     109
Turkey                       90
Slovenia                     87
Georgia                      86
England                      74
Croatia                      73
Mexico                       70
Moldova                      59
Brazil                       52
Lebanon                      35
Morocco       

In [None]:
import pandas as pd

# Laad je bestand (pas pad aan als nodig)
df = pd.read_csv("groot_bestand.csv")

# Kleine check
print(df.head(3))
