# Numpy, pandas og matplotlib

**Læringsmål**

* Grunnleggene om
  - Numpy-arrays
  - Plotting



Numpy og matplotlib brukes ofte til statistikk og analyser, og i denne oppgaven skal vi laste inn et stort datasett og gjennomføre enkle analyser på det. 
Datasettet er hentet fra [kaggle](https://www.kaggle.com/datasets/arjunprasadsarkhel/2021-olympics-in-tokyo) og handler om 2021 Olympics i Tokyo.

### a) Åpne excel fil i Python
Last ned datasettet, pakk ut og legg filene under folderen data i ditt prosjekt.
Bruk deretter pandas sin read_excel funksjon til å lese filen Medals.xlsx.

Trinn-for-trinn instruksjoner:
- Installer nødvendige biblioteker
- Les data fra Excel-filen

In [None]:
# Skriv koden din her

import pandas as pd

# Les Excel-filen
medals_df = pd.read_excel('../data/Medals.xlsx')

# Vis de første radene i DataFrame for å bekrefte at dataene er lest riktig
print(medals_df.head())


In [None]:
medals_df.info()

### b) Visualisere innholdet i Medals.xlsx

I denne oppgaven skal du visualisere innholdet i filen ved hjelp av Python-biblioteker som Matplotlib.
Bruk Matplotlib til å lage grafer som viser fordelingen av medaljer.    


In [None]:
# Skriv koden din her
import matplotlib.pyplot as plt

# Stolpediagram for medaljefordeling per land
plt.figure(figsize=(14, 8))
bar_width = 0.35
index = range(len(medals_df))

plt.bar(index, medals_df['Gold'], bar_width, label='Gold', color='gold')
plt.bar(index, medals_df['Silver'], bar_width, bottom=medals_df['Gold'], label='Silver', color='silver')
plt.bar(index, medals_df['Bronze'], bar_width, bottom=medals_df['Gold'] + medals_df['Silver'], label='Bronze', color='#cd7f32')

plt.xlabel('Land')
plt.ylabel('Antall medaljer')
plt.title('Medaljefordeling per land')
plt.xticks(index, medals_df['Team/NOC'], rotation=90)
plt.legend()

plt.tight_layout()
plt.show()

### c) Visualisere innholdet i EntriesGender.xlsx

I denne oppgaven skal du åpne filen EntriesGender.xlsx, som inneholder informasjon om kjønnsfordelingen av deltakere i forskjellige arrangementer under de olympiske leker i Tokyo 2021. Du skal deretter visualisere innholdet i filen ved hjelp av Python-biblioteker som Pandas og Matplotlib.

In [None]:
# Skriv koden din her

# Les Excel-filen
entries_gender_df = pd.read_excel('../data/EntriesGender.xlsx')

# Vis de første radene i DataFrame for å bekrefte at dataene er lest riktig
print(entries_gender_df.head())

# Summér antall deltakere per kjønn
total_female = entries_gender_df['Female'].sum()
total_male = entries_gender_df['Male'].sum()

print(f'Totalt antall kvinnelige deltakere: {total_female}')
print(f'Totalt antall mannlige deltakere: {total_male}')

# Pie chart for kjønnsfordeling
labels = ['Female', 'Male']
sizes = [total_female, total_male]
colors = ['#ff9999','#66b3ff']
explode = (0.1, 0)  # explode 1st slice

plt.figure(figsize=(8, 8))
plt.pie(sizes, explode=explode, labels=labels, colors=colors, autopct='%1.1f%%',
        shadow=True, startangle=140)
plt.title('Kjønnsfordeling av deltakere')
plt.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.
plt.show()

### d) Analyser medaljefordelingen etter kjønn (Vanskelig)

I denne oppgaven (frivillig) skal du kombinere data fra Medals.xlsx og EntriesGender.xlsx for å analysere medaljefordelingen etter kjønn. Du skal deretter visualisere resultatene ved hjelp av Python-biblioteker som Pandas og Matplotlib.

In [None]:
# Skriv koden din her
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

# Les Excel-filene
medals_df = pd.read_excel('../data/Medals.xlsx')
entries_gender_df = pd.read_excel('../data/EntriesGender.xlsx')
athletes_df = pd.read_excel('../data/Athletes.xlsx')

# Merge medals_df with athletes_df on 'NOC'
merged_df = pd.merge(medals_df, athletes_df, left_on='Team/NOC', right_on='NOC')

# Merge the result with entries_gender_df on 'Discipline'
combined_df = pd.merge(merged_df, entries_gender_df, on='Discipline')

# Calculate the total number of medals for each gender
combined_df['Total Medals'] = combined_df['Gold'] + combined_df['Silver'] + combined_df['Bronze']

# Group by gender and sum the total medals
gender_medal_count = combined_df.groupby(['Discipline', 'Female', 'Male'])['Total Medals'].sum().reset_index()

# Melt the dataframe to have 'Gender' as a single column
gender_medal_count = gender_medal_count.melt(id_vars=['Discipline'], value_vars=['Female', 'Male'], var_name='Gender', value_name='Medals')

# Stolpediagram for medaljefordeling etter kjønn
plt.figure(figsize=(14, 8))
sns.barplot(data=gender_medal_count, x='Discipline', y='Medals', hue='Gender')
plt.xticks(rotation=90)
plt.title('Medaljefordeling etter kjønn')
plt.xlabel('Disiplin')
plt.ylabel('Antall medaljer')
plt.legend(title='Kjønn')
plt.show()
