# Visualisering af data - MatPlotLib og Seaborn

I løbet af forløbet skal vi arbejde med at visualisere data fra forskellige kilder. Her kommer et par eksempler på hvordan vi kan bruger vores fortrukne pakker [MatPlotLib](https://matplotlib.org/) og [Seaborn](https://seaborn.pydata.org/examples/index.html)  

<img src="../Assets/PLT-plots.png">

Der findes rigtig mange eksempler på hvordan man bruger de forskellige plots, grafer og maps. For MatPlotLib er de hentet ned under følgende [PLTExamples](./PLTExamples).

For Seaborn findes de online her - [SeabornExamples](https://seaborn.pydata.org/examples)

Vi har taget nogle specifikke eksempler ud som vi forventer at I kan komme til at bruge på forløbet her!

## Histogram - MatPlotLib

Her ser vi et standart Histogram. Histogram er en af de mest standart plot vi bruger. Den viser bare frekvensen af vores data, her kan man få et godt overblik over fordelingen af vores data!

In [None]:
import matplotlib.pyplot as plt

fig, ax = plt.subplots()

fruits = ['apple', 'blueberry', 'cherry', 'orange']
counts = [40, 100, 30, 55]
bar_labels = ['red', 'blue', '_red', 'orange']
bar_colors = ['tab:red', 'tab:blue', 'tab:red', 'tab:orange']

ax.bar(fruits, counts, label=bar_labels, color=bar_colors)

ax.set_ylabel('fruit supply')
ax.set_title('Fruit supply by kind and color')
ax.legend(title='Fruit color')

plt.show()

## Piechart - MatPlotLib

Piechart eller cirkeldiagram er rigtig gode til at vise %-vis fordelingen i et datasæt. 

In [None]:
import matplotlib.pyplot as plt
import numpy as np

fig, ax = plt.subplots(figsize=(6, 3), subplot_kw=dict(aspect="equal"))

recipe = ["375 g flour",
          "75 g sugar",
          "250 g butter",
          "300 g berries"]

data = [float(x.split()[0]) for x in recipe]
ingredients = [x.split()[-1] for x in recipe]


def func(pct, allvals):
    absolute = int(np.round(pct/100.*np.sum(allvals)))
    return f"{pct:.1f}%\n({absolute:d} g)"


wedges, texts, autotexts = ax.pie(data, autopct=lambda pct: func(pct, data),
                                  textprops=dict(color="w"))

ax.legend(wedges, ingredients,
          title="Ingredients",
          loc="center left",
          bbox_to_anchor=(1, 0, 0.5, 1))

plt.setp(autotexts, size=8, weight="bold")

ax.set_title("Matplotlib bakery: A pie")

plt.show()

## Heatmap - Seaborn

Heatmaps er rigtig gode til at finde sammenhæng på data i et matrix-format, specielt er det smart at man kan gå 3-dimensionel. y, x og z.  

Herunder er der et eksempel på hvordan man kan bruge det til at se sammenhæng mellem fly med y værende måned, x værende år og z værende antal passagere. Det giver os et indblik at der generelt er flere passagere om sommeren og at det stiger meget pr år!

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_theme()

# Load the example flights dataset and convert to long-form
flights_long = sns.load_dataset("flights")
flights = (
    flights_long
    .pivot(index="month", columns="year", values="passengers")
)

# Draw a heatmap with the numeric values in each cell
f, ax = plt.subplots(figsize=(9, 6))
sns.heatmap(flights, annot=True, fmt="d", linewidths=.5, ax=ax)

## Scatter - PLT

Vi kan bruge et scatter plot til at visualisere alle datapunkter i et datasæt. Der giver os et godt overblik over fordelingen af hvert enkelt datapunkt, herfra kan man se outliers og den generelle fordeling af hvert punkt. Udover det kan man lave ting som trendlines for at få et bedre indblik i datasættet.

In [None]:
import matplotlib.pyplot as plt

#define data
x = np.array([8, 13, 14, 15, 15, 20, 25, 30, 38, 40])
y = np.array([5, 4, 18, 14, 20, 24, 28, 33, 30, 37])

#create scatterplot
plt.scatter(x, y)

#calculate equation for trendline
z = np.polyfit(x, y, 1)
p = np.poly1d(z)

#add trendline to plot
plt.plot(x, p(x))

#