## Forelesning 2: Plotting og datahåndtering
I denne forelesningen skal vi se på datavisualisering og datahåndtering. Vi skal se på:
- enkel plotting (med matplotlib og seaborn)
- lese datafiler (med pandas)
- rydde og visualisere data (med pandas)

Vi kan plotte små datasett ved å benytte lister:

In [None]:
import matplotlib.pyplot as plt

# pH i vann som funksjon av temperaturen i grader C
T = [0, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
pH = [7.48, 7.29, 7.10, 6.90, 6.72, 6.61, 6.50, 6.41, 6.32, 6.26, 6.19]

plt.scatter(T,pH,color="hotpink")
plt.xlabel("Temperatur ($^o$C)")
plt.ylabel("pH")
plt.show()

Store datafiler kan vi lese inn direkte, enten ved hjelp av basisfunksjonene i Python eller ved hjelp av biblioteker som _numpy_ og _pandas_.

In [None]:
!pip install pandas

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv("https://www.uio.no/studier/emner/matnat/ifi/IN-KJM1900/h21/datafiler/periodesystemet.csv")

In [None]:
df.describe()

In [None]:
atomradius = df["AtomicRadius"]
tetthet = df["Density"]

In [None]:
plt.scatter(atomradius, tetthet)
plt.xlabel("Atomradius (Å)")
plt.ylabel("Tetthet (g/cm$^3$)")
plt.show()

In [None]:
lav_elneg = df[df["Electronegativity"] <= 2]

In [None]:
lav_elneg

In [None]:
df["BoilingAndMelting"] = df["BoilingPoint"] + df["MeltingPoint"]

In [None]:
df.pop("BoilingAndMelting")

In [None]:
df.tail(10)

Menti: www.menti.com/wzruzmq8cw

In [None]:
fil = "https://www.uio.no/studier/emner/matnat/ifi/IN-KJM1900/h21/datafiler/penguings.txt"
pingviner = pd.read_csv(fil)
pingviner.head()

In [None]:
# Sjekke hvilke kolonnekategorier vi har
pingvindata.columns

# Printe en spesifikk kolonne
pingvindata["flipper_length_mm"]

# Printe et utvalg elementer [fra:til] av en spesifikk kolonne
pingvindata["flipper_length_mm"][0:10]

# Printe flere kolonner
pingvindata[["bill_length_mm", "bill_depth_mm", "flipper_length_mm"]]

# Printe spesifikke elementer
pingvindata.iloc[1]       # Element 1 (andre element)
pingvindata.iloc[100,2] # Element 100, kolonneverdi 2
pingvindata.loc[pingvindata["sex"] == "FEMALE"] # Damepingviner

# Se sorterte verdier
pingvindata.sort_values(["bill_length_mm", "bill_depth_mm"])

# Legger til en ny kolonne
pingvindata["total_mm"] = pingvindata["bill_length_mm"] + pingvindata["bill_depth_mm"] 

# Lagre fila i en ny csv-fil
pingvindata.to_csv("ny_pingvinfil.csv", index = False)

# Sletter kolonnen har lagt til (to måter å gjøre det på)
pingvindata = pingvindata.drop(columns=["total_mm"])
# Eller:
pingvindata.pop("total_mm")

# Sletter alle pingviner som har mangelfull info 
pingvindata.dropna()

## Visualisering

Seaborn-biblioteket er en utvidelse av matplotlib som gir tilgang til mange fine visualiseringer.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
sns.relplot(data = df, x = "AtomicNumber", y = "Electronegativity", hue = "Phase")

In [None]:
sns.histplot(data = df, x = "BoilingPoint", bins = 10)
plt.ylabel("Antall")

# Ulike filformater

In [None]:
import pandas as pd

In [None]:
bands = pd.read_csv("https://www.uio.no/studier/emner/matnat/ifi/IN-KJM1900/h20/datafiler/bands.txt",
                    delimiter = "\t", skiprows = 2, names = ["k-values", "Band 1", "Band 2", "Band 3"])

In [None]:
bands.head()

In [None]:
dec = pd.read_csv("https://www.uio.no/studier/emner/matnat/ifi/IN-KJM1900/h20/datafiler/dec.txt", delimiter = " ")

In [None]:
dec.pop("Unnamed: 4")
dec.head()

In [None]:
titrering = pd.read_csv("https://raw.githubusercontent.com/andreasdh/programmering-i-kjemi/master/docs/datafiler/titreringsdata.txt")

In [None]:
titrering.head()

In [None]:
fil = "https://www.uio.no/studier/emner/matnat/ifi/IN-KJM1900/h20/datafiler/posisjon.txt"
posisjon = pd.read_csv(fil, delimiter = "        ", engine = "python")

In [None]:
posisjon.head()

In [None]:
fil2 = "https://www.uio.no/studier/emner/matnat/ifi/IN-KJM1900/h21/datafiler/penguings.txt"
pingviner = pd.read_csv(fil2, usecols = [0,2,3,4,5])

In [None]:
pingviner.head()

### Vi kan også lage egne tekstfiler

In [11]:
solkrem = {"navn": ["avobenzone", "homosalat", "oksibenzon"], 
           "masse": [310.39, 262.36, 228.24], "blokker": ["UV-A", "UV-B", "UV-A + UV-B"]}

df_sol = pd.DataFrame(solkrem)
df_sol.to_csv("solkremforbindelser", index=False)