# LFY032

## Föreläsning 1 - Arbeta med data, del 2

Fredrik Skärberg, 2024


In [None]:
#importera moduler
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt


### Information om dataset
* Dataset som innehåller information om matpriser, köttpriser, mejeripriser, spannmålspriser, oljepriser och sockerpriser.
* Från 1990-2022
* Från Department of Agriculture i USA (USDA)
* Innehåller mätningar ungefär de första 12 dagarna i Januari varje år

In [None]:
#Läs in data
df = pd.read_csv('FAOFP1990_2022.csv')


In [None]:
df.head(10)

### Datan ligger som en sträng. Måste bearbeta.

In [None]:
#Dela värdena till kolumner
sträng_första_rad = 'Date "Food.Price.Index" "Meat" "Dairy" "Cereals" "Oils" "Sugar"'
df[['Index','Date','Food','Meat', "Dairy" ,"Cereals" ,"Oils" ,"Sugar"]] = df[sträng_första_rad].str.split(' ', n=7, expand=True)
df.head()


In [None]:
#Ta bort initiala raden
df.drop(['Date "Food.Price.Index" "Meat" "Dairy" "Cereals" "Oils" "Sugar"'], axis=1, inplace=True)
df.head()


In [None]:
#Transformera Datumkolumnen. Ta bort "konstiga" tecken
df[['Month','Day','Year']] = df['Date'].str.split('/', n=3, expand=True).replace(r'[^\w\s]', ' ', regex=True)
df.head()


In [None]:
#Ta bort Kolumner vi inte är intresserade av.
df.drop(['Month','Day', 'Date'], axis=1, inplace=True)

In [None]:
#Gör all data numerisk
for i in df.columns:
    df[i]=pd.to_numeric(df[i]) 
df.head()


### Ett smart sätt att få snabb information om datan

In [None]:
df.describe().T

In [None]:
#Gör en plot över datan
df.plot(
    "Index",
    ["Food", "Meat", "Dairy", "Cereals", "Oils", "Sugar"],
    figsize=(12,6),
    title="Food Price Index 1990-2022",
    xlabel="Year",
    ylabel="Price Index",
)


### Vi kan gruppera för år genom att använda `groupby` och `mean` för att få medelvärde för varje år.

In [None]:
#Ta medelvärdet för varje år istället.
dfx = df[['Food', 'Meat', 'Dairy', 'Cereals', 'Oils', 'Sugar' ,'Year']]
dfx = dfx.groupby(['Year'], as_index=False).mean()


In [None]:
#Gör en plot över datan
dfx.plot("Year",
         ["Food","Meat", "Dairy", "Cereals", "Oils", "Sugar"],
         linewidth=3,
         linestyle='-.',
         figsize=(12, 6)
        )
plt.plot(dfx['Year'], dfx['Food'], color='darkblue', linewidth=5, label='Food-Index')
plt.title('Yearly Avr. Price Index', fontsize=18)
plt.ylabel('Price Index', size=16)
plt.xlabel('Year', size=16)
plt.legend(fontsize=14)
