# Pandas  

Pandas och Seaborne bygger ovanpå numpy och plotly. 

### series

In [2]:
import pandas as pd

data = dict(AI=24, Net=30, App=30, Java=27) #number of students
series = pd.Series(data=data)

print(data, series)

{'AI': 24, 'Net': 30, 'App': 30, 'Java': 27} AI      24
Net     30
App     30
Java    27
dtype: int64


In [6]:
# här kommer vi få future warning om att inte behandla en serie som en lista
print(f"series[0]: {series[0]}")

series[0]: 24


  print(f"series[0]: {series[0]}")


In [9]:
# ett alternativ
print(f"series[0] value: {series[series.keys()[0]]}")

# mer bekant
print(f"series[0] value: {series.iloc[-1]}")

# så som det är tänkt
# print(f"series[0] value: {series}") # någonting med clumnen "AI"

series[0] value: 24
series[0] value: 27
series[0] value: AI      24
Net     30
App     30
Java    27
dtype: int64


Cesium sönderfall eller kosmisk strålning används för äkta randomisering. Eller entropy från muspekaren (vibrationer från handen). I programmering när vi använder oss av random så blir det pseudo. När vi väljer seed så blir det alltid samma resultat. Skriver vi inget seed så blir det utifrån unix-klockan som startade 1970 och har räknat varje sekund sedan dess. 

In [13]:
import random as rng

rng.seed(42)

dice_series = pd.Series(rng.randint(1, 6) for _ in range(5))        # i random.randint(1, 6) är 1 och 6 inkluderade
print(dice_series)
print()

print(f"Min value: {dice_series.min()}")
print(f"Max value: {dice_series.max()}")
print(f"Mean value: {dice_series.mean()}")
print(f"Median value: {dice_series.median()}")
print(f"Standard deviation: {dice_series.std()}")

0    6
1    1
2    1
3    6
4    3
dtype: int64

Min value: 1
Max value: 6
Mean value: 3.4
Median value: 3.0
Standard deviation: 2.5099800796022267


In [14]:
import random as rng

rng.seed(42)

dice_series = pd.Series(rng.randint(1, 6) for _ in range(5000))        # i random.randint(1, 6) är 1 och 6 inkluderade
print(dice_series)
print()

print(f"Min value: {dice_series.min()}")
print(f"Max value: {dice_series.max()}")
print(f"Mean value: {dice_series.mean()}")
print(f"Median value: {dice_series.median()}")
print(f"Standard deviation: {dice_series.std()}")   # standard deviation är ett mått på hur mycket värdena i en serie skiljer sig från medelvärdet

0       6
1       1
2       1
3       6
4       3
       ..
4995    4
4996    1
4997    1
4998    5
4999    2
Length: 5000, dtype: int64

Min value: 1
Max value: 6
Mean value: 3.531
Median value: 4.0
Standard deviation: 1.7059956284284092


Dataframe är en numpy array där varje rad är en Series. 

In [19]:
df = pd.DataFrame(series, columns=["num students"])
print(df)
print()
print(df.T) # transponerar dataframen vilket gör att raderna blir kolumner och vice versa

      num students
AI              24
Net             30
App             30
Java            27

              AI  Net  App  Java
num students  24   30   30    27


In [24]:
students = pd.Series(data = dict(AI=24, Net=30, App=30, Java=27))
language = pd.Series(data = dict(AI= "Python", Net= "C#", App= "Kotlin", Java= "Java"))
df_programs = pd.DataFrame({"Students": students, "Language": language})

print(df_programs)
print()
df_programs.T

      Students Language
AI          24   Python
Net         30       C#
App         30   Kotlin
Java        27     Java



Unnamed: 0,AI,Net,App,Java
Students,24,30,30,27
Language,Python,C#,Kotlin,Java


Hade Students och Language inte varit lika långa så hade vi fått ett "NaN". Det är i stort sett vad mycket av denna kursen går ut på, att göra något åt NaN. 

In [26]:
import numpy as np

df_programs = pd.DataFrame({
    "Students": np.array([24, 30, 30, 27]),
    "Language": np.array(["Python", "C#", "Kotlin", "Java"])}, 
    index = ["AI", ".NET", "APP", "Java"])
df_programs

Unnamed: 0,Students,Language
AI,24,Python
.NET,30,C#
APP,30,Kotlin
Java,27,Java


In [27]:
df_programs.index

Index(['AI', '.NET', 'APP', 'Java'], dtype='object')

Ovanför står det "object" för att index kan vara blandat, str, int, float etc. 

In [28]:
df_programs["Students"]

AI      24
.NET    30
APP     30
Java    27
Name: Students, dtype: int64

In [30]:
df_programs[["Language", "Students"]]       # nu har vi indexerat efter kolumnerna vilket skiljer sig från numpy, det är alltså inte en lista

Unnamed: 0,Language,Students
AI,Python,24
.NET,C#,30
APP,Kotlin,30
Java,Java,27


In [31]:
df_programs.Language

AI      Python
.NET        C#
APP     Kotlin
Java      Java
Name: Language, dtype: object

In [32]:
df_programs["Language"][".NET"]         # direkt indexering

'C#'

In [35]:
print(df_programs.loc["Java"])          # radindexering
print()
df_programs.loc[["Java", "APP"]]         # radindexering

Students      27
Language    Java
Name: Java, dtype: object



Unnamed: 0,Students,Language
Java,27,Java
APP,30,Kotlin


In [36]:
df_programs.iloc[1:3]         # radindexering

Unnamed: 0,Students,Language
.NET,30,C#
APP,30,Kotlin


In [39]:
df_programs.loc[df_programs["Students"] > 28]        

Unnamed: 0,Students,Language
.NET,30,C#
APP,30,Kotlin


Detta kallas maskning och inte indexering.  

df = df[conditions]  
där condition är ett boolskt uttryck (dvs ger sant eller falskt)

In [41]:
df_programs["Students"] > 25            # masking

AI      False
.NET     True
APP      True
Java     True
Name: Students, dtype: bool

In [43]:
df_over_25 = df_programs[df_programs["Students"] > 25]
df_over_25

Unnamed: 0,Students,Language
.NET,30,C#
APP,30,Kotlin
Java,27,Java


In [40]:
df_programs.loc[df_programs["Language"].str.contains("Java")]

Unnamed: 0,Students,Language
Java,27,Java


In [51]:
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_excel("../Data/calories.xlsx")
df.head()

Unnamed: 0,FoodCategory,FoodItem,per100grams,Cals_per100grams,KJ_per100grams
0,CannedFruit,Applesauce,100g,62 cal,260 kJ
1,CannedFruit,Canned Apricots,100g,48 cal,202 kJ
2,CannedFruit,Canned Blackberries,100g,92 cal,386 kJ
3,CannedFruit,Canned Blueberries,100g,88 cal,370 kJ
4,CannedFruit,Canned Cherries,100g,54 cal,227 kJ


In [52]:
df.FoodCategory.unique()

array(['CannedFruit', 'Fruits', 'Tropical&ExoticFruits', 'PotatoProducts',
       'Vegetables', 'FastFood', 'Pizza', 'Cheese', 'CreamCheese',
       'Milk&DairyProducts', 'SlicedCheese', 'Yogurt', 'Beef&Veal',
       'ColdCuts&LunchMeat', 'Meat', 'Offal&Giblets', 'Pork',
       'Poultry&Fowl', 'Sausage', 'Venison&Game', 'Cakes&Pies',
       'Candy&Sweets', 'IceCream', '(Fruit)Juices',
       'AlcoholicDrinks&Beverages', 'Beer',
       'Non-AlcoholicDrinks&Beverages', 'Soda&SoftDrinks', 'Wine',
       'CerealProducts', 'Oatmeal,Muesli&Cereals', 'Pasta&Noodles',
       'Dishes&Meals', 'Soups', 'Legumes', 'Nuts&Seeds', 'Oils&Fats',
       'VegetableOils', 'BakingIngredients', 'Fish&Seafood',
       'Herbs&Spices', 'Pastries,Breads&Rolls', 'Sauces&Dressings',
       'Spreads'], dtype=object)

In [54]:
df = df.rename(dict(Cals_per_100g="Calories"),
               per100grams="percent",
               KJ_per_100g="kJ",
               axis="columns")

TypeError: DataFrame.rename() got an unexpected keyword argument 'per100grams'

Fick ovan problem och kunde inte längre hänga med. Kolla på Raphaels anteckningar. 