# Pandas

In [2]:
import pandas as pd
import numpy as np

## DataFrames

In [3]:
df = pd.DataFrame(np.array([[10, 2, 3], [4, 5, 6], [7, 8, 9]]), columns=['a', 'b', 'c'])
df

Unnamed: 0,a,b,c
0,10,2,3
1,4,5,6
2,7,8,9


In [4]:
df.sort_values(by='a')

Unnamed: 0,a,b,c
1,4,5,6
2,7,8,9
0,10,2,3


In [5]:
df[0:2]

Unnamed: 0,a,b,c
0,10,2,3
1,4,5,6


In [6]:
df[ df['a'] > 5 ]

Unnamed: 0,a,b,c
0,10,2,3
2,7,8,9


| Object   | Type Selection	  | Return Value Type |
|----------|-------------------|-------------------|
|Series    | series[label]	  | scalar value |
|DataFrame | frame[colname]   | Series corresponding to colname |
|Panel     | panel[itemname]	  | DataFrame corresponding to the itemname |


In [7]:
print(type(df['a']))
print(type(df[['a']]))

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


In [8]:
df[["a","b"]]

Unnamed: 0,a,b
0,10,2
1,4,5
2,7,8


In [9]:
df[["a","b"]].values

array([[10,  2],
       [ 4,  5],
       [ 7,  8]])

In [10]:
print([x.upper() for x in df.columns])

['A', 'B', 'C']


## Einlesen von Standarddateiformaten

Wenn eine .csv-Datei mit Excel abgespeichert wird, kann es sein, dass Excel als Spaltentrenner ein Semikolon statt eines Kommas verwendet.

Die Datei sieht dann u.U. so aus:

    Quadratmeter;Verkaufspreis
    70;351000
    ...

Wenn diese Daten dann in Pandas eingelesen wird, werden diese nicht korrekt übernommen. Pandas geht im Standardfall davon aus, dass eine .csv-Datei ein Komma als Spaltentrenner verwendet. Um dieses Problem zu umgehen, gibt es folgende Möglichkeiten:

1. Die Datei direkt als Excel-File einlesen mit Hilfe des Befehls pd.read_excel("dateiname.xlsx") 
1. Anpassen der Paramter zum Öffnen der Datei: pd.read_csv("dateiname.csv", sep=";") 

In [11]:
df_csv = pd.read_csv("../DataSets/hotels.csv")
df_sep = pd.read_csv("../DataSets/hotels_excel.csv",sep=";")
df_xls = pd.read_excel("../DataSets/hotels.xlsx")

In [12]:
df_xls.head()

Unnamed: 0,Gewinn,Preis in Mio,Quadratmeter,Stadt
0,119000,21.88,3938,Berlin
1,250000,27.95,3986,München
2,250000,16.09,2574,Köln
3,145000,27.58,4155,München
4,110000,23.76,3795,Berlin


In [13]:
df_csv[["Gewinn", "Quadratmeter"]].head()

Unnamed: 0,Gewinn,Quadratmeter
0,119000.0,3938.0
1,250000.0,3986.0
2,250000.0,2574.0
3,145000.0,4155.0
4,110000.0,3795.0


In [15]:
print("Mittelwert: ", df_csv[["Gewinn"]].mean())
print("Median:", df_csv[["Gewinn"]].median())

Mittelwert:  Gewinn    106126.666667
dtype: float64
Median: Gewinn    88500.0
dtype: float64
