# Vorlesung Pandas

## Konstruktor

In [3]:
import pandas as pd

In [4]:
data= {
    "matnr": [333, 444, 555, 1234],
    "name": ['hugo','bernd','Bob','Alice'],
    "alter": [16, 21, 45, 26]
}

In [5]:
df = pd.DataFrame(data)

In [6]:
df

Unnamed: 0,matnr,name,alter
0,333,hugo,16
1,444,bernd,21
2,555,Bob,45
3,1234,Alice,26


In [7]:
data_false= {
    "matnr": [333, 444, 555, 1234,999],
    "name": ['hugo','bernd','Bob','Alice'],
    "alter": [16, 21, 45, 26]
}

In [8]:
df_addedValue = pd.DataFrame(data_false)
#Ergibt Error
df_addedValue
print('Error')

ValueError: All arrays must be of the same length

In [None]:
df.shape

(4, 3)

Data mit eigenem Index


In [11]:
df_index = pd.DataFrame(data=data, index=["primus", "secundus", "drei", "vier"])
df_index

Unnamed: 0,matnr,name,alter
primus,333,hugo,16
secundus,444,bernd,21
drei,555,Bob,45
vier,1234,Alice,26


### Daten Typ

In [None]:
# die Größe des df
df.shape

(4, 3)

In [None]:
# Länge des df- Anzahl der Spalten
len(df)

4

In [None]:
#Datentypen
df.dtypes

matnr     int64
name     object
alter     int64
dtype: object

In [None]:
# bitte in "schönere" dtypes umwandeln fals in Spalte verschiedene Datentypen
df.convert_dtypes().dtypes

matnr             Int64
name     string[python]
alter             Int64
dtype: object

In [None]:
# Datentyp ändern
df["name"].astype("string").dtype

string[python]

In [None]:
# mehrere oder alle dtypes ändern
mytypes = {"alter": 'Int64', "name": 'string'}
df.astype(mytypes).dtypes

matnr             int64
name     string[python]
alter             Int64
dtype: object

In [None]:
# Wenn wir das df wirklich ändern wollen, dann müssen wir eine Zuweisung machen
# df = df.convert_dtypes()
# df.dtypes

AttributeError: 'function' object has no attribute 'convert_dtypes'

### Schema Info

In [None]:
df

Unnamed: 0,matnr,name,alter
0,333,hugo,16
1,444,bernd,21
2,555,Bob,45
3,1234,Alice,26


In [None]:
df.columns

Index(['matnr', 'name', 'alter'], dtype='object')

In [None]:
df.index

RangeIndex(start=0, stop=4, step=1)

In [None]:
# RangeIndex sieht ausgepackt so aus
[*pd.RangeIndex(start=4, stop=13, step=2)]

[4, 6, 8, 10, 12]

In [None]:
# unwichtig (Attibut name für zB Index oder Spalten)
df.index.name

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   matnr   4 non-null      int64 
 1   name    4 non-null      object
 2   alter   4 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 228.0+ bytes


## Projektion

In [None]:
#Projektion geht so
df_index["name"]

primus       hugo
secundus    bernd
drei          Bob
vier        Alice
Name: name, dtype: object

### Einspaltiges df ist eine Series
Hier gibt es keine columns

In [None]:
n = df_index["name"]
n

primus       hugo
secundus    bernd
drei          Bob
vier        Alice
Name: name, dtype: object

In [None]:
type(n)

pandas.core.series.Series

In [None]:
# Columns gibt es nicht
n.columns

### Projektion auf mehrere Spalten

In [None]:
df[["name", "matnr"]]

Unnamed: 0,name,matnr
0,hugo,333
1,bernd,444
2,Bob,555
3,Alice,1234


Zusammenbauen eines df aus Series


In [22]:
n = df["name"]
m = df["matnr"]
a = df["alter"]

df_index2 = pd.DataFrame({"name": n, "matrikel":m, "old": a, "doppelt": m})
df_index2.columns = ["name", "matrikel", "alter", "matrikel"]
df_index2

Unnamed: 0,name,matrikel,alter,matrikel.1
0,hugo,333,16,333
1,bernd,444,21,444
2,Bob,555,45,555
3,Alice,1234,26,1234


Projekt auf eine mehrdeutige Spalte

In [None]:
df_index2["matrikel"]

Unnamed: 0,matrikel,matrikel.1
0,333,333
1,444,444
2,555,555
3,1234,1234


### Extendes Projektion (mit den Spalten noch irgendwas rechnen)

In [17]:
df_index["matnr"]+1000 + df_index["alter"] 

primus      1349
secundus    1465
drei        1600
vier        2260
dtype: int64

Zuweisung einer Spalte (Projektion wirkt auch als Pointer auf die Spalte links vom =-Zeichen)

In [13]:
df_index["neue_matnr"] = df_index["matnr"] +1000
df_index

Unnamed: 0,matnr,name,alter,neue_matnr
primus,333,hugo,16,1333
secundus,444,bernd,21,1444
drei,555,Bob,45,1555
vier,1234,Alice,26,2234


Alternativ kann man eine neue Spalte mit `assign` erzeugt

In [23]:
df_index3 = df_index.assign(neue_spalte = df_index["alter"]+10)
df_index3

Unnamed: 0,matnr,name,alter,neue_matnr,neue_spalte
primus,333,hugo,16,1333,26
secundus,444,bernd,21,1444,31
drei,555,Bob,45,1555,55
vier,1234,Alice,26,2234,36


Spalte umbenennen

In [19]:
df_index3.rename(columns={"matnr":"matrikel", "neue_spalte": "name +10"})

Unnamed: 0,matrikel,name,alter,neue_matnr,name +10
primus,333,hugo,16,1333,26
secundus,444,bernd,21,1444,31
drei,555,Bob,45,1555,55
vier,1234,Alice,26,2234,36


In [24]:
# Alternativ mit Projektions Syntax
df_index3.columns = ["matrikel", "Nachname", "Alter", "neue matnr", "Alter plus 10"]
df_index3


Unnamed: 0,matrikel,Nachname,Alter,neue matnr,Alter plus 10
primus,333,hugo,16,1333,26
secundus,444,bernd,21,1444,31
drei,555,Bob,45,1555,55
vier,1234,Alice,26,2234,36


Spalte löschen


In [25]:
df_index3.drop(columns=["Alter"])

Unnamed: 0,matrikel,Nachname,neue matnr,Alter plus 10
primus,333,hugo,1333,26
secundus,444,bernd,1444,31
drei,555,Bob,1555,55
vier,1234,Alice,2234,36


In [27]:
# Alternativ mit Projektion
df_index3[["matrikel", "Nachname", "neue matnr"]]

Unnamed: 0,matrikel,Nachname,neue matnr
primus,333,hugo,1333
secundus,444,bernd,1444
drei,555,Bob,1555
vier,1234,Alice,2234
