# Pandas → NumPy

- Extrahieren der numerischen Werte aus einem DataFrame als *NumPy*-Array
- Reorganisation der Daten mittels `reshape()`

In [None]:
import pandas as pd
import numpy as np

Einlesen der DataFrames

In [None]:
def read_addfeature(file_name, feature_name):
    df = pd.read_csv(file_name)
    df['feature'] = feature_name
    print(df.head()) # auskommentieren!
    return df

In [None]:
df_temp = read_addfeature('temp-all.csv', 'temperature')
df_rain = read_addfeature('nied-all.csv', 'rainfall')
df_sun = read_addfeature('son-all.csv', 'sunshine')

In [None]:
print(df_temp.info())
df_temp

Extrahieren der numerischen Spalten mittels numerischen Index und `iloc`

In [None]:
atemp = df_temp.iloc[:, 1:13].values
atemp

In [None]:
atemp.shape

Extrahieren mittels Liste der Spaltennamen und `loc`

In [None]:
col_months = ['{:02}'.format(x) for x in range(1, 13)]
print(col_months)
arain = df_rain.loc[:, col_months].values
arain

Löschen aller nichtnumerischen Spaltennamen mit `drop()`

In [None]:
asun = df_sun.drop(['year', 'feature'], axis=1).values
asun

Kontrolle der Matrixdimensionen

In [None]:
atemp.shape, arain.shape, asun.shape

Umwandlung in Vektoren, eine Achse kann berechnet und durch `-1` ersetzt werden.

In [None]:
vtemp = atemp.reshape(-1)
vrain = arain.reshape(-1)
vsun = asun.reshape(-1)
vtemp.shape, vrain.shape, vsun.shape

Vertikal stapeln

In [None]:
np.vstack([vtemp, vrain]).shape

Horizontal stapeln gibt einen langen Vektor → Vektor wird als Zeilenvektor interpretiert!

In [None]:
np.hstack([vtemp, vrain]).shape

Transponieren der Matrix

In [None]:
data_v = np.vstack([vtemp, vrain])
data_v.T
#data_v.T.shape

Direktes horizontales Stapeln nach Umwandlung der Vektoren in einspaltige Matrizen.

In [None]:
data_h = np.hstack([vtemp.reshape(-1, 1), vrain.reshape(-1,1)])
data_h
#data_h.shape

Auffüllen der fehlenden `sun`-Werte durch `NaN` (*not a number*)

In [None]:
n_missing_sun = vtemp.shape[0] - vsun.shape[0]
n_missing_sun
v_missing_sun = np.repeat(np.NaN, n_missing_sun)
v_missing_sun.shape
vsun_complete = np.hstack([v_missing_sun, vsun])
vsun_complete.shape

Nebeneinanderstapeln aller drei Features (Zeilen: Monate)

In [None]:
data_h = np.hstack([vtemp.reshape(-1, 1), vrain.reshape(-1,1), vsun_complete.reshape(-1,1)])
data_h
#data_h.shape

Rückwandlung in DataFrame

In [None]:
df = pd.DataFrame(data_h)
df.columns = ['temp', 'rain', 'sun']
df

Erzeugen der Monatsspalte.

Variante 1: Aus Stringliste

Variante 2: Aus Datumsvektor

In [None]:
s_months = ['{:04}-{:02}'.format(y, m) for y in range(1882, 2024) for m in range(1, 13)]
len(s_months)
periods = pd.PeriodIndex(s_months, freq='M')
periods

In [None]:
month_dates = pd.date_range(start='1882-01-01', end='2023-12-31', freq='M')
#month_dates
month_dates.to_period()

Hinzufügen als Index und anschließende Umwandlung in Spalte (`reset_index()`) sorgt dafür, dass der Monat
die erste Spalte bildet.

In [None]:
df1 = df.set_index(periods)
df1

In [None]:
df1.reset_index(names='period')

## Danke für die Aufmerksamkeit!