# Broadcasting
Broadcasting in NumPy ermöglicht arithmetische Operationen zwischen Arrays unterschiedlicher Formen, indem kleinere Arrays automatisch an größere angepasst werden. Eine Dimension mit 1 wird entsprechend "gestreckt", um die Operation zu ermöglichen. Dadurch spart NumPy Speicher und Rechenzeit, ohne unnötige Kopien der Daten zu erstellen.

![title](broadcasting_1.png)

In [2]:
import numpy as np

In [6]:
a = np.array([1, 2, 3])
b = np.array([2])

result = a * b
result

x = a * 2
print(x)
print(result)

[2 4 6]
[2 4 6]


## 1) Arrays mit unterschiedlichem Shape addieren
Arrays können miteinander addiert werden, wenn sie a) den gleichen Shape haben oder b) einer der Shapes 1 ist.

In [17]:
a = np.arange(start=1, stop=7).reshape((2,-1))
b = np.arange(start=1, stop=4)
print("a: \n", a)
print("b: \n", b)

print("a + b:\n", a + b)

a: 
 [[1 2 3]
 [4 5 6]]
b: 
 [1 2 3]
a + b:
 [[2 4 6]
 [5 7 9]]


## 2) Skalar-Multiplikation
Skalar zu Array-Broadcasting: Der Skalar wird auf die gesamte Form des Arrays erweitert.

$a = 3$

$ M = \left( \begin{matrix} 4 & 2 \\ 3 & 5 \\ 2 & 9 \end{matrix} \right) \cdot a = \left( \begin{matrix} 12 & 6 \\ 9 & 15 \\ 6 & 27 \end{matrix} \right) $

In [16]:
M = np.array([[4, 2], [3, 5], [2, 9]])
M * 3

array([[12,  6],
       [ 9, 15],
       [ 6, 27]])

In [23]:
a = np.arange(start=1, stop=4)
b = a[:, np.newaxis]
print("a:\n", a)
print("b:\n", b)

print("a + b:\n", a + b)

a:
 [1 2 3]
b:
 [[1]
 [2]
 [3]]
a + b:
 [[2 3 4]
 [3 4 5]
 [4 5 6]]


## Übungsaufgabe: Temperaturumrechnung für mehrere Städte

Gegeben sind die die Tagesdurchschnittstemperaturen (in °C) für mehrere Städte über eine Woche in einem 2D-Array vorliegen. Deine Aufgabe ist es, diese Temperaturen mithilfe von Broadcasting in Fahrenheit umzurechnen.

In [2]:
import numpy as np

# Temperaturen in Grad Celsius für 4 Städte über 7 Tage
temperatures_celsius = np.array([
    [15, 17, 20, 21, 19, 18, 16],  # Stadt 1
    [10, 12, 15, 14, 13, 11, 9],   # Stadt 2
    [25, 27, 28, 29, 30, 26, 24],  # Stadt 3
    [5, 7, 10, 12, 8, 6, 4]        # Stadt 4
])

# TODO: Konvertiere die Temperaturen in Fahrenheit
# Formel: Fahrenheit = Celsius * 9/5 + 32

temperatures_fahrenheit = temperatures_celsius * (9/5) + 32

print("Temperaturen in Fahrenheit:")
print(temperatures_fahrenheit)


Temperaturen in Fahrenheit:
[[59.  62.6 68.  69.8 66.2 64.4 60.8]
 [50.  53.6 59.  57.2 55.4 51.8 48.2]
 [77.  80.6 82.4 84.2 86.  78.8 75.2]
 [41.  44.6 50.  53.6 46.4 42.8 39.2]]


### Erwartete Ausgabe

Temperaturen in Fahrenheit:

[[59.   62.6  68.   69.8  66.2  64.4  60.8]   
 [50.   53.6  59.   57.2  55.4  51.8  48.2]     
 [77.   80.6  82.4  84.2  86.   78.8  75.2]     
 [41.   44.6  50.   53.6  46.4  42.8  39.2]]    


## Z-Wert Standardisierung
Im Machine Learning ist es oft nötig, (normalverteilte) Daten zu standardisieren. Wir müssen in diesem Fall den z-Wert jedes Datenpunktes berechnen.

Mehr dazu:
https://towardsai.net/p/machine-learning/machine-learning-standardization-z-score-normalization-with-mathematics

#### Formel für z-Wert Transformation

$z = \frac{x - \mu}{\sigma}$  

Um den Z-Wert berechnen zu können brauchen wir also den Mittelwert/Erwartungswert $\mu$ und Standardabweichung $\sigma$

In [7]:
# Datensatz aus 100.000 Datenpunkten mit je zwei Features
# die Daten sind normalverteilt. Wir wollen sie mit einer z-Transformation auf eine Standard-Normalverteilung bringen
data = np.random.normal(loc=5, scale=2, size=(100_000, 2))

print("Data Shape: ", data.shape)
print("Data Sample: \n", data[0:5])

# Standardabweichung und Mittelwert berechnen
std = np.std(data, axis=0)
mean = np.mean(data, axis=0)

print("Standardabweichung der Spalten: ", std)
print("Mittelwert der Spalten: ", mean)

# von jedem Feature Datenpunkt ziehen wir den jeweiligen Mittelwert ab 
# und teilen durch die jeweilige Spalten-Standardabweichung
data_z = (data - mean) / std
data_z[0:10]

Data Shape:  (100000, 2)
Data Sample: 
 [[6.45305253 4.87942586]
 [4.85297675 2.17274882]
 [2.96428461 1.52322128]
 [4.67182466 8.51886951]
 [4.21818175 5.01438935]]
Standardabweichung der Spalten:  [2.00532724 2.00661586]
Mittelwert der Spalten:  [4.98685311 4.99260142]


array([[ 0.7311522 , -0.05640121],
       [-0.06676035, -1.40527774],
       [-1.00859773, -1.72897076],
       [-0.15709578,  1.75732095],
       [-0.38331468,  0.01085804],
       [-1.14149368, -0.12430678],
       [ 0.58898719, -0.85396458],
       [-1.05083153,  0.13130394],
       [ 0.26388813,  0.05010461],
       [ 0.30620282, -0.23678364]])