## 01 Was ist Data Science?
#### Allgemein
- Vorhersage für Haus-Preise
- Schlüsselattribute in Bezug zur Qualität von Wein finden
- Empfehlung zu Verbesserung der Klick-Rate für die Amazon-Website
- Sammeln von Daten, Aufräumen von Daten, Erforschung von Daten
- Felder: Statistik, Datenanalyse, maschinelles Lernen

#### Python
- Numpy, Pandas, Matplotlib

## 02 Einführung zu Numpy
#### Allgemein
- Datensets über: Maßeinheiten, Textkorpus, Audioclips etc.
- Data Science: Abbildung von Daten in Arrays

In [2]:
heights = [189, 170, 189, 163, 183, 171, 185, 168, 173, 183, 173, 173, 175, 178, 183, 193, 178, 173, 174, 183, 183, 180, 168, 180, 170, 178, 182, 180, 183, 178, 182, 188, 175, 179, 183, 193, 182, 183, 177, 185, 188, 188, 182, 185, 191]

count = 0
for height in heights:
    if height > 188:
        count +=1
print(count)

5


#### Umsetzung über Numpy

In [3]:
import numpy as np
heights_arr = np.array(heights) #np.array() konvertiert liste in numpy-array
print((heights_arr > 188).sum())

5


#### Größe (size) und Form (shape)

In [3]:
size = heights_arr.size
print(size)

45


In [4]:
shape = heights_arr.shape
print(shape)#output: tupel

print(heights_arr.ndim) #dimension: 1d-array, 0-achse mit 45 elementen

(45,)
1


#### Reshape

In [5]:
ages = [57, 61, 57, 57, 58, 57, 61, 54, 68, 51, 49, 64, 50, 48, 65, 52, 56, 46, 54, 49, 51, 47, 55, 55, 54, 42, 51, 56, 55, 51, 54, 51, 60, 62, 43, 55, 56, 61, 52, 69, 64, 46, 54, 47, 70]

heights_and_ages = heights + ages #beide listen werden addiert
ha_array = np.array(heights_and_ages)
print(ha_array.shape)

#als neues array in neuer dimension erstellt
print(ha_array.reshape(2, 45)) #ergebnis: 2d-array

(90,)
[[189 170 189 163 183 171 185 168 173 183 173 173 175 178 183 193 178 173
  174 183 183 180 168 180 170 178 182 180 183 178 182 188 175 179 183 193
  182 183 177 185 188 188 182 185 191]
 [ 57  61  57  57  58  57  61  54  68  51  49  64  50  48  65  52  56  46
   54  49  51  47  55  55  54  42  51  56  55  51  54  51  60  62  43  55
   56  61  52  69  64  46  54  47  70]]


#### Datentyp
- Numpy-Array müssen immer vom selben Datentyp sein

In [6]:
print(heights_arr.dtype)

int32


In [7]:
import numpy as np

heights_float = [189.0, 170, 189, 163, 183, 171, 185, 168, 173, 183, 173, 173, 175, 178, 183, 193, 178, 173, 174, 183, 183, 180, 168, 180, 170, 178, 182, 180, 183, 178, 182, 188, 175, 179, 183, 193, 182, 183, 177, 185, 188, 188, 182, 185, 191]

heights_float_arr = np.array(heights_float)
print(heights_float_arr)
print("\n")
print(heights_float_arr.dtype)

#selbst wenn nur 1 float dabei ist, werden alle werte in einen float konvertiert

[189. 170. 189. 163. 183. 171. 185. 168. 173. 183. 173. 173. 175. 178.
 183. 193. 178. 173. 174. 183. 183. 180. 168. 180. 170. 178. 182. 180.
 183. 178. 182. 188. 175. 179. 183. 193. 182. 183. 177. 185. 188. 188.
 182. 185. 191.]


float64


## Indexing und Slicing in Numpy

#### Indexing

In [8]:
#zugriff auf 3.element
print(heights_arr[2])

#zugriff auf alter im 2d-array
ha_array = ha_array.reshape(2, 45)
print(ha_array[1,2])

189
57


#### Slicing

In [9]:
#array0 elemente 0-2
ha1 = ha_array[0, 0:3] 
print(ha1)

#array1 elemente 0-2
ha2 = ha_array[1, 0:3] 
print(ha2)

[189 170 189]
[57 61 57]


In [10]:
ha1 = ha_array[0, :3] #0 einfach weglassen
print(ha1)

[189 170 189]


In [11]:
#ganze 4.spalte anzeigen (vgl. liste oben)
print(ha_array[:, 3])

[163  57]


## 04 Werte zuweisen/verändern

#### Einzelwerte zuweisen

In [12]:
print(heights_arr[3])

163


In [14]:
heights_arr[3] = 165
print(heights_arr[3])

165


In [19]:
#zugriff im 2-array
ha_array[0,3] = 165
print(ha_array)

[[189 170 189 165 183 171 185 168 173 183 173 173 175 178 183 193 178 173
  174 183 183 180 168 180 170 178 182 180 183 178 182 188 175 179 183 193
  182 183 177 185 188 188 182 185 191]
 [ 57  61  57  57  58  57  61  54  68  51  49  64  50  48  65  52  56  46
   54  49  51  47  55  55  54  42  51  56  55  51  54  51  60  62  43  55
   56  61  52  69  64  46  54  47  70]]


In [20]:
#die komplette reihe wird zu 172
ha_array[0,:] = 172
print(ha_array)

[[172 172 172 172 172 172 172 172 172 172 172 172 172 172 172 172 172 172
  172 172 172 172 172 172 172 172 172 172 172 172 172 172 172 172 172 172
  172 172 172 172 172 172 172 172 172]
 [ 57  61  57  57  58  57  61  54  68  51  49  64  50  48  65  52  56  46
   54  49  51  47  55  55  54  42  51  56  55  51  54  51  60  62  43  55
   56  61  52  69  64  46  54  47  70]]


In [22]:
#0 in die linke obere ecke von beiden listen einfügen
ha_array[:2, :2] = 0
print(ha_array)

[[  0   0 172 172 172 172 172 172 172 172 172 172 172 172 172 172 172 172
  172 172 172 172 172 172 172 172 172 172 172 172 172 172 172 172 172 172
  172 172 172 172 172 172 172 172 172]
 [  0   0  57  57  58  57  61  54  68  51  49  64  50  48  65  52  56  46
   54  49  51  47  55  55  54  42  51  56  55  51  54  51  60  62  43  55
   56  61  52  69  64  46  54  47  70]]


#### Einem Array ein Array zuweisen

In [24]:
import numpy as np

heights = [189, 170, 189, 163, 183, 171, 185, 168, 173, 183, 173, 173, 175, 178, 183, 193, 178, 173, 174, 183, 183, 180, 168, 180, 170, 178, 182, 180, 183, 178, 182, 188, 175, 179, 183, 193, 182, 183, 177, 185, 188, 188, 182, 185, 191]

ages = [57, 61, 57, 57, 58, 57, 61, 54, 68, 51, 49, 64, 50, 48, 65, 52, 56, 46, 54, 49, 51, 47, 55, 55, 54, 42, 51, 56, 55, 51, 54, 51, 60, 62, 43, 55, 56, 61, 52, 69, 64, 46, 54, 47, 70]

heights_and_ages = heights + ages
ha_array = np.array(heights_and_ages)
ha_array = heights_and_ages_arr.reshape((2,45))
print(ha_array)

[[189 170 189 163 183 171 185 168 173 183 173 173 175 178 183 193 178 173
  174 183 183 180 168 180 170 178 182 180 183 178 182 188 175 179 183 193
  182 183 177 185 188 188 182 185 191]
 [ 57  61  57  57  58  57  61  54  68  51  49  64  50  48  65  52  56  46
   54  49  51  47  55  55  54  42  51  56  55  51  54  51  60  62  43  55
   56  61  52  69  64  46  54  47  70]]


In [25]:
#jetzt das update von beiden arrays [:] jeweils an der stellen 1
ha_array[:,0] = [190, 58]
print(ha_array)

[[190 170 189 163 183 171 185 168 173 183 173 173 175 178 183 193 178 173
  174 183 183 180 168 180 170 178 182 180 183 178 182 188 175 179 183 193
  182 183 177 185 188 188 182 185 191]
 [ 58  61  57  57  58  57  61  54  68  51  49  64  50  48  65  52  56  46
   54  49  51  47  55  55  54  42  51  56  55  51  54  51  60  62  43  55
   56  61  52  69  64  46  54  47  70]]


In [36]:
# jetzt update der daten eines subarrays
print(ha_array[1, :].size)
new = np.array([[180, 183, 190], [54, 50, 69]])
ha_array[:, 42:] = new #42, da länge 45 und die letzten 3 einträge geändert werden
print(ha_array)

45
[[190 170 189 163 183 171 185 168 173 183 173 173 175 178 183 193 178 173
  174 183 183 180 168 180 170 178 182 180 183 178 182 188 175 179 183 193
  182 183 177 185 188 188 180 183 190]
 [ 58  61  57  57  58  57  61  54  68  51  49  64  50  48  65  52  56  46
   54  49  51  47  55  55  54  42  51  56  55  51  54  51  60  62  43  55
   56  61  52  69  64  46  54  50  69]]


#### 2 Arrays kombinieren/verbinden

In [46]:
ages_arr = np.array(ages)
print(ages_arr.shape)
print(ages_arr[:3,])
print(f'Anzahl Dimensionen des Arrays: {ages_arr.ndim}')

(45,)
[57 61 57]
Anzahl Dimensionen des Arrays: 1


In [66]:
import numpy as np

heights = [189, 170, 189, 163, 183, 171, 185, 168, 173, 183, 173, 173, 175, 178, 183, 193, 178, 173, 174, 183, 183, 180, 168, 180, 170, 178, 182, 180, 183, 178, 182, 188, 175, 179, 183, 193, 182, 183, 177, 185, 188, 188, 182, 185, 191]
ages = [57, 61, 57, 57, 58, 57, 61, 54, 68, 51, 49, 64, 50, 48, 65, 52, 56, 46, 54, 49, 51, 47, 55, 55, 54, 42, 51, 56, 55, 51, 54, 51, 60, 62, 43, 55, 56, 61, 52, 69, 64, 46, 54, 47, 70]

heights_arr = np.array(heights) #umwandlung in array
ages_arr = np.array(ages) #umwandlung in array
#height_age_arr = np.hstack((heights_arr, ages_arr)) #test
#print(height_age_arr.shape) #test
#print(height_age_arr) #test

heights_arr = heights_arr.reshape((45,1)) #umwandlung in einzelnes 2d-array
ages_arr = ages_arr.reshape((45,1)) #umwandlung in einzelnes 2d-array

#hstack kombiniert beide arrays auf ***vertikaler*** ebene zu einem (hier: 2d-)array
height_age_arr = np.hstack((heights_arr, ages_arr)) 
print(height_age_arr.shape)
print(height_age_arr[:3,])

#vstack kombiniert beide arrays auf ***horizontaler*** ebene zu einem (hier: 2d-)array
#werte entsprechend umdrehen beim re-shapen
heights_arr = heights_arr.reshape((1,45))
ages_arr = ages_arr.reshape(1,45)

print()

height_age_arr = np.vstack((heights_arr, ages_arr))
print(height_age_arr.shape)
print(height_age_arr[:, :3])

(45, 2)
[[189  57]
 [170  61]
 [189  57]]

(2, 45)
[[189 170 189]
 [ 57  61  57]]


#### Zusammenfügen zweier Arrays über "concatenate"
- horizontal über axis1 (entspricht hstack), vertikal über axis=0 (entspricht 'vstack)

In [84]:
import numpy as np

heights = [189, 170, 189, 163, 183, 171, 185, 168, 173, 183, 173, 173, 175, 178, 183, 193, 178, 173, 174, 183, 183, 180, 168, 180, 170, 178, 182, 180, 183, 178, 182, 188, 175, 179, 183, 193, 182, 183, 177, 185, 188, 188, 182, 185, 191]
ages = [57, 61, 57, 57, 58, 57, 61, 54, 68, 51, 49, 64, 50, 48, 65, 52, 56, 46, 54, 49, 51, 47, 55, 55, 54, 42, 51, 56, 55, 51, 54, 51, 60, 62, 43, 55, 56, 61, 52, 69, 64, 46, 54, 47, 70]

heights_arr = np.array(heights)
ages_arr = np.array(ages)

heights_arr = heights_arr.reshape((45,1))
ages_arr = ages_arr.reshape((45,1))

# height_age_arr = np.hstack((heights_arr, ages_arr))
height_age_arr = np.concatenate((heights_arr, ages_arr), axis=1)

print(height_age_arr.shape)
print(height_age_arr[:3,:])

(45, 2)
[[189  57]
 [170  61]
 [189  57]]


In [83]:
import numpy as np

heights = [189, 170, 189, 163, 183, 171, 185, 168, 173, 183, 173, 173, 175, 178, 183, 193, 178, 173, 174, 183, 183, 180, 168, 180, 170, 178, 182, 180, 183, 178, 182, 188, 175, 179, 183, 193, 182, 183, 177, 185, 188, 188, 182, 185, 191]
ages = [57, 61, 57, 57, 58, 57, 61, 54, 68, 51, 49, 64, 50, 48, 65, 52, 56, 46, 54, 49, 51, 47, 55, 55, 54, 42, 51, 56, 55, 51, 54, 51, 60, 62, 43, 55, 56, 61, 52, 69, 64, 46, 54, 47, 70]

heights_arr = np.array(heights)
ages_arr = np.array(ages)

heights_arr = heights_arr.reshape((1,45))
ages_arr = ages_arr.reshape((1,45))

#height_age_arr = np.vstack((heights_arr, ages_arr))
height_age_arr = np.concatenate((heights_arr, ages_arr), axis=0)

print(height_age_arr.shape)
print(height_age_arr[:,:3])

(2, 45)
[[189 170 189]
 [ 57  61  57]]


## 05 Operationen

#### Mathematische Operationen

In [90]:
import numpy as np

heights_arr = np.array([189, 170, 189, 163, 183, 171, 185, 168, 173, 183, 173, 173, 175, 178, 183, 193, 178, 173, 174, 183, 183, 180, 168, 180, 170, 178, 182, 180, 183, 178, 182, 188, 175, 179, 183, 193, 182, 183, 177, 185, 188, 188, 182, 185, 191])
ages_arr = np.array([57, 61, 57, 57, 58, 57, 61, 54, 68, 51, 49, 64, 50, 48, 65, 52, 56, 46, 54, 49, 51, 47, 55, 55, 54, 42, 51, 56, 55, 51, 54, 51, 60, 62, 43, 55, 56, 61, 52, 69, 64, 46, 54, 47, 70]).reshape((-1,1))

heights_arr = heights_arr.reshape((45,1))
height_age_arr = np.hstack((heights_arr, ages_arr))

print(height_age_arr[:,0]*0.0328084) #wandelt array0 (heights) komplett in fuß um über multiplikation
#print(ages_arr[:,0]-1) #sinnlos, zum spaß alter-1 ausprobiert

[6.2007876 5.577428  6.2007876 5.3477692 6.0039372 5.6102364 6.069554
 5.5118112 5.6758532 6.0039372 5.6758532 5.6758532 5.74147   5.8398952
 6.0039372 6.3320212 5.8398952 5.6758532 5.7086616 6.0039372 6.0039372
 5.905512  5.5118112 5.905512  5.577428  5.8398952 5.9711288 5.905512
 6.0039372 5.8398952 5.9711288 6.1679792 5.74147   5.8727036 6.0039372
 6.3320212 5.9711288 6.0039372 5.8070868 6.069554  6.1679792 6.1679792
 5.9711288 6.069554  6.2664044]


#### Methoden und Numpy Arrays

In [91]:
print(height_age_arr.sum()) #gesamtsumme

10575


In [95]:
print(height_age_arr.sum(axis=0)) #summe nach spalten (vertikal) über achse=0, bei zeilen (horizontal) wäre es achse=1

[8100 2475]


#### Vergleiche

In [98]:
#größer
print(height_age_arr[:,1]<55)

print((height_age_arr[:,1]<55).sum())

[False False False False False False False  True False  True  True False
  True  True False  True False  True  True  True  True  True False False
  True  True  True False False  True  True  True False False  True False
 False False  True False False  True  True  True False]
22


In [99]:
#gleich
print(height_age_arr[:,1]==55)

print((height_age_arr[:,1]==55).sum())

[False False False False False False False False False False False False
 False False False False False False False False False False  True  True
 False False False False  True False False False False False False  True
 False False False False False False False False False]
4


#### Maskierung und Subsettings

In [105]:
mask = height_age_arr[:,0]>=182
print(mask.sum())

#jetzt alle präsidenten ignorieren, die nicht den kriterien entsprechen
#und das als neues array speichern
tall_presidents = height_age_arr[mask, ]
print(tall_presidents.shape)

23
(23, 2)


#### Mehrere Kriterien

In [106]:
#verwendung von separatoren wie & | etc.
import numpy as np

heights_arr = np.array([189, 170, 189, 163, 183, 171, 185, 168, 173, 183, 173, 173, 175, 178, 183, 193, 178, 173, 174, 183, 183, 180, 168, 180, 170, 178, 182, 180, 183, 178, 182, 188, 175, 179, 183, 193, 182, 183, 177, 185, 188, 188, 182, 185, 191])
ages_arr = np.array([57, 61, 57, 57, 58, 57, 61, 54, 68, 51, 49, 64, 50, 48, 65, 52, 56, 46, 54, 49, 51, 47, 55, 55, 54, 42, 51, 56, 55, 51, 54, 51, 60, 62, 43, 55, 56, 61, 52, 69, 64, 46, 54, 47, 70]).reshape((-1,1))

heights_arr = heights_arr.reshape((45,1))
height_age_arr = np.hstack((heights_arr, ages_arr))

#hier die eigentliche kriterienfindung:
mask = (height_age_arr[:, 0]>=182) & (height_age_arr[:,1]<=50)

print(height_age_arr[mask,])

[[183  49]
 [183  43]
 [188  46]
 [185  47]]
