#Structured arrays
##Een meer uitgebreide arraystructuur
We weten ondertussen dat in een NumPy-array alle elementen van hetzelfde type moeten zijn. Het type kan echter ook een samengesteld type zijn.

In het volgende voorbeeld definiëren we een type (*K3_type*) dat samengesteld is uit een string (Unicode, lengte=8) en een datetime. De array *df_k3* bestaat uit items met een kolom met namen en een kolom met geboortedatums.

Opmerking: in de praktijk zullen we voor dit soort *tabelstructuren* pandas gebruiken. Je moet dit hoofdstuk voornamelijk zien als een aanloop naar de module 'pandas'.

In [None]:
import numpy as np
namen = np.array(['Karen', 'Kristel', 'Kathleen'])
datums = np.array(['1974-10-28', '1975-12-10', '1978-06-18'], dtype='datetime64[D]')
k3_type = np.dtype([('naam', namen.dtype), ('geboortedatum', datums.dtype)])
df_k3 = np.empty(3, dtype=k3_type)
df_k3['naam'] = namen
df_k3['geboortedatum'] = datums
print(f'{df_k3.dtype=}')
print('"dataframe" k3:')
for item in df_k3:
  print(item)
print(f'{df_k3.shape=}')


##De elementen in een structured array
We kunnen de kolommen aanspreken via het nummer, maar ook via de naam. Let op: het is geen 2-dimensionele array (rijen en kolommen).

In [None]:
import numpy as np
namen = np.array(['Karen', 'Kristel', 'Kathleen'])
datums = np.array(['1974-10-28', '1975-12-10', '1978-06-18'], dtype='datetime64[D]')
k3_type = np.dtype([('naam', namen.dtype), ('geboortedatum', datums.dtype)])
df_k3 = np.empty(3, dtype=k3_type)
df_k3['naam'] = namen
df_k3['geboortedatum'] = datums
print(f"{df_k3['naam'][0]} is geboren op {df_k3['geboortedatum'][0]}")
print(f"{df_k3[0][0]} is geboren op {df_k3[0][1]}")
print(f"{df_k3[0]['naam']=}")
print(f"{df_k3[0]['geboortedatum']=}")

##Geavanceerde indexering
De geavanceerde indexering waarmee we een lijst van indexen kunnen meegeven, werkt ook nog. We kunnen die gebruiken om te definiëren welke 'kolommen' we willen.

In [None]:
import numpy as np
voornamen = np.array(['Karen', 'Kristel', 'Kathleen'])
achternamen = np.array(['Damen', 'Verbeke', 'Aerts'])
datums = np.array(['1974-10-28', '1975-12-10', '1978-06-18'], dtype='datetime64[D]')
k3_type = np.dtype([('voornaam', voornamen.dtype), ('achternaam', achternamen.dtype), ('geboortedatum', datums.dtype)])
df_k3 = np.empty(3, dtype=k3_type)
df_k3['voornaam'] = voornamen
df_k3['achternaam'] = achternamen
df_k3['geboortedatum'] = datums
print(df_k3[['voornaam', 'geboortedatum']])

##Filteren
Wie is geboren vóór 1 januari 1976?

In [None]:
import numpy as np
voornamen = np.array(['Karen', 'Kristel', 'Kathleen'])
achternamen = np.array(['Damen', 'Verbeke', 'Aerts'])
datums = np.array(['1974-10-28', '1975-12-10', '1978-06-18'], dtype='datetime64[D]')
k3_type = np.dtype([('voornaam', voornamen.dtype), ('achternaam', achternamen.dtype), ('geboortedatum', datums.dtype)])
df_k3 = np.empty(3, dtype=k3_type)
df_k3['voornaam'] = voornamen
df_k3['achternaam'] = achternamen
df_k3['geboortedatum'] = datums
df_k3[df_k3['geboortedatum'] < np.datetime64('1976-01-01')]['voornaam']

##Record arrays
In plaats van vierkante haakjes met een tekst, kunnen we ook attributen gebruiken. Maar daarvoor moet de structured array omgezet worden naar een record array.

In [None]:
import numpy as np
voornamen = np.array(['Karen', 'Kristel', 'Kathleen'])
achternamen = np.array(['Damen', 'Verbeke', 'Aerts'])
datums = np.array(['1974-10-28', '1975-12-10', '1978-06-18'], dtype='datetime64[D]')
k3_type = np.dtype([('voornaam', voornamen.dtype), ('achternaam', achternamen.dtype), ('geboortedatum', datums.dtype)])
df_k3 = np.empty(3, dtype=k3_type)
df_k3['voornaam'] = voornamen
df_k3['achternaam'] = achternamen
df_k3['geboortedatum'] = datums
vw_k3 = df_k3.view(np.recarray)
print(f'{vw_k3.voornaam=}')
print(f'{vw_k3[0].voornaam=}')
print(f'{vw_k3[0].geboortedatum=}')

##Structured arrays en np.genfromtxt()
Kunnen Structured Arrays ons helpen met gegevens van verschillende types, zoals bijvoorbeeld in het bestand met de weerdata van Spanje?

We beginnen met de gegevens opnieuw te downloaden.

Let op de naam van de 'zip_'-variabele. Om geen problemen te krijgen met de *zip()*-functie van Python heb ik een extra underscore toegevoegd.

In [None]:
import requests
from zipfile import ZipFile
data = requests.get('https://www.kaggle.com/api/v1/datasets/download/alexgczs/monthly-temperature-in-spain-1996-2023')
with open('data.zip', 'wb') as f:
  f.write(data.content)
with open ('data.zip', 'rb') as f:
  zip_ = ZipFile(f)
  zip_.extractall()

Door *names=True* mee te geven, worden de kolomnamen gebruikt die in de eerste regel staan:

In [None]:
import numpy as np
TEMP_CSV = 'monthly_temperature_spain (1996-2023).csv'
df_spanje = np.genfromtxt(TEMP_CSV, delimiter=',', names=True, dtype=None, encoding='utf-8')
print(f'{df_spanje.dtype=}')
print(f'{df_spanje[0]=}')

##Temperaturen omzetten naar integers
We hebben al gezien dat we np.strings.replace() kunnen gebruiken om °C te verwijderen. Dat werkt natuurlijk nog steeds. Het enige verschil met de code die we al gezien hebben, is dat we de naam van het veld kunnen gebruiken.

In [None]:
import numpy as np
TEMP_CSV = 'monthly_temperature_spain (1996-2023).csv'
df_spanje = np.genfromtxt(TEMP_CSV, delimiter=',', names=True, dtype=None, encoding='utf-8')
df_spanje['avg_temp'] = np.strings.replace(df_spanje['avg_temp'], chr(186)+'C', '')
df_spanje['min_temp'] = np.strings.replace(df_spanje['min_temp'], chr(186)+'C', '')
df_spanje['max_temp'] = np.strings.replace(df_spanje['max_temp'], chr(186)+'C', '')
print(df_spanje['min_temp'][0:10])

##De gemiddelde temperatuur in Murcia
We kunnen filteren op 'Murcia' om de records van Murcia te pakken te krijgen. Vervolgens kunnen we de 'avg_temp' data van die array omzetten naar een unsigned int en het gemiddelde berekenen.

In [None]:
import numpy as np
TEMP_CSV = 'monthly_temperature_spain (1996-2023).csv'
df_spanje = np.genfromtxt(TEMP_CSV, delimiter=',', names=True, dtype=None, encoding='utf-8')
df_spanje['avg_temp'] = np.strings.replace(df_spanje['avg_temp'], chr(186)+'C', '')
df_murcia = df_spanje[df_spanje['place'] == 'Murcia']
print(f'{df_murcia["avg_temp"].astype(np.uint8).mean()=}')

##Let op met de types
Een type van een structured array behoort tot de volledige record. We kunnen dus het type van een afzonderlijk veld niet wijzigen.

In [None]:
import numpy as np
TEMP_CSV = 'monthly_temperature_spain (1996-2023).csv'
df_spanje = np.genfromtxt(TEMP_CSV, delimiter=',', names=True, dtype=None, encoding='utf-8')
#Verander het type van regendagen in np.uint8 na verwijderen van 'Dias'...
df_spanje['rain_days'] = np.strings.replace(df_spanje['rain_days'], ' Días', '').astype(np.uint8)
#... maar dat werkt niet:
print(f"{df_spanje['rain_days'].dtype=}")
print(f"{df_spanje.dtype=}")

##Type van de record wijzigen
We kunnen het type van 1 item wijzigen door het dtype-attribuut van een structured array als een list te behandelen (via .descr). Vervolgens kunnen we het type van de kolom 'rainy_days' omzetten naar een integer.

Vervolgens kunnen we filteren op Murcia en het gemiddeld aantal regendagen berekenen.

Opmerking: Misschien dat er betere manieren zijn om dit te doen (zonder .descr). Maar ik heb heel weinig ervaring met structured arrays aangezien we voor dit werk normaal Pandas gebruiken. Ik weet wel dat deze manier werkt.

In [None]:
import numpy as np
TEMP_CSV = 'monthly_temperature_spain (1996-2023).csv'
df_spanje = np.genfromtxt(TEMP_CSV, delimiter=',', names=True, dtype=None, encoding='utf-8')
df_spanje['rain_days'] = np.strings.replace(df_spanje['rain_days'], ' Días', '')
print(f"{type(df_spanje.dtype)=}")
print(f"{type(df_spanje.dtype.descr)=}")
type_ = df_spanje.dtype.descr
type_[4] = ('rain_days', np.int64)
df_spanje = df_spanje.astype(type_)
print('\nVerander het type van "rain days":')
print(f"{df_spanje['rain_days'].dtype=}")
print(f"{df_spanje.dtype=}")
print('\nHet gemiddeld aantal regendagen in Murcia:')
print(df_spanje[df_spanje['place']=='Murcia']['rain_days'].mean())

## Zet een structured array om naar een gewone array
Voor deze omzetting moeten we rekening houden met het feit dat alle elementen van een NumPy-array hetzelfde type moeten hebben. Maar we kunnen natuurlijk wel een NumPy array maken van de kolommen *max_temp* en *min_temp*.

We kunnen het zelf doen, maar er is ook een hulpfunctie: *numpy.lib.recfunctions.structured_to_unstructured*

In [None]:
import numpy as np
import numpy.lib.recfunctions as rf
TEMP_CSV = 'monthly_temperature_spain (1996-2023).csv'
df_spanje = np.genfromtxt(TEMP_CSV, delimiter=',', names=True, dtype=None, encoding='utf-8')
df_spanje['min_temp'] = np.strings.replace(df_spanje['min_temp'], chr(186)+'C', '')
df_spanje['max_temp'] = np.strings.replace(df_spanje['max_temp'], chr(186)+'C', '')
arr_temp1 = np.empty((len(df_spanje),2), dtype=np.int8)
for i, field in enumerate(['max_temp', 'min_temp']):
   arr_temp1[:, i] = df_spanje[field].astype(np.int8)

arr_temp2 = rf.structured_to_unstructured(df_spanje[['max_temp','min_temp']])
arr_temp2 = arr_temp2.astype(np.int8)
#Zijn ze aan elkaar gelijk?
np.all(arr_temp1 == arr_temp2)
