# Leereenheid 4.3
## Skep nuwe kenmerke uit bestaande data om modelprestasie te verbeter en evalueer die impak van hierdie kenmerke.

### Voorbeelde van hoofstuk 9.2 in handboek

#### **Polinoomkenmerke**

In [None]:
import pandas as pd
from sklearn.preprocessing import PolynomialFeatures
import numpy as np

# Skep 'n eenvoudige DataFrame X
data = {'Kenmerk_1': [1, 2, 3, 4],
        'Kenmerk_2': [5, 6, 7, 8]}
X = pd.DataFrame(data)

# Wys die oorspronklike DataFrame X
print("Oorspronklike DataFrame X:")
print(X)

# Inisialiseer PolynomialFeatures met graad 2
poly = PolynomialFeatures(degree=2)

# Pas die transformasie aan X en transformeer dit
X_poly = poly.fit_transform(X)

# Skakel die resultaat om na 'n DataFrame vir beter leesbaarheid
kolom_name = poly.get_feature_names_out(['Kenmerk_1', 'Kenmerk_2'])
df_poly = pd.DataFrame(X_poly, columns=kolom_name)

# Wys die getransformeerde DataFrame X_poly
print("\nGetransformeerde DataFrame X_poly (graad 2):")
print(df_poly)

#### **Interaksiekenmerke**

In [None]:
# Skep 'n eenvoudige DataFrame
data = {'kenmerk1': [1, 2, 3, 4, 5],
        'kenmerk2': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)

# Wys die oorspronklike DataFrame
print("Oorspronklike DataFrame:")
print(df)

# Skep 'n nuwe kenmerk deur twee bestaande kenmerke te vermenigvuldig
df['interaksie_kenmerk'] = df['kenmerk1'] * df['kenmerk2']

# Wys die DataFrame met die nuwe interaksie-kenmerk
print("\nDataFrame met die nuwe interaksie-kenmerk:")
print(df)

#### **Diskretisering (Binning)**

In [None]:
# Skep 'n eenvoudige DataFrame met 'n 'age'-kolom
data = {'naam': ['Anna', 'Pieter', 'Klara', 'Jan', 'Sarel'],
        'age': [25, 32, 45, 28, 51]}
df = pd.DataFrame(data)

# Wys die oorspronklike DataFrame
print("Oorspronklike DataFrame:")
print(df)

# Definieer die intervalle (bins) en etikette
bins = [20, 30, 40, 50, 60]
labels = ['20-29', '30-39', '40-49', '50-59']

# Verdeel die 'age'-kolom in intervalle
df['age_groep'] = pd.cut(df['age'], bins=bins, labels=labels, right=False)

# Wys die DataFrame met die nuwe 'age_groep'-kolom
print("\nDataFrame met die 'age_groep'-kolom:")
print(df)


#### **Een-uit-N kodering**

In [None]:
# Skep 'n eenvoudige DataFrame met 'n 'species'-kolom
data = {'naam': ['Anna', 'Pieter', 'Klara'],
        'species': ['Kat', 'Hond', 'Kat']}
df = pd.DataFrame(data)

# Wys die oorspronklike DataFrame
print("Oorspronklike DataFrame:")
print(df)

# Voer een-warm kodering uit op die 'species'-kolom
df = pd.get_dummies(df, columns=['species'], drop_first=True)

# Wys die DataFrame na een-warm kodering van 'species':
print("\nDataFrame na een-warm kodering van 'species':")
print(df)

#### **Herlei skaal (Scaling)**

In [None]:
from sklearn.preprocessing import StandardScaler

# Skep 'n eenvoudige DataFrame met numeriese kenmerke
data = {'kenmerk1': [1, 2, 3, 4, 5],
        'kenmerk2': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)

# Wys die oorspronklike DataFrame
print("Oorspronklike DataFrame:")
print(df)

# Inisialiseer die StandardScaler
skaler = StandardScaler()

# Pas die skaler aan die gespesifiseerde kolomme en transformeer dit
df[['kenmerk1', 'kenmerk2']] = skaler.fit_transform(df[['kenmerk1', 'kenmerk2']])

# Wys die DataFrame na standaardisering:")
print("\nDataFrame na standaardisering:")
print(df)

#### **Logaritmiese transformasie**

In [None]:
import pandas as pd
import numpy as np

# Skep 'n eenvoudige DataFrame met 'n kenmerk
data = {'kenmerk1': [1, 2, 10, 20, 100]}
df = pd.DataFrame(data)

# Wys die oorspronklike DataFrame
print("Oorspronklike DataFrame:")
print(df)

# Pas 'n logaritmiese transformasie toe
df['log_kenmerk1'] = np.log(df['kenmerk1'] + 1)

# Wys die DataFrame na die log transformasie
print("\nDataFrame na logaritmiese transformasie:")
print(df)

#### **Kenmerkbelangrikheid (Feature Importance)**

In [None]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_classification
import matplotlib.pyplot as plt
import seaborn as sns  # Vir 'n mooier styl (opsioneel)

# Skep 'n voorbeeld datastel vir klassifikasie
X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_redundant=0, random_state=42)
X = pd.DataFrame(X, columns=['kenmerk1', 'kenmerk2', 'kenmerk3', 'kenmerk4', 'kenmerk5'])
y = pd.Series(y)

# Verdeel die datastel in oefen- en toetsstelle
X_oefen, X_toets, y_oefen, y_toets = train_test_split(X, y, test_size=0.2, random_state=42)

# Skep 'n RandomForestClassifier
clf = RandomForestClassifier(random_state=42)

# Pas die klassifiseerder aan die oefendata
clf.fit(X_oefen, y_oefen)

# Kry die kenmerkbelangrikhede
kenmerk_belangrikhede = clf.feature_importances_

# Skep 'n DataFrame om kenmerke en hul belangrikheid te stoor
belangrikheid_df = pd.DataFrame({
    'Kenmerk': X_oefen.columns,
    'Belangrikheid': kenmerk_belangrikhede
})

# Sorteer die DataFrame volgens die belangrikhede (hoogste eerste)
belangrikheid_gesorteer = belangrikheid_df.sort_values(by='Belangrikheid', ascending=False)

# Skep 'n staafgrafiek van die kenmerkbelangrikhede
plt.figure(figsize=(10, 6))
sns.barplot(x='Belangrikheid', y='Kenmerk', data=belangrikheid_gesorteer)
plt.title('Kenmerkbelangrikheid in Random Forest Model')
plt.xlabel('Belangrikheidswaarde')
plt.ylabel('Kenmerk')
plt.tight_layout()
plt.show()