# Metody esploracji danych - laboratorium 3 zadanie 1

Klasyfikacja na podstawie klasyfikatora bayesowskiego i najbliższego sąsiedztwa

In [3]:
# Import libraries
import os
from pathlib import Path

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Wczytanie danych

In [4]:
data_path = Path('data')
data_path = data_path / 'med_lab_3_zad_1.csv'

In [5]:
df = pd.read_csv(data_path, sep=';', index_col=0)

In [6]:
df.head()

Unnamed: 0_level_0,sila_wiatru,zachmurzenie,temp,czy_zagrano
nr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,silny,pochmurnie,zimno,nie
2,silny,pochmurnie,ciepło,nie
3,brak,słonecznie,ciepło,tak
4,brak,słonecznie,gorąco,nie
5,słaby,pochmurnie,gorąco,tak


## Przygotowanie danych

In [7]:
df['czy_zagrano'] = df['czy_zagrano'].replace({'tak': 1, 'nie': 0})

In [8]:
# Use one-hot encoding for categorical data
features_encoded = pd.get_dummies(df).replace({True: 1, False: 0})

In [9]:
features_encoded.head()

Unnamed: 0_level_0,czy_zagrano,sila_wiatru_brak,sila_wiatru_silny,sila_wiatru_słaby,zachmurzenie_pochmurnie,zachmurzenie_słonecznie,temp_ciepło,temp_gorąco,temp_zimno
nr,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,0.0,0,1,0,1,0,0,0,1
2,0.0,0,1,0,1,0,1,0,0
3,1.0,1,0,0,0,1,1,0,0
4,0.0,1,0,0,0,1,0,1,0
5,1.0,0,0,1,1,0,0,1,0


In [22]:
train_df = features_encoded[features_encoded['czy_zagrano'].notnull()]
test_df = features_encoded[features_encoded['czy_zagrano'].isnull()]

In [11]:
X_train = train_df.drop('czy_zagrano', axis=1)
y_train = train_df['czy_zagrano']
X_test = test_df.drop('czy_zagrano', axis=1)

## Naiwny klasyfikator Bayesa

In [12]:
# Naive Bayes Classifier
from sklearn.naive_bayes import GaussianNB

In [13]:
gnb = GaussianNB()
gnb.fit(X_train, y_train)

In [16]:
y_pred = gnb.predict(X_test)
y_pred = y_pred.astype(bool)

In [26]:
print(df[df['czy_zagrano'].isnull()])
print(y_pred)

   sila_wiatru zachmurzenie    temp  czy_zagrano
nr                                              
11       silny   słonecznie  ciepło          NaN
[False]


## Klasyfikator najbliższego sąsiedztwa

### Odległość euklidesowa

In [27]:
from sklearn.neighbors import KNeighborsClassifier

In [28]:
X_train = train_df.drop('czy_zagrano', axis=1)
y_train = train_df['czy_zagrano']
X_test = test_df.drop('czy_zagrano', axis=1)

In [29]:
knn_euclidean = KNeighborsClassifier(n_neighbors=3, metric='euclidean')
knn_euclidean.fit(X_train, y_train)

In [33]:
y_pred = knn_euclidean.predict(X_test)
y_pred = y_pred.astype(bool)

In [37]:
print(f"Dana surowe:\n{df[df['czy_zagrano'].isnull()]}\n")
print(f"Przeprocesowane dane:\n{X_test}\n")
print(f"Predykcja:\n{y_pred}")

Dana surowe:
   sila_wiatru zachmurzenie    temp  czy_zagrano
nr                                              
11       silny   słonecznie  ciepło          NaN

Przeprocesowane dane:
    sila_wiatru_brak  sila_wiatru_silny  sila_wiatru_słaby   
nr                                                           
11                 0                  1                  0  \

    zachmurzenie_pochmurnie  zachmurzenie_słonecznie  temp_ciepło   
nr                                                                  
11                        0                        1            1  \

    temp_gorąco  temp_zimno  
nr                           
11            0           0  

Predykcja:
[ True]


### Odległość Manhattan

In [38]:
from sklearn.neighbors import KNeighborsClassifier

In [39]:
X_train = train_df.drop('czy_zagrano', axis=1)
y_train = train_df['czy_zagrano']
X_test = test_df.drop('czy_zagrano', axis=1)

In [40]:
knn_manhattan = KNeighborsClassifier(n_neighbors=3, metric='manhattan')
knn_manhattan.fit(X_train, y_train)

In [44]:
y_pred = knn_manhattan.predict(X_test)
y_pred = y_pred.astype(bool)

In [45]:
print(df[df['czy_zagrano'].isnull()])
print(y_pred)

   sila_wiatru zachmurzenie    temp  czy_zagrano
nr                                              
11       silny   słonecznie  ciepło          NaN
[ True]
