# Machine Learning 

## Scikit-learn

H βιβλιοθήκη sklearn αποτελείται από πολλούς και διαφορετικούς αλγορίθμους που σχετίζονται με τη μηχανική μάθηση. Είναι αρκετά απλή στη χρήση και περιέχει πολλά εργαλεία για εξόρυξη γνώσης από δεδομένα, ανάλυση και οπτικοποιήση. Έχει σχεδιαστεί ώστε να τρέχει σε περιβάλλον Python και χρειάζεται απαραιτήτως τις βιβλιοθήκες NumPy και SciPy. 
![Image of operators](https://upload.wikimedia.org/wikipedia/commons/0/05/Scikit_learn_logo_small.svg)

## 1. Linear Regression 

Η βιβλιοθήκη αυτή έχει ενσωματωμένες ορισμένες βάσεις δεδομένων, οπότε πριν αρχίσουμε να χρησιμοποιούμε τα δικά μας δεδομένα θα δοκιμάσουμε τη γραμμική παλινδρόμηση με τα δεδομένα από τα σπίτια της Βοστώνης. Παραπάνω πληροφορίες για τα δεδομένα μπορείτε να βρείτε [εδώ](https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html)


Στόχος μας είναι να προβλέψουμε την τιμή κατοικίας με τα διαθέσιμα χαρακτηριστικά στέγασης χρησιμοποιώντας την τεχνική της γραμμικής παλινδρόμησης. 

Πριν ξεκινήσουμε όμως εξασκήστε τα skills σας με αυτό το τέλειο παιχνίδι ! http://guessthecorrelation.com/
    
![Image of operators](http://guessthecorrelation.com/images/guesscor_logo.svg)

#### 1. Ξεκινάμε πάντα με την εισαγωγή των απαραίτητων πακέτων και βιβλιοθηκών 

In [None]:
%matplotlib inline 

import numpy as np
import pandas as pd
import scipy.stats as stats
import matplotlib.pyplot as plt
import sklearn
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import seaborn as sns

# special matplotlib argument for improved plots
from matplotlib import rcParams
sns.set_style("whitegrid")
sns.set_context("poster")


#### 2. Εισάγουμε τα δεδομένα 

In [None]:
from sklearn import datasets

boston = datasets.load_boston() 

In [None]:
boston.keys()

In [None]:
boston.data.shape

Ρίξτε μια ματιά στα δεδομένα σας

In [None]:
boston

Τα δεδομένα δεν έρχονται πάντα σητν μορφή που μας βολεύει γιαυτό πρέπει να μάθουμε να είμαστε ευέλικτοι και να γνωρίζουμε πως να διαχειριζόμαστε dictionaries. 

Για την διαχείριση λεξικών με το scikit-learn πρέπει να ξέρετε τις παρακάτω εντολές: 

    - .DESCR      (περιγραφή)
    - .feature_names    (ονόματα στηλών)
    - .data    (features)
    - .target    (η μεταβλητή που μας ενδιαφέρει να προβλέψουμε)
    - .filename  (θέση που αποθηκεύτηκε)

In [None]:
# Για να δούμε τα column names
print(boston.feature_names)

In [None]:
# Για να διαβάσουμε το description του Boston housing data set
print(boston.DESCR)

## Ας ξεκινήσουμε

In [None]:
boston_df = pd.DataFrame(boston.data, columns=boston.feature_names) 
boston_df['PRICE'] = pd.Series(boston.target)                           
boston_df.head()                                                           

#### Τιμές που λείπουν

In [None]:
boston_df.isnull().sum() 

In [None]:
# ορίζουμε τις τιμές που λείπουν
missing_values = ["n/a", "na", "--", 999,9999]   
# τις αλλάζουμε όνομα
boston_df.replace(to_replace = missing_values, value = np.nan, inplace = True) 
# πετάμε τις γραμμές με NaNs 
boston_df.dropna(inplace=True) 
# Ξαναφέρνουμε το index στη σωστή σειρά, πάντα μετά από κόψιμο και πέταμα στηλών χρειάζεται reindex
boston_df.reset_index(drop=True, inplace=True)  

Aν χρειάζεται να πετάξουμε χειροκίνητα κάποια τιμή το κάνουμε ως εξής

In [None]:
ls_lines_to_drop = [10]  
boston_df.drop(ls_lines_to_drop, inplace=True) 
boston_df.head()    

## Summary Statistics

In [None]:
boston_df.describe()

### Scatterplots
***
Ας δούμε μερικά γραφήματα για 3 μεταβλητές: 'CRIM' (per capita crime rate), 'RM' (number of rooms) και 'PTRATIO' (pupil-to-teacher ratio in schools).  

In [None]:
plt.scatter(boston_df.CRIM, boston_df.PRICE)
plt.xlabel("Per capita crime rate by town (CRIM)")
plt.ylabel("Housing Price")
plt.title("Relationship between CRIM and Price")

Ας περιγράψουμε την σχέση αυτή 
 
Πρόκειται για μία όχι γραμμική αρνητική σχέση μεταξύ του Per capita crime rate και του Housing prices. Το ενδιαφέρον είναι ότι 
μετά τα 35 εγκλήματα οι τιμές σταθεροποιούνται κοντά στο 10. Επίσης, παρατηρούμε ότι όταν η τιμή είναι 50, υπάρχει και εκεί ένα Per Capita crime rate μεταξύ του 0 και του 10.

## Περιγράψτε τις παρακάτω σχέσεις

In [None]:
plt.scatter(boston_df.RM, boston_df.PRICE)
plt.xlabel("Average number of rooms in dwelling (RM)")
plt.ylabel("Housing Price")
plt.title("Relationship between RM and Price")

In [None]:
plt.scatter(boston_df.PTRATIO, boston_df.PRICE)
plt.xlabel("Pupil-Teacher Ratio per town (PTRATIO)")
plt.ylabel("Housing Price")
plt.title("Relationship between Pupil-Teacher Ratio and Price")

## Φτιάξτε 2 δικά σας scatter plots και περιγράψτε τα

### Scatterplots με τη βιβλιοθήκη Seaborn  

[Seaborn](https://stanford.edu/~mwaskom/software/seaborn/) και [seaborn regplot](https://stanford.edu/~mwaskom/software/seaborn/tutorial/regression.html#functions-to-draw-linear-regression-models) 

In [None]:
sns.regplot(y="PRICE", x="RM", data=boston_df, fit_reg = True)

In [None]:
plt.hist(np.log(boston_df.CRIM))
plt.title("CRIM")
plt.xlabel("Crime rate per capita")
plt.ylabel("Frequencey")
plt.show()

#### Χωρισμός δεδομένων και εξερεύνηση 
Θα ξεκινήσουμε απλά με ένα feature, π.χ. RM number of room, για να προβλέψουμε το PRICE target. 

Επειδή το Scikit-learn χρειάζεται Numpy ndarrays θα μετατρέψουμε το DataFrame σε np arrays

In [None]:
x_try = np.array(boston_df.RM)       # Convert the feature of interest RM 
y_try = np.array(boston_df.PRICE)    # Convert the target 
x_try = x_try.reshape(-1,1)        # Reshape into 1D
y_try = y_try.reshape(-1,1)        # Reshape into 1D
print(x_try.shape)
print(y_try.shape)

Aς σχεδιάσουμε ένα histogram για την μεταβήτή που θέλουμενα προβλέψουμε

Και ένα γράφημα διασποράς

In [None]:
s1 = plt.scatter(x_try, y_try, color='r', marker='o', alpha = 0.3) 
plt.xlabel('Number of rooms')  
plt.ylabel('Price')

plt.title('Housing in Boston')

## Machine Learning - regression model 

Περισσότερα https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

In [None]:
from sklearn.linear_model import LinearRegression
# Εισαγωγή μοντέλου
lm = LinearRegression()
# Εκπαίδευση
lm.fit(x_try, y_try)
# Πρόβλεψη
y_pred = lm.predict(x_try)
# Υπολογισμός λάθους
rmse = np.sqrt(mean_squared_error(y_try, y_pred))
print(rmse)

Main functions | Description
--- | --- 
`lm.fit()` | Fit a linear model
`lm.predit()` | Predict Y using the linear model with estimated coefficients
`lm.score()` | Returns the coefficient of determination (R^2). *A measure of how well observed outcomes are replicated by the model, as the proportion of total variation of outcomes explained by the model*

In [None]:
# Ίδιο με το επάνω
s1 = plt.scatter(x_try, y_try, color='b', marker='o', alpha = 0.3) # Plot data
plt.xlabel('Number of rooms')  
plt.ylabel('Price') 
plt.title('Housing in Boston') 
# Αλλά τώρα προσθέσαμε την γραμμή πρόβλεψης
plt.plot(x_try, y_pred, color='red') # οπτικοποιεί την πρόβλεψη
plt.savefig('lin_reg_house_rm.png', dpi=150, bbox_inches='tight') # Σώζει την εικόνα
plt.show() 

### Linear regression με όλα τα χαρακτηριστικά

In [None]:
# Βάζουμε όλα τα χαρακτηριστικά εκτός της μεταβλητής που θέλουμε να προβλέψουμε (PRICE)
X_try = boston_df.drop('PRICE', axis = 1)
# εδώ η μεταβλητή που θέλουμε να προβλέψουμε
y_try = boston_df['PRICE']                 
# ξεκινάμε το regression
all_reg = LinearRegression()
# Εκπαίδευση
all_reg.fit(X_try, y_try)     
# Υπολογισμός προβλέψεων
y_pred = all_reg.predict(X_try) 
# υπολογισμός root mean squared error
rmse = np.sqrt(mean_squared_error(y_try, y_pred)) 
# υπολογισμός r squared
r2 = round(all_reg.score(X_try, y_try), 2)  
# αποτελέσματα
print('R2 score is {}'.format(r2))
print('RMSE is {}'.format(rmse))    

Επειδή δεν έχουμε μόνο μία διάσταση τώρα, αντί να τυπώσουμε 13 μικρά γραφήματα, μπορούμε να τυπώσουμε το γράφημα της πρόβλεψης σε σχέση με το πραγματικό. 

In [None]:
plt.scatter(y_try, y_pred)
plt.xlabel("Predicted Price")
plt.ylabel("Actual Housing Price")
plt.title("Predicted Price vs Actual Price")

plt.xticks(np.arange(0, 70, step=10))
plt.yticks(np.arange(0, 70, step=10))

plt.plot(np.arange(0, 70, step=10), np.arange(0, 70, step=10), color = 'red')
plt.show()
plt.clf()

## <span style="color:red">*Άσκηση*</span>

<span style="color:red">
    
Στον φάκελο week5 υπάρχει το dataset 'Bike-Sharing-Dataset' από την ιστοσελίδα του UCI https://archive.ics.uci.edu/ml/datasets/bike+sharing+dataset

, διαλέξτε ένα από τα 2 datasets, (day.csv ή hour.csv)

και επαναλάβετε τα βήματα που μάθαμε σε αυτό το notebook. Μπορείτε με γραμμική παλινδρόμηση να προβλέψετε τις ενοικιάσεις ποδηλάτων στην Washington, D.C. με βάση για παράδειγμα τον καιρό? Γράψτε μια μικρή παράγραφο με τα συμπεράσματά σας. Πριν ξεκινήσετε διαβάστε καλά την περιγραφή των δεδομένων (Attribute Information) και τι σημαίνει η κάθε στήλη!

In [None]:
bike_rentals = pd.read_csv('Bike-Sharing-Dataset/hour.csv')
bike_rentals.head()

In [None]:
plt.hist(bike_rentals.cnt,color='g')

In [None]:
bike_rentals.rename(columns={"hr": "hour", "dteday":"date", "yr":"year",
                            "hum":"humidity", "cnt":"totalcount", "mnth":"month",
                            "weathersit":"weather"}, inplace=True)

bike_rentals  = bike_rentals.drop(["instant", "date", "year"],axis=1)

In [None]:
bike_rentals.head(3)

In [None]:
# Good luck!