# Data Science z Python 3.10. Aplikacja w Streamlit (forest)
## 🇬🇧 Data Science with Python 3.10. Streamlit App (forest)
#### 👨‍🏫 PhD, M.Sc. Psych., M.Sc. IT, Wojciech Oronowicz-Jaśkowiak
#### 🤖 https://github.com/aipogodzinach

Celem tego ćwiczenia jest przedstawienie w uproszczeniu procesu tworzenia aplikacji na podstawie wytrenowanego modelu ML. Wykorzystamy ponownie słynny zbiór danych z Kaggle - Titanic - Machine Learning from Disaster. Więcej informacji o tych danych można znaleźć na stronie internetowej - https://www.kaggle.com/c/titanic/data

Jeżeli spodoba Ci się tworzenie aplikacji, zapraszamy na kurs "Środowiska uruchomieniowe i systemy autoML". Podczas tego kursu zajmujemy się tylko podobną tematyką z wykorzystaniem różnych środowisk (Flask, Streamlit, coreML).

### 1. Import bibliotek

In [9]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
import pickle

# część bibliotek jest nam znana z poprzednich zajęć, kilka jest nowych np. pickle, która służy do eksportu modelu

In [10]:
import os
from google.colab import drive
drive.mount('/content/drive')
os.chdir('/content/drive/My Drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


### 2. Przygotowanie modelu

Wykorzystamy kod z poprzednich zajęć do wytrenowania modelu szacującego zmienną "survived"

In [11]:
base_data = pd.read_csv("DSP_1.csv")
base_data.columns

cols = ["Survived", "Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked"]
data = base_data[cols].copy()

data["Age"].fillna((data["Age"].mean()), inplace=True) # wypełni nam brakujące informacje średnią
data.dropna(subset=['Embarked'], inplace=True)

encoder = LabelEncoder()
data.loc[:,"Sex"] = encoder.fit_transform(data.loc[:,"Sex"])
data.loc[:,"Embarked"] = encoder.fit_transform(data.loc[:,"Embarked"])

y = data.iloc[:,0]
x = data.iloc[:,1:8]
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size = 0.5, random_state = 42)

def model(X_train, y_train):
    
    forest = RandomForestClassifier (n_estimators=20, random_state=0)
    forest.fit(X_train,y_train)
    print("Random Forest: {0}".format(forest.score(X_train,y_train)))
    
    return forest

forest = model(X_train,y_train)

Random Forest: 0.9842342342342343


In [12]:
my_data =[
            [
             1,  #"Pclass"
             1,  #"Sex", Sex 0 = Female, 1 = Male
             50,  #"Age", Age
             0,  #"SibSp"
             0,  #"Parch"
             0,  #"Fare", 
             2,  #"Embarked"
    ]
]

print(forest.predict(my_data))

my_data =[
            [
             1,  #"Pclass"
             0,  #"Sex", Sex 0 = Female, 1 = Male
             20,  #"Age", Age
             1,  #"SibSp"
             0,  #"Parch"
             0,  #"Fare", 
             2,  #"Embarked"
    ]
]

print(forest.predict(my_data))

[0]
[1]


  "X does not have valid feature names, but"
  "X does not have valid feature names, but"


Teraz jesteśmy gotowi do wyeksportowania naszego modelu do .pkl

In [13]:
filename = "model.sv"
pickle.dump(forest, open(filename,'wb'))

Dalszą część pracy wykonujemy już poza Jupyter Notebook. Przenosimy się do pliku app.py.

### 3. Task 📚
Skrypt app1.py nie jest kompletny, brakuje w nim kilku istotnych informacji.
##### 1.
Stwórz zmienną sex_d oraz wprowadź odpowiednie oznaczenia dla kobiet oraz mężczyzn (analogicznie jak zostało to zrobione w przypadku zmiennych pclass_d oraz embarked_d).
Create the sex_d variable and enter the appropriate labels for women and men (similarly as it was done in the case of pclass_d and embarked_d variables).
##### 2.
Wprowadź tytuł aplikacji.
Enter the title of application.
##### 3.
Zamień grafikę na bardziej adekwatną do aplikacji.
Change the photo.
##### 4.
Wprowadź (do lewej kolumny) nową zmienną pclass_radio umożliwiającą prowadzenie jednej z trzech opcji (klasa pierwsza, druga oraz trzecia).
Enter (in the left column) the new pclass_radio variable with three labels (first, second and third class).
##### 5.
W prawej kolumnie znajdują się zmienne odnoszące się do wieku, liczby członków rodziny, opłaty za przejazd. Sprawdź w oryginalnym zbiorze danych jakie wartości minimalne oraz maksymalne mogą zostać wprowadzone przez użytkownika i zmień parametry min_value oraz max_value.
In the right column there are variables with information about age, number of family members, etc. Check in the original dataset (what minimum and maximum values can be entered by the user) and change the min_value and max_value parameters.
##### 6.
Stwórz konto na GitHub oraz Share Streamlit. Stwórz nowe repozytorium w GitHub, w którym umieścisz poprawioną app1.py, plik z wymaganiami (.txt) oraz wytrenowany model. Wykorzystaj usługę Share Streamlit do stworzenia aplikacji.
Create an account on GitHub and Share Streamlit. Create a new repository in GitHub, where you will put the corrected app1.py, the requirements file (.txt) and the trained model. Use Share Streamlit to create an application.

In [18]:
base_data.agg(['min', 'max'])

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare
min,1,0,1,"Abbing, Mr. Anthony",female,0.42,0,0,110152,0.0
max,891,1,3,"van Melkebeke, Mr. Philemon",male,80.0,8,6,WE/P 5735,512.3292
