In [None]:
#อ้างอิงจาก Titanic: Machine Learning from Disaster: Kaggle Titanic Dataset
#Random Forest Algorithm: Breiman, L. (2001). Random forests. Machine learning, 45(1), 5-32.
#Scikit-learn Documentation: Scikit-learn

In [None]:
# ติดตั้งไลบรารีที่จำเป็น
!pip install pandas scikit-learn joblib

# นำเข้าไลบรารีที่ใช้ในโค้ด
import pandas as pd
import joblib
from sklearn.model_selection import train_test_split  # ใช้สำหรับแบ่งข้อมูลเป็นชุดฝึกและชุดทดสอบ
from sklearn.linear_model import LogisticRegression  # ใช้สำหรับสร้างโมเดล Logistic Regression
from sklearn.preprocessing import LabelEncoder  # ใช้สำหรับแปลงข้อมูลที่เป็นตัวอักษรเป็นตัวเลข
from sklearn.metrics import accuracy_score  # ใช้สำหรับประเมินความแม่นยำของโมเดล

# โหลดข้อมูล Titanic จาก URL
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
data = pd.read_csv(url)  # โหลดข้อมูลจาก URL และเก็บใน DataFrame ที่ชื่อ 'data'

# เติมค่า NaN ในคอลัมน์ 'Age' ด้วยค่าเฉลี่ยของคอลัมน์นั้น
data['Age'] = data['Age'].fillna(data['Age'].mean())  # ใช้ค่าเฉลี่ยของ 'Age' แทนค่า NaN

# เติมค่า NaN ในคอลัมน์ 'Embarked' ด้วยค่าที่พบบ่อยที่สุด (mode)
data['Embarked'] = data['Embarked'].fillna(data['Embarked'].mode()[0]) # ใช้ค่าที่พบมากที่สุดใน 'Embarked' แทน NaN

# ลบแถวที่มีค่า NaN ออก
data.dropna(inplace=True)  # ลบแถวที่มีค่า NaN ที่เหลืออยู่ทั้งหมด

# สร้าง LabelEncoder สำหรับแปลงข้อมูลเป็นตัวเลข
label_encoder = LabelEncoder()

# แปลงคอลัมน์ 'Sex' เป็นตัวเลข (0: female, 1: male)
data['Sex'] = label_encoder.fit_transform(data['Sex'])  # แปลง 'Sex' ให้เป็นตัวเลข (0: female, 1: male)

# แปลงคอลัมน์ 'Embarked' เป็นตัวเลข
data['Embarked'] = label_encoder.fit_transform(data['Embarked'].fillna('S'))  # แปลง 'Embarked' เป็นตัวเลข โดยเติมค่า NaN เป็น 'S'

# ลบคอลัมน์ที่ไม่จำเป็นออกจาก data เช่น 'Name' และ 'Cabin'
data.drop(['Name', 'Cabin'], axis=1, inplace=True)  # ลบคอลัมน์ 'Name' และ 'Cabin' เพราะไม่จำเป็น

# ตรวจสอบข้อมูลหลังจากที่ทำการแปลงแล้ว
data.head()  # แสดงข้อมูล 5 แถวแรกใน DataFrame

# แยก X (features) และ y (target)
X = data.drop(['Survived', 'Ticket'], axis=1)  # ลบคอลัมน์ 'Survived' และ 'Ticket' ออกไปจาก features
y = data['Survived']  # ตัวแปร y คือคอลัมน์ 'Survived' ซึ่งเป็นตัวแปรที่เราจะทำนาย

# แบ่งข้อมูลเป็นชุดฝึก (training set) และชุดทดสอบ (testing set)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# แบ่งข้อมูล 80% เป็นชุดฝึกและ 20% เป็นชุดทดสอบ โดยใช้ค่า random_state เพื่อให้ผลลัพธ์คงที่ทุกครั้งที่ทำการแบ่ง

# สร้างโมเดล Logistic Regression
log_model = LogisticRegression(max_iter=1000)  # สร้างโมเดล Logistic Regression โดยกำหนดให้ทำงานสูงสุด 1000 รอบ

# ฝึกโมเดลด้วยข้อมูลฝึก (training data)
log_model.fit(X_train, y_train)  # ใช้ข้อมูลฝึก (X_train, y_train) มาเรียนรู้โมเดล

# ทำนายผลลัพธ์ด้วยข้อมูลทดสอบ (test data)
y_pred = log_model.predict(X_test)  # ทำนายผลลัพธ์จากข้อมูลทดสอบ (X_test)

# ประเมินความแม่นยำของโมเดลโดยใช้ accuracy score
accuracy = accuracy_score(y_test, y_pred)  # วัดความแม่นยำโดยการเปรียบเทียบผลลัพธ์ที่ทำนาย (y_pred) กับผลลัพธ์จริง (y_test)
print(f"Logistic Regression Accuracy: {accuracy}")  # แสดงความแม่นยำของโมเดล

# บันทึกโมเดลที่ฝึกแล้วเป็นไฟล์ .pkl เพื่อใช้งานในอนาคต
joblib.dump(log_model, 'titanic_model.pkl')  # บันทึกโมเดลที่ฝึกแล้วไปที่ไฟล์ 'titanic_model.pkl'


Logistic Regression Accuracy: 0.8536585365853658


['titanic_model.pkl']

In [None]:
!pip install streamlit
!pip install pyngrok



In [None]:
data.columns = data.columns.str.strip()  # ลบช่องว่างที่ไม่จำเป็น


# แสดงข้อมูลที่ถูกเตรียมให้พร้อมใช้งาน
print(data.head())


    PassengerId  Survived  Pclass  Sex   Age  SibSp  Parch    Ticket     Fare  \
1             2         1       1    0  38.0      1      0  PC 17599  71.2833   
3             4         1       1    0  35.0      1      0    113803  53.1000   
6             7         0       1    1  54.0      0      0     17463  51.8625   
10           11         1       3    0   4.0      1      1   PP 9549  16.7000   
11           12         1       1    0  58.0      0      0    113783  26.5500   

    Embarked  
1          0  
3          2  
6          2  
10         2  
11         2  


In [None]:
!pip install streamlit pyngrok



In [None]:
%%writefile app.py
import streamlit as st
import pandas as pd
import joblib

# โหลดโมเดลจากไฟล์
model = joblib.load('titanic_model.pkl')

# โหลดข้อมูล
url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
data = pd.read_csv(url)

# ลบคอลัมน์ที่ไม่ใช่ตัวเลข
data = data.drop(columns=['Name', 'Ticket', 'Cabin'])

# เตรียมข้อมูล
data['Sex'] = data['Sex'].map({'male': 0, 'female': 1})
data['Embarked'] = data['Embarked'].map({'C': 0, 'Q': 1, 'S': 2})

# เติมค่า NaN ด้วยค่าเฉลี่ยในคอลัมน์ตัวเลข
data = data.fillna(data.select_dtypes(include=['float64', 'int64']).mean())

# แยก X และ y
X = data[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']]
y = data['Survived']

# Streamlit UI
st.title("Titanic Survival Prediction")
Pclass = st.selectbox("Pclass", [1, 2, 3])
Sex = st.selectbox("Sex", ['Male', 'Female'])
Age = st.number_input("Age", min_value=0, max_value=100, value=30)
SibSp = st.number_input("SibSp", min_value=0, value=0)
Parch = st.number_input("Parch", min_value=0, value=0)
Fare = st.number_input("Fare", min_value=0, value=10)
Embarked = st.selectbox("Embarked", ['C', 'Q', 'S'])

# แปลงข้อมูล
Sex = 0 if Sex == 'Male' else 1
Embarked = {'C': 0, 'Q': 1, 'S': 2}[Embarked]

# สร้าง DataFrame สำหรับ input_data
input_data = pd.DataFrame([[Pclass, Sex, Age, SibSp, Parch, Fare, Embarked]],
                          columns=['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked'])

# เพิ่ม PassengerId (ค่าใดก็ได้)
input_data['PassengerId'] = 99999

# เรียงลำดับคอลัมน์ให้ตรงกับข้อมูลที่ใช้ฝึกโมเดล
cols = ['PassengerId', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
input_data = input_data.reindex(columns=cols, fill_value=0)


# ทำนายผลทันทีเมื่อข้อมูลพร้อม
prediction = model.predict(input_data)

# แสดงผลลัพธ์
if prediction == 1:
    st.write("You will survive!")
else:
    st.write("Sorry, you won't survive.")


Overwriting app.py
