In [3]:
{
 "cells": [
  {
   "cell_type": "markdown",
   "id": "534317fc-8171-4d04-8578-2e72a1044c17",
   "metadata": {},
   "source": [
    "Câu 1: Phân phối Bernoulli và Multinomial"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "76d3781c-fd56-42a9-b2b7-9999364c2892",
   "metadata": {},
   "source": [
    "Cho tập dữ liệu Education.csv [https://drive.google.com/file/d/1Gn6YWHXRuPbTUXY5HFxM5C_tJHuZxCka/view?usp=sharing]\n",
    "- Trong đó:\n",
    "    - Text: Chứa đoạn văn bản liên quan đến chủ đề giáo dục.\n",
    "    - Label: Chứa nhãn cảm xúc của văn bản [Tích cực (Positive)/Tiêu cực (Negative)].\n",
    "- Yêu cầu: Áp dụng thuật toán Naive Bayes (phân phối bernoulli và phân phối Multinomial) để dự đoán cảm xúc của văn bản là tích cực hay tiêu cực và so sánh kết quả của hai phân phối đó."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "id": "b0fa7d48",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Text</th>\n",
       "      <th>Label</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>The impact of educational reforms remains unce...</td>\n",
       "      <td>positive</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>Critics argue that recent improvements in the ...</td>\n",
       "      <td>negative</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>Innovative teaching methods have led to unexpe...</td>\n",
       "      <td>positive</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>Despite budget constraints, the school has man...</td>\n",
       "      <td>positive</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>The true effectiveness of online learning plat...</td>\n",
       "      <td>negative</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                                                Text     Label\n",
       "0  The impact of educational reforms remains unce...  positive\n",
       "1  Critics argue that recent improvements in the ...  negative\n",
       "2  Innovative teaching methods have led to unexpe...  positive\n",
       "3  Despite budget constraints, the school has man...  positive\n",
       "4  The true effectiveness of online learning plat...  negative"
      ]
     },
     "execution_count": 1,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "import pandas as pd\n",
    "\n",
    "# Đọc file CSV được tải lên\n",
    "file_path = 'Education.csv'\n",
    "data = pd.read_csv(file_path)\n",
    "\n",
    "# Hiển thị 5 dòng đầu tiên để xem cấu trúc dữ liệu\n",
    "data.head()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "id": "b5554bda",
   "metadata": {},
   "outputs": [],
   "source": [
    "from sklearn.model_selection import train_test_split\n",
    "from sklearn.feature_extraction.text import CountVectorizer\n",
    "from sklearn.preprocessing import LabelEncoder\n",
    "import string\n",
    "\n",
    "# Tiền xử lý dữ liệu văn bản\n",
    "def preprocess_text(text):\n",
    "    # Loại bỏ dấu câu và chuyển về chữ thường\n",
    "    text = text.translate(str.maketrans('', '', string.punctuation)).lower()\n",
    "    return text\n",
    "\n",
    "# Áp dụng tiền xử lý cho cột Text\n",
    "data['Text'] = data['Text'].apply(preprocess_text)\n",
    "\n",
    "# Chuyển đổi nhãn 'positive' và 'negative' sang dạng số\n",
    "label_encoder = LabelEncoder()\n",
    "data['Label'] = label_encoder.fit_transform(data['Label'])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "id": "3e023b44",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "((41, 211), (11, 211), (41,), (11,))"
      ]
     },
     "execution_count": 3,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Chia dữ liệu thành tập huấn luyện và tập kiểm tra\n",
    "X_train, X_test, y_train, y_test = train_test_split(data['Text'], data['Label'], test_size=0.2, random_state=42)\n",
    "\n",
    "# Biểu diễn dữ liệu văn bản thành vector\n",
    "vectorizer = CountVectorizer(stop_words='english')\n",
    "X_train_vec = vectorizer.fit_transform(X_train)\n",
    "X_test_vec = vectorizer.transform(X_test)\n",
    "\n",
    "X_train_vec.shape, X_test_vec.shape, y_train.shape, y_test.shape"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "id": "5a318b83",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Kết quả của mô hình Bernoulli: 0.5454545454545454\n",
      "Kết quả của mô hình Multinomial: 0.5454545454545454\n"
     ]
    }
   ],
   "source": [
    "from sklearn.naive_bayes import BernoulliNB, MultinomialNB\n",
    "from sklearn.metrics import accuracy_score\n",
    "\n",
    "# Phân phối Bernoulli\n",
    "bernoulli_nb = BernoulliNB()\n",
    "bernoulli_nb.fit(X_train_vec, y_train)\n",
    "y_pred_bernoulli = bernoulli_nb.predict(X_test_vec)\n",
    "accuracy_bernoulli = accuracy_score(y_test, y_pred_bernoulli)\n",
    "\n",
    "# Phân phối Multinomial\n",
    "multinomial_nb = MultinomialNB()\n",
    "multinomial_nb.fit(X_train_vec, y_train)\n",
    "y_pred_multinomial = multinomial_nb.predict(X_test_vec)\n",
    "accuracy_multinomial = accuracy_score(y_test, y_pred_multinomial)\n",
    "\n",
    "print(f\"Kết quả của mô hình Bernoulli: {accuracy_bernoulli}\\nKết quả của mô hình Multinomial: {accuracy_multinomial}\")"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "2ddba7d5-909f-4def-9a45-60bf83f7741c",
   "metadata": {},
   "source": [
    "Câu 2: Phân phối Gaussian"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "acdf8be6-a117-4c6f-9035-4edc4190f185",
   "metadata": {},
   "source": [
    "Cho tập dữ liệu Drug.csv [https://drive.google.com/file/d/1_G8oXkLlsauQkujZzJZJwibAWu5PgBXK/view?usp=sharing]\n",
    "- Trong đó:\n",
    "  - Age: Tuổi của bệnh nhân\n",
    "  - Sex: Giới tính của bệnh nhân\n",
    "  - BP: Mức huyết áp\n",
    "  - Cholesterol: Mức cholesterol trong máu\n",
    "  - Na_to_K: Tỷ lệ Natri và Kali trong máu\n",
    "  - Drug: Loại thuốc [A/B/C/X/Y]\n",
    "- Yêu cầu: Áp dụng thuật toán Naive Bayes (phân phối Gaussian) để dự đoán kết quả loại thuốc phù hợp với bệnh nhân."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "id": "e68ac7dc",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Age</th>\n",
       "      <th>Sex</th>\n",
       "      <th>BP</th>\n",
       "      <th>Cholesterol</th>\n",
       "      <th>Na_to_K</th>\n",
       "      <th>Drug</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>23</td>\n",
       "      <td>F</td>\n",
       "      <td>HIGH</td>\n",
       "      <td>HIGH</td>\n",
       "      <td>25.355</td>\n",
       "      <td>DrugY</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>47</td>\n",
       "      <td>M</td>\n",
       "      <td>LOW</td>\n",
       "      <td>HIGH</td>\n",
       "      <td>13.093</td>\n",
       "      <td>drugC</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>47</td>\n",
       "      <td>M</td>\n",
       "      <td>LOW</td>\n",
       "      <td>HIGH</td>\n",
       "      <td>10.114</td>\n",
       "      <td>drugC</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>28</td>\n",
       "      <td>F</td>\n",
       "      <td>NORMAL</td>\n",
       "      <td>HIGH</td>\n",
       "      <td>7.798</td>\n",
       "      <td>drugX</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>61</td>\n",
       "      <td>F</td>\n",
       "      <td>LOW</td>\n",
       "      <td>HIGH</td>\n",
       "      <td>18.043</td>\n",
       "      <td>DrugY</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   Age Sex      BP Cholesterol  Na_to_K   Drug\n",
       "0   23   F    HIGH        HIGH   25.355  DrugY\n",
       "1   47   M     LOW        HIGH   13.093  drugC\n",
       "2   47   M     LOW        HIGH   10.114  drugC\n",
       "3   28   F  NORMAL        HIGH    7.798  drugX\n",
       "4   61   F     LOW        HIGH   18.043  DrugY"
      ]
     },
     "execution_count": 5,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "import pandas as pd\n",
    "import csv\n",
    "\n",
    "file_path_2 = \"drug.csv\"\n",
    "data_drug = pd.read_csv(file_path_2)\n",
    "\n",
    "data_drug.head()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "id": "c687eee9",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "{'Sex': LabelEncoder(),\n",
       " 'BP': LabelEncoder(),\n",
       " 'Cholesterol': LabelEncoder(),\n",
       " 'Drug': LabelEncoder()}"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "from sklearn.model_selection import train_test_split\n",
    "from sklearn.preprocessing import LabelEncoder\n",
    "\n",
    "#Xử lý dữ liệu đưa các thuộc tính về dạng số\n",
    "label_encoders = {}\n",
    "for col in ['Sex', 'BP', 'Cholesterol', 'Drug']:\n",
    "    le = LabelEncoder()\n",
    "    data_drug[col] = le.fit_transform(data_drug[col])\n",
    "    label_encoders[col] = le\n",
    "label_encoders"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "id": "29c281f5",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Age</th>\n",
       "      <th>Sex</th>\n",
       "      <th>BP</th>\n",
       "      <th>Cholesterol</th>\n",
       "      <th>Na_to_K</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>23</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>25.355</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>47</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>13.093</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>47</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>10.114</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>28</td>\n",
       "      <td>0</td>\n",
       "      <td>2</td>\n",
       "      <td>0</td>\n",
       "      <td>7.798</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>61</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>18.043</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   Age  Sex  BP  Cholesterol  Na_to_K\n",
       "0   23    0   0            0   25.355\n",
       "1   47    1   1            0   13.093\n",
       "2   47    1   1            0   10.114\n",
       "3   28    0   2            0    7.798\n",
       "4   61    0   1            0   18.043"
      ]
     },
     "execution_count": 7,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "#Đưa dữ liệu thành các cột tính năng (X) và mục tiêu (Y)\n",
    "X = data_drug.drop('Drug', axis=1)\n",
    "y = data_drug['Drug']\n",
    "\n",
    "# Chia dữ liệu thành các tập huấn luyện và thử nghiệm\n",
    "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)\n",
    "\n",
    "X.head()"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "8c2f0c59",
   "metadata": {},
   "source": []
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "id": "0c5640c1",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "0.925               precision    recall  f1-score   support\n",
      "\n",
      "       DrugY       1.00      0.80      0.89        15\n",
      "       drugA       0.86      1.00      0.92         6\n",
      "       drugB       0.75      1.00      0.86         3\n",
      "       drugC       0.83      1.00      0.91         5\n",
      "       drugX       1.00      1.00      1.00        11\n",
      "\n",
      "    accuracy                           0.93        40\n",
      "   macro avg       0.89      0.96      0.92        40\n",
      "weighted avg       0.94      0.93      0.92        40\n",
      "\n"
     ]
    }
   ],
   "source": [
    "from sklearn.naive_bayes import GaussianNB\n",
    "from sklearn.metrics import accuracy_score, classification_report\n",
    "\n",
    "# Đưa mô hình Naive_bayes vào bài toán\n",
    "gnb = GaussianNB()\n",
    "\n",
    "# Chạy mô hình\n",
    "gnb.fit(X_train, y_train)\n",
    "\n",
    "# Đưa ra dự đoán về bộ kiểm tra\n",
    "y_pred = gnb.predict(X_test)\n",
    "\n",
    "# Đánh giá mô hình và diễn giải\n",
    "accuracy = accuracy_score(y_test, y_pred)\n",
    "classification_rep = classification_report(y_test, y_pred, target_names=label_encoders['Drug'].classes_)\n",
    "\n",
    "print(accuracy, classification_rep)"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.12.4"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}

{'cells': [{'cell_type': 'markdown',
   'id': '534317fc-8171-4d04-8578-2e72a1044c17',
   'metadata': {},
   'source': ['Câu 1: Phân phối Bernoulli và Multinomial']},
  {'cell_type': 'markdown',
   'id': '76d3781c-fd56-42a9-b2b7-9999364c2892',
   'metadata': {},
   'source': ['Cho tập dữ liệu Education.csv [https://drive.google.com/file/d/1Gn6YWHXRuPbTUXY5HFxM5C_tJHuZxCka/view?usp=sharing]\n',
    '- Trong đó:\n',
    '    - Text: Chứa đoạn văn bản liên quan đến chủ đề giáo dục.\n',
    '    - Label: Chứa nhãn cảm xúc của văn bản [Tích cực (Positive)/Tiêu cực (Negative)].\n',
    '- Yêu cầu: Áp dụng thuật toán Naive Bayes (phân phối bernoulli và phân phối Multinomial) để dự đoán cảm xúc của văn bản là tích cực hay tiêu cực và so sánh kết quả của hai phân phối đó.']},
  {'cell_type': 'code',
   'execution_count': 1,
   'id': 'b0fa7d48',
   'metadata': {},
   'outputs': [{'data': {'text/html': ['<div>\n',
       '<style scoped>\n',
       '    .dataframe tbody tr th:only-of-type {\n',
   