# Câu 1
## Bài toán phân loại và hồi quy sử dụng các phương pháp học máy

### Mục tiêu
Sử dụng các phương pháp học máy đã học (và có thể mở rộng thêm các phương pháp khác) để giải bài toán theo cả hai hướng: phân loại (classification) và hồi quy (regression). Thực hiện quy trình gồm các bước dưới đây để xử lý và đánh giá bài toán.

---

### Các bước thực hiện

#### 1. Thống kê đặc điểm của dữ liệu bằng Data Visualization
   - Khám phá đặc điểm tổng quát của dữ liệu, bao gồm phân phối của các biến, sự tương quan giữa các đặc trưng, và xác định các mẫu dữ liệu bất thường (outliers).
   - Sử dụng các biểu đồ như histogram, boxplot, scatter plot, heatmap,... để thể hiện trực quan các đặc điểm này.

#### 2. Tiền xử lý dữ liệu
   - **Type Conversion**: Chuyển đổi kiểu dữ liệu nếu cần thiết (ví dụ: từ dạng chuỗi sang số hoặc nhãn phân loại).
   - **Data Normalization**: Chuẩn hóa dữ liệu để đưa các giá trị về cùng thang đo, tăng hiệu quả của các thuật toán học máy.

#### 3. Phân chia dữ liệu thành tập train và tập evaluation
   - Chia dữ liệu thành hai tập: **Train** và **Evaluation** theo tỷ lệ phù hợp (ví dụ 80/20 hoặc 70/30).
   - Đảm bảo rằng cả hai tập này đều có phân phối dữ liệu phù hợp để đảm bảo tính đại diện.

#### 4. Thực hiện phân loại và hồi quy
   - **Phân loại (Classification)**: Áp dụng các phương pháp phân loại khác nhau như SVM, KNN, Random Forest, hoặc các thuật toán khác.
   - **Hồi quy (Regression)**: Thử nghiệm các phương pháp hồi quy như Linear Regression, Decision Tree Regressor, SVR,...

#### 5. Đánh giá kết quả và so sánh các phương pháp
   - Đánh giá hiệu quả của các phương pháp bằng các chỉ số như độ chính xác, F1-score cho phân loại, hoặc MAE, RMSE cho hồi quy.
   - **So sánh các phương pháp**: Sử dụng biểu đồ để hiển thị kết quả của các phương pháp phân loại và hồi quy, cho phép quan sát sự khác biệt giữa các phương pháp một cách trực quan.
   - **Biểu đồ trực quan**: Ví dụ sử dụng bar chart hoặc line chart để thể hiện độ chính xác, lỗi trung bình của các phương pháp.

---

### Kết luận
Tóm tắt các kết quả đạt được từ các phương pháp phân loại và hồi quy, nêu bật phương pháp hiệu quả nhất trong việc giải quyết bài toán.


# Thêm các thư viện

In [54]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.metrics import classification_report, mean_squared_error

pd.options.display.max_columns = None

# Thống kê dữ liệu

In [55]:
data = pd.read_csv('apartments_for_rent_classified_100K.csv', sep=';', encoding='latin1')

data.head()


  data = pd.read_csv('apartments_for_rent_classified_100K.csv', sep=';', encoding='latin1')


Unnamed: 0,id,category,title,body,amenities,bathrooms,bedrooms,currency,fee,has_photo,pets_allowed,price,price_display,price_type,square_feet,address,cityname,state,latitude,longitude,source,time
0,5668640009,housing/rent/apartment,One BR 507 & 509 Esplanade,"This unit is located at 507 & 509 Esplanade, R...",,1.0,1.0,USD,No,Thumbnail,Cats,2195.0,"$2,195",Monthly,542,507 509 Esplanade,Redondo Beach,CA,33.852,-118.3759,RentLingo,1577360355
1,5668639818,housing/rent/apartment,Three BR 146 Lochview Drive,"This unit is located at 146 Lochview Drive, Ne...",,1.5,3.0,USD,No,Thumbnail,"Cats,Dogs",1250.0,"$1,250",Monthly,1500,146 Lochview Dr,Newport News,VA,37.0867,-76.4941,RentLingo,1577360340
2,5668639686,housing/rent/apartment,Three BR 3101 Morningside Drive,This unit is located at 3101 Morningside Drive...,,2.0,3.0,USD,No,Thumbnail,,1395.0,"$1,395",Monthly,1650,3101 Morningside Dr,Raleigh,NC,35.823,-78.6438,RentLingo,1577360332
3,5668639659,housing/rent/apartment,Two BR 209 Aegean Way,"This unit is located at 209 Aegean Way, Vacavi...",,1.0,2.0,USD,No,Thumbnail,"Cats,Dogs",1600.0,"$1,600",Monthly,820,209 Aegean Way,Vacaville,CA,38.3622,-121.9712,RentLingo,1577360330
4,5668639374,housing/rent/apartment,One BR 4805 Marquette NE,"This unit is located at 4805 Marquette NE, Alb...",,1.0,1.0,USD,No,Thumbnail,"Cats,Dogs",975.0,$975,Monthly,624,4805 Marquette NE,Albuquerque,NM,35.1038,-106.611,RentLingo,1577360308


In [56]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99492 entries, 0 to 99491
Data columns (total 22 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             99492 non-null  int64  
 1   category       99492 non-null  object 
 2   title          99492 non-null  object 
 3   body           99492 non-null  object 
 4   amenities      83448 non-null  object 
 5   bathrooms      99429 non-null  float64
 6   bedrooms       99368 non-null  float64
 7   currency       99492 non-null  object 
 8   fee            99492 non-null  object 
 9   has_photo      99492 non-null  object 
 10  pets_allowed   44138 non-null  object 
 11  price          99491 non-null  float64
 12  price_display  99491 non-null  object 
 13  price_type     99492 non-null  object 
 14  square_feet    99492 non-null  int64  
 15  address        7943 non-null   object 
 16  cityname       99190 non-null  object 
 17  state          99190 non-null  object 
 18  latitu

# Bài toán hồi quy


## Thống kê và xử lý dữ liệu

In [67]:
data_regression = data.drop(columns=['id', 'title', 'body', 'price_display', 'address', 'pets_allowed', 'currency'])

In [68]:
data_regression.isnull().sum()

category           0
amenities      16044
bathrooms         63
bedrooms         124
fee                0
has_photo          0
price              1
price_type         0
square_feet        0
cityname         302
state            302
latitude          25
longitude         25
source             0
time               0
dtype: int64

In [69]:
data_regression = data_regression.dropna()
data_regression = data_regression.reset_index(drop=True)

In [70]:
# check for missing values again
data_regression.isnull().sum()

category       0
amenities      0
bathrooms      0
bedrooms       0
fee            0
has_photo      0
price          0
price_type     0
square_feet    0
cityname       0
state          0
latitude       0
longitude      0
source         0
time           0
dtype: int64

In [71]:
print("There are {} duplicate values.".format(data_regression.duplicated().sum()))
data_regression[data_regression.duplicated(keep=False)].head(10)

There are 121 duplicate values.


Unnamed: 0,category,amenities,bathrooms,bedrooms,fee,has_photo,price,price_type,square_feet,cityname,state,latitude,longitude,source,time
1142,housing/rent/apartment,"Dishwasher,Refrigerator",2.0,3.0,No,Thumbnail,1449.0,Monthly,1474,New Braunfels,TX,29.7398,-98.1021,RentLingo,1577358375
1633,housing/rent/apartment,"Dishwasher,Refrigerator",2.0,3.0,No,Thumbnail,1449.0,Monthly,1474,New Braunfels,TX,29.7398,-98.1021,RentLingo,1577358375
2157,housing/rent/apartment,"Dishwasher,Refrigerator",2.0,3.0,No,Thumbnail,1449.0,Monthly,1474,New Braunfels,TX,29.7398,-98.1021,RentLingo,1577358375
3040,housing/rent/apartment,"Cable or Satellite,Dishwasher,Elevator,Garbage...",1.0,1.0,No,Thumbnail,1125.0,Monthly,529,Austin,TX,30.3054,-97.7497,RentLingo,1577014860
3081,housing/rent/apartment,"Dishwasher,Parking,Refrigerator,Storage",2.0,3.0,No,Thumbnail,2295.0,Monthly,1126,Madison,WI,43.0724,-89.4003,RentLingo,1577015758
3149,housing/rent/apartment,"Cable or Satellite,Dishwasher,Elevator,Garbage...",1.0,1.0,No,Thumbnail,1125.0,Monthly,529,Austin,TX,30.3054,-97.7497,RentLingo,1577014860
3328,housing/rent/apartment,"Dishwasher,Parking,Refrigerator,Storage",2.0,3.0,No,Thumbnail,2295.0,Monthly,1126,Madison,WI,43.0724,-89.4003,RentLingo,1577015758
4273,housing/rent/apartment,"Cable or Satellite,Parking",1.0,1.0,No,Thumbnail,1195.0,Monthly,450,Belleville,NJ,40.7936,-74.1644,RentDigs.com,1568755423
4277,housing/rent/apartment,"Gym,Internet Access,Pool",2.0,3.0,No,Thumbnail,1580.0,Monthly,1366,Apex,NC,35.7238,-78.8695,RentDigs.com,1568754846
6844,housing/rent/apartment,Parking,1.0,2.0,No,Thumbnail,1590.0,Monthly,992,Bladensburg,MD,38.9414,-76.9292,RentDigs.com,1568750162


In [75]:
data_regression = data_regression.drop_duplicates()
data_regression = data_regression.reset_index(drop=True)

In [77]:
print("There are {} duplicate values.".format(data_regression.duplicated().sum()))
data_regression.head()

There are 0 duplicate values.


Unnamed: 0,category,amenities,bathrooms,bedrooms,fee,has_photo,price,price_type,square_feet,cityname,state,latitude,longitude,source,time
0,housing/rent/apartment,"Fireplace,Gym,Parking,Pool,Storage,Wood Floors",1.0,1.0,No,Thumbnail,1060.0,Monthly,650,Austin,TX,30.3054,-97.7497,RentLingo,1577359827
1,housing/rent/apartment,"Gated,Pool",1.0,1.0,No,Thumbnail,1003.0,Monthly,797,Round Rock,TX,30.5118,-97.6873,RentLingo,1577359796
2,housing/rent/apartment,"Dishwasher,Parking,Pool",1.0,1.0,No,Thumbnail,837.0,Monthly,444,Austin,TX,30.3054,-97.7497,RentLingo,1577359784
3,housing/rent/apartment,"Dishwasher,Parking,Pool",1.0,1.0,No,Thumbnail,1020.0,Monthly,692,Austin,TX,30.3054,-97.7497,RentLingo,1577359778
4,housing/rent/apartment,"Gym,Pool",1.0,1.0,No,Thumbnail,985.0,Monthly,693,Austin,TX,30.3054,-97.7497,RentLingo,1577359777


In [80]:
data_regression['category'].value_counts()

housing/rent/apartment            82987
housing/rent/commercial/retail       42
housing/rent                          6
housing/rent/home                     4
housing/rent/condo                    3
housing/rent/short_term               2
housing/rent/other                    1
Name: category, dtype: int64

In [81]:
data_regression['amenities'].value_counts()

Parking                                                                        6141
Parking,Storage                                                                2114
Gym,Pool                                                                       1865
Pool                                                                           1477
Gym,Parking,Pool                                                               1178
                                                                               ... 
Gym,Parking,Tennis,Wood Floors                                                    1
AC,Cable or Satellite,Clubhouse,Gym,Hot Tub,Parking,Patio/Deck,Wood Floors        1
Clubhouse,Gym,Patio/Deck,Pool,Storage,Tennis                                      1
Elevator,Gated,Parking,Wood Floors                                                1
Dishwasher,Doorman,Patio/Deck,Refrigerator,Storage,Washer Dryer,Wood Floors       1
Name: amenities, Length: 9791, dtype: int64