In [4]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, Binarizer, StandardScaler
import pandas as pd

# Giả sử bạn đã có DataFrame 'data'
# data = pd.DataFrame(...)
data = pd.read_csv('crop_yield.csv', 
                    usecols=['Soil_Type', 'Crop', 'Rainfall_mm', 'Temperature_Celsius',
                            'Fertilizer_Used', 'Irrigation_Used', 'Weather_Condition',
                            'Days_to_Harvest', 'Yield_tons_per_hectare'])

# Giả sử bạn có DataFrame 'data'
# data = pd.DataFrame(...)

# Tạo ColumnTransformer
preprocessor = ColumnTransformer(transformers=[
    ("one_hot_feature", OneHotEncoder(), ["Soil_Type", "Crop", "Weather_Condition"]),
    ("bool_feature", Binarizer(), ["Fertilizer_Used", "Irrigation_Used"]),
    ("stander_feature", StandardScaler(), ["Rainfall_mm", "Temperature_Celsius", "Days_to_Harvest"]),
], remainder='passthrough')  # Các cột không bị biến đổi sẽ được giữ lại (remainder)

# Áp dụng ColumnTransformer lên DataFrame 'data'
transformed_data = preprocessor.fit_transform(data)

# Chuyển kết quả thành DataFrame và lấy tên các cột
column_names = preprocessor.get_feature_names_out()

# Chuyển mảng numpy thành DataFrame
transformed_df = pd.DataFrame(transformed_data, columns=column_names)

# Lấy các cột không thay đổi (nếu có)
# Tìm các cột không bị biến đổi
original_columns = data.columns
non_transformed_columns = list(set(original_columns) - set(["Soil_Type", "Crop", "Weather_Condition", "Fertilizer_Used", "Irrigation_Used", "Rainfall_mm", "Temperature_Celsius", "Days_to_Harvest"]))

# Giữ lại các cột không thay đổi
non_transformed_df = data[non_transformed_columns]

# Kết hợp các cột đã biến đổi và các cột không thay đổi
final_df = pd.concat([transformed_df, non_transformed_df.reset_index(drop=True)], axis=1)

# Hiển thị kết quả
print(final_df)


      one_hot_feature__Soil_Type_Chalky  one_hot_feature__Soil_Type_Clay  \
0                                   0.0                              0.0   
1                                   0.0                              1.0   
2                                   0.0                              0.0   
3                                   0.0                              0.0   
4                                   0.0                              0.0   
...                                 ...                              ...   
8995                                0.0                              0.0   
8996                                1.0                              0.0   
8997                                0.0                              0.0   
8998                                0.0                              0.0   
8999                                0.0                              0.0   

      one_hot_feature__Soil_Type_Loam  one_hot_feature__Soil_Type_Peaty  \
0           