### model_selection

In [None]:
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np

sklearn.model_selection.train_test_split(*arrays, test_size=None, train_size=None, random_state=None, shuffle=True, stratify=None)

In [None]:
URL = "https://github.com/ageron/handson-ml2/blob/master/datasets/housing/housing.csv?raw=true"
df = pd.read_csv(URL)
housing_num = df.drop("ocean_proximity", axis=1)
housing_cat = df[["ocean_proximity"]]

### **sklearn.impute**

class sklearn.impute.SimpleImputer(*, missing_values=nan, strategy='mean', fill_value=None, copy=True, add_indicator=False, keep_empty_features=False)

In [None]:
from sklearn.impute import SimpleImputer, KNNImputer

# SimpleImputer klassidan yangi obyekt yaratamiz va NaN qiymatlarni median qiymat bilan to'ldirishni ko'rsatamiz
imputer = SimpleImputer(strategy="median")
imputer.fit(housing_num) # median qiymatlarni hisoblash
imputer.statistics_ # hisoblangan median qiymatlarni ko'rish

X = imputer.transform(housing_num) # NaN qiymatlarni median qiymat bilan to'ldirish
X = imputer.fit_transform(housing_num)

housing = pd.DataFrame(X, columns=housing_num.columns, index=housing_num.index) # np.array dan Df ga o'tkazish

class sklearn.impute.KNNImputer(*, missing_values=nan, n_neighbors=5, weights='uniform', metric='nan_euclidean', copy=True, add_indicator=False, keep_empty_features=False)

n_neighbors: Necha qo'shni (neighbors) ko'rib chiqilishini belgilaydi. Default qiymat 5.

weights: Qo'shnilarning qiymatlari qanday og'irlik bilan hisoblanishini belgilaydi. "uniform" qiymati barcha qo'shnilarni teng og'irlikda hisoblaydi, "distance" esa masofaga qarab og'irlik beradi.

In [None]:
# Misol ma'lumotlar to'plami
data = np.array([[1, 2, np.nan],
                 [3, np.nan, 5],
                 [np.nan, 4, 6]])

# Imputer yaratish
imputer = KNNImputer(n_neighbors=2)

# Yo'qolgan qiymatlarni to'ldirish
imputed_data = imputer.fit_transform(data)

print(imputed_data)

[[1.  2.  5.5]
 [3.  3.  5. ]
 [2.  4.  6. ]]


### **sklearn.preprocessing**

StandardScaler

class sklearn.preprocessing.StandardScaler(*, copy=True, with_mean=True, with_std=True)

In [None]:
from sklearn.preprocessing import StandardScaler

data = np.array([[1, 2], [3, 4], [5, 6]])

# StandardScaler ob'ektini yaratish
scaler = StandardScaler()

# Ma'lumotlarni o'zgartirish
scaled_data = scaler.fit_transform(data)

print("Asl ma'lumotlar:")
print(data)

print("Standartlashtirilgan ma'lumotlar:")
print(scaled_data)

Asl ma'lumotlar:
[[1 2]
 [3 4]
 [5 6]]
Standartlashtirilgan ma'lumotlar:
[[-1.22474487 -1.22474487]
 [ 0.          0.        ]
 [ 1.22474487  1.22474487]]


MinMaxScaler

class sklearn.preprocessing.MinMaxScaler(feature_range=(0, 1), *, copy=True, clip=False)

In [None]:
from sklearn.preprocessing import MinMaxScaler

# Misol ma'lumotlar
data = np.array([[1, 2], [3, 4], [5, 6]])

# MinMaxScaler ob'ektini yaratish
scaler = MinMaxScaler(feature_range=(0, 1))

# Ma'lumotlarni shkalalash
scaled_data = scaler.fit_transform(data)

print("Asl ma'lumotlar:")
print(data)

print("Shkalalangan ma'lumotlar:")
print(scaled_data)

Asl ma'lumotlar:
[[1 2]
 [3 4]
 [5 6]]
Shkalalangan ma'lumotlar:
[[0.  0. ]
 [0.5 0.5]
 [1.  1. ]]


RobustScaler

class sklearn.preprocessing.RobustScaler(*, with_centering=True, with_scaling=True, quantile_range=(25.0, 75.0), copy=True, unit_variance=False)

RobustScaler - bu Scikit-learn kutubxonasidagi funksiya bo'lib, sonli ma'lumotlarni standartlashtirish uchun ishlatiladi, lekin u outlier (juda katta yoki juda kichik qiymatlar) larni inobatga olgan holda ishlaydi.

outlierlar oddiy shkalalash usullariga (masalan, StandardScaler yoki MinMaxScaler) ta'sir qilishi mumkin.

In [None]:
from sklearn.preprocessing import RobustScaler

# Misol ma'lumotlar
data = np.array([[1, 2], [3, 4], [5, 100]])

# RobustScaler ob'ektini yaratish
scaler = RobustScaler()

# Ma'lumotlarni shkalalash
scaled_data = scaler.fit_transform(data)

print("Asl ma'lumotlar:")
print(data)

print("Shkalalangan ma'lumotlar:")
print(scaled_data)

Asl ma'lumotlar:
[[  1   2]
 [  3   4]
 [  5 100]]
Shkalalangan ma'lumotlar:
[[-1.         -0.04081633]
 [ 0.          0.        ]
 [ 1.          1.95918367]]


MaxAbsScaler

class sklearn.preprocessing.MaxAbsScaler(*, copy=True)

ma'lumotlarni -1 va 1 oralig'iga moslaydi.

In [None]:
from sklearn.preprocessing import MaxAbsScaler

# Misol ma'lumotlar
data = np.array([[1, 2], [3, 4], [5, 6]])

# MaxAbsScaler ob'ektini yaratish
scaler = MaxAbsScaler()

# Ma'lumotlarni shkalalash
scaled_data = scaler.fit_transform(data)

print("Asl ma'lumotlar:")
print(data)

print("Shkalalangan ma'lumotlar:")
print(scaled_data)

Asl ma'lumotlar:
[[1 2]
 [3 4]
 [5 6]]
Shkalalangan ma'lumotlar:
[[0.2        0.33333333]
 [0.6        0.66666667]
 [1.         1.        ]]


OrdinalEncoder - bu Scikit-learn kutubxonasidagi funksiya bo'lib, kategorik (nominal) ma'lumotlarni raqamli (numerical) kodlarga o'zgartirish uchun ishlatiladi. Bu raqamli kodlar kategoriyalarning tartibiga (ordinal) muvofiq bo'ladi.

class sklearn.preprocessing.OrdinalEncoder(*, categories='auto', dtype=<class 'numpy.float64'>, handle_unknown='error', unknown_value=None, encoded_missing_value=nan, min_frequency=None, max_categories=None)

In [None]:
from sklearn.preprocessing import OrdinalEncoder

# Misol ma'lumotlar
data = np.array([['qizil'], ['yashil'], ['ko\'k'], ['qizil']])

# OrdinalEncoder ob'ektini yaratish
encoder = OrdinalEncoder()

# Ma'lumotlarni kodlash
encoded_data = encoder.fit_transform(data)

print("Asl ma'lumotlar:")
print(data)

print("Kodlangan ma'lumotlar:")
print(encoded_data)

Asl ma'lumotlar:
[['qizil']
 ['yashil']
 ["ko'k"]
 ['qizil']]
Kodlangan ma'lumotlar:
[[1.]
 [2.]
 [0.]
 [1.]]


OneHotEncoder - bu Scikit-learn kutubxonasidagi funksiya bo'lib, kategorik (nominal) ma'lumotlarni bir-biriga bog'liq bo'lmagan ikkilik (binary) kodlarga o'zgartirish uchun ishlatiladi. Bu kodlash usuli "one-hot encoding" deb ataladi va har bir kategoriya uchun alohida ustun (feature) yaratadi, unda faqat bitta ustun qiymati 1 bo'ladi, qolganlari esa 0 bo'ladi.

class sklearn.preprocessing.OneHotEncoder(*, categories='auto', drop=None, sparse_output=True, dtype=<class 'numpy.float64'>, handle_unknown='error', min_frequency=None, max_categories=None, feature_name_combiner='concat')

Parametrlar\
categories: Kategoriyalarni aniqlash usuli. Default qiymat 'auto' bo'lib, bu barcha kategoriyalarni avtomatik ravishda aniqlashni anglatadi.\

drop: Ba'zi kategoriyalarni tushirib qoldirish uchun ishlatiladi. Bu multikollinerlikni oldini olish uchun foydali bo'lishi mumkin.\

sparse_output: True bo'lsa, natija siyrak matritsa (sparse matrix) sifatida qaytariladi. False bo'lsa, natija oddiy numpy array sifatida qaytariladi. Default qiymat True.\

dtype: Kodlangan ma'lumotlarning turini aniqlaydi. Default qiymat numpy.float64.

In [None]:
from sklearn.preprocessing import OneHotEncoder

# Misol ma'lumotlar
data = np.array([['qizil'], ['yashil'], ['ko\'k'], ['qizil']])

# OneHotEncoder ob'ektini yaratish
encoder = OneHotEncoder(sparse_output=False)

# Ma'lumotlarni kodlash
encoded_data = encoder.fit_transform(data)

print("Asl ma'lumotlar:")
print(data)

print("Kodlangan ma'lumotlar:")
print(encoded_data)

Asl ma'lumotlar:
[['qizil']
 ['yashil']
 ["ko'k"]
 ['qizil']]
Kodlangan ma'lumotlar:
[[0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]]


class sklearn.preprocessing.LabelEncode

In [None]:
from sklearn.preprocessing import LabelEncoder

# Misol ma'lumotlar
data = ['qizil', 'yashil', 'ko\'k', 'qizil']

# LabelEncoder ob'ektini yaratish
encoder = LabelEncoder()

# Ma'lumotlarni kodlash
encoded_data = encoder.fit_transform(data)

print("Asl ma'lumotlar:")
print(data)

print("Kodlangan ma'lumotlar:")
print(encoded_data)

# Kodlangan ma'lumotlarni dekodlash
decoded_data = encoder.inverse_transform(encoded_data)
print("Dekodlangan ma'lumotlar:")
print(decoded_data)

Asl ma'lumotlar:
['qizil', 'yashil', "ko'k", 'qizil']
Kodlangan ma'lumotlar:
[1 2 0 1]
Dekodlangan ma'lumotlar:
['qizil' 'yashil' "ko'k" 'qizil']


sklearn.preprocessing.TargetEncoder(categories='auto', target_type='auto', smooth='auto', cv=5, shuffle=True, random_state=None)

Parametrlar

categories: Kategoriyalarni aniqlash usuli. Default qiymat 'auto' bo'lib, bu barcha kategoriyalarni avtomatik ravishda aniqlashni anglatadi.

target_type: Maqsad qiymatining turini belgilaydi (masalan, regressiya uchun 'continuous' yoki klassifikatsiya uchun 'binary').

smooth: Smuzlash darajasini belgilaydi. Bu parameter kodlarni smuzlash uchun ishlatiladi va overfittingni oldini oladi.

cv: Kross-validatsiya qatlamlari soni. Default qiymat 5.

shuffle: Ma'lumotlarni aralashtirish kerakligini belgilaydi. Default qiymat True.

random_state: Tasodifiy sonlar generatorining boshlang'ich qiymatini belgilaydi.

In [None]:
!pip install scikit-learn --upgrade
!pip install category_encoders



In [None]:
from category_encoders import TargetEncoder

# Misol ma'lumotlar
X = pd.Series(['qizil', 'yashil', 'ko\'k', 'qizil'])
y = pd.Series([1, 2, 3, 1])

# TargetEncoder ob'ektini yaratish
encoder = TargetEncoder()

# Ma'lumotlarni kodlash
encoder.fit(X, y)
encoded_data = encoder.transform(X)

print("Asl ma'lumotlar:")
print(X)

print("Kodlangan ma'lumotlar:")
print(encoded_data)

Asl ma'lumotlar:
0     qizil
1    yashil
2      ko'k
3     qizil
dtype: object
Kodlangan ma'lumotlar:
          0
0  1.643612
1  1.782527
2  1.912636
3  1.643612


LabelEncoder: Kategoriyalar o'rtasida aniq tartib mavjud bo'lsa va u tartib mashinalarning tushunishida muhim bo'lsa.

TargetEncoder: Kategorik ma'lumotlar maqsadga qarab bog'liq bo'lsa va u maqsadning o'rtacha qiymatini hisobga olish muhim bo'lsa, masalan, regressiya modellarida.

OrdinalEncoder: Kategoriyalar o'rtasida aniq tartib mavjud bo'lsa va u tartib mashinalarning tushunishida muhim bo'lsa, masalan, ordinal klassifikatsiya modellarida.

OneHotEncoder: Kategorik ma'lumotlarni mashinalarning o'rganish algoritmlariga berishda ishlatiladi, chunki ba'zi algoritmlar to'g'ri ishlaydi binary ma'lumotlari bilan.

### **sklearn.base**

In [None]:
from sklearn.base import TransformerMixin

class CustomScaler(TransformerMixin):
    def __init__(self):
        pass

    def fit(self, X, y=None):
        # Ma'lumotlarni o'rganish, masalan, o'rtacha va standart deviasi hisoblash
        self.mean_ = X.mean(axis=0)
        self.std_ = X.std(axis=0)
        return self

    def transform(self, X):
        # Ma'lumotlarni o'zgartirish, masalan, standartizatsiya
        X_transformed = (X - self.mean_) / self.std_
        return X_transformed

# CustomScaler dan obyekt yaratish
scaler = CustomScaler()

# fit() metodi orqali ma'lumotlarni o'rganish
# scaler.fit(X_train)

# transform() metodi orqali ma'lumotlarni transformatsiya qilish
# X_train_transformed = scaler.transform(X_train)

### **sklearn.pipeline**

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer

num_pipeline = Pipeline([
          ('imputer', SimpleImputer(strategy='median')),
         # ('attribs_adder', CombinedAttributesAdder(add_bedrooms_per_room = True)),
          ('std_scaler', StandardScaler())
])

# num_attribs = list(X_num)
# cat_attribs = ['ocean_proximity']

full_pipeline = ColumnTransformer([
   # ('num', num_pipeline, num_attribs),
    #('cat', OneHotEncoder(), cat_attribs)
])

# X_prepared = full_pipeline.fit_transform(X_train)

### **sklearn.compose**

class sklearn.compose.ColumnTransformer(transformers, *, remainder='drop', sparse_threshold=0.3, n_jobs=None, transformer_weights=None, verbose=False, verbose_feature_names_out=True, force_int_remainder_cols=True)

Parametrlar

transformers: Ajratiladigan xususiyatlar va ular uchun transformatsiya usullari ro'yxati.

remainder: Ajratilgan xususiyatlardan qolgan qismlarni qanday qilib boshqarish kerakligi. Agar 'drop' bo'lsa, qolgan qismlar o'chiriladi; 'passthrough' bo'lsa, boshqa transformatsiya usuliga o'tkazishsiz saqlanadi.

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.pipeline import Pipeline
import numpy as np

# Misol ma'lumotlar
X = np.array([
    ['London', 25],
    ['Paris', 30],
    ['Madrid', 35],
    ['Berlin', 40],
    ['Rome', 45]
])

# ColumnTransformer ob'ektini yaratish
# Birinchi ustun uchun OneHotEncoder, ikkinchi ustun uchun StandardScaler qo'llash
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(), [0]),  # kategoriyal ma'lumotlar uchun
        ('num', StandardScaler(), [1])  # sonli ma'lumotlar uchun
    ],
    remainder='drop',  # qolgan qismlar o'chiriladi
    sparse_threshold=0.3  # qoraliqli matn bo'lsa, qoraliq miqdorini aniqlaydi
)

# Ma'lumotlarni transform qilish
transformed_data = preprocessor.fit_transform(X)

print("Transformatsiyalangan ma'lumotlar:")
print(transformed_data.toarray())  # sparse matrix ni to'g'ri ko'rsatish uchun toarray() metodi

# Natijada kategoriyal ma'lumotlar OneHotEncoder bilan kodlangan, sonli ma'lumotlar esa standart skalerlashgan bo'ladi


In [None]:
!pip install --upgrade scikit-learn



In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.compose import TransformedTargetRegressor
from sklearn.preprocessing import QuantileTransformer
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Ma'lumotlarni original manbadan yuklash
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

# Ma'lumotlarni bo'lib sinov va o'qitish qatoriga ajratish
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2, random_state=42)

# Ma'lumotlar o'zgaruvchisini o'tkazish uchun transformatsiya usuli (QuantileTransformer)
transformer = QuantileTransformer(output_distribution='normal')

# TransformedTargetRegressor ob'ektini yaratish
regr = TransformedTargetRegressor(
    regressor=LinearRegression(),
    transformer=transformer
)

# Modelni o'rgatish
regr.fit(X_train, y_train)

# Natijalarni baholash
y_pred = regr.predict(X_test)
mse = mean_squared_error(y_test, y_pred)

print("Mean Squared Error:", mse)


### **sklearn.linear_model**