# Разбиение на тестовую и обучающую выборку в Python

Задача:  разбить набо данных на обучающую и тестовую выборки

In [None]:
# Load relevant libraries.

%pylab inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.graphics.api import abline_plot
import patsy
import seaborn as sns
sns.set(context='notebook', style='whitegrid', palette='deep', font='sans-serif', font_scale=1, rc=None)
import sklearn as skl

Populating the interactive namespace from numpy and matplotlib


In [None]:
# Spam database
target_url = "https://datahub.io/machine-learning/spambase/r/spambase.csv"

spam = pd.read_csv(target_url)
print(spam.info())
print(spam['class'].describe())

HTTPError: HTTP Error 404: Not Found

In [None]:
spam.head()

NameError: name 'spam' is not defined

## Вариант решения

### Использовать **pandas**

In [None]:
spamtrain = spam.sample(frac = 0.67, random_state = 1066)
spamtest = spam.drop(spamtrain.index)

# Confirm data has been split properly.
print(spamtrain['class'].count())
print(spamtest['class'].count())
print(spam['class'].count())

## Вариант решения

### Использовать **train_test_split** из **sklearn.model_selection**

In [None]:
from sklearn.model_selection import train_test_split
import pandas as pd

df = pd.read_csv("north_korea_missile_test_database.csv")
y = df["Missile Name"]
X = df.drop("Missile Name", axis=1)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=31
)

In [None]:
X_train, X_val, y_train, y_val = train_test_split(
    X_train, y_train, test_size=0.25, random_state=31
)

In [None]:
len(X_train)

In [None]:
len(X_val)

In [None]:
len(X_test)

In [None]:
print(len(X_train))
print(len(y_train))
print(len(X_val))
print(len(y_val))
print(len(X_test))
print(len(y_test))

# Задания:
1. Подготовить pandas dataframe на основе "сырых" данных - https://archive.ics.uci.edu/ml/machine-learning-databases/spambase/https://archive.ics.uci.edu/ml/machine-learning-databases/spambase/ **spambase.data spambase.names**
2. Провести его анализ на предмет сбалансированности классов.
3. Произвести разбиение на тестовую обучающую выборку с использованием https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedShuffleSplit.htmlhttps://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedShuffleSplit.html **sklearn.model_selection.StratifiedShuffleSplit** в соотношении **80/20**, **70/30**


In [4]:
#### 1 Подготовить pandas dataframe на основе "сырых" данных - https://archive.ics.uci.edu/ml/machine-learning-databases/spambase/https://archive.ics.uci.edu/ml/machine-learning-databases/spambase/ spambase.data spambase.names
print("1 -------------- \n")
import pandas as pd
import urllib.request  # Добавляем импорт модуля

# Загрузка данных
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/spambase/spambase.data"
data = pd.read_csv(url, header=None)

# Загрузка и обработка названий столбцов
names_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/spambase/spambase.names"

# Чтение файла с названиями
with urllib.request.urlopen(names_url) as response:
    names_text = response.read().decode('utf-8')

# Извлечение названий (игнорируем строки с метаданными)
names = []
for line in names_text.splitlines():
    if ":" in line and not line.startswith("|"):
        name = line.split(":")[0].strip()
        names.append(name)
names.append("class")  # Добавляем целевую переменную

# Присваиваем названия столбцам
data.columns = names

# Проверка результата
print("Столбцы:", data.columns.tolist()[-5:])  # Вывод последних 5 столбцов
data.head()

#### 2 Провести его анализ на предмет сбалансированности классов
print("2 -------------- \n")
# Распределение классов
class_dist = data["class"].value_counts(normalize=True)
print("Распределение классов:\n", class_dist)

# Визуализация
import matplotlib.pyplot as plt
plt.pie(
    class_dist,
    labels=["Не спам", "Спам"],
    autopct="%1.1f%%",
    colors=["lightgreen", "salmon"]
)
plt.title("Соотношение классов")
plt.show()

#### 3 Произвести разбиение на тестовую обучающую выборку с использованием https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedShuffleSplit.htmlhttps://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedShuffleSplit.html sklearn.model_selection.StratifiedShuffleSplit в соотношении 80/20, 70/30
print("3 -------------- \n")
from sklearn.model_selection import StratifiedShuffleSplit

# Для соотношения 80/20
sss = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
for train_idx, test_idx in sss.split(data, data["class"]):
    train_80, test_20 = data.iloc[train_idx], data.iloc[test_idx]

# Для соотношения 70/30
sss = StratifiedShuffleSplit(n_splits=1, test_size=0.3, random_state=42)
for train_idx, test_idx in sss.split(data, data["class"]):
    train_70, test_30 = data.iloc[train_idx], data.iloc[test_idx]

# Проверка размеров
print("80/20 | Обучающая:", len(train_80), "Тестовая:", len(test_20))
print("70/30 | Обучающая:", len(train_70), "Тестовая:", len(test_30))

1 -------------- 

Столбцы: ['char_freq_#', 'capital_run_length_average', 'capital_run_length_longest', 'capital_run_length_total', 'class']
2 -------------- 



KeyError: 'label'