#### Конвертируйте в HTML:

Нажмите Ctrl + Shift + P (или Cmd + Shift + P на macOS), чтобы открыть палитру команд.

Введите "Jupyter: Export to HTML" и выберите соответствующую опцию.

# Работа с файлами

### Указание пути к папке, находящейся в рабочей директории

In [None]:
import os
import csv

# Получаем текущую рабочую директорию
current_directory = os.getcwd()

# Имя папки
folder_name = "папка"

# Создаем путь к целевой папке
folder_path = os.path.join(current_directory, folder_name)

# Имя CSV файла
file_name = "ваш_файл.csv"

# Создаем полный путь к CSV файлу
file_path = os.path.join(folder_path, file_name)

# Читаем CSV файл
with open(file_path, 'r') as csv_file:
    csv_reader = csv.reader(csv_file)


### Соединение файлов

In [None]:
# Соединение по порядку двух файлов

import pandas as pd

# Загрузка данных из CSV файлов
df1 = pd.read_csv('file1.csv')
df2 = pd.read_csv('file2.csv')

# Вертикальное объединение по строкам
concatenated_df = pd.concat([df1, df2], ignore_index=True)

# Вывод результата
print(concatenated_df)

In [None]:
# Соединение по ключевым столбцам двух файлов

import pandas as pd

# Загрузка данных из CSV файлов
df1 = pd.read_csv('file1.csv')
df2 = pd.read_csv('file2.csv')

# Соединение по определенному столбцу (например, 'ключевой_столбец')
merged_df = pd.merge(df1, df2, on='ключевой_столбец')

# Соединение по нескольким столбцам
merged_df = pd.merge(df1, df2, on=['ключевой_столбец1', 'ключевой_столбец2'])

# Вывод результата
print(merged_df)

In [None]:
# Соединение по порядку множества файлов в папке

import os
import pandas as pd

# Путь к папке с файлами
folder_path = '/путь/к/вашей/папке'

# Список для хранения загруженных DataFrame
dfs = []

# Цикл по всем файлам в папке
for filename in os.listdir(folder_path):
    if filename.endswith('.csv'):  # Убедитесь, что файлы имеют расширение .csv
        file_path = os.path.join(folder_path, filename)
        df = pd.read_csv(file_path)
        dfs.append(df)

# Объединение всех DataFrame из списка
merged_df = pd.concat(dfs, axis=0, ignore_index=True)

# Вывод результата
print(merged_df)

In [None]:
# Соединение по ключевым столбцам множества файлов в папке

import os
import pandas as pd

# Путь к папке с файлами
folder_path = '/путь/к/вашей/папке'

# Столбец, по которому будет происходить объединение
merge_column = 'ваш_столбец'

# Инициализация DataFrame для хранения результатов
merged_df = pd.DataFrame()

# Цикл по всем файлам в папке
for filename in os.listdir(folder_path):
    if filename.endswith('.csv'):
        file_path = os.path.join(folder_path, filename)
        df = pd.read_csv(file_path)
        
        # Объединение с существующим DataFrame
        if merged_df.empty:
            merged_df = df
        else:
            merged_df = pd.merge(merged_df, df, on=merge_column)

# Вывод результата
print(merged_df)

# Работа с данными

### Исследование данных

In [None]:
import pandas as pd

# Чтение данных из CSV файла
df = pd.read_csv('ваш_файл.csv')

# Вывод основной информации о DataFrame
print("1. Общая информация о DataFrame:")
print(df.info())

# Вывод первых нескольких строк DataFrame
print("\n2. Первые несколько строк DataFrame:")
print(df.head())

# Вывод статистики для числовых признаков
print("\n3. Статистика для числовых признаков:")
print(df.describe())

# Вывод количества уникальных значений в каждом столбце
print("\n4. Количество уникальных значений в каждом столбце:")
print(df.nunique())

# Вывод количества пропущенных значений в каждом столбце
print("\n5. Количество пропущенных значений в каждом столбце:")
print(df.isnull().sum())

# Вывод уникальных значений для категориальных признаков
categorical_columns = df.select_dtypes(include=['object']).columns
print("\n6. Уникальные значения для категориальных признаков:")
for column in categorical_columns:
    print(f"{column}: {df[column].unique()}")

# Вывод корреляции между числовыми признаками
print("\n7. Корреляция между числовыми признаками:")
print(df.corr())

# Вывод общей информации о наличии дублирующихся строк
print("\n8. Проверка наличия дублирующихся строк:")
print(f"Есть дублирующиеся строки: {df.duplicated().any()}")

# Вывод общей информации о размере DataFrame (количество строк и столбцов)
print("\n9. Размер DataFrame (количество строк и столбцов):")
print(df.shape)

### Обработка данных

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Чтение данных из CSV файла
df = pd.read_csv('ваш_файл.csv')

# Проверка и удаление дублирующихся записей
df.drop_duplicates(inplace=True)

# Проверка и удаление пустых записей
df.dropna(inplace=True)

# Поиск и обработка выбросов (используем метод межквартильного расстояния)
def handle_outliers(column):
    q1 = df[column].quantile(0.25)
    q3 = df[column].quantile(0.75)
    iqr = q3 - q1
    lower_bound = q1 - 1.5 * iqr
    upper_bound = q3 + 1.5 * iqr
    df[column] = df[column].apply(lambda x: lower_bound if x < lower_bound else (upper_bound if x > upper_bound else x))

# Метод межквартильного расстояния предпочтителен при обработке выбросов, поскольку он устойчив к асимметрии данных
# и не подвержен влиянию экстремальных значений. Этот метод предоставляет робастное решение для выявления выбросов, минимизируя 
# воздействие крайних значений и делая его более надежным для анализа данных с неоднородным распределением.

# Применение обработки выбросов к выбранным числовым столбцам (например, 'столбец1', 'столбец2')
numeric_columns = ['столбец1', 'столбец2']
for column in numeric_columns:
    handle_outliers(column)

# Поиск и обработка пропущенных значений
# Для числовых признаков можно использовать заполнение средним значением
df.fillna(df.mean(), inplace=True)

# Обработка пропущенных значений для числовых признаков
numeric_columns = df.select_dtypes(include=['float64', 'int64']).columns
for column in numeric_columns:
    # Заполнение пропущенных значений средним
    df[column].fillna(df[column].mean(), inplace=True)

# Обработка пропущенных значений для категориальных признаков
categorical_columns = df.select_dtypes(include=['object']).columns
for column in categorical_columns:
    # Заполнение пропущенных значений модой
    df[column].fillna(df[column].mode()[0], inplace=True)

# Обработка пропущенных значений для текстовых признаков
text_columns = df.select_dtypes(include=['object']).columns
for column in text_columns:
    # Заполнение пропущенных значений константой 'Unknown'
    df[column].fillna('Unknown', inplace=True)

# Поиск и обработка всех категориальных признаков
# Преобразование категориальных признаков с использованием one-hot encoding
df = pd.get_dummies(df, columns=['категориальный_столбец'])

# Получение описательных статистик всех признаков из итогового набора полей
descriptive_stats = df.describe()

# Графики распределения всех признаков
sns.set(style="whitegrid")

# Графики числовых признаков
numeric_columns = df.select_dtypes(include=['float64', 'int64']).columns
for column in numeric_columns:
    plt.figure(figsize=(8, 6))
    sns.histplot(df[column], kde=True)
    plt.title(f'Distribution of {column}')
    plt.show()

# Графики категориальных признаков
categorical_columns = df.select_dtypes(include=['object']).columns
for column in categorical_columns:
    plt.figure(figsize=(8, 6))
    sns.countplot(data=df, x=column)
    plt.title(f'Count of {column}')
    plt.show()


### Другие действия

In [None]:
# Сохранение результата
df.to_csv('новый_файл.csv', index=False)

# Выборка по условию
subset = df[df['столбец'] > 10]

# Удаление столбцов
df.drop(['столбец1', 'столбец2'], axis=1, inplace=True)

# Обработка пропущенных значений
df.dropna()  # Удаление строк с пропущенными значениями
df.fillna(value)  # Замена пропущенных значений конкретным значением

# Группировка данных
grouped_data = df.groupby('столбец').mean()

# Подсчет средних значений по столбцу 'столбец'
grouped_data = df.groupby('столбец').mean()

# Сортировка данных
df.sort_values(by='столбец', ascending=False, inplace=True)

# Преобразование столбца 'столбец' к типу данных int
df['столбец'] = df['столбец'].astype(int)

# Подсчет уникальных значений
unique_values = df['столбец'].unique()

# Вычисление основных статистических показателей
mean_value = df['столбец'].mean() # Вычисление среднего значения столбца 'столбец'
median_value = df['столбец'].median() # Вычисление медианы столбца 'столбец'
std_dev = df['столбец'].std() # Вычисление стандартного отклонения столбца 'столбец'
min_value = df['столбец'].min() # Нахождение минимального значения в столбце 'столбец'
max_value = df['столбец'].max() # Нахождение максимального значения в столбце 'столбец'

# Обучение

### Классификация

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Загрузка обработанного файла
df = pd.read_csv('обработанный_файл.csv')

# Предположим, что ваш целевой столбец называется 'целевой_столбец'
X = df.drop('целевой_столбец', axis=1)
y = df['целевой_столбец']

# Разделение данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Стандартизация данных
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 1. Логистическая регрессия
logistic_regression_model = LogisticRegression()
logistic_regression_model.fit(X_train_scaled, y_train)
y_pred_lr = logistic_regression_model.predict(X_test_scaled)

# Оценка модели логистической регрессии
print("Логистическая регрессия:")
print("Accuracy:", accuracy_score(y_test, y_pred_lr))
print("Classification Report:")
print(classification_report(y_test, y_pred_lr))
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred_lr))

# 2. Случайный лес
random_forest_model = RandomForestClassifier()
random_forest_model.fit(X_train_scaled, y_train)
y_pred_rf = random_forest_model.predict(X_test_scaled)

# Оценка модели случайного леса
print("\nСлучайный лес:")
print("Accuracy:", accuracy_score(y_test, y_pred_rf))
print("Classification Report:")
print(classification_report(y_test, y_pred_rf))
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred_rf))

# 3. Метод опорных векторов (SVM)
svm_model = SVC()
svm_model.fit(X_train_scaled, y_train)
y_pred_svm = svm_model.predict(X_test_scaled)

# Оценка модели SVM
print("\nМетод опорных векторов (SVM):")
print("Accuracy:", accuracy_score(y_test, y_pred_svm))
print("Classification Report:")
print(classification_report(y_test, y_pred_svm))
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred_svm))

### Кластеризация

In [None]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN
from sklearn.metrics import silhouette_score

# Загрузка обработанного файла
df = pd.read_csv('обработанный_файл.csv')

# Выбор числовых признаков для кластеризации
X = df.select_dtypes(include=['float64', 'int64'])

# Стандартизация данных
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 1. K-средних (KMeans)
kmeans_model = KMeans(n_clusters=3, random_state=42)
kmeans_labels = kmeans_model.fit_predict(X_scaled)

# Оценка модели KMeans с использованием silhouette_score
silhouette_kmeans = silhouette_score(X_scaled, kmeans_labels)
print("1. K-средних (KMeans) - Silhouette Score:", silhouette_kmeans)

# 2. Иерархическая кластеризация (AgglomerativeClustering)
agg_model = AgglomerativeClustering(n_clusters=3)
agg_labels = agg_model.fit_predict(X_scaled)

# Оценка модели AgglomerativeClustering с использованием silhouette_score
silhouette_agg = silhouette_score(X_scaled, agg_labels)
print("2. Иерархическая кластеризация - Silhouette Score:", silhouette_agg)

# 3. DBSCAN
dbscan_model = DBSCAN(eps=0.5, min_samples=5)
dbscan_labels = dbscan_model.fit_predict(X_scaled)

# DBSCAN не имеет явного числа кластеров, поэтому silhouette_score может не применяться
print("3. DBSCAN - No Silhouette Score for DBSCAN")

# Добавьте столбец с метками кластеров к исходному DataFrame
df['KMeans_Cluster'] = kmeans_labels
df['Agg_Cluster'] = agg_labels
df['DBSCAN_Cluster'] = dbscan_labels

# Вывод полученных кластеров
print("\nКластеры, полученные с помощью KMeans:")
print(df['KMeans_Cluster'].value_counts())

print("\nКластеры, полученные с помощью Иерархической кластеризации:")
print(df['Agg_Cluster'].value_counts())

print("\nКластеры, полученные с помощью DBSCAN:")
print(df['DBSCAN_Cluster'].value_counts())

### Регрессия

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Загрузка обработанного файла для задачи регрессии
df_regression = pd.read_csv('обработанный_файл_регрессии.csv')

# Предположим, что ваша целевая переменная называется 'целевая_переменная'
X_reg = df_regression.drop('целевая_переменная', axis=1)
y_reg = df_regression['целевая_переменная']

# Разделение данных на обучающий и тестовый наборы
X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)

# Стандартизация данных
scaler_reg = StandardScaler()
X_train_scaled_reg = scaler_reg.fit_transform(X_train_reg)
X_test_scaled_reg = scaler_reg.transform(X_test_reg)

# 1. Линейная регрессия
linear_reg_model = LinearRegression()
linear_reg_model.fit(X_train_scaled_reg, y_train_reg)
y_pred_linear_reg = linear_reg_model.predict(X_test_scaled_reg)

# Оценка модели линейной регрессии
print("1. Линейная регрессия:")
print("Mean Squared Error:", mean_squared_error(y_test_reg, y_pred_linear_reg))
print("R-squared:", r2_score(y_test_reg, y_pred_linear_reg))

# 2. Случайный лес для регрессии
random_forest_reg_model = RandomForestRegressor()
random_forest_reg_model.fit(X_train_scaled_reg, y_train_reg)
y_pred_rf_reg = random_forest_reg_model.predict(X_test_scaled_reg)

# Оценка модели случайного леса для регрессии
print("\n2. Случайный лес для регрессии:")
print("Mean Squared Error:", mean_squared_error(y_test_reg, y_pred_rf_reg))
print("R-squared:", r2_score(y_test_reg, y_pred_rf_reg))

# 3. Градиентный бустинг для регрессии
gradient_boosting_reg_model = GradientBoostingRegressor()
gradient_boosting_reg_model.fit(X_train_scaled_reg, y_train_reg)
y_pred_gb_reg = gradient_boosting_reg_model.predict(X_test_scaled_reg)

# Оценка модели градиентного бустинга для регрессии
print("\n3. Градиентный бустинг для регрессии:")
print("Mean Squared Error:", mean_squared_error(y_test_reg, y_pred_gb_reg))
print("R-squared:", r2_score(y_test_reg, y_pred_gb_reg))