# Примеры очистки данных

## Удаление ненужных столбцов

In [None]:
# Remove column 'column_name' from the DataFrame
df = df.drop(columns=['column_name'])

## Удаление ненужных символов

In [None]:
# Remove special characters from data in column 'column_name'
df['column_name'] = df['column_name'].str.replace(r'[^\w\s]+', '')

# Remove leading and trailing whitespaces from data in column 'column_name'
df['column_name'] = df['column_name'].str.strip()

## Обработка пропущенных значений

Удаление пропущенных значений: вы можете использовать этот dropna метод для удаления пропущенных значений из фрейма данных Pandas. Вы можете указать ось (строки или столбцы) и критерии, по которым значение считается отсутствующим.

In [None]:
# Drop all rows with missing values
df.dropna(inplace=True)

Заполнение пропущенных значений: если вы не хотите удалять пропущенные значения, вы можете заполнить их указанным значением или интерполировать их с помощью такого метода, как линейная интерполяция. fillna Для этой цели можно использовать метод.

In [None]:
# Fill missing values in column 'column_name' with the mean
df['column_name'].fillna(df['column_name'].mean(), inplace=True)

# Fill missing values in column 'column_name' with the median
df['column_name'].fillna(df['column_name'].median(), inplace=True)

# Fill missing values in column 'column_name' with the mode
df['column_name'].fillna(df['column_name'].mode()[0], inplace=True)

# Fill missing values in column 'column_name' with a specific value
df['column_name'].fillna(value, inplace=True)

Переименовывать столбцы: С помощью этого метода можно изменить имя одного или нескольких столбцов в фрейме данных Pandas rename.

In [None]:

df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]})

df = df.rename(columns={'A': 'X', 'B': 'Y'})

print(df)

## Удаление дубликатов

Удаление повторяющихся строк: вы можете использовать этот drop_duplicates метод для удаления повторяющихся строк из фрейма данных.

In [None]:
# Remove duplicates based on all columns
df.drop_duplicates(inplace=True)

# Remove duplicates based on a specific column
df.drop_duplicates(subset='column_name', inplace=True)

# Remove duplicates based on specific columns
df = df.drop_duplicates(subset=['column_1', 'column_2'])

## Работа с выбросами

Обработка выбросов: выбросы могут оказать существенное влияние на ваш анализ и результаты. Вы можете обрабатывать выбросы, удаляя их или преобразуя с помощью таких методов, как логарифмическое преобразование.

In [None]:
# Remove outliers based on Z-score
z_score = np.abs(stats.zscore(df['column_name']))
df = df[z_score < 3]

# Remove outliers based on IQR
Q1 = df['column_name'].quantile(0.25)
Q3 = df['column_name'].quantile(0.75)
IQR = Q3 - Q1
df = df[~((df['column_name'] < (Q1 - 1.5 * IQR)) | (df['column_name'] > (Q3 + 1.5 * IQR)))]

## Преобразование типов данных

Преобразование типов данных: с помощью этого метода можно преобразовать данные из одного типа в другой astype. Это полезно, когда вы хотите убедиться, что определенный столбец имеет определенный тип данных, например, для преобразования всех значений в столбце в целые числа.

In [None]:
df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': ['5', '6', '7', '8']})

df['B'] = df['B'].astype(int)

print(df)

## Кодирование категориальных данных

In [None]:
# Use one-hot encoding to convert categorical data in column 'column_name'
df = pd.get_dummies(df, columns=['column_name'])

# Use label encoding to convert categorical data in column 'column_name'
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['column_name'] = le.fit_transform(df['column_name'])

## Нормализация числовых данных

In [None]:
# Normalize data in column 'column_name' using min-max scaling
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
df['column_name'] = scaler.fit_transform(df[['column_name']])

# Normalize data in column 'column_name' using Z-score normalization
from scipy import stats
df['column_name'] = (df['column_name'] - df['column_name'].mean()) / df['column_name'].std()