# Анализ данных

https://www.data-to-viz.com/

Библиотеки

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import pearsonr, spearmanr, chi2_contingency, ttest_ind, mannwhitneyu, shapiro
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error, mean_absolute_percentage_error

Важные функции pandas

In [None]:
df = pd.read_csv('data.csv', sep=',', skipinitialspace=True)     # Чтение
df = pd.read_excel('data.xlsx', sep=',', skipinitialspace=True)  # Чтение файла Excel
df.dropna()                                                      # Убрать пропуски
df[''].isna()                                                    # Маска по пропущенным значениям
df.fillna('')                                                    # Заменить пропуски на что-то
df.ffill()                                                       # Заполнить пропуски предыдущим значением
df.columns.str.replace(' ', '_').str.lower()                     # Приведение столбцов к pep8
df.dtypes
df.drop()                                                        # Убрать колонку
df.assign(new_col=[])                                            # Создать/изменить колонки
df[''].apply(lambda x: x)                                        # Применить к колонке
df.value_counts(normalize=True)                                  # Подсчитать кол-во значений (normalize=True - в долях)
df.rename(columns={'колонка': 'новое_название'})                 # Переименовать колонки
df.sort_index()                                                  # Отсортировать индексы
df.sort_values('колонка', ascending=True)                        # Отсортировать элементы, True - по возрастанию
df.groupby([], as_index=False)['колонка']                        # Группировка элементов
df.agg({'колонка': 'функция'})                                   # Агрегация: max, min, sum, mean, count, nunique, своя функция
df.transpose()                                                   # Транспонировать
df.describe(include=[], exclude=[])                              # Описание столбцов по основным метрикам
df.shape()                                                       # Кол-во строк и столбцов
df.query('покупательская_активность=="Снизилась"')               # Сортировка
df.mask()                                                        # Маска по условию
df.loc('строка', 'колонка')
df.loc['условие для строк, не в кавычках', 'для колонок']        # Аналог query, но лучше
df.loc[df[''].isin([])]                                          # Проверка по множеству значений
df.drop_duplicates()                                             # Убрать дупликаты
df[''].nunique()                                                 # Кол-во уникальных значений
df[''].unique()                                                  # Уникальные значения
df.merge(df1, how = 'inner', on = 'по_какой_колонке',
         left_on='левая_колонка', right_on='правая')             # Объединить таблицы, how=['outer', 'inner', 'left', 'right']; либо on, либо left_on и right_on
df.sample(n=3, random_state=1)                                   # Случайная выборка, n - кол-во, random_state - зерно
df.pivot(index='', columns='', values='')                        # Сводная таблица
df.explode('колонка')                                            # Раскрыть список на несколько строк
df.corr()                                                        # Корреляция всех колонок междду друг другом
df.to_csv('data_new.csv')                                        # Упаковать датафрейм в csv

# Преобразование к типам
df[''].astype('int64')                                           # int64, float64, object
pd.to_datetime(df[''], format='%d.%m.%Y')                        # %d - день, %m - месяц, %Y - год, %H - час, %M - минута, %S - секунда
df[''].to_frame()
pd.Series([], index=[])
pd.DataFrame({}, index=[])

# Работа с датами
df[''] >= pd.to_datetime('01.01.2000', format='%d.%m.%Y')         # Сравнение дат
df[''].dt.year                                                    # year, month, day, hour, minute, second
df[''].dt.round('D')                                              # Округление до D - дня, H - часа, T - минут, S - секунд, можно исп. функции floor, ceil
df[''].dt.to_period('M').dt.to_timestamp()                        # Округление вниз до M - месяца, Y - года

cur_date = pd.to_datetime('05.11.2023', format='%d.%m.%Y')
diff = cur_date - df['date']
diff.dt.total_seconds()                                           # Перевод в секунды разницы

Важные функции pyplot и seaborn

In [None]:
# Включить сетку
plt.grid(True)
# Название графика
plt.title('')
plt.ylabel('')
plt.hist(df[''], fill=True)                                      # Гистограмма
plt.pie(x=data,                                                  # Пирог
        labels=data.index,
        autopct='%1.1f%%')
# Сохранить график
plt.savefig('hist.png')
plt.show()
plt.legend(loc='lower center',                                   # Передвинуть легенду
           title='оператор_линии')                               # Переименовать легенду


# Настройка для более красивого отображения графиков с помощью seaborn.
sns.set(rc={'figure.figsize': (11.7, 8.27)})
graph.set(xlabel='', ylabel='')                                  # Названия осей
plot = sns.kdeplot(data=df,                                      # KDE-plot, датафрейм
                   x='колонка',                                  # По какой колонке
                   fill=True,
                   hue='колонка',                                # Значения из какой колонки
                   hue_order=[],
                   multiple='stack',
                   legend=True,                                  # Включить легенду
                   ax=axes[0])                                   # Для subplot
sns.countplot(y=df[''],
              order=df[''].value_counts.index,
              orient='h')                                        # Столбчатая диаграмма
sns.histplot(data=df,
             x='колонка',
             bins=20,
             kde=True)
sns.lineplot()
sns.boxplot(data=df, x='', y='')                                 # Ящик с усами (диаграмма размаха)
sns.scatterplot(data=df,
                x='',
                y='',
                hue_order='',
                legend='brief')                                  # Диаграмма рассеяния
sns.regplot()                                                    # Диаграмма рассеяния с отображением линии
sns.swarmplot()                                                  # Диаграмма рассеяния для категориальных
sns.pairplot(data=df,
             hue='')                                             # График попарных зависимостей
sns.heatmap(data, annot=True, fmt='g',
            vmin='min знач', vmax='max знач',
            cmap=sns.diverging_palette())                        # Тепловая карта по готовой таблице
sns.move_legend()                                                # Передвинуть легенду
plot.get_figure().savefig('kde.png')                             # Сохранить график

# Вертикальная линия
ax[0].axvline('число',
              color='r',
              linestyle='--',
              label='')
# Горизонтальная линия
ax[0].axhline('число',
              color='r',
              linestyle='--',
              label='')

fig, axes = plt.subplots(1, 2, figsize=(9, 3), dpi=300)
fig.suptitle('Название')

## Функция для первичной проверки данных

In [None]:
def check_data(data_df):
    print ('\033[1m' + 'Изучим исходные данные'+ '\033[0m')
    print(data_df.info())
    #print(data_df.shape)
        
    missed_cells = data_df.isnull().sum().sum()/(data_df.shape[0]*(data_df.shape[1]-1))
    missed_rows = sum(data_df.isnull().sum(axis = 1)>0)/data_df.shape[0]
    print ('\033[1m' + '\nПроверка пропусков'+ '\033[0m')
    print ('Количество пропусков: {:.0f}'.format(data_df.isnull().sum().sum()))
    print ('Доля пропусков: {:.1%}'.format(missed_cells)+ '\033[0m')
    print ('Доля строк, содержащих пропуски: {:.1%}'.format(missed_rows))

    ## Проверим дубликаты
    print ('\033[1m' + '\nПроверка на дубликаты'+ '\033[0m')
    print('Количество полных дубликатов: ', data_df.duplicated().sum())
        
    ## Посмотрим на сами данные
    print ('\033[1m' + '\nПервые десять строк датасета'+ '\033[0m')
    display(data_df.head(10))
    
    print('\033[1m' + '\nОписание количественных данных:'+ '\033[0m')
    display(data_df.describe().T)
    
    print('\033[1m' + '\nОписание категориальных данных:'+ '\033[0m')
    display(data_df.describe(include='object').T) 
    
    
    print('\033[1m' + '\nВывод уникальных значений по каждому категориальному признаку:'+ '\033[0m')    
    df_object = data_df.select_dtypes(include='object').columns
    
    for i in df_object:
        print('\033[1m' + '_'+ str(i) + '\033[0m')
        display(data_df[i].value_counts())

## Функция для количественных переменных

In [None]:
def plot_hist(data, col_column):
    '''
    Функция отрисовки гистограмм и ящика с усами для количественных переменных.
    На вход: исходная таблица и список количественных переменных.
    На выходе: графики
    '''
    rows = len(col_column)
    f, ax = plt.subplots(rows,2, figsize=(8, 15))
    f.tight_layout()
    f.set_figheight(30)
    f.set_figwidth(14)
    plt.rcParams.update({'font.size': 18})
    
    for i, col in enumerate(col_column):         
        sns.histplot(data[col], kde=True, bins=24, ax = ax[i, 0])                    
        sns.boxplot(data[col], ax = ax[i, 1])

        ax[i, 0].set_xlabel(col)
        ax[i, 1].set_xlabel(col)
        ax[i, 0].set_ylabel('Количество')
    plt.suptitle("Гистограмма и ящик с усами для количественных данных", fontsize=22, y=1.01)
    plt.show()

## Отрисовка круговых диаграмм для категориальных переменных

In [1]:
def cat_graph(df, cat_feat):
    
    '''
    Функция отрисовки круговых диаграмм для категориальных переменных.
    На вход: исходная таблица и список категориальных переменных.
    На выходе: графики
    '''
  
    params = {'axes.labelsize' : 12, 'figure.titlesize': 12,
              'xtick.labelsize': 10, 'ytick.labelsize': 10
             }
    plt.rcParams.update(params)

    colors = sns.color_palette('pastel')[ 0:10 ]
        
    cols = 2
    rows = int(np.ceil(len(cat_feat) / cols))

    fig, axs = plt.subplots(rows, cols, figsize = (10,10))
    plt.tight_layout()

    count = -1
    for i in range(rows):
        for x in range(cols):
            count+=1
            col = cat_feat[count]
            df1 = pd.DataFrame(df.groupby([col])[col].count())
            axs[i,x].pie(x=df1[col], colors = colors,
                         labels=df1.index, 
                         autopct='%1.1f%%',)
            axs[i,x].title.set_text(str(col))

    plt.suptitle('Круговые диаграммы категориальных признаков')

    plt.show()

# Пример
cat_graph(df, df.select_dtypes(include=[object]).columns)

NameError: name 'df' is not defined

## Функция для проверки на нормальность данных

In [None]:
def normal_sum_test(x, Ptest):
    """
    Функция проверяет нормальность/ненормальность распределения
    по сумме 3-х тестов: Шапиро, Андерсона-Дарлинга, Харке-Бера

    На выходе:
    1 - ненормальное распределение
    0 - нормальное распредление

    Принцип большинства заложен.
    Внутри есть функция расчёта критерия Андерсона, исходя из уровня значимости
    """

    def anderson_chois_sig(A, Ptest):
        if Ptest == 0.05:
            ander = A[2]
        elif Ptest == 0.01:
            ander = A[4]
        return ander

    def normalnost_anderson(x, Ptest):
        A2, crit, sig = anderson(x, dist='norm')
        ad_pass = (A2 < crit)
        norm = anderson_chois_sig(ad_pass, Ptest)
        if norm == False:
            return 1
        return 0
   # print(x)
    p_shapiro = shapiro(x)[1]
    p_jarque = jarque_bera(x)[1]

    if p_shapiro < Ptest:
        p_shapiros = 1
    else:
        p_shapiros = 0

    if p_jarque < Ptest:
        p_jarques = 1
    else:
        p_jarques = 0

    p_anderson = normalnost_anderson(x, Ptest)  # 1 - ненормальное, 0 - нормальное

    p_sum = p_shapiros + p_anderson + p_jarques

    if (p_sum > 1):
        return 1
    else:
        return 0

# Корреляции

-Для одинаковых факторов:

--Номинальная: критерий "хи-квадрат"

In [None]:
df_ct = pd.crosstab(df['колонка1'], df['колонка2'])            # Таблица частот
print(df_ct)
n = df_ct.sum().sum()
chi = scipy.stats.chi2_contingency(df_ct)[0]
r, k = df_ct.shape
ans = np.sqrt(chi / (n * min((r - 1), (k - 1))))

--Количественная (нормальная): корреляция Пирсона

In [None]:
df.corr(method='pearson')

--Количественная (ненормальная): корреляция Спирмена


In [None]:
df.corr(method='spearman') 

-Для количественной и номинальной: отношение дисперсий

Подсчёт корректированного объёма выборки с учётом генеральной совокупности, предела погрешности, объёма выборки

In [None]:
def corr_n(N, n):
    '''
    Подсчёт корректированного объёма выборки с учётом генеральной совокупности
    '''
    return (n * N) / (N + n - 1)


def count_H(z, p, n):
    '''
    Подсчёт предела погрешности
    '''
    return z * np.sqrt(p * (1 - p) / n)


def count_n(z, p, H):
    '''
    Подсчёт объёма выборки
    '''
    return z ** 2 / H ** 2 * p * (1 - p)

## Расчёт p-value

Количественная-количественная

-Нормальное распределение

In [None]:
pearsonr(df[''], df[''])

-Ненормальное распределение

In [None]:
spearmanr(df[''], df[''])

Номинальная-номинальная

In [None]:
contingency_table = pd.crosstab(df[''], df[''])
chi2_contingency(contingency_table)

Количественная-номинальная

-Все имеют нормальное распределение

In [None]:
ttest_ind(df[''], df[''], equal_var=False)

-Не все имеют нормальное распределение

In [None]:
mannwhitneyu(df[''], df[''], alternative='two-sided')

## Проверка на нормальность

In [None]:
shapiro(df[''])[1] >= 0.05

Форматирование Shift+Alt+F в VS Code либо Alt+A в Jupyter

# Модель линейной регрессии

In [None]:
x_train, x_test, y_train, y_test = train_test_split(feature, target, test_size=0.15, random_state=42)

In [None]:
def get_ohe(train, categ):
    '''
    Функция для ohe_категоризации необходимых столбцов и последующего объединения с количественными столбцами
    
    На вход: выборка трайн или тест И названия категориальных столбцов
    '''
    temp_df = pd.DataFrame(data=ohe.transform(train[[categ]]), columns=ohe.get_feature_names_out())
    data = pd.concat([train.reset_index(drop=True), temp_df], axis=1)
    data = data.drop(columns=categ, axis=1)
    return data