# Операции с DataFrame

In [1]:
import pandas as pd
import numpy as np

## Создание из словаря

In [2]:
feature_1 = np.arange(1, 6, 1)
feature_2 = np.arange(21, 26, 1)

dataframe_1 = pd.DataFrame({ 'feature_1': feature_1, 'feature_2': feature_2 })
dataframe_1

Unnamed: 0,feature_1,feature_2
0,1,21
1,2,22
2,3,23
3,4,24
4,5,25


In [3]:
feature_1 = np.arange(101, 106, 1)
feature_2 = np.arange(201, 206, 1)

dataframe_2 = pd.DataFrame({ 'feature_1': feature_1, 'feature_2': feature_2 })
dataframe_2

Unnamed: 0,feature_1,feature_2
0,101,201
1,102,202
2,103,203
3,104,204
4,105,205


## Соединение таблиц

In [4]:
dataframe_3 = coef_df = pd.concat([dataframe_1, dataframe_2], ignore_index=True)
dataframe_3

Unnamed: 0,feature_1,feature_2
0,1,21
1,2,22
2,3,23
3,4,24
4,5,25
5,101,201
6,102,202
7,103,203
8,104,204
9,105,205


## Создание из многомерного массива

In [5]:
table_data = [
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9],
    [10, 11, 12],
    [13, 14, 15],
    [16, 17, 18],
    [19, 20, 21],
    [22, 23, 24],
    [25, 26, 27],
    [28, 29, 30]
]
dataframe_4 = pd.DataFrame(
    table_data, 
    columns=['feature_3', 'feature_4', 'feature_5']
)
dataframe_4

Unnamed: 0,feature_3,feature_4,feature_5
0,1,2,3
1,4,5,6
2,7,8,9
3,10,11,12
4,13,14,15
5,16,17,18
6,19,20,21
7,22,23,24
8,25,26,27
9,28,29,30


## Объединение таблиц по вертикали

In [6]:
# Объединяем таблицы по вертикальной оси
dataframe_5 = pd.concat([dataframe_3, dataframe_4], axis=1)
dataframe_5

Unnamed: 0,feature_1,feature_2,feature_3,feature_4,feature_5
0,1,21,1,2,3
1,2,22,4,5,6
2,3,23,7,8,9
3,4,24,10,11,12
4,5,25,13,14,15
5,101,201,16,17,18
6,102,202,19,20,21
7,103,203,22,23,24
8,104,204,25,26,27
9,105,205,28,29,30


## Проверить наличие пропусков

In [7]:
display(dataframe_5.isnull().sum())

feature_1    0
feature_2    0
feature_3    0
feature_4    0
feature_5    0
dtype: int64

## Удалить пропуски

In [8]:
dataframe_5 = dataframe_5.dropna()

## Посмотреть на типы данных

In [9]:
display(dataframe_5.dtypes)

feature_1    int32
feature_2    int32
feature_3    int64
feature_4    int64
feature_5    int64
dtype: object

## Удалить столбец

In [10]:
dataframe_5.head()

Unnamed: 0,feature_1,feature_2,feature_3,feature_4,feature_5
0,1,21,1,2,3
1,2,22,4,5,6
2,3,23,7,8,9
3,4,24,10,11,12
4,5,25,13,14,15


In [11]:
dataframe_5.drop(columns=['feature_5'], inplace=True)

dataframe_5.head()

Unnamed: 0,feature_1,feature_2,feature_3,feature_4
0,1,21,1,2
1,2,22,4,5
2,3,23,7,8
3,4,24,10,11
4,5,25,13,14


## Выбрать несколько случайных строк

In [12]:
# 5 - количество строк, random_state - для воспроизводимости случайных вычислений
dataframe_5.sample(5, random_state=42)

Unnamed: 0,feature_1,feature_2,feature_3,feature_4
8,104,204,25,26
1,2,22,4,5
5,101,201,16,17
0,1,21,1,2
7,103,203,22,23


## Поменять тип столбца

In [14]:
dataframe_5['feature_4'] = dataframe_5['feature_4'].astype(str)

dataframe_5.info()

## Выделить массив с именами столбцов определенного типа

In [16]:
types = dataframe_5.dtypes
cat_features = list(types[(types == 'object')].index)
cat_features

['feature_4']