#### 1 Создание фрейма данных

In [7]:
import numpy as np
import pandas as pd 

In [8]:
pip install pandas

Note: you may need to restart the kernel to use updated packages.


Ядром pandas являются две структуры данных, в которых происходят все операции: Series и DataFrames.

Series — это объект библиотеки pandas, спроектированный для представления одномерных структур данных, похожих на массивы, но с дополнительными возможностями. Его структура проста, ведь он состоит из двух связанных между собой массивов. Основной содержит данные (данные любого типа NumPy), а в дополнительном, index, хранятся метки.

#### Создание объекта Series

Для создания объекта Series необходимо вызвать конструктор Series() и передать в качестве аргумента массив, содержащий значения, которые необходимо включить.

In [9]:
letters = ['a', 'b', 'c']
numbers = [1, 2, 3]
arr = np.array(numbers)
dict = {'a':1, 'b':2, 'c':3}

In [10]:
pd.Series(numbers)

0    1
1    2
2    3
dtype: int64

In [11]:
pd.Series(data=numbers, index=letters)

a    1
b    2
c    3
dtype: int64

In [12]:
pd.Series(numbers, letters)

a    1
b    2
c    3
dtype: int64

In [13]:
pd.Series(dict)

a    1
b    2
c    3
dtype: int64

Если объект Series — аналог одномерного массива с гибкими индексами, объект DataFrame — аналог двумерного массива с гибкими индексами строк и гибкими именами столбцов. Аналогично тому, что двумерный массив можно рассматривать как упорядоченную последовательность выровненных столбцов, объект DataFrame можно рассматривать как упорядоченную последовательность выровненных объектов Series. Под «выровненными» имеется в виду то, что они используют один и тот же индекс.

#### Создание объекта DataFrame

In [14]:
df = pd.DataFrame(np.random.randn(4, 5), [1, 2, 3, 4], ['red', 'orange', 'yellow', 'green', 'blue'])

In [15]:
df

Unnamed: 0,red,orange,yellow,green,blue
1,0.935878,0.154151,-1.130977,-0.301253,0.429861
2,0.580237,0.859573,-0.295181,-0.267803,-0.251859
3,-0.600491,0.380556,-0.374357,-0.704712,0.049315
4,-0.95101,0.656388,-0.53492,-0.765766,-1.288834


In [16]:
df.columns

Index(['red', 'orange', 'yellow', 'green', 'blue'], dtype='object')

In [17]:
df.index

Index([1, 2, 3, 4], dtype='int64')

In [18]:
df['orange']

1    0.154151
2    0.859573
3    0.380556
4    0.656388
Name: orange, dtype: float64

In [19]:
type(df)

pandas.core.frame.DataFrame

In [20]:
type(df['orange'])

pandas.core.series.Series

In [21]:
df[['yellow', 'blue']]

Unnamed: 0,yellow,blue
1,-1.130977,0.429861
2,-0.295181,-0.251859
3,-0.374357,0.049315
4,-0.53492,-1.288834


In [22]:
df['indigo'] = df['blue']

In [23]:
df

Unnamed: 0,red,orange,yellow,green,blue,indigo
1,0.935878,0.154151,-1.130977,-0.301253,0.429861,0.429861
2,0.580237,0.859573,-0.295181,-0.267803,-0.251859,-0.251859
3,-0.600491,0.380556,-0.374357,-0.704712,0.049315,0.049315
4,-0.95101,0.656388,-0.53492,-0.765766,-1.288834,-1.288834


In [24]:
df['violet'] = df['blue'] + df['indigo']

In [25]:
df

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,0.935878,0.154151,-1.130977,-0.301253,0.429861,0.429861,0.634625
2,0.580237,0.859573,-0.295181,-0.267803,-0.251859,-0.251859,0.312434
3,-0.600491,0.380556,-0.374357,-0.704712,0.049315,0.049315,-1.305203
4,-0.95101,0.656388,-0.53492,-0.765766,-1.288834,-1.288834,-1.716776


#### Навигация по фреймам данных

Для выбора одной или нескольких строк либо значений использовать методы lос или iloc. Все строки во фрейме данных pandas имеют уникальное индексное значение. По умолчанию этот индекс является целым числом, указывающим на положение строки во фрейме данных; однако это не обязательно. Метод lос полезен, когда индекс фрейма является меткой (например, строковым значением). Метод iloc работает, отыскивая позицию во фрейме данных (по номеру индекса).

In [73]:
df.loc[2]

red       0.121921
orange   -1.098770
yellow    1.454795
green     0.184068
blue     -0.124973
indigo   -0.124973
violet   -0.249946
Name: 2, dtype: float64

In [74]:
df.iloc[1]

red       0.121921
orange   -1.098770
yellow    1.454795
green     0.184068
blue     -0.124973
indigo   -0.124973
violet   -0.249946
Name: 2, dtype: float64

In [75]:
df.iloc[2] = df.iloc[1]

In [76]:
df

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,-0.154908,-0.53761,0.413599,-1.138558,-0.068307,-0.068307,-0.136613
2,0.121921,-1.09877,1.454795,0.184068,-0.124973,-0.124973,-0.249946
3,0.121921,-1.09877,1.454795,0.184068,-0.124973,-0.124973,-0.249946
4,-1.439265,-1.068522,0.093155,0.684097,-1.433542,-1.433542,-2.867084


In [77]:
df.loc[3, 'orange']

-1.098769870468608

In [78]:
df.iloc[2, 1]

-1.098769870468608

In [79]:
df.loc[[1,3], ['blue', 'violet']]

Unnamed: 0,blue,violet
1,-0.068307,-0.136613
3,-0.124973,-0.249946


#### Выбор строк на основе условных конструкций

In [80]:
df[df > 0]

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,,,0.413599,,,,
2,0.121921,,1.454795,0.184068,,,
3,0.121921,,1.454795,0.184068,,,
4,,,0.093155,0.684097,,,


In [86]:
df['red'] > 0

1    False
2     True
3     True
4    False
Name: red, dtype: bool

In [87]:
df[df['red']>0]

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
2,0.121921,-1.09877,1.454795,0.184068,-0.124973,-0.124973,-0.249946
3,0.121921,-1.09877,1.454795,0.184068,-0.124973,-0.124973,-0.249946


In [88]:
df[df['red']>0]['green']

2    0.184068
3    0.184068
Name: green, dtype: float64

In [90]:
df[df['red']>0][['green','blue']]

Unnamed: 0,green,blue
2,0.184068,-0.124973
3,0.184068,-0.124973


In [92]:
df[(df['red']>0) & (df['yellow']<0)]

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet


In [94]:
df[(df['red']>0) | (df['yellow']<0)]

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
2,0.121921,-1.09877,1.454795,0.184068,-0.124973,-0.124973,-0.249946
3,0.121921,-1.09877,1.454795,0.184068,-0.124973,-0.124973,-0.249946


#### Удаление строк

In [95]:
# удаление строк axis = 0 столбец axis = 1  inplace=False без удаления из датафрейма, inplace=True с удалением
df.drop(3)

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,-0.154908,-0.53761,0.413599,-1.138558,-0.068307,-0.068307,-0.136613
2,0.121921,-1.09877,1.454795,0.184068,-0.124973,-0.124973,-0.249946
4,-1.439265,-1.068522,0.093155,0.684097,-1.433542,-1.433542,-2.867084


In [96]:
df

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,-0.154908,-0.53761,0.413599,-1.138558,-0.068307,-0.068307,-0.136613
2,0.121921,-1.09877,1.454795,0.184068,-0.124973,-0.124973,-0.249946
3,0.121921,-1.09877,1.454795,0.184068,-0.124973,-0.124973,-0.249946
4,-1.439265,-1.068522,0.093155,0.684097,-1.433542,-1.433542,-2.867084


In [97]:
df.drop(3, inplace = True)

In [98]:
df

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,-0.154908,-0.53761,0.413599,-1.138558,-0.068307,-0.068307,-0.136613
2,0.121921,-1.09877,1.454795,0.184068,-0.124973,-0.124973,-0.249946
4,-1.439265,-1.068522,0.093155,0.684097,-1.433542,-1.433542,-2.867084


In [99]:
df.drop('indigo', axis = 1, inplace = True)

In [100]:
df

Unnamed: 0,red,orange,yellow,green,blue,violet
1,-0.154908,-0.53761,0.413599,-1.138558,-0.068307,-0.136613
2,0.121921,-1.09877,1.454795,0.184068,-0.124973,-0.249946
4,-1.439265,-1.068522,0.093155,0.684097,-1.433542,-2.867084


####  Удаление повторяющихся строк

Метод drop_duplicates() по умолчанию отбрасывает только те строки, которые идеально совпадают по всем столбцам. 

In [101]:
df.iloc[2] = df.iloc[1]

In [102]:
df

Unnamed: 0,red,orange,yellow,green,blue,violet
1,-0.154908,-0.53761,0.413599,-1.138558,-0.068307,-0.136613
2,0.121921,-1.09877,1.454795,0.184068,-0.124973,-0.249946
4,0.121921,-1.09877,1.454795,0.184068,-0.124973,-0.249946


In [103]:
# Удалить дубликаты, показать строки  
df.drop_duplicates().head()

Unnamed: 0,red,orange,yellow,green,blue,violet
1,-0.154908,-0.53761,0.413599,-1.138558,-0.068307,-0.136613
2,0.121921,-1.09877,1.454795,0.184068,-0.124973,-0.249946


In [104]:
df

Unnamed: 0,red,orange,yellow,green,blue,violet
1,-0.154908,-0.53761,0.413599,-1.138558,-0.068307,-0.136613
2,0.121921,-1.09877,1.454795,0.184068,-0.124973,-0.249946
4,0.121921,-1.09877,1.454795,0.184068,-0.124973,-0.249946


In [105]:
df = df.drop_duplicates().head()

In [106]:
df

Unnamed: 0,red,orange,yellow,green,blue,violet
1,-0.154908,-0.53761,0.413599,-1.138558,-0.068307,-0.136613
2,0.121921,-1.09877,1.454795,0.184068,-0.124973,-0.249946


Чтобы выполнить проверку на наличие повторяющихся строк, нередко требуется рассмотреть только подмножество столбцов. Это можно сделать с помощью параметра subset. Метод drop_duplicates по умолчанию сохраняет первое появление повторяющейся строки и удаляет остальные

In [107]:
df.loc[1,'red'] = df.loc[2,'red']

In [108]:
df

Unnamed: 0,red,orange,yellow,green,blue,violet
1,0.121921,-0.53761,0.413599,-1.138558,-0.068307,-0.136613
2,0.121921,-1.09877,1.454795,0.184068,-0.124973,-0.249946


In [109]:
df.drop_duplicates(subset=['red'])

Unnamed: 0,red,orange,yellow,green,blue,violet
1,0.121921,-0.53761,0.413599,-1.138558,-0.068307,-0.136613


In [110]:
df

Unnamed: 0,red,orange,yellow,green,blue,violet
1,0.121921,-0.53761,0.413599,-1.138558,-0.068307,-0.136613
2,0.121921,-1.09877,1.454795,0.184068,-0.124973,-0.249946


#### Замена значений

In [111]:
df['orange'].mean()

-0.8181901788919805

In [112]:
# Заменить значения 
df['red'].replace(df.loc[1, 'red'],df['orange'].mean(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['red'].replace(df.loc[1, 'red'],df['orange'].mean(), inplace=True)


In [114]:
df

Unnamed: 0,red,orange,yellow,green,blue,violet
1,-0.81819,-0.53761,0.413599,-1.138558,-0.068307,-0.136613
2,-0.81819,-1.09877,1.454795,0.184068,-0.124973,-0.249946


#### Работа с индексами

reset_index() — это метод сброса индекса фрейма данных. Метод .reset_index () задает список целых чисел от 0 до длины данных в качестве индекса.

In [115]:
df.reset_index()
# inplace = True

Unnamed: 0,index,red,orange,yellow,green,blue,violet
0,1,-0.81819,-0.53761,0.413599,-1.138558,-0.068307,-0.136613
1,2,-0.81819,-1.09877,1.454795,0.184068,-0.124973,-0.249946


In [117]:
z1 = [2, 3]
df['Z1'] = z1

In [118]:
df

Unnamed: 0,red,orange,yellow,green,blue,violet,Z1
1,-0.81819,-0.53761,0.413599,-1.138558,-0.068307,-0.136613,2
2,-0.81819,-1.09877,1.454795,0.184068,-0.124973,-0.249946,3


In [119]:
df.set_index('Z1')

Unnamed: 0_level_0,red,orange,yellow,green,blue,violet
Z1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2,-0.81819,-0.53761,0.413599,-1.138558,-0.068307,-0.136613
3,-0.81819,-1.09877,1.454795,0.184068,-0.124973,-0.249946


#### Переименование столбцов

In [120]:
# Переименовать столбец, показать две строки
df.rename(columns={'red': 'Red'}).head()

Unnamed: 0,Red,orange,yellow,green,blue,violet,Z1
1,-0.81819,-0.53761,0.413599,-1.138558,-0.068307,-0.136613,2
2,-0.81819,-1.09877,1.454795,0.184068,-0.124973,-0.249946,3


In [121]:
df

Unnamed: 0,red,orange,yellow,green,blue,violet,Z1
1,-0.81819,-0.53761,0.413599,-1.138558,-0.068307,-0.136613,2
2,-0.81819,-1.09877,1.454795,0.184068,-0.124973,-0.249946,3


In [122]:
df.rename(columns={'red': 'Red'}, inplace=True)

In [123]:
df

Unnamed: 0,Red,orange,yellow,green,blue,violet,Z1
1,-0.81819,-0.53761,0.413599,-1.138558,-0.068307,-0.136613,2
2,-0.81819,-1.09877,1.454795,0.184068,-0.124973,-0.249946,3
