#### 1 Создание фрейма данных

In [1]:
import numpy as np
import pandas as pd

In [2]:
pip install pandas

Note: you may need to restart the kernel to use updated packages.


Ядром pandas являются две структуры данных, в которых происходят все операции: Series и DataFrames.

Series — это объект библиотеки pandas, спроектированный для представления одномерных структур данных, похожих на массивы, но с дополнительными возможностями. Его структура проста, ведь он состоит из двух связанных между собой массивов. Основной содержит данные (данные любого типа NumPy), а в дополнительном, index, хранятся метки.

#### Создание объекта Series

Для создания объекта Series необходимо вызвать конструктор Series() и передать в качестве аргумента массив, содержащий значения, которые необходимо включить.

In [2]:
letters = ['a', 'b', 'c']
numbers = [1, 2, 3]
arr = np.array(numbers)
dict = {'a':1, 'b':2, 'c':3}

In [3]:
pd.Series(numbers)

0    1
1    2
2    3
dtype: int64

In [4]:
pd.Series(data=numbers, index=letters)

a    1
b    2
c    3
dtype: int64

In [5]:
pd.Series(numbers, letters)

a    1
b    2
c    3
dtype: int64

In [6]:
pd.Series(dict)

a    1
b    2
c    3
dtype: int64

Если объект Series — аналог одномерного массива с гибкими индексами, объект DataFrame — аналог двумерного массива с гибкими индексами строк и гибкими именами столбцов. Аналогично тому, что двумерный массив можно рассматривать как упорядоченную последовательность выровненных столбцов, объект DataFrame можно рассматривать как упорядоченную последовательность выровненных объектов Series. Под «выровненными» имеется в виду то, что они используют один и тот же индекс.

#### Создание объекта DataFrame

In [7]:
df = pd.DataFrame(np.random.randn(4, 5), [1, 2, 3, 4], ['red', 'orange', 'yellow', 'green', 'blue'])

In [8]:
df

Unnamed: 0,red,orange,yellow,green,blue
1,-0.064425,0.261506,-0.936228,-0.058797,0.580962
2,1.834371,-0.048077,1.742158,-0.241337,-0.319256
3,-1.375283,-0.488441,0.563355,1.352292,-0.718153
4,-1.197001,-0.045782,1.807727,-0.330784,-0.398636


In [9]:
df.columns

Index(['red', 'orange', 'yellow', 'green', 'blue'], dtype='object')

In [10]:
df.index

Index([1, 2, 3, 4], dtype='int64')

In [11]:
df['orange']

1    0.261506
2   -0.048077
3   -0.488441
4   -0.045782
Name: orange, dtype: float64

In [12]:
type(df)

pandas.core.frame.DataFrame

In [13]:
type(df['orange'])

pandas.core.series.Series

In [14]:
df[['yellow', 'blue']]

Unnamed: 0,yellow,blue
1,-0.936228,0.580962
2,1.742158,-0.319256
3,0.563355,-0.718153
4,1.807727,-0.398636


In [15]:
df['indigo'] = df['blue']

In [16]:
df

Unnamed: 0,red,orange,yellow,green,blue,indigo
1,-0.064425,0.261506,-0.936228,-0.058797,0.580962,0.580962
2,1.834371,-0.048077,1.742158,-0.241337,-0.319256,-0.319256
3,-1.375283,-0.488441,0.563355,1.352292,-0.718153,-0.718153
4,-1.197001,-0.045782,1.807727,-0.330784,-0.398636,-0.398636


In [17]:
df['violet'] = df['blue'] + df['indigo']

In [18]:
df

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,-0.064425,0.261506,-0.936228,-0.058797,0.580962,0.580962,1.161923
2,1.834371,-0.048077,1.742158,-0.241337,-0.319256,-0.319256,-0.638513
3,-1.375283,-0.488441,0.563355,1.352292,-0.718153,-0.718153,-1.436306
4,-1.197001,-0.045782,1.807727,-0.330784,-0.398636,-0.398636,-0.797272


#### Навигация по фреймам данных

Для выбора одной или нескольких строк либо значений использовать методы lос или iloc. Все строки во фрейме данных pandas имеют уникальное индексное значение. По умолчанию этот индекс является целым числом, указывающим на положение строки во фрейме данных; однако это не обязательно. Метод lос полезен, когда индекс фрейма является меткой (например, строковым значением). Метод iloc работает, отыскивая позицию во фрейме данных (по номеру индекса).

In [19]:
df.loc[2]

red       1.834371
orange   -0.048077
yellow    1.742158
green    -0.241337
blue     -0.319256
indigo   -0.319256
violet   -0.638513
Name: 2, dtype: float64

In [20]:
df.iloc[1]

red       1.834371
orange   -0.048077
yellow    1.742158
green    -0.241337
blue     -0.319256
indigo   -0.319256
violet   -0.638513
Name: 2, dtype: float64

In [21]:
df.iloc[2] = df.iloc[1]

In [22]:
df

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,-0.064425,0.261506,-0.936228,-0.058797,0.580962,0.580962,1.161923
2,1.834371,-0.048077,1.742158,-0.241337,-0.319256,-0.319256,-0.638513
3,1.834371,-0.048077,1.742158,-0.241337,-0.319256,-0.319256,-0.638513
4,-1.197001,-0.045782,1.807727,-0.330784,-0.398636,-0.398636,-0.797272


In [23]:
df.loc[3, 'orange']

-0.048077002498832844

In [24]:
df.iloc[2, 1]

-0.048077002498832844

In [25]:
df.loc[[1,3], ['blue', 'violet']]

Unnamed: 0,blue,violet
1,0.580962,1.161923
3,-0.319256,-0.638513


#### Выбор строк на основе условных конструкций

In [26]:
df[df > 0]

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,,0.261506,,,0.580962,0.580962,1.161923
2,1.834371,,1.742158,,,,
3,1.834371,,1.742158,,,,
4,,,1.807727,,,,


In [27]:
df['yellow'] > 0

1    False
2     True
3     True
4     True
Name: yellow, dtype: bool

In [28]:
df[df['yellow']<0]

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,-0.064425,0.261506,-0.936228,-0.058797,0.580962,0.580962,1.161923


In [29]:
df[df['yellow']<0]['green']

1   -0.058797
Name: green, dtype: float64

In [30]:
df[df['yellow']<0][['green','blue']]

Unnamed: 0,green,blue
1,-0.058797,0.580962


In [31]:
df[(df['blue']>0) & (df['yellow']<0)]

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,-0.064425,0.261506,-0.936228,-0.058797,0.580962,0.580962,1.161923


In [32]:
df[(df['blue']>0) | (df['yellow']<0)]

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,-0.064425,0.261506,-0.936228,-0.058797,0.580962,0.580962,1.161923


#### Удаление строк

In [33]:
# удаление строк axis = 0 столбец axis = 1  inplace=False без удаления из датафрейма, inplace=True с удалением
df.drop(3)

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,-0.064425,0.261506,-0.936228,-0.058797,0.580962,0.580962,1.161923
2,1.834371,-0.048077,1.742158,-0.241337,-0.319256,-0.319256,-0.638513
4,-1.197001,-0.045782,1.807727,-0.330784,-0.398636,-0.398636,-0.797272


In [34]:
df

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,-0.064425,0.261506,-0.936228,-0.058797,0.580962,0.580962,1.161923
2,1.834371,-0.048077,1.742158,-0.241337,-0.319256,-0.319256,-0.638513
3,1.834371,-0.048077,1.742158,-0.241337,-0.319256,-0.319256,-0.638513
4,-1.197001,-0.045782,1.807727,-0.330784,-0.398636,-0.398636,-0.797272


In [35]:
df.drop(3, inplace = True)

In [36]:
df

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,-0.064425,0.261506,-0.936228,-0.058797,0.580962,0.580962,1.161923
2,1.834371,-0.048077,1.742158,-0.241337,-0.319256,-0.319256,-0.638513
4,-1.197001,-0.045782,1.807727,-0.330784,-0.398636,-0.398636,-0.797272


In [106]:
df.drop('indigo', axis = 1, inplace = True)

In [107]:
df

Unnamed: 0,red,orange,yellow,green,blue,violet
1,0.461973,-1.495151,0.102814,0.808212,-0.075688,-0.151376
2,0.932187,0.768222,-0.522179,-0.696424,-0.644207,-1.288414
4,0.384867,-0.429722,0.802012,-0.035887,-0.043217,-0.086434


####  Удаление повторяющихся строк

Метод drop_duplicates() по умолчанию отбрасывает только те строки, которые идеально совпадают по всем столбцам. 

In [37]:
df.iloc[2] = df.iloc[1]

In [39]:
df

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,-0.064425,0.261506,-0.936228,-0.058797,0.580962,0.580962,1.161923
2,1.834371,-0.048077,1.742158,-0.241337,-0.319256,-0.319256,-0.638513
4,1.834371,-0.048077,1.742158,-0.241337,-0.319256,-0.319256,-0.638513


In [40]:
# Удалить дубликаты, показать строки  
df.drop_duplicates().head()

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,-0.064425,0.261506,-0.936228,-0.058797,0.580962,0.580962,1.161923
2,1.834371,-0.048077,1.742158,-0.241337,-0.319256,-0.319256,-0.638513


In [41]:
df

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,-0.064425,0.261506,-0.936228,-0.058797,0.580962,0.580962,1.161923
2,1.834371,-0.048077,1.742158,-0.241337,-0.319256,-0.319256,-0.638513
4,1.834371,-0.048077,1.742158,-0.241337,-0.319256,-0.319256,-0.638513


In [42]:
df = df.drop_duplicates().head()

In [43]:
df

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,-0.064425,0.261506,-0.936228,-0.058797,0.580962,0.580962,1.161923
2,1.834371,-0.048077,1.742158,-0.241337,-0.319256,-0.319256,-0.638513


Чтобы выполнить проверку на наличие повторяющихся строк, нередко требуется рассмотреть только подмножество столбцов. Это можно сделать с помощью параметра subset. Метод drop_duplicates по умолчанию сохраняет первое появление повторяющейся строки и удаляет остальные

In [44]:
df.loc[1,'red'] = df.loc[2,'red']

In [45]:
df

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,1.834371,0.261506,-0.936228,-0.058797,0.580962,0.580962,1.161923
2,1.834371,-0.048077,1.742158,-0.241337,-0.319256,-0.319256,-0.638513


In [46]:
df.drop_duplicates(subset=['red'])

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,1.834371,0.261506,-0.936228,-0.058797,0.580962,0.580962,1.161923


#### Замена значений

In [47]:
df['orange'].mean()

0.10671440026236967

In [48]:
# Заменить значения 
df['red'].replace(df.loc[1, 'red'],df['orange'].mean(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['red'].replace(df.loc[1, 'red'],df['orange'].mean(), inplace=True)


In [49]:
df

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,0.106714,0.261506,-0.936228,-0.058797,0.580962,0.580962,1.161923
2,0.106714,-0.048077,1.742158,-0.241337,-0.319256,-0.319256,-0.638513


#### Работа с индексами

reset_index() — это метод сброса индекса фрейма данных. Метод .reset_index () задает список целых чисел от 0 до длины данных в качестве индекса.

In [50]:
df.reset_index()
# inplace = True

Unnamed: 0,index,red,orange,yellow,green,blue,indigo,violet
0,1,0.106714,0.261506,-0.936228,-0.058797,0.580962,0.580962,1.161923
1,2,0.106714,-0.048077,1.742158,-0.241337,-0.319256,-0.319256,-0.638513


In [51]:
z1 = [2, 3]
df['Z1'] = z1

In [52]:
df

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet,Z1
1,0.106714,0.261506,-0.936228,-0.058797,0.580962,0.580962,1.161923,2
2,0.106714,-0.048077,1.742158,-0.241337,-0.319256,-0.319256,-0.638513,3


In [53]:
df.set_index('Z1')

Unnamed: 0_level_0,red,orange,yellow,green,blue,indigo,violet
Z1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2,0.106714,0.261506,-0.936228,-0.058797,0.580962,0.580962,1.161923
3,0.106714,-0.048077,1.742158,-0.241337,-0.319256,-0.319256,-0.638513


#### Переименование столбцов

In [54]:
# Переименовать столбец, показать две строки
df.rename(columns={'red': 'Red'}).head()

Unnamed: 0,Red,orange,yellow,green,blue,indigo,violet,Z1
1,0.106714,0.261506,-0.936228,-0.058797,0.580962,0.580962,1.161923,2
2,0.106714,-0.048077,1.742158,-0.241337,-0.319256,-0.319256,-0.638513,3


In [55]:
df

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet,Z1
1,0.106714,0.261506,-0.936228,-0.058797,0.580962,0.580962,1.161923,2
2,0.106714,-0.048077,1.742158,-0.241337,-0.319256,-0.319256,-0.638513,3


In [56]:
df.rename(columns={'red': 'Red'}, inplace=True)

In [57]:
df

Unnamed: 0,Red,orange,yellow,green,blue,indigo,violet,Z1
1,0.106714,0.261506,-0.936228,-0.058797,0.580962,0.580962,1.161923,2
2,0.106714,-0.048077,1.742158,-0.241337,-0.319256,-0.319256,-0.638513,3
