#### 1 Создание фрейма данных

In [4]:
import numpy as np
import pandas as pd

Ядром pandas являются две структуры данных, в которых происходят все операции: Series и DataFrames.

Series — это объект библиотеки pandas, спроектированный для представления одномерных структур данных, похожих на массивы, но с дополнительными возможностями. Его структура проста, ведь он состоит из двух связанных между собой массивов. Основной содержит данные (данные любого типа NumPy), а в дополнительном, index, хранятся метки.

#### Создание объекта Series

Для создания объекта Series необходимо вызвать конструктор Series() и передать в качестве аргумента массив, содержащий значения, которые необходимо включить.

In [15]:
letters = ['a', 'b', 'c']
numbers = [1, 2, 3]
arr = np.array(numbers)
dict = {'a':1, 'b':2, 'c':3}

In [16]:
pd.Series(numbers)

0    1
1    2
2    3
dtype: int64

In [17]:
pd.Series(data=numbers, index=letters)

a    1
b    2
c    3
dtype: int64

In [19]:
pd.Series(numbers, letters)

a    1
b    2
c    3
dtype: int64

In [20]:
pd.Series(dict)

a    1
b    2
c    3
dtype: int64

Если объект Series — аналог одномерного массива с гибкими индексами, объект DataFrame — аналог двумерного массива с гибкими индексами строк и гибкими именами столбцов. Аналогично тому, что двумерный массив можно рассматривать как упорядоченную последовательность выровненных столбцов, объект DataFrame можно рассматривать как упорядоченную последовательность выровненных объектов Series. Под «выровненными» имеется в виду то, что они используют один и тот же индекс.

#### Создание объекта DataFrame

In [97]:
df = pd.DataFrame(np.random.randn(4, 5), [1, 2, 3, 4], ['red', 'orange', 'yellow', 'green', 'blue'])

In [43]:
df

Unnamed: 0,red,orange,yellow,green,blue
1,0.116024,-0.786372,-1.284341,-0.042862,-0.186641
2,0.343671,1.66622,0.553122,-0.38806,-0.766553
3,-1.055049,0.014146,0.920138,0.614982,-0.031516
4,-1.35724,-1.503856,-0.489248,1.498177,1.391979


In [98]:
df.columns

Index(['red', 'orange', 'yellow', 'green', 'blue'], dtype='object')

In [99]:
df.index

Int64Index([1, 2, 3, 4], dtype='int64')

In [100]:
df['orange']

1   -0.524522
2    0.356713
3    0.063581
4   -0.804173
Name: orange, dtype: float64

In [45]:
type(df)

pandas.core.frame.DataFrame

In [46]:
type(df['orange'])

pandas.core.series.Series

In [47]:
df[['yellow', 'blue']]

Unnamed: 0,yellow,blue
1,-1.284341,-0.186641
2,0.553122,-0.766553
3,0.920138,-0.031516
4,-0.489248,1.391979


In [48]:
df['indigo'] = df['blue']

In [49]:
df

Unnamed: 0,red,orange,yellow,green,blue,indigo
1,0.116024,-0.786372,-1.284341,-0.042862,-0.186641,-0.186641
2,0.343671,1.66622,0.553122,-0.38806,-0.766553,-0.766553
3,-1.055049,0.014146,0.920138,0.614982,-0.031516,-0.031516
4,-1.35724,-1.503856,-0.489248,1.498177,1.391979,1.391979


In [50]:
df['violet'] = df['blue'] + df['indigo']

In [51]:
df

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,0.116024,-0.786372,-1.284341,-0.042862,-0.186641,-0.186641,-0.373282
2,0.343671,1.66622,0.553122,-0.38806,-0.766553,-0.766553,-1.533105
3,-1.055049,0.014146,0.920138,0.614982,-0.031516,-0.031516,-0.063032
4,-1.35724,-1.503856,-0.489248,1.498177,1.391979,1.391979,2.783958


#### Навигация по фреймам данных

Для выбора одной или нескольких строк либо значений использовать методы lос или iloc. Все строки во фрейме данных pandas имеют уникальное индексное значение. По умолчанию этот индекс является целым числом, указывающим на положение строки во фрейме данных; однако это не обязательно. Метод lос полезен, когда индекс фрейма является меткой (например, строковым значением). Метод iloc работает, отыскивая позицию во фрейме данных (по номеру индекса).

In [52]:
df.loc[2]

red       0.343671
orange    1.666220
yellow    0.553122
green    -0.388060
blue     -0.766553
indigo   -0.766553
violet   -1.533105
Name: 2, dtype: float64

In [53]:
df.iloc[1]

red       0.343671
orange    1.666220
yellow    0.553122
green    -0.388060
blue     -0.766553
indigo   -0.766553
violet   -1.533105
Name: 2, dtype: float64

In [102]:
df.iloc[2] = df.iloc[1]

In [55]:
df

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,0.116024,-0.786372,-1.284341,-0.042862,-0.186641,-0.186641,-0.373282
2,0.343671,1.66622,0.553122,-0.38806,-0.766553,-0.766553,-1.533105
3,0.343671,1.66622,0.553122,-0.38806,-0.766553,-0.766553,-1.533105
4,-1.35724,-1.503856,-0.489248,1.498177,1.391979,1.391979,2.783958


In [56]:
df.loc[3, 'orange']

1.6662203911880225

In [57]:
df.iloc[2, 1]

1.6662203911880225

In [58]:
df.loc[[1,3], ['blue', 'violet']]

Unnamed: 0,blue,violet
1,-0.186641,-0.373282
3,-0.766553,-1.533105


#### Выбор строк на основе условных конструкций

In [59]:
df[df > 0]

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,0.116024,,,,,,
2,0.343671,1.66622,0.553122,,,,
3,0.343671,1.66622,0.553122,,,,
4,,,,1.498177,1.391979,1.391979,2.783958


In [60]:
df['yellow'] > 0

1    False
2     True
3     True
4    False
Name: yellow, dtype: bool

In [61]:
df[df['yellow']>0]

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
2,0.343671,1.66622,0.553122,-0.38806,-0.766553,-0.766553,-1.533105
3,0.343671,1.66622,0.553122,-0.38806,-0.766553,-0.766553,-1.533105


In [62]:
df[df['yellow']>0]['green']

2   -0.38806
3   -0.38806
Name: green, dtype: float64

In [64]:
df[df['yellow']>0][['green','blue']]

Unnamed: 0,green,blue
2,-0.38806,-0.766553
3,-0.38806,-0.766553


In [66]:
df[(df['red']>0) & (df['yellow']<0)]

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,0.116024,-0.786372,-1.284341,-0.042862,-0.186641,-0.186641,-0.373282


In [67]:
df[(df['red']>0) | (df['yellow']<0)]

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,0.116024,-0.786372,-1.284341,-0.042862,-0.186641,-0.186641,-0.373282
2,0.343671,1.66622,0.553122,-0.38806,-0.766553,-0.766553,-1.533105
3,0.343671,1.66622,0.553122,-0.38806,-0.766553,-0.766553,-1.533105
4,-1.35724,-1.503856,-0.489248,1.498177,1.391979,1.391979,2.783958


#### Удаление строк

In [68]:
# удаление строк axis = 0 строку axis = 1 столбец inplace=False без удаления из датафрейма, inplace=True с удалением
df.drop(3)

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,0.116024,-0.786372,-1.284341,-0.042862,-0.186641,-0.186641,-0.373282
2,0.343671,1.66622,0.553122,-0.38806,-0.766553,-0.766553,-1.533105
4,-1.35724,-1.503856,-0.489248,1.498177,1.391979,1.391979,2.783958


In [69]:
df

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,0.116024,-0.786372,-1.284341,-0.042862,-0.186641,-0.186641,-0.373282
2,0.343671,1.66622,0.553122,-0.38806,-0.766553,-0.766553,-1.533105
3,0.343671,1.66622,0.553122,-0.38806,-0.766553,-0.766553,-1.533105
4,-1.35724,-1.503856,-0.489248,1.498177,1.391979,1.391979,2.783958


In [70]:
df.drop(3, inplace = True)

In [71]:
df

Unnamed: 0,red,orange,yellow,green,blue,indigo,violet
1,0.116024,-0.786372,-1.284341,-0.042862,-0.186641,-0.186641,-0.373282
2,0.343671,1.66622,0.553122,-0.38806,-0.766553,-0.766553,-1.533105
4,-1.35724,-1.503856,-0.489248,1.498177,1.391979,1.391979,2.783958


In [72]:
df.drop('indigo', axis = 1, inplace = True)

In [103]:
df

Unnamed: 0,red,orange,yellow,green,blue
1,0.727848,-0.524522,0.972548,-0.010875,0.828137
2,-1.767393,0.356713,0.206534,1.802974,0.267233
3,-1.767393,0.356713,0.206534,1.802974,0.267233
4,0.911813,-0.804173,-0.061718,-0.364975,-1.316943


####  Удаление повторяющихся строк

Метод drop_duplicates() по умолчанию отбрасывает только те строки, которые идеально совпадают по всем столбцам. 

In [104]:
# Удалить дубликаты, показать строки  
df.drop_duplicates().head()

Unnamed: 0,red,orange,yellow,green,blue
1,0.727848,-0.524522,0.972548,-0.010875,0.828137
2,-1.767393,0.356713,0.206534,1.802974,0.267233
4,0.911813,-0.804173,-0.061718,-0.364975,-1.316943


Чтобы выполнить проверку на наличие повторяющихся строк, нередко требуется рассмотреть только подмножество столбцов. Это можно сделать с помощью параметра subset. Метод drop_duplicates по умолчанию сохраняет первое появление повторяющейся строки и удаляет остальные

In [107]:
df['red'].loc[4] = df['red'].loc[1]

In [109]:
df

Unnamed: 0,red,orange,yellow,green,blue
1,0.727848,-0.524522,0.972548,-0.010875,0.828137
2,-1.767393,0.356713,0.206534,1.802974,0.267233
3,-1.767393,0.356713,0.206534,1.802974,0.267233
4,0.727848,-0.804173,-0.061718,-0.364975,-1.316943


In [108]:
df.drop_duplicates(subset=['red'])

Unnamed: 0,red,orange,yellow,green,blue
1,0.727848,-0.524522,0.972548,-0.010875,0.828137
2,-1.767393,0.356713,0.206534,1.802974,0.267233


#### Замена значений

In [84]:
# Заменить значения 
df['red'].replace(df['red'].iloc[0],df['red'].mean(), inplace=True)

In [85]:
df

Unnamed: 0,red,orange,yellow,green,blue,violet
1,-0.437584,-0.786372,-1.284341,-0.042862,-0.186641,-0.373282
2,0.343671,1.66622,0.553122,-0.38806,-0.766553,-1.533105
4,-1.35724,-1.503856,-0.489248,1.498177,1.391979,2.783958


In [86]:
df['red'].mean()

-0.4837175723818099

#### Работа с индексами

reset_index() — это метод сброса индекса фрейма данных. Метод .reset_index () задает список целых чисел от 0 до длины данных в качестве индекса.

In [87]:
df.reset_index()
# inplace = True

Unnamed: 0,index,red,orange,yellow,green,blue,violet
0,1,-0.437584,-0.786372,-1.284341,-0.042862,-0.186641,-0.373282
1,2,0.343671,1.66622,0.553122,-0.38806,-0.766553,-1.533105
2,4,-1.35724,-1.503856,-0.489248,1.498177,1.391979,2.783958


In [89]:
z1 = [2, 3, 4]
df['Z1'] = z1

In [90]:
df

Unnamed: 0,red,orange,yellow,green,blue,violet,Z1
1,-0.437584,-0.786372,-1.284341,-0.042862,-0.186641,-0.373282,2
2,0.343671,1.66622,0.553122,-0.38806,-0.766553,-1.533105,3
4,-1.35724,-1.503856,-0.489248,1.498177,1.391979,2.783958,4


In [91]:
df.set_index('Z1')

Unnamed: 0_level_0,red,orange,yellow,green,blue,violet
Z1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2,-0.437584,-0.786372,-1.284341,-0.042862,-0.186641,-0.373282
3,0.343671,1.66622,0.553122,-0.38806,-0.766553,-1.533105
4,-1.35724,-1.503856,-0.489248,1.498177,1.391979,2.783958


#### Переименование столбцов

In [93]:
# Переименовать столбец, показать две строки
df.rename(columns={'red': 'Red'}).head()

Unnamed: 0,Red,orange,yellow,green,blue,violet,Z1
1,-0.437584,-0.786372,-1.284341,-0.042862,-0.186641,-0.373282,2
2,0.343671,1.66622,0.553122,-0.38806,-0.766553,-1.533105,3
4,-1.35724,-1.503856,-0.489248,1.498177,1.391979,2.783958,4


In [94]:
df

Unnamed: 0,red,orange,yellow,green,blue,violet,Z1
1,-0.437584,-0.786372,-1.284341,-0.042862,-0.186641,-0.373282,2
2,0.343671,1.66622,0.553122,-0.38806,-0.766553,-1.533105,3
4,-1.35724,-1.503856,-0.489248,1.498177,1.391979,2.783958,4
