In [1]:
!git clone https://github.com/stuniy/SPO_PGU.git

Cloning into 'SPO_PGU'...
remote: Enumerating objects: 168, done.[K
remote: Counting objects: 100% (7/7), done.[K
remote: Compressing objects: 100% (7/7), done.[K
remote: Total 168 (delta 2), reused 0 (delta 0), pack-reused 161[K
Receiving objects: 100% (168/168), 74.99 MiB | 20.72 MiB/s, done.
Resolving deltas: 100% (48/48), done.
Updating files: 100% (54/54), done.


# Работа с табличными данными
Большое количество данных, которые используются в машинном обучении, представлены в виде таблиц, где в столбцах представлены различные признаки и целевые переменные.
Для работы с такими данными в Python есть замечательная библиотека [`pandas`](https://pandas.pydata.org/docs/user_guide/index.html) тесно связанная с уже известной нам `numpy`. К пандам отношения не имеет, название пошло от "панельные данные".


# Pandas
## Создание и индексация
В `pandas` два основных вида объектов (типов) Series и Dataframe, они похожи между собой, но Dataframe это фактически таблица, в которой есть строки, столбцы, а Series это один столбец со строками.
Столбцы и\или строки могут иметь названия, которые выступают их индексами и к определенному столбцу (или строке) можно обращаться именно по названию.  

Создадим Series (давайте назовем это последовательностью), в которой будут записаны некоторые данные имеющие названия (индексы). И данные (data) и индексы (index) могут иметь различный тип: числа, строки, объекты.

Но будьте аккуратны, индексы надо делать так, чтобы было понятно. Ниже увидим примеры разрешенных, но совершенно не понятных индексов.

![1.jpeg](https://drive.google.com/uc?id=1MeNfe5Q-5ua_mlrhjFJy9e_hf36pfFZ5)


In [2]:
import pandas as pd # подключим библиотеку
import numpy as np

In [3]:
s = pd.Series(data=[10, "11", ['a',12], 'ppp', 14], # данные
              index=[2, '2', 'два', 2, -2]) # их индексы
s # здесь 5 ячеек

2           10
2           11
два    [a, 12]
2          ppp
-2          14
dtype: object

в этой последовательности 5 ячеек (data) и к ним можно обратиться по индексам (index), важно понять, что здесь индексы именно названия, а не номера строк.

In [4]:
print(s[2]) # здесь вернется подпоследовательность элементов у которых индекс называется 2 (первая и четвертая ячейки)
print(s['2']) # это ячейка с названием '2', это совершенно другой индекс, отличается от названия 2 (вторая ячейка)
print(s['два']) # это ячейка с названием 'два', третья ячейка, в которой записан массив
print(s[-2]) # это ячейка с названием -2, пятая ячейка

2     10
2    ppp
dtype: object
11
['a', 12]
14


Как и в numpy можно делать срезы, в этом случае указываются номера, а не названия элементов.

In [5]:
s[1:3] # срез, вторая и третья ячейки, здесь это номера, а не названия.

2           11
два    [a, 12]
dtype: object

Но срезы могут быть строковыми (удивительно), тогда это именно названия. Pandas сопоставит символьные индексы числовым, найдет их в последовательности, и вернет все, что между ними, включая границы.

In [None]:
v = pd.Series(data=[10, "11", ['a',12], 'ppp', 14], # данные
              index=['a', 'f', 'c', 'd', 'e']) # их индексы
v['a':'d']
# v['a':'g'] # так работать не будет, потому что индекса 'g' нет.

a         10
f         11
c    [a, 12]
d        ppp
dtype: object

Создайте свои последовательности, обратитесь к элементам. Проверьте, что будет если при создании последовательности не указать index?  А если при строковом индексе в последовательности индексы будут повторяться?

Аналогично можно создать таблицу Dataframe, в которой несколько столбцов.

![1.jpeg](https://drive.google.com/uc?id=11z6UFih20bUzXgvfjdrENfwYQpjayo3G)

In [9]:
data=pd.read_csv('/content/SPO_PGU/Iris.csv', delimiter=',')
data.tail(30)

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
120,121,6.9,3.2,5.7,2.3,Iris-virginica
121,122,5.6,2.8,4.9,2.0,Iris-virginica
122,123,7.7,2.8,6.7,2.0,Iris-virginica
123,124,6.3,2.7,4.9,1.8,Iris-virginica
124,125,6.7,3.3,5.7,2.1,Iris-virginica
125,126,7.2,3.2,6.0,1.8,Iris-virginica
126,127,6.2,2.8,4.8,1.8,Iris-virginica
127,128,6.1,3.0,4.9,1.8,Iris-virginica
128,129,6.4,2.8,5.6,2.1,Iris-virginica
129,130,7.2,3.0,5.8,1.6,Iris-virginica


In [10]:
length=data['PetalLengthCm']
length

0      1.4
1      1.4
2      1.3
3      1.5
4      1.4
      ... 
145    5.2
146    5.0
147    5.2
148    5.4
149    5.1
Name: PetalLengthCm, Length: 150, dtype: float64

In [11]:
length_1=data.PetalLengthCm
length_1

0      1.4
1      1.4
2      1.3
3      1.5
4      1.4
      ... 
145    5.2
146    5.0
147    5.2
148    5.4
149    5.1
Name: PetalLengthCm, Length: 150, dtype: float64

In [12]:
df=data[['PetalLengthCm','SepalLengthCm','Species']]
df

Unnamed: 0,PetalLengthCm,SepalLengthCm,Species
0,1.4,5.1,Iris-setosa
1,1.4,4.9,Iris-setosa
2,1.3,4.7,Iris-setosa
3,1.5,4.6,Iris-setosa
4,1.4,5.0,Iris-setosa
...,...,...,...
145,5.2,6.7,Iris-virginica
146,5.0,6.3,Iris-virginica
147,5.2,6.5,Iris-virginica
148,5.4,6.2,Iris-virginica


In [13]:
#выбираем первые 10 строк
first_10_rows = data[:10]
first_10_rows

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
5,6,5.4,3.9,1.7,0.4,Iris-setosa
6,7,4.6,3.4,1.4,0.3,Iris-setosa
7,8,5.0,3.4,1.5,0.2,Iris-setosa
8,9,4.4,2.9,1.4,0.2,Iris-setosa
9,10,4.9,3.1,1.5,0.1,Iris-setosa


In [16]:
#выбираем только строки где Длина лепестка =1.4
length_2 = data[data['PetalLengthCm'] == 5.1]
length_2

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
83,84,6.0,2.7,5.1,1.6,Iris-versicolor
101,102,5.8,2.7,5.1,1.9,Iris-virginica
110,111,6.5,3.2,5.1,2.0,Iris-virginica
114,115,5.8,2.8,5.1,2.4,Iris-virginica
133,134,6.3,2.8,5.1,1.5,Iris-virginica
141,142,6.9,3.1,5.1,2.3,Iris-virginica
142,143,5.8,2.7,5.1,1.9,Iris-virginica
149,150,5.9,3.0,5.1,1.8,Iris-virginica


In [17]:
# изменяем Длину лепестка на 10
data['PetalLengthCm'] = data['PetalLengthCm'] + 10
data

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,11.4,0.2,Iris-setosa
1,2,4.9,3.0,11.4,0.2,Iris-setosa
2,3,4.7,3.2,11.3,0.2,Iris-setosa
3,4,4.6,3.1,11.5,0.2,Iris-setosa
4,5,5.0,3.6,11.4,0.2,Iris-setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,15.2,2.3,Iris-virginica
146,147,6.3,2.5,15.0,1.9,Iris-virginica
147,148,6.5,3.0,15.2,2.0,Iris-virginica
148,149,6.2,3.4,15.4,2.3,Iris-virginica


In [None]:
# удаляем столбец Id
data = data.drop('Id', axis=1)
data

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,5.1,3.5,11.4,0.2,Iris-setosa
1,4.9,3.0,11.4,0.2,Iris-setosa
2,4.7,3.2,11.3,0.2,Iris-setosa
3,4.6,3.1,11.5,0.2,Iris-setosa
4,5.0,3.6,11.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,15.2,2.3,Iris-virginica
146,6.3,2.5,15.0,1.9,Iris-virginica
147,6.5,3.0,15.2,2.0,Iris-virginica
148,6.2,3.4,15.4,2.3,Iris-virginica


In [None]:
# определение типов данных
data.dtypes

SepalLengthCm    float64
SepalWidthCm     float64
PetalLengthCm    float64
PetalWidthCm     float64
Species           object
dtype: object

In [None]:
# определяем размеры выборки
print(data.index)
print(data.shape)

RangeIndex(start=0, stop=150, step=1)
(150, 5)


Атрибут index возвращает индекс (названия строк)

Атрибут columns возвращает названия столбцов (для таблиц)

Атрибут values возвращает значения ячеек как массив numpy

In [None]:
print(data.index)
print(data.columns)
print(data.values)
print(type(data.values))

RangeIndex(start=0, stop=150, step=1)
Index(['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm',
       'Species'],
      dtype='object')
[[5.1 3.5 11.4 0.2 'Iris-setosa']
 [4.9 3.0 11.4 0.2 'Iris-setosa']
 [4.7 3.2 11.3 0.2 'Iris-setosa']
 [4.6 3.1 11.5 0.2 'Iris-setosa']
 [5.0 3.6 11.4 0.2 'Iris-setosa']
 [5.4 3.9 11.7 0.4 'Iris-setosa']
 [4.6 3.4 11.4 0.3 'Iris-setosa']
 [5.0 3.4 11.5 0.2 'Iris-setosa']
 [4.4 2.9 11.4 0.2 'Iris-setosa']
 [4.9 3.1 11.5 0.1 'Iris-setosa']
 [5.4 3.7 11.5 0.2 'Iris-setosa']
 [4.8 3.4 11.6 0.2 'Iris-setosa']
 [4.8 3.0 11.4 0.1 'Iris-setosa']
 [4.3 3.0 11.1 0.1 'Iris-setosa']
 [5.8 4.0 11.2 0.2 'Iris-setosa']
 [5.7 4.4 11.5 0.4 'Iris-setosa']
 [5.4 3.9 11.3 0.4 'Iris-setosa']
 [5.1 3.5 11.4 0.3 'Iris-setosa']
 [5.7 3.8 11.7 0.3 'Iris-setosa']
 [5.1 3.8 11.5 0.3 'Iris-setosa']
 [5.4 3.4 11.7 0.2 'Iris-setosa']
 [5.1 3.7 11.5 0.4 'Iris-setosa']
 [4.6 3.6 11.0 0.2 'Iris-setosa']
 [5.1 3.3 11.7 0.5 'Iris-setosa']
 [4.8 3.4 11.9 0.2 'Iris-setosa'

Срез выполняется по строкам

In [None]:
data[0:100]

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,5.1,3.5,11.4,0.2,Iris-setosa
1,4.9,3.0,11.4,0.2,Iris-setosa
2,4.7,3.2,11.3,0.2,Iris-setosa
3,4.6,3.1,11.5,0.2,Iris-setosa
4,5.0,3.6,11.4,0.2,Iris-setosa
...,...,...,...,...,...
95,5.7,3.0,14.2,1.2,Iris-versicolor
96,5.7,2.9,14.2,1.3,Iris-versicolor
97,6.2,2.9,14.3,1.3,Iris-versicolor
98,5.1,2.5,13.0,1.1,Iris-versicolor


### Доступ к данным
Методы `.loc`, `.iloc`, `.at`

Свойство .iloc[] используется для целочисленной (позиционной) индексации. Вы можете использовать его для выбора данных по позициям строк и столбцов.

Например, чтобы выбрать данные из первой строки и первого столбца.

In [None]:
print(data.iloc[1,1]) # первая строка первый столбец

4.9
Id                         2
SepalLengthCm            4.9
SepalWidthCm             3.0
PetalLengthCm            1.4
PetalWidthCm             0.2
Species          Iris-setosa
Name: 1, dtype: object


Чтобы выбрать несколько строк и столбцов с помощью свойства .iloc[], вы можете передать списки или фрагменты позиций:

In [None]:
print(data.iloc[10:150,1:3]) # выводим 140 строк (с 10 по 150) по 2 столбцам
print(data.iloc[1,:]) # первая строка все столбцы
print(data.iloc[:, [0, 1, 2]]) # все строки для 0,1,2 столбцов

     SepalLengthCm  SepalWidthCm
10             5.4           3.7
11             4.8           3.4
12             4.8           3.0
13             4.3           3.0
14             5.8           4.0
..             ...           ...
145            6.7           3.0
146            6.3           2.5
147            6.5           3.0
148            6.2           3.4
149            5.9           3.0

[140 rows x 2 columns]
Id                         2
SepalLengthCm            4.9
SepalWidthCm             3.0
PetalLengthCm            1.4
PetalWidthCm             0.2
Species          Iris-setosa
Name: 1, dtype: object
      Id  SepalLengthCm  SepalWidthCm
0      1            5.1           3.5
1      2            4.9           3.0
2      3            4.7           3.2
3      4            4.6           3.1
4      5            5.0           3.6
..   ...            ...           ...
145  146            6.7           3.0
146  147            6.3           2.5
147  148            6.5           3.0
148

![1.jpeg](https://drive.google.com/uc?id=1OwvOk08r8ezt2H4JixLAaatzSOGT89mt)

`loc[] `— предоставляет доступ к группе строк и столбцов по меткам или булевому массиву. Рассмотрим несколько примеров использования:

In [None]:
customer_data = data.loc[149, 'PetalWidthCm'] # выводим значение 149 строки по столбцу PetalWidthCm
customer_data

1.8

In [None]:
selected = data.loc[[139, 149],['PetalWidthCm', 'Species']]
selected

Unnamed: 0,PetalWidthCm,Species
139,2.1,Iris-virginica
149,1.8,Iris-virginica


In [None]:
selected_2 = data.loc[139:149,['PetalWidthCm', 'Species']]
selected_2

Unnamed: 0,PetalWidthCm,Species
139,2.1,Iris-virginica
140,2.4,Iris-virginica
141,2.3,Iris-virginica
142,1.9,Iris-virginica
143,2.3,Iris-virginica
144,2.5,Iris-virginica
145,2.3,Iris-virginica
146,1.9,Iris-virginica
147,2.0,Iris-virginica
148,2.3,Iris-virginica


Свойство .at[] используется для быстрой индексации скалярных значений на основе меток. Он похож на .loc[], но оптимизирован для доступа к одним точкам данных, что делает его быстрее для этого конкретного случая использования.

**Имейте в виду, что .at[] может использоваться только для доступа к одним точкам данных, а не для выбора нескольких строк или столбцов.**

In [None]:
customer_data = data.at[145, 'Species']
customer_data

'Iris-virginica'

In [None]:
# описание данных в выборке
# для непрерывных (числовых)
data.describe()

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,13.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,11.0,0.1
25%,5.1,2.8,11.6,0.3
50%,5.8,3.0,14.35,1.3
75%,6.4,3.3,15.1,1.8
max,7.9,4.4,16.9,2.5


In [None]:
# для категориальных (строковых)
data.describe(include='O')

Unnamed: 0,Species
count,150
unique,3
top,Iris-setosa
freq,50


Другие способы создания и индексации смотри в документации.

## Загрузка из файла

Если б таблички нужно было создавать вручную, это было бы слишком утомительно, к счастью, pandas обладает богатыми возможностями по загрузке файлов таблиц разного формата, \*.csv, \*.xls и других, как с диска так и из Интернет.

Команда [`read_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) позволяет загрузить файлы csv с заданного файла на диске или адреса в Интернет (первый обязательный аргумент `filepath_or_buffer`). Это текстовые файлы, в которых столбцы таблиц разделяются некоторым символом (запятая, точка с запятой или другие), который можно указать команде (аргумент `sep`), возвращается объект типа Dataframe. У команды большие возможности по загрузке данных, можно ограничить количество загружаемых строк (аргумент `nrows`), можно указать загружаемые столбцы (аргумент `usecols`), указать, что делать со строками с пропущенными значениями и другие.

Данная выборка содержит информацию о клиентах банка, на основании который можно определить, уйдет ли он в ближайшие 6 месяцев или нет?

In [None]:
data_churn=pd.read_csv('/content/SPO_PGU/Churn_Modelling.csv')
data_churn

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.00,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.00,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.10,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,1,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,1,1,101699.77,0
9997,9998,15584532,Liu,709,France,Female,36,7,0.00,1,0,1,42085.58,1
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1


In [None]:
data_churn.shape # сколько строк и столбцов?

(10000, 14)

In [None]:
# выводит первые несколько строк
data_churn.head(10)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0
5,6,15574012,Chu,645,Spain,Male,44,8,113755.78,2,1,0,149756.71,1
6,7,15592531,Bartlett,822,France,Male,50,7,0.0,2,1,1,10062.8,0
7,8,15656148,Obinna,376,Germany,Female,29,4,115046.74,4,1,0,119346.88,1
8,9,15792365,He,501,France,Male,44,4,142051.07,2,0,1,74940.5,0
9,10,15592389,H?,684,France,Male,27,2,134603.88,1,1,1,71725.73,0


In [None]:
# как называются столбцы?
data_churn.columns

Index(['RowNumber', 'CustomerId', 'Surname', 'CreditScore', 'Geography',
       'Gender', 'Age', 'Tenure', 'Balance', 'NumOfProducts', 'HasCrCard',
       'IsActiveMember', 'EstimatedSalary', 'Exited'],
      dtype='object')

In [None]:
# количество строк
len(data_churn)

10000

In [None]:
# из них строк женщин(столбец Gender)
ind=data_churn['Gender']=='Female'
sum(ind)

4543

In [None]:
# статистика по столбцам с текстовыми занчениями
data_churn.describe(include="O")

Unnamed: 0,Surname,Geography,Gender
count,10000,10000,10000
unique,2932,3,2
top,Smith,France,Male
freq,32,5014,5457


> _Примечание: так как false интерпретируется как 0, а true как 1, то sum() и дает число истинных элементов._

## Группировка данных

Данные можно сгруппировать по различным критериям, за это отвечает метод [`groupby()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html), к результатам которого можно применять разные функции.

Общий подход показан на рисунке:

данные разбиваются построчно по уникальным значениям (ключ, на рисунке столбец x), стоки с одинаковыми ключами объединяются в группы и к группам применяются заданные функции (подсчет среднего на рисунке для столбца y), затем результаты объединяются.

![img](https://drive.google.com/uc?id=1bn-KonuEYEw5hQRgCuIpiLEqQEH4YE4G)

In [None]:
# аргумент as_index в значение False, то метка группы более не будет рассматриваться в качестве индекса
data_price = data_churn.groupby(by=['Gender'],as_index=False).mean()
data_price

  data_price = data_churn.groupby(by=['Gender'],as_index=False).mean()


Unnamed: 0,Gender,RowNumber,CustomerId,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,Female,4942.929562,15691150.0,650.831389,39.238389,4.966102,75659.369139,1.544134,0.702619,0.502751,100601.541382,0.250715
1,Male,5048.427891,15690770.0,650.276892,38.658237,5.051677,77173.974506,1.5186,0.707898,0.52538,99664.576931,0.164559


In [None]:
# множественная агрегация для нескольких столбцов функция agg
df_price = data_churn.groupby(by=['Gender'],as_index=False)[['Age','Balance','EstimatedSalary']].agg(['mean','min','max','std'])
df_price

Unnamed: 0_level_0,Age,Age,Age,Age,Balance,Balance,Balance,Balance,EstimatedSalary,EstimatedSalary,EstimatedSalary,EstimatedSalary
Unnamed: 0_level_1,mean,min,max,std,mean,min,max,std,mean,min,max,std
Gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
Female,39.238389,18,85,10.588588,75659.369139,0.0,238387.56,62102.467293,100601.541382,91.75,199992.48,57371.034092
Male,38.658237,18,92,10.39678,77173.974506,0.0,250898.09,62639.251138,99664.576931,11.58,199953.33,57628.130354


In [None]:
# группируем по значениям столбцов Gender и
group=data_churn.groupby('Gender')
group.size() # считаем количество строк, оказавшихся в каждой группе

Gender
Female    4543
Male      5457
dtype: int64

In [None]:
group.count() # число раз, когда значение группы встречалось
# может быть меньше, чем число строк, если значение было пропущено в файле

Unnamed: 0_level_0,RowNumber,CustomerId,Surname,CreditScore,Geography,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Female,4543,4543,4543,4543,4543,4543,4543,4543,4543,4543,4543,4543,4543
Male,5457,5457,5457,5457,5457,5457,5457,5457,5457,5457,5457,5457,5457


In [None]:
group.Balance.median() # медиана для групп по числовому столбцу Balance
# тут-то нам и пригодилось обращение к столбцу как к атрибуту

#group['Balance'].median() # альтернативное написание

Gender
Female    96147.55
Male      98064.97
Name: Balance, dtype: float64

Уникальные (т.е. без повторов) названия (столбец Name) компаний в каждой группе.

In [None]:
group.Geography.unique()

Gender
Female    [France, Spain, Germany]
Male      [Spain, France, Germany]
Name: Geography, dtype: object

In [None]:
data_churn.Surname.unique()

array(['Hargrave', 'Hill', 'Onio', ..., 'Kashiwagi', 'Aldridge',
       'Burbidge'], dtype=object)

Каждая группа здесь это кортеж названий и содержания (последовательность) группы.

Посмотрим, есть ли в группе хоть один человек с фамилией на G (столбец Surname).

In [None]:
letter="G"
for i in group.Surname:
    print('{}: {}'.format(i[0],(i[1].str.get(0)==letter).any()))

Female: True
Male: True


Что здесь происходит:
- группы можно итерировать, в цикле переменная i будет являться последовательно кортежем из названия и содержание каждой из групп в которой оставлен только столбец Surname.
- i[0] - название группы, i[1] - содержимое текущей группы, в нашем случае это объект типа Series.
- у этого объекта Series есть атрибут str, который позволяет работать с элементами как со строкой.
- метод get() для строки возвращает символ строки на определенном месте, 0 - это первый символ.
- сравниваем этот первый символ с буквой "G", получаем или истину или ложь.
- так как в группе может быть не одна строка, то в результате получится логический вектор (тип Series) из значений истина\ложь.
- метод any() для логических векторов возвращает истину если хотя бы один элемент вектора истинный, что нам и требуется.
- наконец печатаем результат.



Агрегировать группы можно разными функциями, даже своими собственными, в этом помогает метод [`agg()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.core.groupby.GroupBy.agg.html?highlight=agg#pandas.core.groupby.GroupBy.agg), который позволяет применять одну или несколько функций к группам. Давайте сделаем свою функцию и применим ее к группам.

In [None]:
# своя функция, которая вычитает минимальное значение из максимального
def max_min(arr):
    return arr.max() - arr.min()

# считаем по группам для столбца Price свою функцию и среднее.
result=group.Age.agg([max_min, 'mean'])
result

Unnamed: 0_level_0,max_min,mean
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,67,39.238389
Male,74,38.658237


## Фильтры

In [None]:
country_stats = data_churn.filter(items = ['Balance','Gender'])
country_stats.head(10)

Unnamed: 0,Balance,Gender
0,0.0,Female
1,83807.86,Female
2,159660.8,Female
3,0.0,Female
4,125510.82,Female
5,113755.78,Male
6,0.0,Male
7,115046.74,Female
8,142051.07,Male
9,134603.88,Male


In [None]:
average_level = data_churn['Balance'].mean()
average_level

76485.889288

In [None]:
'Balance > {}'.format(average_level)

'Balance > 76485.889288'

In [None]:
# самый популярный способ

data_churn[data_churn['Balance'] > average_level].head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0
5,6,15574012,Chu,645,Spain,Male,44,8,113755.78,2,1,0,149756.71,1
7,8,15656148,Obinna,376,Germany,Female,29,4,115046.74,4,1,0,119346.88,1


In [None]:
# фильтр на подстроку
# найдем всех людей у которых фамилия состоит из 'Mit'

data_churn[data_churn['Surname'].str.contains('Mit', case=False) ]['Surname'].unique()

array(['Mitchell', 'Smith', 'Mitchel', 'Armit', 'Fleetwood-Smith',
       'Messersmith'], dtype=object)

In [None]:
# фильтр на несколько условий сразу
# | - условие ИЛИ
# & AND
# () | (() | () & ())
filtered_countries = data_churn[(data_churn['Surname']=='Mitchell') | (data_churn['Surname']=='Mitchel') ]

filtered_countries.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0
406,407,15578045,Mitchell,538,Spain,Female,49,9,141434.04,1,0,0,173779.25,1
591,592,15604044,Mitchell,700,France,Male,38,8,134811.3,1,1,0,1299.75,0
688,689,15802741,Mitchel,625,France,Female,51,7,136294.97,1,1,0,38867.46,1
1139,1140,15569247,Mitchell,727,Spain,Female,57,1,109679.72,1,0,1,753.37,0


In [None]:
filtered_countries['Surname'].unique()

array(['Mitchell', 'Mitchel'], dtype=object)

In [None]:
data_churn[['Geography', 'Gender'] ].head(10)

Unnamed: 0,Geography,Gender
0,France,Female
1,Spain,Female
2,France,Female
3,France,Female
4,Spain,Female
5,Spain,Male
6,France,Male
7,Germany,Female
8,France,Male
9,France,Male


# Сортировка

In [None]:
# Сортировка по столбцу

data_churn.sort_values(by='Age').head(23)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
3512,3513,15657779,Boylan,806,Spain,Male,18,3,0.0,2,1,1,86994.54,0
1678,1679,15569178,Kharlamov,570,France,Female,18,4,82767.42,1,1,0,71811.9,0
3517,3518,15757821,Burgess,771,Spain,Male,18,1,0.0,2,0,0,41542.95,0
9520,9521,15673180,Onyekaozulu,727,Germany,Female,18,2,93816.7,2,1,0,126172.11,0
2021,2022,15795519,Vasiliev,716,Germany,Female,18,3,128743.8,1,0,0,197322.13,0
9526,9527,15665521,Chiazagomekpele,642,Germany,Male,18,5,111183.53,2,0,1,10063.75,0
746,747,15787619,Hsieh,844,France,Male,18,2,160980.03,1,0,0,145936.28,0
9029,9030,15722701,Bruno,594,Germany,Male,18,1,132694.73,1,1,0,167689.56,0
4716,4717,15805764,Hallahan,646,France,Male,18,10,0.0,2,0,1,52795.15,0
7722,7723,15570086,Lynch,684,Germany,Male,18,9,90544.0,1,0,1,4777.23,0


In [None]:
# сортировка по убыванию

data_churn.sort_values('Age', ascending=False).head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
6443,6444,15764927,Rogova,753,France,Male,92,3,121513.31,1,0,1,195563.99,0
6759,6760,15660878,T'ien,705,France,Male,92,1,126076.24,2,1,1,34436.83,0
2458,2459,15813303,Rearick,513,Spain,Male,88,10,0.0,2,1,1,52952.24,0
3033,3034,15578006,Yao,787,France,Female,85,10,0.0,2,1,1,116537.96,0
3387,3388,15798024,Lori,537,Germany,Male,84,8,92242.34,1,1,1,186235.98,0


In [None]:
# сортировка по нескольким столбцам

data_churn.sort_values(by=['Gender', 'Age', 'Geography'], ascending=[False, True, False]).head(50)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
3512,3513,15657779,Boylan,806,Spain,Male,18,3,0.0,2,1,1,86994.54,0
3517,3518,15757821,Burgess,771,Spain,Male,18,1,0.0,2,0,0,41542.95,0
8522,8523,15619892,Page,644,Spain,Male,18,8,0.0,2,1,0,59172.42,0
9572,9573,15641688,Collier,644,Spain,Male,18,7,0.0,1,0,1,59645.24,1
9932,9933,15813451,Fleetwood-Smith,677,Spain,Male,18,8,134796.87,2,1,1,114858.9,0
7722,7723,15570086,Lynch,684,Germany,Male,18,9,90544.0,1,0,1,4777.23,0
9029,9030,15722701,Bruno,594,Germany,Male,18,1,132694.73,1,1,0,167689.56,0
9501,9502,15634146,Hou,835,Germany,Male,18,2,142872.36,1,1,1,117632.63,0
9526,9527,15665521,Chiazagomekpele,642,Germany,Male,18,5,111183.53,2,0,1,10063.75,0
746,747,15787619,Hsieh,844,France,Male,18,2,160980.03,1,0,0,145936.28,0


In [None]:
# параметр inplace

data_churn_1 = data_churn.sort_values(by=['Gender', 'Age', 'Geography'], ascending=[True, True, False])

# чтобы сократить это выражение используем inplace:
data_churn.sort_values(by=['Gender', 'Age', 'Geography'], ascending=[True, True, False], inplace=True)
data_churn_1

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
2021,2022,15795519,Vasiliev,716,Germany,Female,18,3,128743.80,1,0,0,197322.13,0
9520,9521,15673180,Onyekaozulu,727,Germany,Female,18,2,93816.70,2,1,0,126172.11,0
1678,1679,15569178,Kharlamov,570,France,Female,18,4,82767.42,1,1,0,71811.90,0
4556,4557,15796231,Nwankwo,681,France,Female,18,1,98894.39,1,1,1,9596.40,0
3239,3240,15776844,Hao,762,Spain,Female,19,6,0.00,2,1,0,55500.17,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9309,9310,15621644,Lombardi,678,Germany,Male,83,6,123356.63,1,0,1,92934.41,0
3387,3388,15798024,Lori,537,Germany,Male,84,8,92242.34,1,1,1,186235.98,0
2458,2459,15813303,Rearick,513,Spain,Male,88,10,0.00,2,1,1,52952.24,0
6443,6444,15764927,Rogova,753,France,Male,92,3,121513.31,1,0,1,195563.99,0


## Разбивка на интервалы
Значения в столбце можно разбить на интервалы, назвать их и записать эти интервалы вместо значений. В этом поможет команда [`cut`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html?highlight=cut#pandas.cut) которой указываем что разбивать, сколько интервалов сделать, их названия и другие аргументы.

In [None]:
# разбиваем столбец Price на 5 интервалов, называем их.
cuted=pd.cut(data_churn['Balance'], 5,labels=['Low','Medium','High','Very High','Exclusive'], include_lowest=True)
cuted

2021      High
9520    Medium
1678    Medium
4556    Medium
3239       Low
         ...  
9309      High
3387    Medium
2458       Low
6443      High
6759      High
Name: Balance, Length: 10000, dtype: category
Categories (5, object): ['Low' < 'Medium' < 'High' < 'Very High' < 'Exclusive']

Заменим столбец Balance на cuted

In [None]:
data_churn['Balance']=cuted
data_churn

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
2021,2022,15795519,Vasiliev,716,Germany,Female,18,3,High,1,0,0,197322.13,0
9520,9521,15673180,Onyekaozulu,727,Germany,Female,18,2,Medium,2,1,0,126172.11,0
1678,1679,15569178,Kharlamov,570,France,Female,18,4,Medium,1,1,0,71811.90,0
4556,4557,15796231,Nwankwo,681,France,Female,18,1,Medium,1,1,1,9596.40,0
3239,3240,15776844,Hao,762,Spain,Female,19,6,Low,2,1,0,55500.17,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9309,9310,15621644,Lombardi,678,Germany,Male,83,6,High,1,0,1,92934.41,0
3387,3388,15798024,Lori,537,Germany,Male,84,8,Medium,1,1,1,186235.98,0
2458,2459,15813303,Rearick,513,Spain,Male,88,10,Low,2,1,1,52952.24,0
6443,6444,15764927,Rogova,753,France,Male,92,3,High,1,0,1,195563.99,0


## Выборка

In [None]:
exited = data_churn[(data_churn['Geography'] == "Germany") & (data_churn['Balance'] =="Low")]
exited

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
6411,6412,15791172,Yeh,672,Germany,Female,21,1,Low,1,1,0,28789.94,0
1181,1182,15624428,Longo,651,Germany,Female,24,7,Low,1,1,1,178341.33,0
4646,4647,15665008,Sidorov,805,Germany,Female,26,8,Low,2,1,1,28861.69,0
8260,8261,15627830,Nikitina,640,Germany,Female,30,5,Low,1,0,1,141446.01,0
257,258,15592979,Rose,671,Germany,Female,34,6,Low,2,0,0,156917.12,0
8251,8252,15751032,Enemuo,629,Germany,Female,37,1,Low,2,0,0,49676.33,0
7907,7908,15688157,Padovano,683,Germany,Female,39,2,Low,2,1,1,86019.48,0
5366,5367,15812230,Elliot,670,Germany,Female,42,5,Low,3,1,1,100324.01,0
4568,4569,15672875,Piccio,584,Germany,Male,32,8,Low,1,1,1,137439.34,0
9990,9991,15798964,Nkemakonam,714,Germany,Male,33,3,Low,1,1,0,53667.08,0


## Трансформация данных

### Слияние и присоединение DataFrames

In [None]:
customer_income = pd.DataFrame({'CustomerId': [15634602, 15619304, 15584532],'AnnualIncome': [55000, 68000, 45000]})
customer_income

Unnamed: 0,CustomerId,AnnualIncome
0,15634602,55000
1,15619304,68000
2,15584532,45000


Объединение DataFrames с помощью функции `merge()`. Функция `merge()` объединяет DataFrames на основе общих столбцов. По умолчанию он выполняет внутреннее соединение, что означает, что в результат будут включены только строки с соответствующими значениями в общих столбцах.

In [None]:
merged_data = pd.merge(data_churn, customer_income,on='CustomerId')
merged_data

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited,AnnualIncome
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1,55000
1,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1,68000
2,9998,15584532,Liu,709,France,Female,36,7,0.0,1,0,1,42085.58,1,45000


Вы можете указать тип соединения с помощью параметра `how`:
- «left»: Используйте ключи только из левого DataFrame
- «right»: Используйте ключи только из правого DataFrame
- «outer»: Используйте ключи из обоих DataFrames
- «inner»: Используйте пересечение ключей из обоих DataFrames (по умолчанию)

![img](https://drive.google.com/uc?id=1KK8yZteQWKInZvtVDu456ruhOlb4BUT7)


In [None]:
merged_data_left = pd.merge(data_churn, customer_income,on='CustomerId', how='left')
merged_data_left

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited,AnnualIncome
0,1,15634602,Hargrave,619,France,Female,42,2,0.00,1,1,1,101348.88,1,55000.0
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0,
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,1,0,113931.57,1,68000.0
3,4,15701354,Boni,699,France,Female,39,1,0.00,2,0,0,93826.63,0,
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.10,0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,1,0,96270.64,0,
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,1,1,101699.77,0,
9997,9998,15584532,Liu,709,France,Female,36,7,0.00,1,0,1,42085.58,1,45000.0
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1,


Присоединение DataFrames с помощью метода `join()`. Метод join() используется для объединения DataFrames на основе их индекса. По умолчанию он выполняет левое соединение, что означает, что он использует индекс из левого DataFrame и включает все его строки.

Во-первых, давайте установим "CustomerId" в качестве индекса для обоих DataFrames:

In [None]:
data_1 = data_churn.set_index('CustomerId')
customer_income = customer_income.set_index('CustomerId')

In [None]:
joined_data = data_1.join(customer_income)
joined_data

Unnamed: 0_level_0,RowNumber,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited,AnnualIncome
CustomerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
15634602,1,Hargrave,619,France,Female,42,2,0.00,1,1,1,101348.88,1,55000.0
15647311,2,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0,
15619304,3,Onio,502,France,Female,42,8,159660.80,3,1,0,113931.57,1,68000.0
15701354,4,Boni,699,France,Female,39,1,0.00,2,0,0,93826.63,0,
15737888,5,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.10,0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15606229,9996,Obijiaku,771,France,Male,39,5,0.00,2,1,0,96270.64,0,
15569892,9997,Johnstone,516,France,Male,35,10,57369.61,1,1,1,101699.77,0,
15584532,9998,Liu,709,France,Female,36,7,0.00,1,0,1,42085.58,1,45000.0
15682355,9999,Sabbatini,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1,


Объединение и добавление DataFrames в Pandas, слияние и добавление DataFrames относится к процессу объединения двух или более DataFrames вдоль определенной оси, либо по горизонтали, либо по вертикали. Этот метод полезен, когда у вас есть несколько наборов данных с одинаковыми строками или столбцами и вы хотите сложить их вместе. Конкатенация и добавление - это два метода объединения кадров данных в Pandas.

Конкатенация используется для укладки DataFrames друг на друга или рядом друг с другом.

Добавление добавляет новые строки к существующему DataFrame.

Оба этих метода могут быть полезны при создании единого DataFrame, который содержит всю необходимую информацию из исходных наборов данных.

In [None]:
data1 = data_churn.head(10)
data2 = data_churn.tail(10)
data1,data2

(   RowNumber  CustomerId   Surname  CreditScore Geography  Gender  Age  \
 0          1    15634602  Hargrave          619    France  Female   42   
 1          2    15647311      Hill          608     Spain  Female   41   
 2          3    15619304      Onio          502    France  Female   42   
 3          4    15701354      Boni          699    France  Female   39   
 4          5    15737888  Mitchell          850     Spain  Female   43   
 5          6    15574012       Chu          645     Spain    Male   44   
 6          7    15592531  Bartlett          822    France    Male   50   
 7          8    15656148    Obinna          376   Germany  Female   29   
 8          9    15792365        He          501    France    Male   44   
 9         10    15592389        H?          684    France    Male   27   
 
    Tenure    Balance  NumOfProducts  HasCrCard  IsActiveMember  \
 0       2       0.00              1          1               1   
 1       1   83807.86              1   

Объединение DataFrames с помощью функции `concat()`. Функция `concat()` объединяет DataFrames вдоль определенной оси. По умолчанию он конкатенирует DataFrames вдоль строк (axis=0).

Приведенное ниже учит, как соеять data1 и data2:

In [None]:
concatenated_data = pd.concat([data1, data2])
concatenated_data

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0
5,6,15574012,Chu,645,Spain,Male,44,8,113755.78,2,1,0,149756.71,1
6,7,15592531,Bartlett,822,France,Male,50,7,0.0,2,1,1,10062.8,0
7,8,15656148,Obinna,376,Germany,Female,29,4,115046.74,4,1,0,119346.88,1
8,9,15792365,He,501,France,Male,44,4,142051.07,2,0,1,74940.5,0
9,10,15592389,H?,684,France,Male,27,2,134603.88,1,1,1,71725.73,0


In [None]:
concatenated_data_columns = pd.concat([data1, data2], axis=1)
concatenated_data_columns

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,...,Geography.1,Gender.1,Age.1,Tenure.1,Balance.1,NumOfProducts.1,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1.0,15634602.0,Hargrave,619.0,France,Female,42.0,2.0,0.0,1.0,...,,,,,,,,,,
1,2.0,15647311.0,Hill,608.0,Spain,Female,41.0,1.0,83807.86,1.0,...,,,,,,,,,,
2,3.0,15619304.0,Onio,502.0,France,Female,42.0,8.0,159660.8,3.0,...,,,,,,,,,,
3,4.0,15701354.0,Boni,699.0,France,Female,39.0,1.0,0.0,2.0,...,,,,,,,,,,
4,5.0,15737888.0,Mitchell,850.0,Spain,Female,43.0,2.0,125510.82,1.0,...,,,,,,,,,,
5,6.0,15574012.0,Chu,645.0,Spain,Male,44.0,8.0,113755.78,2.0,...,,,,,,,,,,
6,7.0,15592531.0,Bartlett,822.0,France,Male,50.0,7.0,0.0,2.0,...,,,,,,,,,,
7,8.0,15656148.0,Obinna,376.0,Germany,Female,29.0,4.0,115046.74,4.0,...,,,,,,,,,,
8,9.0,15792365.0,He,501.0,France,Male,44.0,4.0,142051.07,2.0,...,,,,,,,,,,
9,10.0,15592389.0,H?,684.0,France,Male,27.0,2.0,134603.88,1.0,...,,,,,,,,,,


**Имейте в виду, что при соединении DataFrames вдоль столбцов важно, чтобы они имели одинаковый индекс. В противном случае вы можете получить отсутствующие значения в результате.**

Добавление DataFrames с помощью метода `append()`. Метод `append()` - это удобный способ объединения DataFrames вдоль строк, аналогично объединию вдоль строк с функцией `concat()`.

Вы можете добавить data2 к data1 следующим образом:

In [None]:
appended_data = data1.append(data2)
appended_data

  appended_data = data1.append(data2)


Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0
5,6,15574012,Chu,645,Spain,Male,44,8,113755.78,2,1,0,149756.71,1
6,7,15592531,Bartlett,822,France,Male,50,7,0.0,2,1,1,10062.8,0
7,8,15656148,Obinna,376,Germany,Female,29,4,115046.74,4,1,0,119346.88,1
8,9,15792365,He,501,France,Male,44,4,142051.07,2,0,1,74940.5,0
9,10,15592389,H?,684,France,Male,27,2,134603.88,1,1,1,71725.73,0


### Поворот и трансформация DataFrams

Поворот и трансформация DataFrames в Pandas включает в себя изменение формы ваших данных путем изменения их структуры без изменения фактических данных.

`Pivoting` преобразует данные из длинного формата в широкий, в то время как `melting` делает обратное.

Pivoting DataFrames `using pivot()`. Method Pivoting a DataFrame означает его перестройку путем установки индекса, столбцов и значений на основе существующих столбцов. Метод `pivot()` принимает три основных аргумента: индекс, столбцы и значения. Например, предположим, что вы хотите создать сводную таблицу для отображения среднего кредитного рейтинга для каждой географии и гендерной комбинации в данном наборе данных:

In [None]:
# Calculate the average credit score for each combination of geography and gender
average_credit_score = data_churn.groupby(['Geography', 'Gender'])['CreditScore'].mean().reset_index()
# Pivot the DataFrame
pivot_data = average_credit_score.pivot(index='Geography',columns='Gender', values='CreditScore')
pivot_data

Gender,Female,Male
Geography,Unnamed: 1_level_1,Unnamed: 2_level_1
France,649.185759,650.064657
Germany,653.093881,649.966565
Spain,651.769513,650.992075


Трансформация DataFrames с помощью функции `melt()`.
Трансформация DataFrame означает преобразование его из широкого формата в длинный формат путем перемещения нескольких столбцов в один столбец. Функция `melt()` принимает три основных аргумента: id_vars, value_vars и var_name.

Например, давайте расплавим pivot_data DataFrame обратно в длинный формат:

In [None]:
melted_data = pd.melt(pivot_data.reset_index(),id_vars='Geography', value_vars=['Female', 'Male'],var_name='Gender', value_name='AverageCreditScore')
melted_data

Unnamed: 0,Geography,Gender,AverageCreditScore
0,France,Female,649.185759
1,Germany,Female,653.093881
2,Spain,Female,651.769513
3,France,Male,650.064657
4,Germany,Male,649.966565
5,Spain,Male,650.992075


# Домашнее задание
1. Тщательно изучите документацию на библиотеку pandas и попробуйте самостоятельно выполнить группировку по другим столбцам.
2. В качестве упражнения выведите на экран название (Name) фирмы, у которой цена (Price) входит в интервал Exclusive
3. Загружаем выборку `Iris.csv`
4. Выводим первый и третий столбцы, сначала по отдельности, потом вместе.
5. Вывести 10 первых строк, вывести 23 случайных строк.
6. Выводим статистику по числовым показателям
7. Сгрупируйте данные по столбцу Setosa