---

# Основные структуры в Pandas

---

Импортируем библиотеки $\mathsf{numpy}$, $\mathsf{pandas}$, а также класс $\mathsf{Series}$:

In [1]:
import pandas as pd
import numpy as np
from pandas import Series, DataFrame

---

### 2.3 | Изменение структуры фрейма

---

Для того, чтобы показать схожесть работы с датафреймами, как с сериями, давайте рассмотрим довольно синтетический пример. Пусть у нас есть датасет с Титаника, и мы хотим выделить только те строки, где пассажиры были в первом классе и выжили, либо были четного возраста и мужчинами:

In [2]:
df = pd.read_csv('/content/sample_data/titanic.csv', usecols=['PClass', 'Age', 'Survived', 'SexCode'])
df.head()

Unnamed: 0,PClass,Age,Survived,SexCode
0,1st,29.0,1,1
1,1st,2.0,0,1
2,1st,30.0,0,0
3,1st,25.0,0,1
4,1st,0.92,1,0


In [3]:
f_df = df[((df['PClass'] == '1st') & (df['Survived'] == 1)) \
          | ((df['Age'] % 2 == 0) & (df['SexCode'] == 0))]
f_df.head()

Unnamed: 0,PClass,Age,Survived,SexCode
0,1st,29.0,1,1
2,1st,30.0,0,0
4,1st,0.92,1,0
5,1st,47.0,1,0
6,1st,63.0,1,1


---

Создавать колонки в датафрейме можно так:

In [4]:
df['SexIfSurvived'] = df.Survived * (df.SexCode + 1)
df.head()

Unnamed: 0,PClass,Age,Survived,SexCode,SexIfSurvived
0,1st,29.0,1,1,2
1,1st,2.0,0,1,0
2,1st,30.0,0,0,0
3,1st,25.0,0,1,0
4,1st,0.92,1,0,1


---

Также можно инициализировать столбец каким-то стартовым значением:

In [5]:
df['SexIfSurvived'] = 0
df.head()

Unnamed: 0,PClass,Age,Survived,SexCode,SexIfSurvived
0,1st,29.0,1,1,0
1,1st,2.0,0,1,0
2,1st,30.0,0,0,0
3,1st,25.0,0,1,0
4,1st,0.92,1,0,0


---

Если нужно вставить колонку в какое-то специфическое место, то нужно использовать метод $\mathsf{insert}$:

In [6]:
df.insert(1, 'CopyOfSurvived', df.Survived)
df.head()

Unnamed: 0,PClass,CopyOfSurvived,Age,Survived,SexCode,SexIfSurvived
0,1st,1,29.0,1,1,0
1,1st,0,2.0,0,1,0
2,1st,0,30.0,0,0,0
3,1st,0,25.0,0,1,0
4,1st,1,0.92,1,0,0


---

А если нам нужно удалять колонки, то надо использовать метод $\mathsf{drop}$:

In [7]:
df = df.drop('Survived', axis=1)  # По умолчани󰑧 axis=0
df.head()

Unnamed: 0,PClass,CopyOfSurvived,Age,SexCode,SexIfSurvived
0,1st,1,29.0,1,0
1,1st,0,2.0,1,0
2,1st,0,30.0,0,0
3,1st,0,25.0,1,0
4,1st,1,0.92,0,0


---

Удалять можно и строки по меткам:

In [8]:
df = df.drop([0, 3])  # По умолчанию axis=0
df.head()

Unnamed: 0,PClass,CopyOfSurvived,Age,SexCode,SexIfSurvived
1,1st,0,2.0,1,0
2,1st,0,30.0,0,0
4,1st,1,0.92,0,0
5,1st,1,47.0,0,0
6,1st,1,63.0,1,0


---

Бывает нужно представление фрейма в виде $\mathsf{np.array}$, тогда нужно использовать функцию $\mathsf{np.asarray}$:

In [9]:
df = pd.DataFrame([[10, 20], [30, 40], [50, 60]], columns=['A', 'B'])
df

Unnamed: 0,A,B
0,10,20
1,30,40
2,50,60


In [10]:
np.asarray(df)

array([[10, 20],
       [30, 40],
       [50, 60]])