---

# Основные структуры в Pandas

---

Импортируем библиотеки $\mathsf{numpy}$, $\mathsf{pandas}$, а также класс $\mathsf{Series}$:

In [30]:
import pandas as pd
import numpy as np
from pandas import Series, DataFrame

In [31]:
from google.colab import files
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


---

## 2 | Dataframe (Датафреймы)

---

Импортируем класс датафрейм:

In [32]:
from pandas import DataFrame

---

### 2.1 | Способы инициализации

---

С помощью серий:

In [33]:
s1 = Series([1, 2])
s2 = Series([2, 4])
df = DataFrame([s1, s2])
df

Unnamed: 0,0,1
0,1,2
1,2,4


---

При необходимости можно изменить названия меток и колонок, обратившись к полям $\mathsf{index}$ и $\mathsf{columns}$:

In [34]:
df.index = ['s1', 's2']
df.columns = ['A', 'B']
df

Unnamed: 0,A,B
s1,1,2
s2,2,4


---

Датафреймы, как и серии, можно инциализировать с помощью словарей:

In [35]:
df = pd.DataFrame({
    'country': ['Kazakhstan', 'Russia', 'Belarus'],
    'population': [17.04, 143.5, 9.5],
    'square': [2724902, 17125191, 207600]
}, index=['KZ', 'RU', 'BY'])
df

Unnamed: 0,country,population,square
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600


---

Если данных слишком много, можно посмотреть лишь первые несколько записей, используя метод $\mathsf{head}$:

In [36]:
df = DataFrame({
    'alpha': ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'],
    'num': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
})
df.head()

Unnamed: 0,alpha,num
0,a,1
1,b,2
2,c,3
3,d,4
4,e,5


Существует абсолютно аналогичный метод $\mathsf{tail}$, показывающий несколько последних записей:

In [37]:
df.tail()

Unnamed: 0,alpha,num
5,f,6
6,g,7
7,h,8
8,i,9
9,j,10


---

Чаще всего табличные данные хранятся в файлах с расширением $\mathsf{csv}$. Считывать их можно с помощью метода $\mathsf{read\_csv}$:

In [83]:
df = pd.read_csv('/content/drive/MyDrive/Data/titanic.csv', sep=',')
df.head()

Unnamed: 0,PassengerID,Name,PClass,Age,Sex,Survived,SexCode
0,1,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,2,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,3,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,4,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,5,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


In [85]:
df.query('PassengerID == 1011')

Unnamed: 0,PassengerID,Name,PClass,Age,Sex,Survived,SexCode
1010,1011,"McNamee, Mrs Neal",3rd,,female,0,1


In [86]:
df = pd.read_csv('/content/drive/MyDrive/Data/titanic.csv', sep=',', index_col='PassengerID')
print(df.loc[[1011]]['Name'])

PassengerID
1011    McNamee, Mrs Neal
Name: Name, dtype: object


В этом примере мы в качестве разделителя указали запятую, но в файлах не всегда именно так хранятся данные, поэтому обязательной частью перед самим считыванием файла является проверка того, как хранятся там данные, и подбор нужных параметров для считывания.



Если в файлах нет первой строчки с названиями колонок, то при чтении нужно не забыть про параметр $\mathsf{header}$:

In [39]:
df = pd.read_csv('/content/drive/MyDrive/Data/headerless.csv', header=None)
df.head()

Unnamed: 0,0,1,2
0,John,23,present
1,Fred,34,present
2,Alice,56,missing
3,Carol,45,present




Можно явно присвоить названия колонок при считывании, указав их в параметре $\mathsf{names}$:

In [40]:
df = pd.read_csv('/content/drive/MyDrive/Data/headerless.csv', names=['name', 'age', 'status'])
df.head()

Unnamed: 0,name,age,status
0,John,23,present
1,Fred,34,present
2,Alice,56,missing
3,Carol,45,present


---

### 3.2 | Индексация датафреймов


---

Можно обращаться к колонкам по ассоциативной метке:

In [41]:
df = pd.read_csv('/content/drive/MyDrive/Data/titanic.csv', usecols=['PClass', 'Age', 'Survived', 'SexCode'])
df.head()

Unnamed: 0,PClass,Age,Survived,SexCode
0,1st,29.0,1,1
1,1st,2.0,0,1
2,1st,30.0,0,0
3,1st,25.0,0,1
4,1st,0.92,1,0


In [42]:
df['PClass'].head()

0    1st
1    1st
2    1st
3    1st
4    1st
Name: PClass, dtype: object

Или к нескольким сразу:

In [43]:
df[['Age', 'Survived']].head()

Unnamed: 0,Age,Survived
0,29.0,1
1,2.0,0
2,30.0,0
3,25.0,0
4,0.92,1


---

Также можно брать срезы по строкам:

In [44]:
df[3:5]

Unnamed: 0,PClass,Age,Survived,SexCode
3,1st,25.0,0,1
4,1st,0.92,1,0


---

Также тут работают методы взятие строк по метке и индексу, а именно $\mathsf{loc}$ и $\mathsf{iloc}$ соответственно:

In [45]:
df.loc[0]

PClass       1st
Age         29.0
Survived       1
SexCode        1
Name: 0, dtype: object

In [46]:
df.iloc[1:3]

Unnamed: 0,PClass,Age,Survived,SexCode
1,1st,2.0,0,1
2,1st,30.0,0,0


---

И, наконец, получая перечисленными способами поля серий, серии и фреймы данных, можно менять все их значения:

In [47]:
df.head()

Unnamed: 0,PClass,Age,Survived,SexCode
0,1st,29.0,1,1
1,1st,2.0,0,1
2,1st,30.0,0,0
3,1st,25.0,0,1
4,1st,0.92,1,0


In [48]:
df.loc[0, 'Age'] = 100  # Но нельзя делать так: df.loc[0].Age = 100
df.head()

Unnamed: 0,PClass,Age,Survived,SexCode
0,1st,100.0,1,1
1,1st,2.0,0,1
2,1st,30.0,0,0
3,1st,25.0,0,1
4,1st,0.92,1,0


In [49]:
df.iloc[[1, 3]] = -20
df.head()

Unnamed: 0,PClass,Age,Survived,SexCode
0,1st,100.0,1,1
1,-20,-20.0,-20,-20
2,1st,30.0,0,0
3,-20,-20.0,-20,-20
4,1st,0.92,1,0


---

Как и с сериями, по датафреймам можно итерироваться по названием колонок и значениям, использовав метод $\mathsf{iterrows}$:

In [50]:
df = DataFrame([
    [-1, 2],
    [-3, 4],
    [-5, 6]
], columns=['A', 'B'])
df

Unnamed: 0,A,B
0,-1,2
1,-3,4
2,-5,6


In [54]:
for col_name in df:
    print(f'col_name : {col_name}')

col_name : A
col_name : B


In [55]:
for index, row in df.iterrows():
    print(f'index : {index} \nrow : \n{row}\n')

index : 0 
row : 
A   -1
B    2
Name: 0, dtype: int64

index : 1 
row : 
A   -3
B    4
Name: 1, dtype: int64

index : 2 
row : 
A   -5
B    6
Name: 2, dtype: int64



---

Так же можно делать и с колонками:

In [56]:
for col_name, col in df.items():
    print(f'col_name : {col_name} \n{col}')

col_name : A 
0   -1
1   -3
2   -5
Name: A, dtype: int64
col_name : B 
0    2
1    4
2    6
Name: B, dtype: int64


In [74]:
a = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8],
    'C': [9, 10, 11, 12],
    'D': [13, 14, 15, 16]
}, index=[0, 1, 2, 3])
a

Unnamed: 0,A,B,C,D
0,1,5,9,13
1,2,6,10,14
2,3,7,11,15
3,4,8,12,16


In [60]:
a.loc[[1, 2], ['B', 'C']]

Unnamed: 0,B,C
1,6,10
2,7,11


In [71]:
a = pd.DataFrame([
    [-1, 1, 0],
    [2, -4, 6]
])
a

Unnamed: 0,0,1,2
0,-1,1,0
1,2,-4,6


In [75]:
def replace_all_odd_or_negative(a, b):
    return a.apply(lambda row: row.apply(lambda x: b if 0 > x or x % 2 == 1 else -x))

In [78]:
b = a.copy()
b.index = b.index[::-1]
b.columns = b.columns[::-1]
b

Unnamed: 0,D,C,B,A
3,1,5,9,13
2,2,6,10,14
1,3,7,11,15
0,4,8,12,16


In [None]:
def reverse_all_labels(a):
    b = a.copy()
    b.index = b.index[::-1]
    b.columns = b.columns[::-1]
    return b