In [7]:
import numpy as np
import pandas as pd

# Объекты модуля Pandas

## Series

In [4]:
# Series - одномерный массив индексированных данных
# Можно создать из списка или массива

data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

- атрибуты

In [4]:
#значения
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [5]:
data.values[0]

0.25

In [6]:
# индексы
data.index


RangeIndex(start=0, stop=4, step=1)

In [7]:
np.array(data.index)

array([0, 1, 2, 3], dtype=int64)

In [8]:
list(data.index)

[0, 1, 2, 3]

In [9]:
# форма 
data.shape

(4,)

In [10]:
# тип данных 
data.dtype

dtype('float64')

In [11]:
# чтение данных 
data[0]

0.25

In [12]:
# запись данных
data[0] = 3.14
data

0    3.14
1    0.50
2    0.75
3    1.00
dtype: float64

In [13]:
# срезы
data[1:]

1    0.50
2    0.75
3    1.00
dtype: float64

In [14]:
# явные индексы
data_2 = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data_2

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [15]:
# использование явных индексов
data_2['a']

0.25

In [16]:
# использование неявных индексов
data_2[0]

0.25

In [8]:
# создание объекта Series на базе словаря
population_dict = {
    'Yakutsk': 318768,
    'Neryungri': 57009,
    'Vilyuisk': 11095
}

popul = pd.Series(population_dict)
popul

Yakutsk      318768
Neryungri     57009
Vilyuisk      11095
dtype: int64

In [18]:
popul['Neryungri'] = 59010
popul

Yakutsk      318768
Neryungri     59010
Vilyuisk      11095
dtype: int64

In [19]:
popul['Neryungri':] 

Neryungri    59010
Vilyuisk     11095
dtype: int64

## DataFrame

In [20]:
# существующие данные в виде Series
popul

Yakutsk      318768
Neryungri     59010
Vilyuisk      11095
dtype: int64

In [9]:
# новые данные 
area_dict = {
    'Yakutsk': 122,
    'Neryungri': 98.9,
    'Vilyuisk': 15
}

area = pd.Series(area_dict)
area

Yakutsk      122.0
Neryungri     98.9
Vilyuisk      15.0
dtype: float64

In [10]:
cities_data = pd.DataFrame({'население': popul, 'площадь': area})
cities_data

Unnamed: 0,население,площадь
Yakutsk,318768,122.0
Neryungri,57009,98.9
Vilyuisk,11095,15.0


In [23]:
# индексы
cities_data.index

Index(['Yakutsk', 'Neryungri', 'Vilyuisk'], dtype='object')

In [24]:
# столбцы
cities_data.columns

Index(['население', 'площадь'], dtype='object')

In [25]:
# DataFrame можно рассматривать как специлизированный словарь
cities_data['население']

Yakutsk      318768
Neryungri     59010
Vilyuisk      11095
Name: население, dtype: int64

In [27]:
cities_data['население']['Yakutsk']

318768

- срезы

In [28]:
data

0    3.14
1    0.50
2    0.75
3    1.00
dtype: float64

In [30]:
# срез посредством неявного индекса
data[1:3]

1    0.50
2    0.75
dtype: float64

In [32]:
# срез посредством явного индекса
# конечный явный индекс ВКЛЮЧАЕТСЯ в срез
data_2['b':'d']

b    0.50
c    0.75
d    1.00
dtype: float64

In [34]:
# проблема с целочисленными явными индексами
data_3 = pd.Series([100, 200, 300], index=[1,2,3])
data_3

1    100
2    200
3    300
dtype: int64

In [36]:
data_3[1]

100

In [37]:
# чтобы избеэать путанницы с индексами или работать с обеими типами индексов предусмотрен атрибут-индексатор

# индексация и срезы с использованием ЯВНЫХ индексов
data_3.loc[1]

100

In [38]:
data_3.loc[2:]

2    200
3    300
dtype: int64

In [39]:
# индексация и срезы с использованием НЕЯВНЫХ индексов
data_3.iloc[1]

200

- маскирование

In [33]:
data_2[data_2 > 0.5]

c    0.75
d    1.00
dtype: float64

- "Прихотливая" индексация

In [41]:
data_2[['a','b']]

a    0.25
b    0.50
dtype: float64

- вычисления

In [42]:
cities_data

Unnamed: 0,население,площадь
Yakutsk,318768,122.0
Neryungri,59010,98.9
Vilyuisk,11095,15.0


In [11]:
# добавление нового столбца

cities_data['плотность'] = cities_data['население'] / cities_data['площадь']
cities_data

Unnamed: 0,население,площадь,плотность
Yakutsk,318768,122.0,2612.852459
Neryungri,57009,98.9,576.430738
Vilyuisk,11095,15.0,739.666667


In [48]:
# извлечение строки
cities_data.loc['Vilyuisk', :'площадь']

население    11095.0
площадь         15.0
Name: Vilyuisk, dtype: float64

In [49]:
cities_data.loc['Neryungri', : 'площадь']

население    59010.0
площадь         98.9
Name: Neryungri, dtype: float64

In [53]:
# маскирование и "прихотливая" индексация
cities_data.loc[cities_data['плотность'] < 1000, ['население', 'плотность']]

Unnamed: 0,население,плотность
Neryungri,59010,596.663296
Vilyuisk,11095,739.666667


## обработка отсутствующих данных

In [12]:
cities_data

Unnamed: 0,население,площадь,плотность
Yakutsk,318768,122.0,2612.852459
Neryungri,57009,98.9,576.430738
Vilyuisk,11095,15.0,739.666667


In [14]:
# в наш исходный словарь popul добавим новый город с количеством его населения
popul['Tiksi'] = 4537

In [15]:
popul

Yakutsk      318768
Neryungri     57009
Vilyuisk      11095
Tiksi          4537
dtype: int64

In [17]:
cities_data_2 = pd.DataFrame({'население': popul, 'площадь': area})
cities_data_2

Unnamed: 0,население,площадь
Neryungri,57009,98.9
Tiksi,4537,
Vilyuisk,11095,15.0
Yakutsk,318768,122.0


In [18]:
np.mean(cities_data_2)

население    97852.250000
площадь         78.633333
dtype: float64

In [20]:
cities_data_2.dropna(axis='columns')

Unnamed: 0,население
Neryungri,57009
Tiksi,4537
Vilyuisk,11095
Yakutsk,318768


# Анализ данных по Титанику

In [22]:
# загрузка файла с данными формата csv
titanic_data = pd.read_csv('файлы данных/titanic.csv')
titanic_data

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [24]:
# смотрим на часть таблицы (по умолчанию первые 5 строк)
titanic_data.head(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


In [25]:
# узнаем количество строк и столбцов
titanic_data.shape

(891, 15)

In [27]:
# более подробная информация
titanic_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   survived     891 non-null    int64  
 1   pclass       891 non-null    int64  
 2   sex          891 non-null    object 
 3   age          714 non-null    float64
 4   sibsp        891 non-null    int64  
 5   parch        891 non-null    int64  
 6   fare         891 non-null    float64
 7   embarked     889 non-null    object 
 8   class        891 non-null    object 
 9   who          891 non-null    object 
 10  adult_male   891 non-null    bool   
 11  deck         203 non-null    object 
 12  embark_town  889 non-null    object 
 13  alive        891 non-null    object 
 14  alone        891 non-null    bool   
dtypes: bool(2), float64(2), int64(4), object(7)
memory usage: 92.4+ KB


In [28]:
# сводные показатели
# средний возраст
titanic_data['age'].mean()

29.69911764705882

In [29]:
# минимальный возраст
titanic_data['age'].min()

0.42

In [30]:
# максимальный возраст
titanic_data['age'].max()

80.0

In [37]:
# сводные показатели по столбцу "age" при условии "survived" == 1
mean_age_surv = titanic_data.loc[titanic_data["survived"] == 1, 'age'].mean()
min_age_surv = titanic_data.loc[titanic_data["survived"] == 1, 'age'].min()
max_age_surv = titanic_data.loc[titanic_data["survived"] == 1, 'age'].max()

print(f"Mean age surv: {mean_age_surv: .2f}")
print(f"Min age surv: {min_age_surv}")
print(f"Max age surv: {max_age_surv}")

Mean age surv:  28.34
Min age surv: 0.42
Max age surv: 80.0


In [38]:
# GroupBy ("сгруппировать по")

# операция "разбиение, применение, объединение"

titanic_data.groupby('survived').mean()

Unnamed: 0_level_0,pclass,age,sibsp,parch,fare,adult_male,alone
survived,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,2.531876,30.626179,0.553734,0.32969,22.117887,0.817851,0.681239
1,1.950292,28.34369,0.473684,0.464912,48.395408,0.25731,0.476608


In [41]:
# указание столбцов
titanic_data.groupby('survived')[['pclass','age']].mean()

Unnamed: 0_level_0,pclass,age
survived,Unnamed: 1_level_1,Unnamed: 2_level_1
0,2.531876,30.626179
1,1.950292,28.34369


In [42]:
# средний класс и возраст по категории "муж-жен-реб"
titanic_data.groupby('who')[['pclass','age']].mean()

Unnamed: 0_level_0,pclass,age
who,Unnamed: 1_level_1,Unnamed: 2_level_1
child,2.626506,6.369518
man,2.372439,33.173123
woman,2.084871,32.0


In [43]:
# 
titanic_data.groupby(['survived', 'who'])[['pclass','age']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,pclass,age
survived,who,Unnamed: 2_level_1,Unnamed: 3_level_1
0,child,2.941176,7.220588
0,man,2.454343,32.983871
0,woman,2.848485,30.459184
1,child,2.408163,5.77898
1,man,1.954545,34.069444
1,woman,1.839024,32.446746


In [44]:
titanic_data.groupby(['survived', 'sex'])[['pclass','age']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,pclass,age
survived,sex,Unnamed: 2_level_1,Unnamed: 3_level_1
0,female,2.851852,25.046875
0,male,2.476496,31.618056
1,female,1.918455,28.847716
1,male,2.018349,27.276022


In [45]:
titanic_data.groupby('sex')['survived'].sum()

sex
female    233
male      109
Name: survived, dtype: int64

In [46]:
titanic_data.groupby('class')['survived'].sum()

class
First     136
Second     87
Third     119
Name: survived, dtype: int64

In [47]:
titanic_data.groupby(['survived', 'who'])[['pclass','age']].aggregate(['min', max, np.mean])

Unnamed: 0_level_0,Unnamed: 1_level_0,pclass,pclass,pclass,age,age,age
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean,min,max,mean
survived,who,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
0,child,1,3,2.941176,1.0,15.0,7.220588
0,man,1,3,2.454343,16.0,74.0,32.983871
0,woman,1,3,2.848485,16.0,57.0,30.459184
1,child,1,3,2.408163,0.42,15.0,5.77898
1,man,1,3,1.954545,16.0,80.0,34.069444
1,woman,1,3,1.839024,16.0,63.0,32.446746
