# Pandas

In [12]:
# 
import numpy as np
import pandas as pd        

In [4]:
# !pip install pandas

 # Объекты модуля Pandas

* Series

In [6]:
# Series - одномерный массив (вектор-строка) индексированных данных
# Можно создать из списка или из массива NumPy
data = pd.Series([0.25,0.5,0.75,1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [7]:
# атрибуты
data.dtype

dtype('float64')

In [8]:
data.shape

(4,)

In [9]:
# значение
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [10]:
data.values[2:]

array([0.75, 1.  ])

In [11]:
data.values[0]

0.25

In [13]:
# индексы
data.index

RangeIndex(start=0, stop=4, step=1)

In [14]:
np.array(data.index)

array([0, 1, 2, 3], dtype=int64)

In [15]:
list(data.index)

[0, 1, 2, 3]

In [16]:
for i in data.index:
    print(i)

0
1
2
3


In [17]:
#  неявные (индексы по умолчанию) и явные (кастомизированные) индексы
data_2 = pd.Series([100,200,300,400], index=['a','b','c','d'])
data_2

a    100
b    200
c    300
d    400
dtype: int64

In [18]:
# исользование явных индексов
data_2['b']

200

In [19]:
# использование неявных индексов
data_2[0]

100

In [13]:
# создание на базе словаря
popul_dict = {
    'Yakutsk': 318768,
    'Neryungri': 57009,
    'Vilyusk' : 11095
}

popul = pd.Series(popul_dict)
popul

Yakutsk      318768
Neryungri     57009
Vilyusk       11095
dtype: int64

In [22]:
popul['Neryungri']

57009

In [23]:
# срез
popul['Neryungri':]

Neryungri    57009
Vilyusk      11095
dtype: int64

In [24]:
# маскирование
popul[popul>50000]

Yakutsk      318768
Neryungri     57009
dtype: int64

In [25]:
# прихотливая индексация
popul[['Yakutsk', 'Vilyusk']]

Yakutsk    318768
Vilyusk     11095
dtype: int64

* DataFrame

In [26]:
# DataFrame - двумерный массив, состоящий из Series-ов
# таблица

# Series по населению
popul

Yakutsk      318768
Neryungri     57009
Vilyusk       11095
dtype: int64

In [14]:
# новые данные
area_dict = {
    'Yakutsk' : 122,
    'Neryungri': 98.9,
    'Vilyusk' : 15
}

cities_data = pd.DataFrame({'Population': popul, 'Area': area_dict})
cities_data

Unnamed: 0,Population,Area
Neryungri,57009,98.9
Vilyusk,11095,15.0
Yakutsk,318768,122.0


In [28]:
# атрибуты
# индексы строк
cities_data.index

Index(['Neryungri', 'Vilyusk', 'Yakutsk'], dtype='object')

In [29]:
# ключи столбцов
cities_data.columns

Index(['Population', 'Area'], dtype='object')

In [30]:
# [][]
cities_data['Population']['Yakutsk']

318768

In [31]:
cities_data['Population']

Neryungri     57009
Vilyusk       11095
Yakutsk      318768
Name: Population, dtype: int64

## Манипуляции с данными

* срез

In [32]:
data_2

a    100
b    200
c    300
d    400
dtype: int64

In [33]:
# срез по НЕявным индексам
data_2[1:3]

b    200
c    300
dtype: int64

In [34]:
# срез по явным индексам
data_2['b':'d']

b    200
c    300
d    400
dtype: int64

In [35]:
data_3 = pd.Series([10,20,30], index=[1,2,3])
data_3

1    10
2    20
3    30
dtype: int64

In [36]:
# атрибут-индексаторы
# для НЕявных индексов

data_3.iloc[0]

10

In [37]:
# для явных индексов
data_3.loc[1]

10

In [38]:
data_3.iloc[:1]

1    10
dtype: int64

In [40]:
data_3.loc[:2]

1    10
2    20
dtype: int64

- прихотливая индексация

In [41]:
# прихотливая индексация по явным индексам
data_3.loc[[1,3]]

1    10
3    30
dtype: int64

- вычисления

In [42]:
cities_data

Unnamed: 0,Population,Area
Neryungri,57009,98.9
Vilyusk,11095,15.0
Yakutsk,318768,122.0


In [15]:
# добавление нового столбца
cities_data["Плотность"] = cities_data['Population'] / cities_data['Area']
cities_data

Unnamed: 0,Population,Area,Плотность
Neryungri,57009,98.9,576.430738
Vilyusk,11095,15.0,739.666667
Yakutsk,318768,122.0,2612.852459


In [45]:
# извлечение строки
# [индекс (-ы) строки, ключ(-и) столбцов]
cities_data.loc['Yakutsk', :]

Population    318768.000000
Area             122.000000
Плотность       2612.852459
Name: Yakutsk, dtype: float64

In [46]:
cities_data.loc[['Yakutsk', 'Neryungri'], : 'Area']

Unnamed: 0,Population,Area
Yakutsk,318768,122.0
Neryungri,57009,98.9


In [47]:
cities_data.loc[['Yakutsk', 'Neryungri'], 'Area']

Yakutsk      122.0
Neryungri     98.9
Name: Area, dtype: float64

In [49]:
# комбинация маскирования и "прихотливой" индексации

cities_data.loc[cities_data['Плотность'] < 1000, ['Population', 'Area']]

Unnamed: 0,Population,Area
Neryungri,57009,98.9
Vilyusk,11095,15.0


- Обработка отсутствующих данных

In [5]:
cities_data

Unnamed: 0,Population,Area,Плотность
Neryungri,57009,98.9,576.430738
Vilyusk,11095,15.0,739.666667
Yakutsk,318768,122.0,2612.852459


In [18]:
# в наш исходный словарь popul добавим новый город с количеством его населения
popul['Tiksi'] = 4537
popul

Yakutsk      318768
Neryungri     57009
Vilyusk       11095
Tiksi          4537
dtype: int64

In [19]:
# cities_data_2 = pd.DataFrame({'Население': popul, 'Площадь': area})
cities_data.loc['Tiksi', 'Population'] = 4537

In [20]:
cities_data

Unnamed: 0,Population,Area,Плотность
Neryungri,57009.0,98.9,576.430738
Vilyusk,11095.0,15.0,739.666667
Yakutsk,318768.0,122.0,2612.852459
Tiksi,4537.0,,


In [21]:
# не число NaN - Not a Number
cities_data.mean()

Population    97852.250000
Area             78.633333
Плотность      1309.649955
dtype: float64

In [22]:
cities_data.dropna()

Unnamed: 0,Population,Area,Плотность
Neryungri,57009.0,98.9,576.430738
Vilyusk,11095.0,15.0,739.666667
Yakutsk,318768.0,122.0,2612.852459


In [23]:
cities_data.dropna(axis='columns')

Unnamed: 0,Population
Neryungri,57009.0
Vilyusk,11095.0
Yakutsk,318768.0
Tiksi,4537.0


In [24]:
cities_data.loc['Tiksi', 'Area'] = 1000
cities_data

Unnamed: 0,Population,Area,Плотность
Neryungri,57009.0,98.9,576.430738
Vilyusk,11095.0,15.0,739.666667
Yakutsk,318768.0,122.0,2612.852459
Tiksi,4537.0,1000.0,


## Анализ данных по Титанику

In [52]:
#  загрузка файла с данными формата csv Common данные разделенные запятыми если лежит в раб папке то можно только название
titanic_data = pd.read_csv('titanic.csv')
titanic_data

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [36]:
# titanic_data = titanic_data.dropna()
titanic_data.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
10,1,3,female,4.0,1,1,16.7,S,Third,child,False,G,Southampton,yes,False
11,1,1,female,58.0,0,0,26.55,S,First,woman,False,C,Southampton,yes,True


In [39]:
titanic_data.shape

(891, 15)

In [40]:
# информация по таблице
titanic_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
survived       891 non-null int64
pclass         891 non-null int64
sex            891 non-null object
age            714 non-null float64
sibsp          891 non-null int64
parch          891 non-null int64
fare           891 non-null float64
embarked       889 non-null object
class          891 non-null object
who            891 non-null object
adult_male     891 non-null bool
deck           203 non-null object
embark_town    889 non-null object
alive          891 non-null object
alone          891 non-null bool
dtypes: bool(2), float64(2), int64(4), object(7)
memory usage: 92.4+ KB


In [41]:
# сводные показатели
# средний возраст
titanic_data['age'].mean()

29.69911764705882

In [42]:
titanic_data['age'].min()

0.42

In [50]:
mask_age = titanic_data['age'] > 20

titanic_data.loc[mask_age]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone


In [53]:
# сводные показатели по выжившим и столбцу "возраст"
titanic_data.loc[titanic_data["survived"] == 1, "age"].mean()

28.343689655172415

In [54]:
# GroupBy сгруппировать по чему-то делает сразу 3 операции
# "разбиение, применение, объединение"
titanic_data.groupby('survived').mean()

Unnamed: 0_level_0,pclass,age,sibsp,parch,fare,adult_male,alone
survived,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,2.531876,30.626179,0.553734,0.32969,22.117887,0.817851,0.681239
1,1.950292,28.34369,0.473684,0.464912,48.395408,0.25731,0.476608


In [55]:
# указание столбцов
titanic_data.groupby('survived')[['pclass', 'age']].mean()

Unnamed: 0_level_0,pclass,age
survived,Unnamed: 1_level_1,Unnamed: 2_level_1
0,2.531876,30.626179
1,1.950292,28.34369


In [57]:
titanic_data.groupby(['survived', 'who'])[['pclass', 'age']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,pclass,age
survived,who,Unnamed: 2_level_1,Unnamed: 3_level_1
0,child,2.941176,7.220588
0,man,2.454343,32.983871
0,woman,2.848485,30.459184
1,child,2.408163,5.77898
1,man,1.954545,34.069444
1,woman,1.839024,32.446746


In [58]:
titanic_data.groupby(['pclass', 'who'])['survived'].sum()

pclass  who  
1       child     5
        man      42
        woman    89
2       child    19
        man       8
        woman    60
3       child    25
        man      38
        woman    56
Name: survived, dtype: int64