# Pandas

In [2]:
# установка 
!pip install pandas



In [1]:
# импортируем pandas и даем ему псевдоним pd
import pandas as pd

- Series

In [5]:
# Series - 1-мерный массив индексированных данных

data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [6]:
# атрибуты

# значения
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [7]:
data.values[0] = -1.0
data

0   -1.00
1    0.50
2    0.75
3    1.00
dtype: float64

In [8]:
# индексы
data.index

RangeIndex(start=0, stop=4, step=1)

In [9]:
import numpy as np

np.array(data.index)

array([0, 1, 2, 3], dtype=int64)

In [10]:
# форма
data.shape

(4,)

In [11]:
# тип данных
data.dtype

dtype('float64')

In [12]:
# мерность
data.ndim

1

In [13]:
# кол-во всех элементов
data.size

4

In [14]:
# чтение данных
data[0]

-1.0

In [15]:
# запись данных
data[1] = 100
data

0     -1.00
1    100.00
2      0.75
3      1.00
dtype: float64

In [16]:
# срезы
# срезы Series возвращают копии, а не представления
data[1:]

1    100.00
2      0.75
3      1.00
dtype: float64

In [19]:
a = data[1:]
a

1    100.00
2      0.75
3      1.00
dtype: float64

In [24]:
a.iloc[0] = 100000
a

1    100000.00
2         0.75
3         1.00
0     10000.00
dtype: float64

In [22]:
a[1] = 1000
data

0     -1.00
1    100.00
2      0.75
3      1.00
dtype: float64

In [25]:
# явные индексы
data_2 = pd.Series([1.0, 2.0, 3.14], index=['a', 'b', 'c'])
data_2

a    1.00
b    2.00
c    3.14
dtype: float64

In [26]:
# использование явных индексов
data_2['a'] = 1.2345
data_2

a    1.2345
b    2.0000
c    3.1400
dtype: float64

In [28]:
# использование неявных индексов
data_2[1] = 1.0
data_2

a    1.2345
b    1.0000
c    3.1400
dtype: float64

In [2]:
# создание Series на базе словаря
popul_dict = {
    "Yakutsk":318768,
    "Nerungri":57009,
    "Viliuysk":11095
}
popul_dict 

{'Yakutsk': 318768, 'Nerungri': 57009, 'Viliuysk': 11095}

In [4]:
popul_data = pd.Series(popul_dict)
popul_data

Yakutsk     318768
Nerungri     57009
Viliuysk     11095
dtype: int64

In [31]:
popul_data["Nerungri"]

57009

In [32]:
popul_data["Nerungri":]

Nerungri    57009
Viliuysk    11095
dtype: int64

- DataFrame

In [5]:
# новые данные
area_dict = {
    "Yakutsk": 122,
    "Nerungri": 98.9,
    "Viliuysk": 15
}
area_dict

{'Yakutsk': 122, 'Nerungri': 98.9, 'Viliuysk': 15}

In [6]:
area_data = pd.Series(area_dict)
area_data 

Yakutsk     122.0
Nerungri     98.9
Viliuysk     15.0
dtype: float64

In [7]:
cities_data = pd.DataFrame({"population":popul_data, "area":area_data})
cities_data

Unnamed: 0,population,area
Yakutsk,318768,122.0
Nerungri,57009,98.9
Viliuysk,11095,15.0


In [37]:
# DataFrame нужно рассматривать как специализированный словарь
cities_data["population"]

Yakutsk     318768
Nerungri     57009
Viliuysk     11095
Name: population, dtype: int64

In [38]:
# извлечение данных по одному городу
cities_data["population"]["Yakutsk"]


318768

In [41]:
# срезы
# чтобы избежать путаницы с индексом используются атрибут-индексаторы
# loc - если явные индексы
# iloc - если неявные индексы

# пример с явной индексацией
cities_data.loc["Yakutsk", :]

population    318768.0
area             122.0
Name: Yakutsk, dtype: float64

In [42]:
# пример с неявной индексацией
cities_data.iloc[0, :]

population    318768.0
area             122.0
Name: Yakutsk, dtype: float64

- маскирование

In [43]:
cities_data

Unnamed: 0,population,area
Yakutsk,318768,122.0
Nerungri,57009,98.9
Viliuysk,11095,15.0


In [44]:
cities_data.loc[cities_data['population'] > 50000]

Unnamed: 0,population,area
Yakutsk,318768,122.0
Nerungri,57009,98.9


In [45]:
cities_data['population'] > 50000

Yakutsk      True
Nerungri     True
Viliuysk    False
Name: population, dtype: bool

In [48]:
# маскирование со сложным условием
mask = [(cities_data['area'] < 100) & (cities_data['population'] > 50000)]
mask

[Yakutsk     False
 Nerungri     True
 Viliuysk    False
 dtype: bool]

In [52]:
cities_data[mask]

ValueError: Item wrong length 1 instead of 3.

- "прихотливая" (fansy) индексация

In [51]:
cities_data.loc[['Yakutsk', 'Viliuysk'], :]

Unnamed: 0,population,area
Yakutsk,318768,122.0
Viliuysk,11095,15.0


- вычисление

In [8]:
cities_data

Unnamed: 0,population,area
Yakutsk,318768,122.0
Nerungri,57009,98.9
Viliuysk,11095,15.0


In [9]:
# добавление нового столбца (работает словарный синтаксис)
cities_data['Плотность населения'] = cities_data['population'] / cities_data['area']
cities_data

Unnamed: 0,population,area,Плотность населения
Yakutsk,318768,122.0,2612.852459
Nerungri,57009,98.9,576.430738
Viliuysk,11095,15.0,739.666667


In [10]:
# извлечение строки
# комбинация явного индекса по строке и "прихотливой" индексации по столбцам
cities_data.loc['Viliuysk', ['population', 'Плотность населения']]

population             11095.000000
Плотность населения      739.666667
Name: Viliuysk, dtype: float64

In [11]:
# комбинация срезов по явным индексам строк и столбцов
# явные индексы включаются в срез
cities_data.loc[:'Nerungri', 'area':]

Unnamed: 0,area,Плотность населения
Yakutsk,122.0,2612.852459
Nerungri,98.9,576.430738


In [12]:
# комбинация маскирования по строкам и "прихотливой" индексации по столбцам
cities_data.loc[cities_data["Плотность населения"] > 600, ["population", "area"]]

Unnamed: 0,population,area
Yakutsk,318768,122.0
Viliuysk,11095,15.0


- обработка отсутствующих данных

In [13]:
cities_data

Unnamed: 0,population,area,Плотность населения
Yakutsk,318768,122.0,2612.852459
Nerungri,57009,98.9,576.430738
Viliuysk,11095,15.0,739.666667


In [14]:
# добавление нового города с данными по населению
cities_data.loc['Tiksi', 'population'] = 4537
cities_data

Unnamed: 0,population,area,Плотность населения
Yakutsk,318768.0,122.0,2612.852459
Nerungri,57009.0,98.9,576.430738
Viliuysk,11095.0,15.0,739.666667
Tiksi,4537.0,,


In [15]:
# вычисление среднего значения 
import numpy as np

np.mean(cities_data)

population             97852.250000
area                      78.633333
Плотность населения     1309.649955
dtype: float64

In [16]:
# метод удаления строк с пустыми (NaN) значениями
cities_data.dropna()

Unnamed: 0,population,area,Плотность населения
Yakutsk,318768.0,122.0,2612.852459
Nerungri,57009.0,98.9,576.430738
Viliuysk,11095.0,15.0,739.666667


In [17]:
# удаление столбцов с пустыми значениями
cities_data.dropna(axis='columns')

Unnamed: 0,population
Yakutsk,318768.0
Nerungri,57009.0
Viliuysk,11095.0
Tiksi,4537.0


## Анализ данных по кораблю "Титаник"

In [2]:
# загрузка файла с данными формата CSV
titanic_data = pd.read_csv("titanic.csv")
titanic_data

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [22]:
# смотрим на часть таблицы (по умолчанию первые 5 строк)
titanic_data.head(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


In [23]:
# узнаем количество строк и столбцов
titanic_data.shape

(891, 15)

In [24]:
# более подробная информация по таблице
titanic_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   survived     891 non-null    int64  
 1   pclass       891 non-null    int64  
 2   sex          891 non-null    object 
 3   age          714 non-null    float64
 4   sibsp        891 non-null    int64  
 5   parch        891 non-null    int64  
 6   fare         891 non-null    float64
 7   embarked     889 non-null    object 
 8   class        891 non-null    object 
 9   who          891 non-null    object 
 10  adult_male   891 non-null    bool   
 11  deck         203 non-null    object 
 12  embark_town  889 non-null    object 
 13  alive        891 non-null    object 
 14  alone        891 non-null    bool   
dtypes: bool(2), float64(2), int64(4), object(7)
memory usage: 92.4+ KB


In [25]:
# сводные показатели
# средний возраст пассажиров попавших в данную статистику
titanic_data["age"].mean()

29.69911764705882

In [26]:
# минимальный возраст
titanic_data["age"].min()

0.42

In [27]:
# максимальный возраст
titanic_data["age"].max()

80.0

In [3]:
# сводные показатели по столбцу "возраст" при условии "выжил" == 1
mask = titanic_data["survived"] == 1
titanic_data.loc[mask, :]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
875,1,3,female,15.0,0,0,7.2250,C,Third,child,False,,Cherbourg,yes,True
879,1,1,female,56.0,0,1,83.1583,C,First,woman,False,C,Cherbourg,yes,False
880,1,2,female,25.0,0,1,26.0000,S,Second,woman,False,,Southampton,yes,False
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True


In [5]:
# средний возраст выживших пассажиров, попавших в статистику
titanic_data.loc[mask, "age"].mean()

28.343689655172415

In [6]:
# минимальный возраст выживших пассажиров, попавших в статистику
titanic_data.loc[mask, "age"].min()

0.42

In [8]:
# сколько пассажиров было с минимальным возрастом
mask = (titanic_data["survived"] == 1) & (titanic_data["age"] < 1)
titanic_data.loc[mask, :]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
78,1,2,male,0.83,0,2,29.0,S,Second,child,False,,Southampton,yes,False
305,1,1,male,0.92,1,2,151.55,S,First,child,False,C,Southampton,yes,False
469,1,3,female,0.75,2,1,19.2583,C,Third,child,False,,Cherbourg,yes,False
644,1,3,female,0.75,2,1,19.2583,C,Third,child,False,,Cherbourg,yes,False
755,1,2,male,0.67,1,1,14.5,S,Second,child,False,,Southampton,yes,False
803,1,3,male,0.42,0,1,8.5167,C,Third,child,False,,Cherbourg,yes,False
831,1,2,male,0.83,1,1,18.75,S,Second,child,False,,Southampton,yes,False


In [11]:
# сколько пассажиров было с минимальным возрастом
# mask = (titanic_data["survived"] == 1) & (titanic_data["age"] < 1)
mask = titanic_data["age"] < 18
titanic_data.loc[mask, :].shape[0]

113

In [12]:
# GroupBy
# с англ "сгруппировать по ..."
# выполняются операции "разбиение, применение, объединение"
titanic_data.groupby("survived").mean()

Unnamed: 0_level_0,pclass,age,sibsp,parch,fare,adult_male,alone
survived,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,2.531876,30.626179,0.553734,0.32969,22.117887,0.817851,0.681239
1,1.950292,28.34369,0.473684,0.464912,48.395408,0.25731,0.476608


In [13]:
# указываем необходимые столбцы
titanic_data.groupby("survived")[["pclass", "age"]].mean()

Unnamed: 0_level_0,pclass,age
survived,Unnamed: 1_level_1,Unnamed: 2_level_1
0,2.531876,30.626179
1,1.950292,28.34369


In [14]:
# среднее значение класса кают и возраста пассажиров 
# сгрупированных по категории "пол"
titanic_data.groupby("who")[["pclass", "age"]].mean()

Unnamed: 0_level_0,pclass,age
who,Unnamed: 1_level_1,Unnamed: 2_level_1
child,2.626506,6.369518
man,2.372439,33.173123
woman,2.084871,32.0


In [15]:
# среднее значение класса кают и возраста пассажиров 
# сгрупированных по категориям "survived" "пол"
titanic_data.groupby(["survived", "who"])[["pclass", "age"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,pclass,age
survived,who,Unnamed: 2_level_1,Unnamed: 3_level_1
0,child,2.941176,7.220588
0,man,2.454343,32.983871
0,woman,2.848485,30.459184
1,child,2.408163,5.77898
1,man,1.954545,34.069444
1,woman,1.839024,32.446746


In [16]:
titanic_data.groupby(["survived", "sex", "who"])[["pclass", "age"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,pclass,age
survived,sex,who,Unnamed: 3_level_1,Unnamed: 4_level_1
0,female,child,2.866667,7.366667
0,female,woman,2.848485,30.459184
0,male,child,3.0,7.105263
0,male,man,2.454343,32.983871
1,female,child,2.5,7.125
1,female,woman,1.839024,32.446746
1,male,child,2.285714,3.984286
1,male,man,1.954545,34.069444


In [18]:
# 
titanic_data.groupby(["survived", "sex", "who"])["who"].count()

survived  sex     who  
0         female  child     15
                  woman     66
          male    child     19
                  man      449
1         female  child     28
                  woman    205
          male    child     21
                  man       88
Name: who, dtype: int64

In [19]:
# группируем по "survived", "pclass", "who" и узнаем кол-во детей мужчин женщин
titanic_data.groupby(["survived", "pclass", "who"])["who"].count()

survived  pclass  who  
0         1       child      1
                  man       77
                  woman      2
          2       man       91
                  woman      6
          3       child     33
                  man      281
                  woman     58
1         1       child      5
                  man       42
                  woman     89
          2       child     19
                  man        8
                  woman     60
          3       child     25
                  man       38
                  woman     56
Name: who, dtype: int64

In [23]:
titanic_data.groupby(["survived", "class", "who"])["age"].aggregate(["min", "mean", "max"])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,min,mean,max
survived,class,who,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,First,child,2.0,2.0,2.0
0,First,man,18.0,44.581967,71.0
0,First,woman,25.0,37.5,50.0
0,Second,man,16.0,33.369048,70.0
0,Second,woman,24.0,36.0,57.0
0,Third,child,1.0,7.378788,15.0
0,Third,man,16.0,29.209184,74.0
0,Third,woman,16.0,29.304878,48.0
1,First,child,0.92,8.984,15.0
1,First,man,17.0,38.756757,80.0


## Работа с Excel

- Создание excel-файла

In [4]:
# Создание excel-файла с названием листа и без индексов по умолчанию
titanic_data.to_excel("titanic.xlsx", sheet_name="titanic", index=False)

In [5]:
# Создание excel-файла с несколькими листами
titanic_data_2 = titanic_data.copy()
titanic_data_2.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [6]:
# Словарь с датафреймами
sheets = {"titanic_1":titanic_data, "titanic_2":titanic_data_2}

# определение движка для записи нескольких датафреймов
writer = pd.ExcelWriter("BigTitanic.xlsx", engine="xlsxwriter")

sheets["titanic_1"].to_excel(writer, sheet_name="titanic_1", index=False)
sheets["titanic_2"].to_excel(writer, sheet_name="titanic_2", index=False)

writer.save()

In [9]:
# То же самое, но с применением цикла 
# Словарь с датафреймами
sheets = {"titanic_1":titanic_data, "titanic_2":titanic_data_2, "titanic_3":titanic_data_2}

# определение движка для записи нескольких датафреймов
writer = pd.ExcelWriter("BigTitanic.xlsx", engine="xlsxwriter")
for sheet_name in sheets.keys():
    sheets[sheet_name].to_excel(writer, sheet_name=sheet_name, index=False)
    
writer.save()

- Чтение excel-файла

In [11]:
# загрузка excel-файла с конвертацией в датафрейм
data_from_excel = pd.read_excel("titanic.xlsx")
data_from_excel.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [12]:
# загрузка excel-файла с конвертацией в датафрейм
# один из столбцов датафрейма превращаем в индексный столбец
# т.е. значение этого столбца станут явными индексами строк
data_from_excel = pd.read_excel("titanic.xlsx", index_col="fare")
data_from_excel.head()

Unnamed: 0_level_0,survived,pclass,sex,age,sibsp,parch,embarked,class,who,adult_male,deck,embark_town,alive,alone
fare,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
7.25,0,3,male,22.0,1,0,S,Third,man,True,,Southampton,no,False
71.2833,1,1,female,38.0,1,0,C,First,woman,False,C,Cherbourg,yes,False
7.925,1,3,female,26.0,0,0,S,Third,woman,False,,Southampton,yes,True
53.1,1,1,female,35.0,1,0,S,First,woman,False,C,Southampton,yes,False
8.05,0,3,male,35.0,0,0,S,Third,man,True,,Southampton,no,True


In [14]:
# загрузка определенных столбцов эксель-файлов
# по явным индексам
# columns = ["survived", "pclass"]
# по неявным индексам
columns = [0, 2, 3]
data_from_excel = pd.read_excel("titanic.xlsx", usecols=columns)
data_from_excel.head()

Unnamed: 0,survived,sex,age
0,0,male,22.0
1,1,female,38.0
2,1,female,26.0
3,1,female,35.0
4,0,male,35.0


In [16]:
# загрузка таблицы с автоматическим удалением 3-х первых сверху строк
data_from_excel = pd.read_excel("titanic.xlsx", skiprows=3) #.dropna()
data_from_excel.head()

Unnamed: 0,1,3,female,26,0,0.1,7.925,S,Third,woman,False.2,Unnamed: 11,Southampton,yes,True.1
0,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
3,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,1,3,female,4.0,1,1,16.7,S,Third,child,False,G,Southampton,yes,False
8,1,1,female,58.0,0,0,26.55,S,First,woman,False,C,Southampton,yes,True
18,1,2,male,34.0,0,0,13.0,S,Second,man,True,D,Southampton,yes,True
