In [1]:
import pandas as pd

`DataFrame` является двумерной структурой и представляется в виде таблицы, в которой есть строки и столбцы: столбцами в `DataFrame` выступают объекты `Series`, а строки формируются из их элементов. Также в `DataFrame` есть метки (индексы), которые соответствуют каждой строке таблицы.

### Создание DataFrame

**1 способ:**

In [3]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
countries_df

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


**2 способ:**

In [4]:
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


### Axes в DataFrame

Вводится понятие `axis` (ось, координата). Движение по строкам в таблице обозначается `axis` с индексом 0, а движение по столбцам — `axis` с индексом 1.

In [5]:
countries_df.mean(axis=0, numeric_only=True)

population    9.070000e+01
square        5.800860e+06
dtype: float64

In [6]:
countries_df.mean(axis=1, numeric_only=True)

UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

### Доступ к данным

In [7]:
countries_df.population

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

In [8]:
countries_df['population']

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

In [9]:
countries_df.loc['UK', 'square']

133396

In [10]:
countries_df.loc['RU', ['population', 'square']]

population      146.24
square        17125191
Name: RU, dtype: object

In [11]:
countries_df.iloc[4:8, 1:3]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


### Запись и чтение CSV

In [12]:
countries_df.to_csv('data/countries.csv', index=False, sep=';')

- `path_or_buf` — путь до файла, в который будет записан DataFrame (например, data/my_data.csv);
- `sep` — разделитель данных в выходном файле (по умолчанию ',');
- `decimal` — разделитель чисел на целую и дробную части в выходном файле (по умолчанию '.');
- `columns` — список столбцов, которые нужно записать в файл (по умолчанию записываются все столбцы);
- `index` — параметр, определяющий, требуется ли создавать дополнительный столбец с индексами строк в файле (по умолчанию True).

In [13]:
countries_data = pd.read_csv('data/countries.csv', sep=';')
display(countries_data)

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


- `filepath_or_buffer` — путь до файла, который мы читаем;
- `sep` — разделитель данных (по умолчанию ',');
- `decimal` — разделитель чисел на целую и дробную часть в выходном файле (по умолчанию '.');
- `names` — список с названиями столбцов для чтения;
- `skiprows` — количество строк в файле, которые нужно пропустить (например, файл может содержать служебную информацию, которая нам не нужна).

### Решение задачи на знакомство с данными

In [3]:
melb_data = pd.read_csv('data/melb_data.csv', sep=',')

In [23]:
melb_data.loc[3521, 'Landsize']/melb_data.loc[1690, 'Landsize']

2.7857142857142856

In [4]:
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')
melb_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  int64  
 12  Bathroom       13580 non-null  int64  
 13  Car            13580 non-null  int64  
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  int64  
 17  CouncilArea    12211 non-null  object 
 18  Lattit

In [8]:
melb_data.describe().loc[:, ['Distance', 'BuildingArea' , 'Price']]

Unnamed: 0,Distance,BuildingArea,Price
count,13580.0,13580.0,13580.0
mean,10.137776,139.633972,1075684.0
std,5.868725,392.217403,639310.7
min,0.0,0.0,85000.0
25%,6.1,122.0,650000.0
50%,9.2,126.0,903000.0
75%,13.0,129.94,1330000.0
max,48.1,44515.0,9000000.0


In [9]:
melb_data['Regionname'].value_counts()

Regionname
Southern Metropolitan         4695
Northern Metropolitan         3890
Western Metropolitan          2948
Eastern Metropolitan          1471
South-Eastern Metropolitan     450
Eastern Victoria                53
Northern Victoria               41
Western Victoria                32
Name: count, dtype: int64

In [10]:
melb_data['Type'].value_counts()

Type
h    9449
u    3017
t    1114
Name: count, dtype: int64

### Агрегирующие методы

**Агрегирующим** методом в Pandas называется метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее).
- `.count()` - Количество непустых значений
- `.mean()` - Среднее значение
- `.min()` - Минимальное значение
- `.max()` - Максимальное значение
- `.var()` - Дисперсия
- `.std()` - Стандартное отклонение
- `.sum()` - Сумма
- `.quantile(x)` - Квантиль уровня x
- `.nunique()` - Число уникальных значений

**Показатель моды** — самое распространённое значение в столбце. Он вычисляется с помощью метода `mode()`.

In [25]:
# Чему равно отклонение (в процентах) медианного значения площади здания от его среднего значения?

landsize_median = melb_data['BuildingArea'].median() 
landsize_mean =  melb_data['BuildingArea'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)

0.09764079662364533


In [27]:
# Сколько спален чаще всего встречается в домах в Мельбурне?
melb_data['Bedroom'].mode()

0    3
Name: Bedroom, dtype: int64

### Фильтрация данных

**Маской** называется `Series`, которая состоит из булевых значений, при этом значения `True` соответствуют тем индексам, для которых заданное условие выполняется, в противном случае ставится значение `False` (например, цена > 2 млн).

In [5]:
mask = melb_data['Price'] > 2000000
display(mask)

0        False
1        False
2        False
3        False
4        False
         ...  
13575    False
13576    False
13577    False
13578     True
13579    False
Name: Price, Length: 13580, dtype: bool

In [6]:
# первые пять строк отфильтрованной таблицы
display(melb_data[mask].head()) # melb_data[melb_data['Price'] > 2000000]

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
80,80,Albert Park,112 Beaconsfield Pde,3,h,2850000.0,PI,Buxton,4/03/2017,3.3,...,0,211.0,198.0,1890,Port Phillip,-37.8481,144.9499,Southern Metropolitan,3280,"-37.8481, 144.9499"
85,85,Albert Park,104 Richardson St,4,h,2300000.0,S,Marshall,7/05/2016,3.3,...,1,153.0,180.0,1880,Port Phillip,-37.8447,144.9523,Southern Metropolitan,3280,"-37.8447, 144.9523"
88,88,Albert Park,29 Faussett St,2,h,2120000.0,S,Greg,10/09/2016,3.3,...,1,199.0,107.0,1900,Port Phillip,-37.8422,144.9554,Southern Metropolitan,3280,"-37.8422, 144.9554"
92,92,Albert Park,2 Dundas Pl,3,h,2615000.0,S,Cayzer,10/12/2016,3.3,...,1,177.0,181.0,1880,Port Phillip,-37.8415,144.9585,Southern Metropolitan,3280,"-37.8415, 144.9585"
93,93,Albert Park,23 Finlay St,5,h,2100000.0,S,Greg,10/12/2016,3.3,...,1,237.0,126.0,1970,Port Phillip,-37.8436,144.9557,Southern Metropolitan,3280,"-37.8436, 144.9557"


In [9]:
# число трёхкомнатных домов с ценой менее 300 тысяч
melb_data[(melb_data['Rooms'] == 3) & (melb_data['Price'] < 300000)].shape[0]

3

In [10]:
# максимальное количество комнат в таунхаусах
melb_data[melb_data['Type'] == 't']['Rooms'].max()

5

### Срез по условию

Схема осуществления среза по условию:
`df.loc[condition_2 &/| condition_2 &/|…&/| condition_3]`.


Нужно выбрать транзакции с лимонами на общую стоимость более 8 у. е.:

In [2]:
df = pd.read_csv('data/fruits.csv')
df.loc[(df.total > 8) & (df.fruit == 'lemons')]

Unnamed: 0,fruit,shop,pl,Q,P,total
2,lemons,Shop A,offline,2,5,10
3,lemons,Shop B,online,3,5,15


### Введение в агрегирование и сводные таблицы

**Агрегирование** — обобщение вложенных структур данных.

Агрегирование можно осуществить с помощью метода `groupby()`.
Общая схема может выглядеть так:
`groupby('grouping_variable')['aggregation_variable'].method_aggregation()`

- `grouping_variable` — переменная группировки;
- `aggregation_variable` — переменная агрегирования;
- `method_aggregation()` — метод агрегирования.

In [3]:
# узнать среднюю стоимость покупок фруктов для каждого магазина
df.groupby('shop')['total'].mean().reset_index()

Unnamed: 0,shop,total
0,Shop A,16.714286
1,Shop B,36.0


**Сводная таблица** - это таблица сгруппированных значений, которая объединяет отдельные элементы более обширной таблицы. Сводные таблицы удобно реализовывать с помощью метода `pivot_table(df, index, columns, values, aggfunc)`.
- `df` - исходный DataFrame
- `index` - ключи для группировки по индексу
- `columns` - ключи для группировки столбцов
- `values` - столбцы агрегирования
- `aggfunc` - что делать с повторяющимеся значениями

In [4]:
import numpy as np

pd.pivot_table(df, \
    	values='total', \
    	index=['fruit', 'shop'],\
    	columns=['pl'], \
    	aggfunc=np.sum)

  pd.pivot_table(df, \


Unnamed: 0_level_0,pl,offline,online
fruit,shop,Unnamed: 2_level_1,Unnamed: 3_level_1
apples,Shop A,76.0,18.0
apples,Shop B,75.0,54.0
lemons,Shop A,10.0,13.0
lemons,Shop B,,15.0


In [13]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.nan, index=[0, 1, 2, 3], columns=['I', 'II', 'III'])
df.loc[0,"I"] = 1
df.loc[1,"I"] = 2
df.loc[2,"I"] = 3
df.loc[3,"I"] = 4
df.loc[0,"II"] = 5
df.loc[1,"II"] = 6
df.loc[2,"III"] = 7
df.loc[3,"III"] = 6
df = df.set_axis(range(1,5), axis = 'index')
df = df.set_axis(['A', 'B', 'C'], axis = 'columns')
df = df.fillna(55)
df

Unnamed: 0,A,B,C
1,1.0,5.0,55.0
2,2.0,6.0,55.0
3,3.0,55.0,7.0
4,4.0,55.0,6.0


In [45]:
fruit = np.array(["lemons", "lemons", "lemons", "lemons",
             	"apples", "apples", "apples", "apples",
             	"apples", "apples", "apples"],
            	dtype=object)

shop = np.array(["Shop A", "Shop A", "Shop A", "Shop B",
             	"Shop A", "Shop A", "Shop A", "Shop B",
             	"Shop B", "Shop B", "Shop A"],
            	dtype=object)
 
pl = np.array(["online", "online", "offline",
             	"online", "online", "offline",
             	"offline", "online", "offline",
             	"offline", "offline"],
            	dtype=object)

df = pd.DataFrame({'fruit': fruit, 'shop': shop, 'pl': pl,
               	"Q": [1, 2, 2, 3, 3, 4, 5, 6, 7, 4, 4],
               	"P": [5, 4, 5, 5, 6, 6, 8, 9, 9, 3, 3]})
df['total'] = df['Q']*df['P']

subset = df.loc[(df.Q > 3) & (df.shop == 'Shop A')]
total2 = subset.iloc[1, -1]
fruit_total = df.groupby('fruit')['total'].sum()
fruit_quantity = df.groupby('fruit')['Q'].sum()

df1 = df.loc[df.fruit == 'lemons']
lemon_average_price = df1.groupby('fruit')['P'].mean()

pivot = pd.pivot_table(df, index = ['shop'], columns = ['pl'], values = ['total'], aggfunc = np.sum)
print(pivot.iloc[1, 1])
pivot


69


  pivot = pd.pivot_table(df, index = ['shop'], columns = ['pl'], values = ['total'], aggfunc = np.sum)


Unnamed: 0_level_0,total,total
pl,offline,online
shop,Unnamed: 1_level_2,Unnamed: 2_level_2
Shop A,86,31
Shop B,75,69
