### Введение в Pandas

In [2]:
import pandas as pd

**Series** — это упорядоченная изменяемая коллекция объектов, имеющая так называемые ассоциативные метки (индексы).
Индексами могут быть не только порядковые номера — фактически что угодно, например, названия компаний, даты, идентификаторы, наименования продуктов. 

#### Создание Series

In [7]:
countries = pd.Series( # создание Series из списка
    data = ['Англия', 'Канада', 'США', 'Россия'],
    index = ['UK', 'CA', 'US', 'RU'],
    name = 'countries'
)
display(countries)

UK    Англия
CA    Канада
US       США
RU    Россия
Name: countries, dtype: object

In [8]:
countries = pd.Series({ # создание Series из словаря
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия'},
    name = 'countries'
)
display(countries)

UK    Англия
CA    Канада
US       США
RU    Россия
Name: countries, dtype: object

In [11]:
print(countries.loc['US']) # получение данных по одной метке, возвращается строка

США


In [14]:
# получение данных по списку меток, возвращается Series
# аналогично countries[['US', 'RU']]
print(countries.loc[['US', 'RU']]) 

US       США
RU    Россия
Name: countries, dtype: object


In [10]:
# получение данных по индексам, аналогично 
# аналогично countries[1::2] или countries[[1,3]]
print(countries.iloc[1::2]) # получение данных по индексам, аналогично 

CA    Канада
RU    Россия
Name: countries, dtype: object


**DataFrame** является двумерной структурой и представляется в виде таблицы, в которой есть строки и столбцы: столбцами в DataFrame выступают объекты Series, а строки формируются из их элементов. Также в DataFrame есть метки (индексы), которые соответствуют каждой строке таблицы.

#### Создание DataFrame

In [28]:
countries_df = pd.DataFrame({ # создание DataFrame из словаря со значениями-списками с автоматическими индексами 
    'country': ['Англия', 'Канада', 'США', 'Россия'],
    'population': [56.29, 38.05, 322.28, 146.24],
    'square': [133396, 9984670, 9826630, 17125191]
})
countries_df

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191


In [30]:
countries_df.index = ['UK', 'CA', 'US', 'RU'] # задание индексом для таблицы
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191


In [31]:
countries_df = pd.DataFrame( # создание DataFrame из списка списков 
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU']
)
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191


**axis** - ось, координата. Движение по строкам в таблице обозначается axis с индексом 0, а движение по столбцам — axis с индексом 1.

In [39]:
countries_df.mean(axis=0, numeric_only=True) # среднее по строкам в каждом столбце

population        140.715
square        9267471.750
dtype: float64

In [37]:
countries_df.mean(axis=1, numeric_only=True) # среднее по столбцам в каждой строке

UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
dtype: float64

#### Дотуп к данным 

In [43]:
# получение столбца, возвращает Series
# аналогично countries_df['population']
countries_df.population

UK     56.29
CA     38.05
US    322.28
RU    146.24
Name: population, dtype: float64

In [45]:
countries_df.loc[['UK', 'CA'],['population', 'square']] # получение нескольких колонок по выбранным строкам

Unnamed: 0,population,square
UK,56.29,133396
CA,38.05,9984670


In [52]:
countries_df.iloc[:2][['population', 'square']]

Unnamed: 0,population,square
UK,56.29,133396
CA,38.05,9984670


### CSV

* DataFrame.**to_csv()** - запись в csv, где
    + path_or_buf — путь до файла, в который будет записан DataFrame (например, data/my_data.csv);
    + sep — разделитель данных в выходном файле (по умолчанию ',');
    + decimal — разделитель чисел на целую и дробную части в выходном файле (по умолчанию '.');
    + columns — список столбцов, которые нужно записать в файл (по умолчанию записываются все столбцы);
    + index — параметр, определяющий, требуется ли создавать дополнительный столбец с индексами строк в файле (по умолчанию True); 
* DataFrame.**to_excel()** — запись DataFrame в формат Excel-таблицы (.xlsx);
* DataFrame.**to_json()** — запись DataFrame в формат JSON (.json);
* DataFrame.**to_xml()** — запись DataFrame в формат XML-документа (.xml);
* DataFrame.**to_sql()** — запись DataFrame в базу данных SQL (для реализации этого метода необходимо установить соединение с базой данных).
<br>
<br>
* DataFrame.**read_csv()** - чтение csv, где
    + filepath_or_buffer — путь до файла, который мы читаем;
    + sep — разделитель данных (по умолчанию ',');
    + decimal — разделитель чисел на целую и дробную часть в выходном файле (по умолчанию '.');
    + names — список с названиями столбцов для чтения;
    + skiprows — количество строк в файле, которые нужно пропустить (например, файл может содержать служебную информацию, которая нам не нужна);
* DataFrame.**read_excel()** — чтение из формата Excel-таблицы (.xlsx) в DataFrame;
* DataFrame.**read_json()** — чтение из формата JSON (.json) в DataFrame;
* DataFrame.**read_xml()** — чтение из формата XML-документа (.xml) в DataFrame;
* DataFrame.**read_sql()** — чтение из базы данных SQL в DataFrame (также необходимо установить соединение с базой данных).

In [7]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия'],
    'population': [56.29, 38.05, 322.28, 146.24],
    'square': [133396, 9984670, 9826630, 17125191]
})

countries_df.to_csv('data/countries.csv', index=False, sep=';') # запись в df в файл

In [8]:
# можно читать по ссылке:
# pd.read_csv('https://path/my_csv.csv')
countries_data = pd.read_csv('data/countries.csv', sep=';') # чтение df из файла
display(countries_data)

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191


In [10]:
melb_data = pd.read_csv('data/melb_data.csv', sep=',') # прочитаем данные о недвижимости

In [17]:
display(melb_data.head(2)) # 2 первые строки df
display(melb_data.tail(2)) # 2 последние строки df

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,202.0,126.0,1970.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0,"-37.8079, 144.9934"


Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
13578,13578,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0,"-37.85908, 144.89299"
13579,13579,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0,"-37.81188, 144.88449"


In [18]:
melb_data.shape # размерность таблицы

(13580, 23)

#### Получение информации о DataFrame

* df.**info()** - информация о стобцах
* df.**describe**(include=['object']) - статистика для нечисловых показателей, где
    + count - количество непустых строк;
    + unique - количество уникальных значений;
    + top - самое частое значение — мода;
    + freq - частота — объём использования — этого значения для каждого столбца типа object исходной таблицы;
* df['column_name'].**value_counts()** - частота уникальных значений в столбце;
* df['column_name'].**isna()** - проверка на NaN;
* df['column_name'].**isin(list)** - проверка на вхождение в множество
* df.**dropna()** - удаление строк по условию
    + subset - список колонок, которые проверяются на NaN;
    + inplace - замещать ли текущий df. По умолчанию False;

##### Агрегирующие методы
* **.count()** - количество непустых значений;
* **.mean()**	- cреднее значение;
* **.mode()**	- самое частое значение;
* **.median()**	- медиана (то же самое, что quantile(0.5));
* **.min()** - минимальное значение;
* **.max()** - максимальное значение;
* **.var()** - дисперсия;
* **.std()** - стандартное отклонение;
* **.sum()** - сумма;
* **.quantile(x)** - квантиль уровня x;
* **.nunique()** - число уникальных значений; \
<br>
Для всех методов применимы параметры:
    + axis  — определяет, подсчитывать параметр по строкам или по столбцам;
    + numeric_only — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False).

In [23]:
melb_data.info() # информация о стобцах

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   index          13580 non-null  int64  
 1   Suburb         13580 non-null  object 
 2   Address        13580 non-null  object 
 3   Rooms          13580 non-null  int64  
 4   Type           13580 non-null  object 
 5   Price          13580 non-null  float64
 6   Method         13580 non-null  object 
 7   SellerG        13580 non-null  object 
 8   Date           13580 non-null  object 
 9   Distance       13580 non-null  float64
 10  Postcode       13580 non-null  int64  
 11  Bedroom        13580 non-null  int64  
 12  Bathroom       13580 non-null  int64  
 13  Car            13580 non-null  int64  
 14  Landsize       13580 non-null  float64
 15  BuildingArea   13580 non-null  float64
 16  YearBuilt      13580 non-null  int64  
 17  CouncilArea    12211 non-null  object 
 18  Lattit

In [20]:
# изменение типа данных с float на int для экономии места в колонках с целочисленными данными
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')

In [21]:
melb_data.describe().loc[:, ['Distance', 'BuildingArea' , 'Price']] # описательная статистика для числовых показателей

Unnamed: 0,Distance,BuildingArea,Price
count,13580.0,13580.0,13580.0
mean,10.137776,139.633972,1075684.0
std,5.868725,392.217403,639310.7
min,0.0,0.0,85000.0
25%,6.1,122.0,650000.0
50%,9.2,126.0,903000.0
75%,13.0,129.94,1330000.0
max,48.1,44515.0,9000000.0


In [22]:
melb_data.describe(include=['object']) # описательная статистика для нечисловых показателей

Unnamed: 0,Suburb,Address,Type,Method,SellerG,Date,CouncilArea,Regionname,Coordinates
count,13580,13580,13580,13580,13580,13580,12211,13580,13580
unique,314,13378,3,5,268,58,33,8,13097
top,Reservoir,36 Aberfeldie St,h,S,Nelson,27/05/2017,Moreland,Southern Metropolitan,"-37.8361, 144.9966"
freq,359,3,9449,9022,1565,473,1163,4695,12


In [24]:
melb_data['Regionname'].value_counts() # частота уникальных значений в столбце

Southern Metropolitan         4695
Northern Metropolitan         3890
Western Metropolitan          2948
Eastern Metropolitan          1471
South-Eastern Metropolitan     450
Eastern Victoria                53
Northern Victoria               41
Western Victoria                32
Name: Regionname, dtype: int64

In [26]:
melb_data['Regionname'].value_counts(normalize=True) # относительная частота (доля) уникальных значений в столбце

Southern Metropolitan         0.345729
Northern Metropolitan         0.286451
Western Metropolitan          0.217084
Eastern Metropolitan          0.108321
South-Eastern Metropolitan    0.033137
Eastern Victoria              0.003903
Northern Victoria             0.003019
Western Victoria              0.002356
Name: Regionname, dtype: float64

In [35]:
melb_data['Type'].value_counts(normalize=True)

h    0.695803
u    0.222165
t    0.082032
Name: Type, dtype: float64

In [36]:
print(melb_data['Price'].mean()) # среднее по столбцу

1075684.079455081


In [38]:
print(melb_data['Rooms'].mode()) # самые частые значения кол-ва комнат (может быть несколько при равенстве)

0    3
Name: Rooms, dtype: int64


In [44]:
melb_data['Bedroom'].mode()

0    3
Name: Bedroom, dtype: int64

#### Фильтрация данных

In [47]:
melb_data[melb_data['Price'] > 2000000].head(2)

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
80,80,Albert Park,112 Beaconsfield Pde,3,h,2850000.0,PI,Buxton,4/03/2017,3.3,...,0,211.0,198.0,1890,Port Phillip,-37.8481,144.9499,Southern Metropolitan,3280,"-37.8481, 144.9499"
85,85,Albert Park,104 Richardson St,4,h,2300000.0,S,Marshall,7/05/2016,3.3,...,1,153.0,180.0,1880,Port Phillip,-37.8447,144.9523,Southern Metropolitan,3280,"-37.8447, 144.9523"


In [49]:
# дома с ценой менее 300 тысяч, у которых либо число комнат равно 3 либо площадь домов более 100 квадратных метров
melb_data[((melb_data['Rooms'] == 3) | (melb_data['BuildingArea'] > 100)) & (melb_data['Price'] < 300000)].shape[0]

68

In [65]:
# район, где чаще всего встречаются виллы с ценой < 3 млн
melb_data[(melb_data['Type'] == 'h') & (melb_data['Price'] < 3000000)]['Regionname'].mode()

0    Northern Metropolitan
Name: Regionname, dtype: object