# Введение в `pandas`

## `Series`

Создание `Series`:

1.   Передача параметров функции.

```python
import pandas as pd

identifier = pd.Series(
    data = [value1, value2, ...],
    index = [index1, index2, ...],
    name = 'identifier'

)
```

(если значения для параметра `index` не передавать, <br>
ему будут присвоены порядковые номера элементов)

2. Передача словаря.

```python
identifier = pd.Series(
    {index1: value1, index2: value2, ...}
    name = 'identifier'
)
```

Доступ к данным `Series`

[`loc`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.loc.html), [`iloc`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.iloc.html)

1. `identifier.loc[index2]`
2. `identifier.loc[[index2, index3]]`
3. `identifier.iloc[2]`
4. `identifier.iloc[1:4]`

(атрибут `loc` и `iloc` в данном случае можно опустить)



## `DataFrame`

Создание `DataFrame`

1. Из Словаря.

```python

identifier = pd.DataFrame({
    name_of_col0: [col0_val0, col0_val1],
    name_of_col1: [col1_val0, col1_val1]
})

```

2. Вызов функции `DataFrame` с соответствующими аргументами.

```python
identifier = pd.DataFrame(
    data = [
        [col0_val0, col1_val0],
        [col0_val1, col1_val1]
        ],
    columns = [name_of_col0, name_of_col1],
    index = [index_row0, index_row1]
)
```


`axis` - доступ к строкам и столбцам таблицы при вызове функций:

* `axis=0` - выполнение операции по строкам для каждого столбца;
* `axis=1` - выполнение операции по столбцам для каждой строки. 

Доступ к данным `DataFrame`

1. Получить данные столбца (будет возвращён объект `Series`):
   *  `identifier.name_of_col` (если имя столбца не содержит пробелов);
   *  `identifier['name_of_col']`.
2. Получить данные ячейки:
   *  `identifier.loc[index_row0, name_of_col1]`;
   *  `identifier.loc[index_row0, [name_of_col0, name_of_col1]]`;
   *  `identifier.loc[[index_row0, index_row3, ...], [name_of_col0, name_of_col1]]`;
   *  `identifier.iloc[start_row:stop_row, start_col:stop_col]`.


### Запись в `csv`-файл

`to_csv()` [документация](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html)

* `path_or_buf` — путь до файла, в который будет записан DataFrame<br>
(например, `data/my_data.csv`);
* `sep` — разделитель данных в выходном файле (по умолчанию `','`);
* `decimal` — разделитель чисел на целую и дробную части в выходном файле<br>
(по умолчанию `'.'`);
* `columns` — список столбцов, которые нужно записать в файл<br>
(по умолчанию записываются все столбцы);
* `index` — параметр, определяющий, требуется ли создавать дополнительный столбец<br>
с индексами строк в файле (по умолчанию `True`).


### Чтение `csv`-файла

`read_csv()` [документация](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)

* `filepath_or_buffer` — путь (или ссылка) до файла, который мы читаем;
* `sep` — разделитель данных (по умолчанию `','`);
* `decimal` — разделитель чисел на целую и дробную часть в выходном файле<br>
(по умолчанию `'.'`);
* `names` — список с названиями столбцов для чтения;
* `skiprows` — количество строк в файле, которые нужно пропустить<br>
(например, файл может содержать служебную информацию, которая нам не нужна).

### Запись в файлы других форматов

*  [`to_excel()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html) — запись `DataFrame` в формат Excel-таблицы (.xslx);
*  [`to_json()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_json.html) — запись `DataFrame` в формат JSON (.json);
*  [`to_xml()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_xml.html) — запись `DataFrame` в формат XML-документа (.xml);
*  [`to_sql()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_sql.html) — запись `DataFrame` в базу данных SQL<br>
(для реализации этого метода необходимо установить соединение с базой данных).

### Чтение из файлов других форматов

*  [`read_excel()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html) — чтение из формата Excel-таблицы(.xslx) в `DataFrame`;
*  [`read_json()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.io.json.read_json.html) — чтение из формата JSON (.json) в `DataFrame`;
*  [`read_xml()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_html.html) — чтение из формата XML-документа (.xml) в `DataFrame`;
*  [`read_sql()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_sql.html) — чтение из базы данных SQL в `DataFrame`<br>
(также необходимо установить соединение с базой данных).

### Основные функции при работе с таблицей

__Вывод первых и последних строк:__
*  [`head()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.head.html) - вывод `n` первых строк таблицы;
*  [`tail()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.tail.html) - вывод `n` последних строк таблицы. 

По умолчанию `n = 5`

__Размерность таблицы__

`shape` - атрибут возвращает кортеж из количества строк и столбцов таблицы.

__Информация о столбцах таблицы__

[`info()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html) - метод возвращает детальную информацию о столбцах таблицы:
* информацию об индексах;
* информацию об общем количестве столбцов;
* таблицу, в которой содержится информация об именах столбцов (`Column`), количестве непустых<br>
значений (`Non-Null Count`) в каждом столбце и типе данных столбца (`Dtype`), количестве столбцов,<br>
в которых используется определённый тип данных;
* количество оперативной памяти в мегабайтах, которое тратится на хранение данных.

__Изменение типа данных столбца таблицы__

`astype()`

`df_identifier['column_name'] = df_identifier['column_name'].astype('new_data_type')`

[Обзор типов данных `pandas`](https://dfedorov.spb.ru/pandas/Обзор%20типов%20данных%20pandas.html)

## Статистические методы

__Получение описательной статистики__

[`describe()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html)

По умолчанию метод работает с числовыми (`int64` и `float64`) столбцами и показывает<br>
число непустых значений (`count`), среднее (`mean`), стандартное отклонение (`std`),<br>
минимальное значение (`min`),  квартили уровней 0.25, 0.5 (медиана) и 0.75 (25%, 50%, 75%)<br>
и максимальное значение (`max`) для каждого столбца исходной таблицы.

Статистические параметры:
*  [стандартное отклонение](https://ru.wikipedia.org/wiki/Среднеквадратическое_отклонение);
*  [квартили](https://rus.toptipfinance.com/quartile).

`df_identidier.describe(include='data_type')` 

получить описательную информацию по определенному типу данных в таблице.

Например, для типа данных `'object'`:
*  количество непустых строк (`count`);
*  количество уникальных значений (`unique`);
*  самое частое значение — мода —  (`top`);
*  частота — объём использования — этого значения (`freq`) для каждого столбца типа object<br>
исходной таблицы.

__Получение частоты уникальных значенией в столбце__

[`value_counts()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html)

Данный метод возвращает объект Series, в котором в качестве индексов выступают<br>
уникальные категории столбца, а значениями — соответствующая им частота. 

*  `normalize=True` - При установке значения этого параметра на True результат будет<br>
представляться в виде доли (относительной частоты).



__Агрегигурющие методы__

*  `count()` количество непустых значений;
*  `mean()` среднее значение;
*  `min()`	минимальное значение;
*  `max()`	максимальное значение;
*  `deviance()` дисперсия;
*  `std()` стандартное отклонение;
*  `sum()` сумма;
*  `quantile(x)` квантиль уровня x;
*  `nunique()` число уникальных значений.

Если один из этих методов применить ко всему DataFrame, то в результате его работы<br>
будет получен объект типа `Series`, в котором в качестве индексов будут выступать<br>
наименования столбцов, а в качестве значений — статистический показатель. В случае<br>
применения метода к отдельному столбцу результатом вычислений станет число.

В каждый метод можно передать некоторые параметры, среди которых:

*  `axis`  — определяет, подсчитывать параметр по строкам или по столбцам;
*  `numeric_only` — определяет, вычислять параметры только по числовым столбцам/строкам<br>
или нет (`True`/`False`).


__Модальное значение__

- самое распространенное значение в столбце.

`mode()` - метод возвращает серию модальных значений.

## Знакомство с данными "Недвижимость"

Данные представляют собой таблицу, в которой содержится 23 столбца:

1. `index` — номер строки
1. `Suburb` — наименование пригорода
1. `Address` — адрес
1. `Rooms` — количество комнат в помещении
1. `Type` — тип здания<br>
(h — дом, коттедж, вилла, терраса; u — блочный, дуплексный дом; t — таунхаус)
1. `Price` — цена помещения
1. `Method` — метод продажи 
1. `SellerG` — риэлторская компания
1. `Date` — дата продажи (в формате день/месяц/год)
1. `Distance` — расстояния до объекта от центра Мельбурна 
1. `Postcode` — почтовый индекс
1. `Bedroom` — количество спален
1. `Bathroom` — количество ванных комнат
1. `Car` — количество парковочных мест
1. `Landsize` — площадь прилегающей территории
1. `BuildingArea` — площадь здания
1. `YearBuilt` — год постройки
1. `CouncilArea` — региональное управление
1. `Lattitude` — географическая широта
1. `Longitude` — географическая долгота
1. `Regionname` — наименование района Мельбурна
1. `Propertycount` — количество объектов недвижимости в районе
1. `Coordinates` — широта и долгота, объединённые в кортеж

In [46]:
from dis import dis
import pandas as pd

melb_data = pd.read_csv('data/melb_data.csv', sep=',')
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')
# display(melb_data.info())
display(melb_data.describe())
display(melb_data.value_counts('Type', normalize=True))

# Задание 7.1
display([col 
    for col in melb_data.columns 
    if col not in melb_data.std(numeric_only=True)
    ])

# Задание 7.2
display(f"The max number of Propertycount is {melb_data['Propertycount'].max()}")

# Задание 7.3
display(f"The std of distance is {melb_data['Distance'].std()}")

# 7.4
median_area = melb_data['BuildingArea'].quantile()
mean_area = melb_data['BuildingArea'].mean()
display(100 - median_area/(mean_area/100))

#7.6
melb_data['Bedroom'].mode()

Unnamed: 0,index,Rooms,Price,Distance,Postcode,Bedroom,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
count,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0
mean,6789.5,2.937997,1075684.0,10.137776,3105.301915,2.914728,1.534242,1.611856,558.416127,139.633972,1966.788218,-37.809203,144.995216,7454.417378
std,3920.352663,0.955748,639310.7,5.868725,90.676964,0.965921,0.691712,0.960793,3990.669241,392.217403,29.088642,0.07926,0.103916,4378.581772
min,0.0,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,0.0,1196.0,-38.18255,144.43181,249.0
25%,3394.75,2.0,650000.0,6.1,3044.0,2.0,1.0,1.0,177.0,122.0,1960.0,-37.856822,144.9296,4380.0
50%,6789.5,3.0,903000.0,9.2,3084.0,3.0,1.0,2.0,440.0,126.0,1970.0,-37.802355,145.0001,6555.0
75%,10184.25,3.0,1330000.0,13.0,3148.0,3.0,2.0,2.0,651.0,129.94,1975.0,-37.7564,145.058305,10331.0
max,13579.0,10.0,9000000.0,48.1,3977.0,20.0,8.0,10.0,433014.0,44515.0,2018.0,-37.40853,145.52635,21650.0


Type
h    0.695803
u    0.222165
t    0.082032
dtype: float64

['Suburb',
 'Address',
 'Type',
 'Method',
 'SellerG',
 'Date',
 'CouncilArea',
 'Regionname',
 'Coordinates']

'The max number of Propertycount is 21650'

'The std of distance is 5.868724943071711'

9.764079662364537

0    3
Name: Bedroom, dtype: int64

In [20]:
data = pd.DataFrame([[0,1], [1, 0], [1, 1]], columns=['А', 'B'])
data.shape
9.030000e+05 / 1.075684e+06

0.8394658654400363