Что умеет pandas?
1) Работа с различными форматами данных (csv, excel, json, sql и т. д.).

2) Фильтрация данных (извлечение данных по условиям).

3) Быстрые математические операции с таблицами и их столбцами.

4) Использование методов статистического анализа.

5) Группировка данных и построение сводных таблиц.

6) Объединение нескольких таблиц.

7) Встроенная визуализация (возможность построения графиков по данным).

In [5]:
import pandas as pd
pd.__version__
print(pd.__name__)

pandas


# 2. Pandas.Series
Series — это упорядоченная изменяемая коллекция объектов, имеющая так называемые ассоциативные метки (индексы). 
для создания серии исполизуется команда pd.Series()
Есть 2 способа создать серию:

In [6]:
#Способ 1 — из списка с использованием параметров функции pd.Series():
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
display(countries)
#функция display работает для данных табличного вида только в Pandas



UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

In [7]:
# Если не присвоить индекс данным, то это будет сделано автоматически
countries = pd.Series(
    ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан']
)
display(countries)

0       Англия
1       Канада
2          США
3       Россия
4      Украина
5     Беларусь
6    Казахстан
dtype: object

In [8]:
#Способ 2: из словаря, где ключи = метки (индексы), а значения = значение Series
#При этом использование names невозможно
countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

## Доступ к данным в Series

Доступ к элементам осуществляется с использованием loc или iloc.

.loc вызывается с квадратными скобками, в которые передаются метки. В него можно передать как один индекс, так и список, чтобы получилось несколько элементов. 

.iloc также вызывается с квадратными скобками и принимает на вход порядковые номера элементов Series (нумерация начинаются с 0). В него можно так же передавать как один индекс, так и диапазон чисел. 

In [11]:
print(countries.loc['US'])
print(countries.iloc[6])
print(countries.loc[['US', 'RU', 'UK']])
print(countries.iloc[1:4])

США
Казахстан
US       США
RU    Россия
UK    Англия
Name: countries, dtype: object
CA    Канада
US       США
RU    Россия
Name: countries, dtype: object


к тем же данным можно обратиться и без помощи loc и iloc, но в будущем лучше всё таки к ним прибегать

In [13]:
countries[['UK', 'US', 'UA']]

  countries[[0, 2, 4]]


UK     Англия
US        США
UA    Украина
Name: countries, dtype: object

In [14]:
countries[[0, 2, 4]]

  countries[[0, 2, 4]]


UK     Англия
US        США
UA    Украина
Name: countries, dtype: object

In [15]:
my_series = pd.Series(data=[5, 6, 7, 8, 9, 10], index=['a', 'b', 'c', 'd', 'e', 'f'])
display(my_series)
#нужно достать значения 6, 7 и 9


a     5
b     6
c     7
d     8
e     9
f    10
dtype: int64

In [38]:
import pandas as pd
def create_medications(names, counts):
    medications = pd.Series(data = counts, index = names)
    return medications
def get_percent(medications, name):
    result = medications.loc[name] / sum(medications.iloc[0:]) * 100
    return result

print(get_percent(name = 'cyntomycin', medications = create_medications(['chlorhexidine', 'cyntomycin', 'afobazol'],[26, 18, 7])))

0.35294117647058826


# 3. Pandas.DataFrame
фрейм есть двухмерная структура и представляется в виде таблицы. Столбцы в ней это объекты series, а строки - их элементы
Есть два способа создать data frame

In [41]:
#1 Способ - из словаря, где ключи - имена столбцов
#Значения - списки, в которых есть содержимое столбцов
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'area': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
display(countries_df)
#В этом случае метки (индексы) были созданы автоматически
#но их можно также задать вручную

Unnamed: 0,country,population,area
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


In [42]:
#2 способ - создание из вложенного списка, внутренние списки будут строками
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'area'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)

Unnamed: 0,country,population,area
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


## Axis в DataFrame
Оси x и y можно задавать с помощью 0 и 1 соответсвенно
![alt text](image.png)

In [43]:
#ниже вычислим среднее арифметическое по строкам
countries_df.mean(axis=0, numeric_only=True)

population    9.070000e+01
area          5.800860e+06
dtype: float64

В данном случае среднее было рассчитано по строкам для столбцов population и area.
Также так как в таблице есть нечисловые данные и по ним нельзя найти mean, нужно поставить параметр numeric_only=True, иначе возникнет ошибка

In [44]:
#Считаем срреднее по столбцам
countries_df.mean(axis=1, numeric_only=True)

UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

## Доступ к данным в DataFrame
Получить доступ к столбцу можно тоже разными способами:

In [45]:
countries_df.population
#Однако использование такого способа возможно только тогда, 
#когда имя столбца указано без пробелов.

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

In [46]:
countries_df['population']

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

In [47]:
type(countries_df.population)

pandas.core.series.Series

Для того чтобы получить доступ к ячейкам таблицы, используются уже знакомые нам loc и iloc.
При этом, в соответствии с механизмом работы axis, при обращении к DataFrame по индексам с помощью loc (iloc) первым индексом указывается индекс (порядковый номер), соответствующий строкам, а вторым — имя (порядковый номер) столбца.

In [48]:
countries_df.loc['UK', 'area']
#Сперва строка, потом столбец

np.int64(133396)

In [49]:
countries_df.loc['RU', ['population', 'area']]
#Можно получить несколько значений

population      146.24
area          17125191
Name: RU, dtype: object

In [50]:
countries_df.loc[['UA', 'BY', 'KZ'],['population', 'area']]

Unnamed: 0,population,area
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


In [51]:
countries_df.iloc[4:8, 1:3]

Unnamed: 0,population,area
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


In [None]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'area': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']

In [15]:

def create_companyDF(income, expenses, years):
    statistics = pd.DataFrame({
    'Income': income,
    'Expenses': expenses
    })
    statistics.index = years
    return statistics
def get_profit(df, year):
    if year in df.index:
        result = df.loc[year, 'Income'] - df.loc[year, 'Expenses']
    else: result = None
    return result
print(get_profit(year = 2018, df = create_companyDF([612, 516, 329, 158], [136,163,250,361], [2017,2018,2019,2020])))


353


# Работа с различными источниками данных в Pandas

## Запись в CSV файл
Осуществляется с помощью метода DataFrame to_csv()
Параметры метода: 
1) path_or_buf — путь до файла, в который будет записан DataFrame (например, data/my_data.csv);
2) sep — разделитель данных в выходном файле (по умолчанию ',');
3) decimal — разделитель чисел на целую и дробную части в выходном файле (по умолчанию '.');
4) columns — список столбцов, которые нужно записать в файл (по умолчанию записываются все столбцы);
5) index — параметр, определяющий, требуется ли создавать дополнительный столбец с индексами строк в файле (по умолчанию True).

Создадим CSV файл и сохраним в папку data

In [3]:
import pandas as pd
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'area': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
countries_df.to_csv('data/countries.csv', index=False, sep=';')


## Чтение CSV файла
Осуществляется с помощью read_csv. Параметры функции: 
1) filepath_or_buffer — путь до файла, который мы читаем;
2) sep — разделитель данных (по умолчанию ',');
3) decimal — разделитель чисел на целую и дробную часть в выходном файле (по умолчанию '.');
4) names — список с названиями столбцов для чтения;
5) skiprows — количество строк в файле, которые нужно пропустить (например, файл может содержать служебную информацию, которая нам не нужна).
Причитаем файл countires из примера выше

In [4]:
countries_data = pd.read_csv('data/countries.csv', sep=';')
display(countries_data)

Unnamed: 0,country,population,area
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


### Чтение csv-файла по ссылке
Проводится с помощью того же метода

In [5]:
data = pd.read_csv('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv')
display(data)

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,2.0,1.0,94.0,,,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18391,23540,Williamstown,8/2 Thompson St,2,t,622500.0,SP,Greg,26/08/2017,6.8,...,2.0,1.0,,89.0,2010.0,,-37.86393,144.90484,Western Metropolitan,6380.0
18392,23541,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0
18393,23544,Yallambie,17 Amaroo Wy,4,h,1100000.0,S,Buckingham,26/08/2017,12.7,...,3.0,2.0,,,,,-37.72006,145.10547,Northern Metropolitan,1369.0
18394,23545,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0


## Запись и чтение в других форматах
### Запись таблиц в другие файлы 
1) to_excel() — запись DataFrame в формат Excel-таблицы (.xlsx);
2) to_json() — запись DataFrame в формат JSON (.json);
3) to_xml() — запись DataFrame в формат XML-документа (.xml);
4) to_sql() — запись DataFrame в базу данных SQL (для реализации этого метода необходимо установить соединение с базой данных).

### Чтение таблиц в других форматах
1) read_excel() — чтение из формата Excel-таблицы (.xlsx) в DataFrame;
2) read_json() — чтение из формата JSON (.json) в DataFrame;
3) read_xml() — чтение из формата XML-документа (.xml) в DataFrame;
4) read_sql() — чтение из базы данных SQL в DataFrame (также необходимо установить соединение с базой данных).

# Следущая часть - 5. Знакомимся с данными: недвижимость проводится в файле "практика"