In [1]:
# СОЗДАНИЕ DATAFRAME
# DataFrame создаётся с помощью функции pd.DataFrame().
# 
# СПОСОБ 1
# Самый простой способ создания DataFrame — из словаря,
# ключами которого являются имена столбцов будущей таблицы,
# а значениями — списки, в которых хранится содержимое этих столбцов: 

import pandas as pd
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
display(countries_df)

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


In [10]:
# Обратите внимание, что, так как мы не задали метки (индексы) DataFrame,
# они были сгенерированы автоматически.
# Исправим это, задав индексы вручную:

countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


In [11]:
#СПОСОБ 2
# Также DataFrame можно создать из вложенного списка,
# внутренние списки которого будут являться строками новой таблицы:

countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


In [2]:
#AXIS В DATAFRAME
# DataFrame является двумерной структурой данных,
# что означает наличие двух возможных направлений движения в ней:
# вдоль строк и вдоль столбцов.
# 
# При работе с Pandas важно уметь указывать направление работы метода,
# который используется. Для этого вводится понятие axis (ось, координата).
# Движение по строкам в таблице обозначается axis с индексом 0,
# а движение по столбцам — axis с индексом 1.

# Данный параметр заложен во все методы,
# которые могут работать в двух направлениях и
# по умолчанию в большинстве из них axis=0,
# то есть они выполняют операции со строками, если не задавать axis вручную.

#Рассмотрим разницу в результатах работы методов
# в зависимости от параметра axis на примере использования
# метода DataFrame mean() — вычисление среднего по таблице.

# Считаем среднее по строкам (axis = 0) в каждом столбце:

countries_df.mean(axis=0)
#В данном случае среднее было рассчитано
# по строкам для столбцов population и square.

TypeError: Could not convert ['АнглияКанадаСШАРоссияУкраинаБеларусьКазахстан'] to numeric

In [8]:
#Считаем среднее по столбцам (axis = 1) в каждой строке:

countries_df.mean(axis = 1)

# Здесь среднее было рассчитано по числовым столбцам
# для каждой строки в таблице.

TypeError: can only concatenate str (not "float") to str

In [16]:
# ДОСТУП К ДАННЫМ В DATAFRAME
# Можно обратиться к DataFrame по имени столбца через точку:

countries_df.population
# Однако использование такого способа
# возможно только тогда, когда имя столбца указано без пробелов.

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

In [17]:
# Другой вариант
# — обратиться к DataFrame по индексу и указать имя столбца:

countries_df['population']

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

In [18]:
#Примечание. Обратите внимание, что, как и ожидалось,
# при обращении к столбцу DataFrame мы получаем объект Series
# с именем, соответствующим имени столбца.
# Удостовериться в этом можно с помощью функции type():

type(countries_df.population)

pandas.core.series.Series

In [19]:
# Для того чтобы получить доступ к ячейкам таблицы,
# используются уже знакомые нам loc и iloc.

# При этом, в соответствии с механизмом работы axis,
# при обращении к DataFrame по индексам с помощью loc (iloc)
# первым индексом указывается индекс (порядковый номер),
# соответствующий строкам, а вторым — имя (порядковый номер) столбца.

#Рассмотрим на примерах:

#Получим площадь Великобритании:

countries_df.loc['UK', 'square']

133396

In [20]:
# Получим население и площадь, соответствующие России:
print(countries_df.loc['RU', ['population', 'square']])
print(countries_df.loc['RU'][ 1:])

population      146.24
square        17125191
Name: RU, dtype: object
population      146.24
square        17125191
Name: RU, dtype: object


In [21]:
# Сделаем вырезку из таблицы и получим
# информацию о населении и площади,
# соответствующую Украине, Беларуси и Казахстану:

print(countries_df.loc[['UA', 'BY', 'KZ'],['population', 'square']])
print(type(countries_df.loc[['UA', 'BY', 'KZ'],['population', 'square']]))

    population   square
UA       45.50   603628
BY        9.50   207600
KZ       17.04  2724902
<class 'pandas.core.frame.DataFrame'>


In [22]:
# Или
countries_df.iloc[4:7]['country']
print (countries_df.iloc[4:7]['country'])
print (countries_df.iloc[4:7, 0])
print(type(countries_df.iloc[4:7]['country']))

UA      Украина
BY     Беларусь
KZ    Казахстан
Name: country, dtype: object
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: country, dtype: object
<class 'pandas.core.series.Series'>


In [23]:
pd.DataFrame([[0,1], [1, 0]], columns=['А', 'B'])

Unnamed: 0,А,B
0,0,1
1,1,0


In [15]:
pd.DataFrame([[1, 0], [0, 1]], columns=['А', 'B'])

Unnamed: 0,А,B
0,1,0
1,0,1


In [24]:
pd.DataFrame({'А': [0, 1], 'B': [1, 0]})

Unnamed: 0,А,B
0,0,1
1,1,0


In [25]:
pd.DataFrame({'А': [1, 0], 'B': [0, 1]})

Unnamed: 0,А,B
0,1,0
1,0,1


In [26]:
# ЗАДАНИЕ 3.5
# Вы работаете аналитиком в компании ScienceYou.
# Ваша задача — проанализировать чистую прибыль.

# Доходы (incomes), расходы (expenses) и годы (years),
# соответствующие им, предоставлены вам в виде списков. 

# Например:

incomes = [478, 512, 196]
expenses = [156, 130, 270]
years = [2018, 2019, 2020]

# Создайте функцию create_companyDF(incomes, expenses, years),
# которая  возвращает DataFrame, составленный из входных данных
# со столбцами Incomes и Expenses и индексами,
# соответствующими годам рассматриваемого периода.
# Пример такого DataFrame представлен ниже.


# Также напишите функцию get_profit(df, year),
# которая возвращает разницу между доходом и расходом,
# записанными в таблице df, за год year.
# Учтите, что если информация за запрашиваемый
# год не указана в вашей таблице, вам необходимо вернуть None.

def create_companyDF(incomes, expenses, years):
    df = pd.DataFrame({
        'incomes': incomes,
        'expenses ': expenses,
        })
    df.index = years
    return df
display(create_companyDF(incomes, expenses, years))

Unnamed: 0,incomes,expenses
2018,478,156
2019,512,130
2020,196,270


In [27]:
def get_profit(df, year):
    if year not in df.index: return None
    profit = df.loc[year][0] - df.loc[year][1]
    return profit, type(df.loc[year][0])
scienceyou = create_companyDF(incomes, expenses, years)
print(get_profit(scienceyou, 2018))

(322, <class 'numpy.int64'>)


In [29]:
print(type(df.loc[year][0]))

NameError: name 'df' is not defined

In [30]:

# ЗАПИСЬ В CSV-ФАЙЛ

# Основные параметры метода DataFrame to_csv()
# path_or_buf — путь до файла, в который будет записан DataFrame
# (например, data/my_data.csv);

# sep — разделитель данных в выходном файле (по умолчанию ',');

# decimal — разделитель чисел на целую и дробную части в выходном файле
# (по умолчанию '.');

# columns — список столбцов, которые нужно записать в файл
# (по умолчанию записываются все столбцы);

# index — параметр, определяющий, требуется ли создавать
# дополнительный столбец с индексами строк в файле (по умолчанию True).

#Заранее создадим папку data в директории, где лежит наш ноутбук.
# Теперь давайте сохраним наш DataFrame с информацией о странах в
# csv-файл countries.csv и положим файл в папку data.
# При этом укажем, что разделителем в нашем файле будет являться 
# символ ';', а также то, что нам не нужен дополнительный столбец с индексами строк:


In [154]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

countries_df.to_csv('data/countries.csv', index=False, sep=';')

In [5]:

# ЧТЕНИЕ CSV-ФАЙЛА

# Для чтения таблицы из csv-файла используется функция модуля Pandas
# read_csv.
# Функция возвращает DataFrame и имеет несколько важных параметров.
# 
# Основные параметры функции read_csv()
# 
# filepath_or_buffer — путь до файла, который мы читаем;

# sep — разделитель данных (по умолчанию ',');

# decimal — разделитель чисел на целую и дробную часть в выходном файле
# (по умолчанию '.');

# names — список с названиями столбцов для чтения;

# skiprows — количество строк в файле, которые нужно пропустить
# (например, файл может содержать служебную информацию, которая нам не нужна).

In [10]:
# Убедимся, что сохранённый нами ранее файл создался верно.
# Для этого прочитаем его в переменную countries_data
# и выведем её на экран. Не забудем также о том,
# что мы использовали в качестве разделителя ';':

countries_data = pd.read_csv('data/countries.csv', sep=';')
display(countries_data)

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


In [11]:
# ЧТЕНИЕ CSV-ФАЙЛА ПО ССЫЛКЕ

# На самом деле файл с данными не обязательно должен храниться
# у вас на компьютере. Если он находится в открытом доступе по ссылке
# (например, на Google Диске или GitHub),
# его можно прочитать и из интернета —
# для этого достаточно в функции read_csv() вместо пути до файла
# указать ссылку на файл. Например:

data = pd.read_csv('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv')
display(data)

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,2.0,1.0,94.0,,,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18391,23540,Williamstown,8/2 Thompson St,2,t,622500.0,SP,Greg,26/08/2017,6.8,...,2.0,1.0,,89.0,2010.0,,-37.86393,144.90484,Western Metropolitan,6380.0
18392,23541,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0
18393,23544,Yallambie,17 Amaroo Wy,4,h,1100000.0,S,Buckingham,26/08/2017,12.7,...,3.0,2.0,,,,,-37.72006,145.10547,Northern Metropolitan,1369.0
18394,23545,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0


In [None]:
# ЗАПИСЬ И ЧТЕНИЕ В ДРУГИХ ФОРМАТАХ

# Как уже говорилось ранее, Pandas способен работать
# со многими распространёнными форматами данных.

# Методы для записи таблиц в файлы отличных от csv форматов:

# to_excel() — запись DataFrame в формат Excel-таблицы (.xlsx);
# to_json() — запись DataFrame в формат JSON (.json);
# to_xml() — запись DataFrame в формат XML-документа (.xml);
# to_sql() — запись DataFrame в базу данных SQL (для реализации этого метода необходимо установить соединение с базой данных).
#
# Методы для чтения таблиц из файлов в отличных от csv форматах:

# read_excel() — чтение из формата Excel-таблицы (.xlsx) в DataFrame;
# read_json() — чтение из формата JSON (.json) в DataFrame;
# read_xml() — чтение из формата XML-документа (.xml) в DataFrame;
# read_sql() — чтение из базы данных SQL в DataFrame (также необходимо установить соединение с базой данных).

In [12]:
melb_data = pd.read_csv('data/melb_data.csv', sep=',')

In [13]:
melb_data.iloc[15]['Price']

1310000.0

In [14]:
melb_data.iloc[90]['Date']

'10/09/2016'

In [15]:
answer_5_3 = round((melb_data.iloc[3521]['Landsize'])/(melb_data.iloc[1690]['Landsize']))
print(answer_5_3)

3
