# Аналитика: работа с данными

## Форматы данных
### Формат csv 
[Comma-Separated Values](https://ru.wikipedia.org/wiki/CSV). Чаще на практике работают с более общим форматом -- DSV (Delimeter). [Библиотека csv](https://docs.python.org/3/library/csv.html) позволяет работать данными разделенными любым символом. Она представляет содержимое DSV в виде списка.

Для чтения файла в формате csv используются объект reader, для записи -- writer.

In [1]:
import csv

In [2]:
def read(file):
    with open(file) as fin:
        string = fin.read()
        print(string)
        return string

In [3]:
csv_file = "doc/sample.csv"
csv_str = read(csv_file)

1997,Ford,E350,"ac, abs, moon",3000.00
1999,Chevy,"Venture «Extended Edition»","",4900.00
1996,Jeep,Grand Cherokee,"MUST SELL! air, moon roof, loaded",4799.00


In [4]:
def read_csv(file, **parameters):
    content = []
    
    with open(file) as fin:
        reader = csv.reader(fin, **parameters)  # чтение csv-файла
        print(reader)
        
        for row in reader:
            content.append(row)
            print(row)
            
    return content

In [5]:
content = read_csv(csv_file)

<_csv.reader object at 0x10c261208>
['1997', 'Ford', 'E350', 'ac, abs, moon', '3000.00']
['1999', 'Chevy', 'Venture «Extended Edition»', '', '4900.00']
['1996', 'Jeep', 'Grand Cherokee', 'MUST SELL! air, moon roof, loaded', '4799.00']


При создании, в reader можно передать дополнительные параметры:
    - delimiter - разделитель;
    - quotechar - символ, который будет использован для экранирования строк, содержащих разделитель
    - quoting - выбор стратегии экранирования

Аналогично можно записывать данные в csv-файл.

In [None]:
mfile = "doc/mod_sample.csv"
parameters = dict(
    delimiter=' ',
    quotechar='|',
    quoting=csv.QUOTE_ALL
)

with open(mfile, 'w') as fout:
    writer = csv.writer(fout, **parameters)  # запись в файл
    for row in content:
        writer.writerow(row)
        writer.writerow(row)  # запишем каждую строку дважды

print("Новый файл:")
read(mfile)
        
read_csv(mfile, **parameters)

### Формат json
[JavaScript Object Notation](https://ru.wikipedia.org/wiki/JSON) -- представляет собой аналог словаря в python. Для работы с данными этого формата используется [библиотека json](https://docs.python.org/3/library/json.html). Также она может использоваться для работы с обобщенным JSON-форматом, использующим произвольные разделители.

Для преобразования json в словарь используются методы load/loads, для обратного преобразования - dump/dumps.

In [None]:
import json

In [None]:
json_file = "doc/sample.json"
json_str = read(json_file)

In [None]:
with open(json_file) as fin:
    json_dict = json.load(fin)  # чтение из файла
    print(json_dict)
    
    print("\nПри попытке чтения fin получаем строку длины {0}.".format(len(fin.read())))

In [None]:
# преобразование из строки
with open(json_file) as fin:
    json_dict = json.loads(fin.read())  # преобразование строки
    print(json_dict)

При преобразовании словаря в json можно указывать дополнительные параметры:
    - separators - пара используемых разделителей (может использоваться и для обратного преобразования)
    - indent - отступ
    - sort_keys - флаг, указывающий на необходимость сортировки ключей в json-строке

In [None]:
json_dict['email'] = "ivanov_ivan@yandex.ru"
json_str = json.dumps(json_dict, separators=(';', '='), indent=4, sort_keys=True)
print(json_str)

In [None]:
mfile = "doc/mod_sample.json"
with open(mfile, 'w') as fout:
    json.dump(json_dict, fout)

with open(mfile) as fin:
    print(fin.read())

### Формат xml
[eXtensible Markup Language](https://ru.wikipedia.org/wiki/XML) -- язык разметки текстов (если упрощенно, то похож на HTML). Для работы с данными в формате xml используется [библиотека xml](https://docs.python.org/3/library/xml.html).

С помощью методов класса ElementTree можно преобразовать входной xml-файл или строку в дерево (read/parse) и обратно (write/tostring).

In [1]:
import xml.etree.ElementTree as ET

In [4]:
xml_file = "doc/sample.xml"
xml_str = read(xml_file)

<?xml version="1.0"?>
<data>
    <country name="Liechtenstein">
        <rank>1</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E"/>
        <neighbor name="Switzerland" direction="W"/>
    </country>
    <country name="Singapore">
        <rank>4</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
    </country>
    <country name="Panama">
        <rank>68</rank>
        <year>2011</year>
        <gdppc>13600</gdppc>
        <neighbor name="Costa Rica" direction="W"/>
        <neighbor name="Colombia" direction="E"/>
    </country>
</data>



In [5]:
# Преобразование строки
with open(xml_file) as fin:
    xml_str = fin.read()
    root = ET.fromstring(xml_str)
    print(root)

<Element 'data' at 0x102ac91d8>


In [6]:
# Чтение из файла
tree = ET.parse(xml_file)
print(tree)

<xml.etree.ElementTree.ElementTree object at 0x102b4bba8>


Для работы с объектом ElementTree понадобятся следующие методы:
    - find/findall(match) - поиск элемента (-ов) по тэгу
    - set(key, value) - установка значения аттрибута элемента
    - append(subelement)/extend(subelements) - добавление элемента (-ов) в конец
    - insert(index, subelement) - вставка элемента, на указанную позицию
    - remove(subelement) - удаление элемента

In [None]:
root = tree.getroot()  # получение корневого элемента
for child in root:
    print("tag:", child.tag)  # тэг текущего элемента
    print("attribute:", child.attrib)  # все аттрибуты текущего элемента
    if child.attrib['name'] == 'Panama':
        print("\nLeaf")
        for leaf in child:  # обход вложенных элементов
            print(leaf.tag, leaf.attrib)
            print("text:", leaf.text)  # содержимое элемента

In [None]:
# Пример модификации дерева
def add_element(parent, name, value):
    element = ET.SubElement(parent, name)
    element.text = str(value)
    

for country in root.findall("country"):
    if country.attrib.get("name") == "Panama":  # удаляем Панаму
        root.remove(country)

new_element = ET.SubElement(root, "country")
new_element.set("name", "Russia")  # добавляем Россию
print(new_element.attrib)

subelements = dict(
    rank=67,
    year=2016,
    gdppc=8928,
    neighbor=""
)
names = list(subelements.keys()) + ["neighbor"]
for name in names:
    add_element(new_element, name, subelements[name])  # добавляем информацию о России

tags = [
    {"name": "Venezuela", "direction": "W"},
    {"name": "Brasil", "direction": "E"}
]
for i, neighbor in enumerate(new_element.findall("neighbor")):
    for name, value in tags[i].items():
        neighbor.set(name, value)  # добавляем информацию о соседях

# Запись результата в файл
tree.write("doc/mod_sample.xml")

print("\nНовый файл:")
content = read("doc/mod_sample.xml")

## Работа со временем
Для работы со временем в python есть две основные библиотеки - [time](https://docs.python.org/3/library/time.html) и [datetime](https://docs.python.org/3/library/datetime.html).

### Time
Все время отсчитывается от нулевой эпохи, обычно это 1 января 1970 года, но на некоторых платформах может быть другим. Все остальные даты могут быть представлены в виде числа микросекунд, прошедших с нулевой эпохи.
#### Класс struct_time
Для работы со временем в библиотеке time используется класс struct_time, который содержит информацию всю информацию о дате, включая день недели и учитывается ли в ней летнее/зимнее время.<br/>
  - **time.gmtime([sec])** - из времени в секундах получить дату (struct_time) в UTC. Дата считается с начала эпохи. При вызове без аргументов, можно получить текущую дату.<br/>
  - **time.localtime([sec])** - аналогичен gmtime, но полученное время - локальное.

In [None]:
import datetime
import time

In [None]:
# Время начала отсчета времени в UTC (зависит от платформы)
print("UTC:")
utc_start = time.gmtime(0)
print("Начало отсчета:", utc_start)

# Текущая дата и время (UTC)
utc_time = time.gmtime()
print("Текущее время:", utc_time)

print("День недели (0 - понедельник): tm_wday =", utc_time.tm_wday)
print("Используется ли летнее время (-1 - неизвестно): tm_isdst =", utc_time.tm_isdst)

print("\nLocal:")
loc_start = time.localtime(0)
print("Начало отсчета:", loc_start)

# Текущая дата и время (локальная)
loc_time = time.localtime()
print("Текущее время:", loc_time)

Обратную операцию к localtime можно сделать с помощью **time.mktime(struct_time)**.

In [None]:
timestamp = time.mktime(loc_time)
print(time.mktime(loc_start), timestamp)

# Не путать с UTC временем!
print(time.mktime(utc_start))

Но часто приходится работать с читабельным строковым форматом, а не временем в секундах. Для этих целей в библиотеке time есть отдельные функции:
  - **time.strftime(format, [struct_time])** - преобразование struct_time в строку по заданному формату.<br/>
  - **time.strptime(string, [format])** - обратное преобразование.

In [None]:
time_format = "%Y-%m-%d %H:%M:%S %z"
str_time = time.strftime(time_format, loc_time)
print(str_time)

# Без аргументов получим текущее время
print(time.strftime(time_format))

print(time.strptime(str_time, time_format))

Время представленное как struct_time можно сравнивать, но нельзя выполнять с ним арифметические операции.

In [None]:
print(utc_start < utc_time)
utc_time - utc_start

### Datetime
Datetime -- предоставляет все те же возможности, что и time, но, кроме того, позволяет выполнять арифметические операции над временем и поддерживает много других полезных функций. Основным классом у библиотеки является -- **datetime.datetime**.
#### Класс datetime

In [None]:
dttm = datetime.datetime.today()
print(dttm.year, dttm.month, dttm.day, dttm.hour, dttm.minute, dttm.second)
dttm

In [None]:
print(dttm.year, dttm.hour, dttm.microsecond)
print(dttm.weekday())
print(dttm.isoweekday())  # weekday() + 1
print(dttm.timestamp())
dt = dttm.date()
tm = dttm.time()
dt, tm

In [None]:
# Объединение времени и даты
datetime.datetime.combine(dt, tm)

In [None]:
print(dttm)  # неявное преобразование объекта datetime в строку

# Преобразование локального времени
dttm = datetime.datetime.fromtimestamp(timestamp)
print(dttm)

# Получение времени в UTC
utc_dttm = datetime.datetime.utcfromtimestamp(timestamp)
print(utc_dttm)

# Получение текущей даты
print(datetime.datetime.fromtimestamp(time.time()))
print(datetime.datetime.now())
print(datetime.datetime.today())

timestamp == dttm.timestamp()
print(timestamp)

# Сравнения тоже работают
print(dttm > utc_dttm)

# Явное преобразвание в строку и обратно
time_format = "%Y-%m-%d %H:%M:%S"

print(dttm.strftime(time_format))
str_dttm = str(dttm)
print(str_dttm)

datetime.datetime.strptime(str_dttm, time_format)

#### Операции с временем (класс timedelta)
Для преобразований времени существует отдельный класс -- **daetime.timedelta**. В нем поддерживаются все основные арифметические операции, которые корректно отрабатывают при переходе на новый день, смене месяца или года, так что не нужно изобретать велосипеды.

In [None]:
from datetime import timedelta

In [None]:
td_secs = timedelta(seconds=10)
td_days = timedelta(days=3)
print(td_days)  # неявное преобразование в строку
td_secs, td_days

In [None]:
print(td_days + td_secs)
print(td_days - td_secs)
print(td_days / td_secs)
print(td_days // (11 * td_secs))

prev_dttm = dttm - timedelta(hours=13, minutes=27)
print(prev_dttm)

diff = dttm - prev_dttm
print(type(diff), diff)
print(diff.total_seconds())

---
### Задача
Написать функцию, которая будет принимать дату в формате "гггг-мм-дд чч:мм:сс" и возвращать понедельник той недели, к которой относится дата.<br/>
Пример входа: "2017-11-07 12:13:11"<br/>
Выход: "2017-11-06"

In [None]:
def first_day_of_week(str_dttm):
    pass

---
## 3. Библиотека Pandas
Библиотека [Pandas](http://pandas.pydata.org/pandas-docs/stable/) предназначена для работы с табличными данными. Она представляет собой надстройку над библиотекой NumPy и позволяет обрабатывать данные, не уступая в функциональности Excel или SQL. 

Вся библиотека представляет из себя 3 базовых класса: Index, Series и DataFrame. Index - это практически неизменяемый аналог массива, с помощью которого индексируются данные в двух других классах. На нем мы подробно останавливаться не будем.

### Класс Series
Series - это одномерный массив индексированных данных. Аналог np.array, но при этом его индексами могут выступать не только целые числа.

In [7]:
import pandas as pd
import numpy as np

In [4]:
series = pd.Series([1, 2, 3])
print(series)

print(type(series.values), series.values)  # np.ndarray

print(type(series.index), series.index)  # pd.Index

0    1
1    2
2    3
dtype: int64
<class 'numpy.ndarray'> [1 2 3]
<class 'pandas.indexes.range.RangeIndex'> RangeIndex(start=0, stop=3, step=1)


#### Создание объекта Series

In [8]:
# Из списка с указанием индекса
grades = pd.Series([5, 4, 5, 3, 2], index=["Маша", "Петя", "Костя", "Кирилл", "Саша"])
print(grades)

# Аналог [3] * 4
s = pd.Series(3, index=[10, 20, 30, 10])  # индексы могут быть не уникальными
print(s)
print(s.loc[10])

# Из словаря с ключами в качестве индексов
s = pd.Series({'a': 4, 'b': 2, 'c': 6})  
print(s)

# Из части словаря
s = pd.Series({'a': 4, 'b': 2, 'c': 6}, index=['a', 'c'])
print(s)

Маша      5
Петя      4
Костя     5
Кирилл    3
Саша      2
dtype: int64
10    3
20    3
30    3
10    3
dtype: int64
10    3
10    3
dtype: int64
a    4
b    2
c    6
dtype: int64
a    4
c    6
dtype: int64


#### Индексаци и выборка данных из Series
Объекты Series позволяют получать данные по индексу и делать срезы, аналогично спискам и массивам.

In [6]:
print(grades["Петя"], grades[1])

# Срез по индексу
print(grades["Маша": "Кирилл"])  # границы включены!

# Срез по неявному индексу
(grades[:3])  # границы не включены

4 4
Маша      5
Петя      4
Костя     5
Кирилл    3
dtype: int64


Маша     5
Петя     4
Костя    5
dtype: int64

Но в таком виде эту возможность использовать не нужно. Для индексации в Series **всегда** используйте loc и iloc, особенно если индекс числовой:
    - loc - индексация по указанному при создании (явному) индексу
    - iloc - индексация по неявному индексу
Приведем пример данных, в которых эта разница критична.

In [7]:
series = pd.Series(np.random.randint(100, size=5), index=range(5)[::-1])
print(series)

print("series[0] =", series[0])  # использование явного индекса
print(series[:3])  # использование неявного индекса

# Правильное использование явного индекса
print("series.loc[0] =", series.loc[0])
print(series.loc[:3])  # границы включены

# Правильное использование неявного индекса
print("series.iloc[0] =", series.iloc[0])
print(series.iloc[:3])

4     3
3    19
2    88
1    33
0    72
dtype: int64
series[0] = 72
4     3
3    19
2    88
dtype: int64
series.loc[0] = 72
4     3
3    19
dtype: int64
series.iloc[0] = 3
4     3
3    19
2    88
dtype: int64


Также можно проверять наличие данных в Series или его индексе, изменять значение по индексу (но не сам индекс!), использовать маскирование и прихотливую индексацию.

In [8]:
print("Маша" in grades.index)
print(5 in grades.values)
print("Маша" in grades, 5 in grades, end='\n\n')  # не стоит использовать

print(grades[grades >= 4], end='\n\n')  # маскирование
print(grades[["Саша", "Кирилл"]], end='\n\n')  # прихотливая индексация

grades["Саша"] = 3
print(grades)

grades.index[0] = "Мария"

True
True
True False

Маша     5
Петя     4
Костя    5
dtype: int64

Саша      2
Кирилл    3
dtype: int64

Маша      5
Петя      4
Костя     5
Кирилл    3
Саша      3
dtype: int64


TypeError: Index does not support mutable operations

#### Арифметические операции над Series
Series поддерживает все арифметические операции, используемые в массивах и списках. При операциях над двумя объектами Series они выравниваются по индексу. Для несовпадающих индексов результатом операции всегда будет NaN (np.nan).

In [9]:
series = series + 3
print(series)

print(series + pd.Series(range(8), range(8)))  # выравнивание индексов

np.median(series), series.min(), series.max(), series.mean()

4     6
3    22
2    91
1    36
0    75
dtype: int64
0    75.0
1    37.0
2    93.0
3    25.0
4    10.0
5     NaN
6     NaN
7     NaN
dtype: float64


(36.0, 6, 91, 46.0)

### DataFrame
DataFrame - это базовая структура pandas, которую можно рассматривать как обобщенный np.ndarray или специализированный словарь. DataFrame представляет из себя набор объектов Series объединенных по одному индексу.

В отличие от Series у DataFrame есть два "индекса": индекс (index) и столбцы (column). Оба они имеют тип pd.Index

In [10]:
df = pd.DataFrame(np.random.randint(100, size=(3, 4)))
df

Unnamed: 0,0,1,2,3
0,66,71,99,72
1,11,88,63,18
2,87,65,75,99


In [11]:
print(df.columns)
print(df.index)
print(df.values)

RangeIndex(start=0, stop=4, step=1)
RangeIndex(start=0, stop=3, step=1)
[[66 71 99 72]
 [11 88 63 18]
 [87 65 75 99]]


#### Создание объекта DataFrame

In [13]:
# Из ndarray с указанием столбцов и индексов
df = pd.DataFrame(np.random.randint(100, size=(3, 4)), index=['a', 'b', 'c'],
                  columns=['col'+str(i) for i in range(4)])
print(df)

# Из структурированного массива (optional)
data = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
df = pd.DataFrame(data)
print(df)

# Из списка словарей
df = pd.DataFrame([{'a': 1, 'b': 3}, {'c': 7, 'b':10}])
print(df)

# Из одного объекта Series
df = pd.DataFrame(grades, columns=['grade'])
print(df)

# Из объекта (-ов) Series, как массивов
df = pd.DataFrame([grades, grades+1], index=['first', 'second'])
print(df)

# Из нескольких Series
groups = pd.Series([297, 293, 298, 291, 295], index=grades.index)
df = pd.DataFrame({'group': groups, 'grade': grades})
print(df)

   col0  col1  col2  col3
a     6    70    92    39
b    76    11    59    94
c    60    86    90     4
   A    B
0  0  0.0
1  0  0.0
2  0  0.0
     a   b    c
0  1.0   3  NaN
1  NaN  10  7.0
        grade
Маша        5
Петя        4
Костя       5
Кирилл      3
Саша        3
        Маша  Петя  Костя  Кирилл  Саша
first      5     4      5       3     3
second     6     5      6       4     4
        grade  group
Маша        5    297
Петя        4    293
Костя       5    298
Кирилл      3    291
Саша        3    295


#### Индексация и выборка данных из DataFrame
На самом деле DataFrame -- это транспонированный (перевернутый) np.ndarray: индексация происходит сначала по столбцам, а только потом по строкам. Но в остальном он очень похож на массив.

In [None]:
try:
    df["Маша"]  # raise exception
except KeyError as e:
    print("Error in key:", e, end='\n\n')

# Получение столбца
print(df["grade"])
print(df.grade is df["grade"], end='\n\n')  # эквивалетное обращение

# Получение конкретного элемента
print(df["group"]["Маша"] == df.values[0, 1], end='\n\n')

# Аналогично Series работают loc/iloc для индексов
print(df.loc["Маша"])  # получение строки по индексу
print(df.iloc[0], end='\n\n')

# Срезы
print(df.loc["Маша":"Костя", :"group"])  # внимание на порядок!
print(df.loc["Маша":"Костя"])  # можно использовать без среза по столбцам
print(df.iloc[:2, :1], end='\n\n')

# Прихотливая индексация
print(df[["group"]], end='\n\n')

# Маскирование
print(df.loc[df.grade >= 4])
print(df[df.grade >= 4])  # loc можно опускать
print(df.loc[df.grade >= 4, ["group"]], end='\n\n')  # а можно объединять с прихотливой индексацией

#### Арифметические операции над DataFrame
Для объектов DataFrame также доступны все арифметические операции и операции над строками, как в NumPy. По умолчанию любая арифметическая операция будет выполняться построчно, но всегда можно использовать дополнительный параметр **axis**, чтобы указать, что операция должна быть выполнена для строк.<br/>
Также бывает удобно быстро создавать новые столбцы как результаты простых операций над существующими столбцами.

In [None]:
A = pd.DataFrame(np.random.randint(100, size=(2,3)))
B = pd.DataFrame(np.random.randint(100, size=(3,2)))
print(A)
print(B)
C = A+B
C

In [None]:
df["grade_up"] = df.grade + 1
print(df)

df.grade_upup = df.grade + 5  # не работает так, как предполагалось
print(df)
print(df.grade_upup)

In [None]:
print(df + df["grade"])  # прибавляет столбец ко всем строкам с выравниванием индексов
print(df - df.iloc[0])  # построчное вычитание
print(df.subtract(df.grade, axis=0))  # вычитание по столбцам

### Работа с пропущенными данными
Чтобы найти пропущенные значения можно использовать методы isnull и notnull. После чего есть два варианта работы с пропущенными (None или np.nan) данными в Series и DataFrame: убрать все пропущенные значения (dropna) или присвоить им конкретные значения (fillna).

In [None]:
print(C.loc[2].isnull())
print(C.notnull())

In [None]:
# Удаление пропущенных данных
C.loc[0, 2] = C.loc[2, 0] = 1
print(C, end='\n\n')

print(C.dropna())  # удаление всех строк, в которых встречается пустое значение
print(C.dropna(axis=1))  # удаление всех столбцов, в которых встречается пустое значение
print(C.dropna(axis='columns'), end='\n\n')  # эквивалент предыдущему

print(C.dropna(how='all'))  # удаление всех строк, в которых все значения пустые
print(C.dropna(thresh=2))  # удаление всех строк, в которых хотя бы 2 значения пустые

In [None]:
# Заполнение пропущенных данных
print(C.fillna(0))  # заполнение всех пропущенных данных нулями
print(C.loc[1].fillna(0), end='\n\n')  # заполнение пропущенных в столбце данных

print(C.loc[1].fillna(method='ffill'))  # заполнение ближайшим предыдущим значением (bfill - следующим)
print(C.fillna(method='ffill'))  # заполнение по строкам
print(C.fillna(method='ffill', axis=1))  # по столбцам

### Работа с данными
Есть несколько способов работы с данными в DataFrame. Первый -- проитерироваться по всем строкам или столбцам:

In [None]:
for index, row in df.iterrows():
    print(index)
    print(row, end='\n\n')
    row['grade_up'] = min(row.grade_up, 5)
df

Второй -- использование метода apply. Для объектов Series он применяет переданную функцию к каждому элементу, для DataFrame -- к каждому столбцу (по умолчанию), чтобы применить к каждой строке необходимо указать параметр axis=1.

In [None]:
df["passed_flg"] = df.grade.apply(lambda x: x >= 4)
df["avg_grade"] = df.apply(lambda row: (row.grade + row.grade_up) / 2, axis=1)  # применение функции к каждой строке
print(df, end='\n\n')

def modify_column(column):
    return sum(column)

print(df.apply(modify_column))  # применение функции к каждому столбцу
df.apply(lambda x: x if x.name in ["grade", "group"] else 0)

Также можно добавлять строки к DataFrame и объединять их друг с другом.

In [None]:
student = pd.Series(dict(grade=4, group=296))
print(df.append(student, ignore_index=True))  # но все имена стерлись
student.name = "Миша"
print(df.append(student))

In [None]:
other_df = pd.DataFrame([
    dict(grade=2, group=299),
    dict(grade=4, group=292)
], index=["Оля", "Максим"])

tmp = pd.concat([df, other_df])
print(tmp)

# Можно проверять на дублирование индексов
try:
    pd.concat([tmp, other_df], verify_integrity=True)
except ValueError as e:
    print(e)

# Также объединять можно с помощью append
df.append(other_df)

### DataFrame и SQL
В Pandas можно использовать операции аналогичные SQL. Подробно про соответствие можно прочитать [в документации](https://pandas.pydata.org/pandas-docs/stable/comparison_with_sql.html). Мы не будет проводить сравнение, а просто рассмотрим полезные методы: join и groupby.

В pandas также можно составлять сводные таблицы с помощью метода [pivot_table](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.pivot_table.html), но мы его рассматривать не будем.

In [None]:
def get_df(size, index=None, columns=None):
    return pd.DataFrame(np.random.randint(5, size=size), index=index, columns=columns)

A = get_df((4,2), columns=['a', 'b'])
B = get_df((3,3), columns=['a', 'b', 'd'])
print(A, B, sep='\n', end='\n\n')

# JOIN по индексу
print(A.join(B, how='inner', lsuffix='_left'), end='\n\n')

# JOIN по столбцу
print(pd.merge(A, B, how='right', on='a'), end='\n\n')
print(pd.merge(A, B, how='outer', on=['a', 'b']), end='\n\n')  # составной ключ

Другой вариант выполнения join по столбцу - это предварительное установление его в качестве индекса с помощью set_index. При этом в качестве индекса может выступать несколько столбцов одновременно (мультииндекс). Обратной операцией к set_index является reset_index.

In [None]:
A = get_df((10, 3), columns=['a', 'b', 'c'])
print(A, end='\n\n')

B = A.groupby('a')[['b']].sum()
print(B, end='\n\n')

B = A.groupby('a').agg({
    'b': 'mean',
    'c': lambda x: ''.join(map(str, x))
})
print(B, end='\n\n')

### Чтение и запись данных
В библиотеке Pandas поддерживается чтение и запись данных в форматах csv (DSV) и excel.

In [None]:
columns = "Year,Make,Model,Description,Price".split(',')

# Чтение CSV
# если первая строка содержит названия столбцов, names можно опустить
df = pd.read_csv("doc/sample.csv", names=columns)
print(df)

# Чтение DSV
df = pd.read_csv("doc/mod_sample.csv", names=columns, sep=' ', quotechar='|')
print(df)

# Запись в файл
file = "doc/df_sample.csv"
df.to_csv(file, index=False)
content = read(file)

In [None]:
# Чтение из excel
file = "doc/sample.xlsx"
df = pd.read_excel(file)
print(df)

# Запись в excel
writer = pd.ExcelWriter(file)
df.to_excel(writer)
writer.save()

---
## Самостоятельная работа
Для примера разберем датасет про зафиксированные появления инопланетян. Он находится в файле "doc/ufo_sightings.csv".
### Задача 1
Предобработайте данные:
1. Обработайте все пропущенные значения в данных (с минимальными потерями)
2. Приведите все даты к формату: гггг-мм-дд чч:мм:сс
3. Приведите все данные в столбцах к единому формату
4. Приведите широту и долготу к типу int

In [None]:
file = "doc/ufo_sightings.csv"

# Чтение данных

df.head()

In [None]:
# Заполнение пропущенных данных

In [None]:
def fix_time(date, dformat):
    pass

# Приведение дат к нужному формату

In [None]:
def convert_time(str_time):
    pass

# Добавьте в DataFrame столбец duration_sec (если время точно не определено, укажите максимальное время)

In [None]:
# Приведение типов: см. Series.astype()

### Задача 2
Посчитать для каждого года, в какой стране наибольшее число раз было зафиксировано появление инопланетян.

In [None]:
# Выделить столбец год

In [None]:
# Подсчитать количество появлений инопланетян в каждой стране в каждом году

In [None]:
# Решить задачу =)

# HINT: есть несколько вариантов решения
# наиболее очевидный - проитерироваться по DataFrame, наименее - погуглить про transform

### Задача 3*
Придумайте какие-нибудь интересные метрики (например, среднее число появлений инопланетян в каждом штате) и посчитайте их. Не менее 5 метрик.

In [None]:
# Ваша фантазия