### Обзор средств для работы с распространёнными форматами данных

Порой приходится работать с очень разными форматами данных.
Если сталкиваемся с простыми и линейными -- нам помогут здравый смысл и стандартные простые средства.

**Однако не стоит пренебрегать библиотеками и самостоятельно парсить CSV (например)!**
Кавычки, переносы, разделители, кавычки внутри текста, комментарии, заголовки... 

Формат был установлен не сразу (https://tools.ietf.org/html/rfc4180.html).
Дьявол в мелочах, масса вариантов формата. Всё это давно написано за нас с вами. 

In [34]:
# Табличные форматы, которые можно читать невооружёнными глазами

# Сохранение матрицы numpy с расширением txt
# NB! Не получится сохранить многомерный массив!http://stackoverflow.com/a/3685339
# numpy.savetxt(fname, X, fmt='%.18e', delimiter=' ', newline='\n', header='', footer='', comments='# ')[source]

import numpy as np

synth_array = np.arange(50).reshape(10, 5) / 100000.0
np.savetxt("my_text_representation.txt", synth_array, fmt='%.2e', delimiter=';')

for line_number, line in enumerate(open("my_text_representation.txt", "r")):
    print(line)
    if line_number > 4:
        break

# в бинарном виде

with open("my_text_representation.npy", "wb") as output:        
    np.save(output, synth_array)
    
for line_number, line in enumerate(open("my_text_representation.npy", "rb")):
    print(line)
    if line_number > 4:
        break

## Самостоятельная работа
# прочитать записанные в файлы матрицы средствами load и loadtxt

## Самостоятельное изучение
# cPickle -- способ сохранения и чтения произвольных объектов в бинарном виде; модуль в ст. библиотеке Python
# используется очень часто

0.00e+00;1.00e-05;2.00e-05;3.00e-05;4.00e-05

5.00e-05;6.00e-05;7.00e-05;8.00e-05;9.00e-05

1.00e-04;1.10e-04;1.20e-04;1.30e-04;1.40e-04

1.50e-04;1.60e-04;1.70e-04;1.80e-04;1.90e-04

2.00e-04;2.10e-04;2.20e-04;2.30e-04;2.40e-04

2.50e-04;2.60e-04;2.70e-04;2.80e-04;2.90e-04

b"\x93NUMPY\x01\x00F\x00{'descr': '<f8', 'fortran_order': False, 'shape': (10, 5), }         \n"
b'\x00\x00\x00\x00\x00\x00\x00\x00\xf1h\xe3\x88\xb5\xf8\xe4>\xf1h\xe3\x88\xb5\xf8\xf4>i\x1dUM\x10u\xff>\xf1h\xe3\x88\xb5\xf8\x04?-C\x1c\xeb\xe26\n'
b'?i\x1dUM\x10u\x0f?\xd2\xfb\xc6\xd7\x9eY\x12?\xf1h\xe3\x88\xb5\xf8\x14?\x0f\xd6\xff9\xcc\x97\x17?-C\x1c\xeb\xe26\x1a?K\xb08\x9c\xf9\xd5\x1c?i\x1dUM\x10u\x1f?C\xc58\x7f\x13\n'
b'!?\xd2\xfb\xc6\xd7\x9eY"?a2U0*\xa9#?\xf1h\xe3\x88\xb5\xf8$?\x80\x9fq\xe1@H&?\x0f\xd6\xff9\xcc\x97\'?\x9e\x0c\x8e\x92W\xe7(?-C\x1c\xeb\xe26*?\xbcy\xaaCn\x86+?K\xb08\x9c\xf9\xd5,?\xda\xe6\xc6\xf4\x84%.?i\x1dUM\x10u/?\xfc\xa9\xf1\xd2Mb0?C\xc58\x7f\x13\n'
b"1?\x8b\xe0\x7f+\xd9\xb11?\xd2\xfb\xc6\xd7\x9eY2

In [38]:
# Чтение-сохранение из csv/tsv средствами одноименной библиотеки

import csv

with open("my_text_representation.txt", newline='\n') as csvfile:
    numslines = csv.reader(csvfile, delimiter=',')
    print(numslines)
    for row in numslines:
        print(row)

## Самостоятельная работа
## Дописать: построить numpy.ndarray из того, что прочитано

# Чтение-сохранение из csv/tsv средствами pandas
# Практически то же самое, просто запись csv-шника в объект pandas.DataFrame
# Кстати, посмотрите, сколько возможных параметров, это неспроста!
# http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html

import pandas as pd

data_frame = pd.read_csv("my_text_representation.txt")
print(data_frame)

# Всё ли с данными в порядке?

# Размеры датасета
# print(data_frame.shape)

# Данные -- что с ними?
# print(data_frame.ix[0])
# print(type(data_frame.ix[0]))

# по аналогии с numpy -- строки 0 и 2, все столбцы
# print(data_frame.ix[[0, 2],:])

## Самостоятельная работа
## Разобраться с форматом, скачать и распаковать руками
## http://opencorpora.org/files/export/ngrams/colloc.MI.zip
## Оставить только текстовые колонки и сохранить в стандартном 
## формате с запятыми (google: pandas.to_csv) и добавив заголовки к каждой колонке

<_csv.reader object at 0x7f325856d748>
['0.00e+00;1.00e-05;2.00e-05;3.00e-05;4.00e-05']
['5.00e-05;6.00e-05;7.00e-05;8.00e-05;9.00e-05']
['1.00e-04;1.10e-04;1.20e-04;1.30e-04;1.40e-04']
['1.50e-04;1.60e-04;1.70e-04;1.80e-04;1.90e-04']
['2.00e-04;2.10e-04;2.20e-04;2.30e-04;2.40e-04']
['2.50e-04;2.60e-04;2.70e-04;2.80e-04;2.90e-04']
['3.00e-04;3.10e-04;3.20e-04;3.30e-04;3.40e-04']
['3.50e-04;3.60e-04;3.70e-04;3.80e-04;3.90e-04']
['4.00e-04;4.10e-04;4.20e-04;4.30e-04;4.40e-04']
['4.50e-04;4.60e-04;4.70e-04;4.80e-04;4.90e-04']
   0.00e+00;1.00e-05;2.00e-05;3.00e-05;4.00e-05
0  5.00e-05;6.00e-05;7.00e-05;8.00e-05;9.00e-05
1  1.00e-04;1.10e-04;1.20e-04;1.30e-04;1.40e-04
2  1.50e-04;1.60e-04;1.70e-04;1.80e-04;1.90e-04
3  2.00e-04;2.10e-04;2.20e-04;2.30e-04;2.40e-04
4  2.50e-04;2.60e-04;2.70e-04;2.80e-04;2.90e-04
5  3.00e-04;3.10e-04;3.20e-04;3.30e-04;3.40e-04
6  3.50e-04;3.60e-04;3.70e-04;3.80e-04;3.90e-04
7  4.00e-04;4.10e-04;4.20e-04;4.30e-04;4.40e-04
8  4.50e-04;4.60e-04;4.70e-04;4.80e-04;

In [41]:
# Не всегда данные так хорошо структурированы и не всегда имеют такую простую структуру
# Примеры форматов с  "иерархическим" представлением данных: XML, JSON, etc.

# XML, для работы с ним часто используют библиотеку lxml
# for more, see: http://lxml.de/parsing.html and http://lxml.de/tutorial.html

from lxml import etree
from io import StringIO, BytesIO

xml = '<a xmlns="test"><b xmlns="test"/></a>'
root = etree.fromstring(xml)
print(root)

## Возьмём какой-нибудь фид из сети

import urllib.request

with urllib.request.urlopen("http://jazzandblues.blogspot.com/feeds/posts/default") as response:
    charset = response.info().get_content_charset()
    xml = response.read()
    print(xml[:30])

# распечатаем то, с чем имеем дело
# print(etree.tostring(root))

# зададим парсер
parser = etree.XMLParser(ns_clean=True, remove_blank_text=True)

# разберём дерево
tree   = etree.parse(BytesIO(xml), parser)

# print(etree.tostring(tree))

for element in tree.iter():
    print(element)
    print("  ", type(element))
    print(len(element))
    print(element.tag)
    print(element.attrib)
    print(list(element)[:5])
    break

## Самостоятельная работа
# Написать функцию, которая переводит правильную скобочную последовательность 
# в соответствующий XML с одним и тем же тегом. Нужно использовать Element, append и т.д.
# См. tutorial: http://lxml.de/tutorial.html

# Например, (()()) -> <mytag><mytag></mytag><mytag></mytag></mytag>

## Самостоятельное изучение 
# Как читать из файла? Как записать в файл?

## Самостоятельное изучение
# Язык запросов к XML-документам -- xpath
# http://stackoverflow.com/questions/8692/how-to-use-xpath-in-python
# http://www.w3schools.com/xml/xpath_examples.asp

<Element {test}a at 0x7fb16c0d5a88>
b"<?xml version='1.0' encoding='"
<Element {http://www.w3.org/2005/Atom}feed at 0x7fb16c068848>
   <class 'lxml.etree._Element'>
1980
{http://www.w3.org/2005/Atom}feed
{}
[<Element {http://www.w3.org/2005/Atom}id at 0x7fb16c068688>, <Element {http://www.w3.org/2005/Atom}updated at 0x7fb16c0685c8>, <Element {http://www.w3.org/2005/Atom}category at 0x7fb16c068a48>, <Element {http://www.w3.org/2005/Atom}category at 0x7fb16c0689c8>, <Element {http://www.w3.org/2005/Atom}category at 0x7fb16c068908>]


In [89]:
# Просто запишем JSON в словарь и наоборот
# Tutorial: https://docs.python.org/3/library/json.html

import json

# dumps -- создаёт строку!
example = json.dumps(['foo', {'bar': ('baz', None, 1.0, 2)}])
print(example[:15])

# loads -- читает из строки, по сути парсит JSON
print(json.loads(example)[1]["bar"])

# dump -- пишет в файл
with open('data.json', 'w') as outfile:
    json.dump({"show" : {"me" : "the", "way" : ["to", "the", {"next" : ["show" ,12, 13.0, True, None]}]}}, outfile)

print(open("data.json", "r").read())

## Самостоятельная работа
# Применить load (чтение из файла data.json)

["foo", {"bar":
['baz', None, 1.0, 2]
{"show": {"way": ["to", "the", {"next": ["show", 12, 13.0, true, null]}], "me": "the"}}


In [98]:
# Не всегда такие данные влезают в память -- для этого есть т.н. потоковые парсеры -- они читают файл как поток и имеют
# ограничения по используемой памяти; заходя в определённую нами же "ветку", мы можем выполнить какое-то действие с
# помощью так называемой callback-функции

# SAX (Simple API for XML) is an event-driven online algorithm for parsing XML documents,
# with an API developed by the XML-DEV mailing list.

from xml.sax import make_parser, handler

data = """
<CATALOG>
<CD>
<TITLE>Empire Burlesque</TITLE>
<ARTIST>Bob Dylan</ARTIST>
<COUNTRY>USA</COUNTRY>
<COMPANY>Columbia</COMPANY>
<PRICE>10.90</PRICE>
<YEAR>1985</YEAR>
</CD>
<CD>
<TITLE>Hide your heart</TITLE>
<ARTIST>Bonnie Tyler</ARTIST>
<COUNTRY>UK</COUNTRY>
<COMPANY>CBS Records</COMPANY>
<PRICE>9.90</PRICE>
<YEAR>1988</YEAR>
</CD>
<CD>
<TITLE>Greatest Hits</TITLE>
<ARTIST>Dolly Parton</ARTIST>
<COUNTRY>USA</COUNTRY>
<COMPANY>RCA</COMPANY>
<PRICE>9.90</PRICE>
<YEAR>1982</YEAR>
</CD>
<CD>
<TITLE>Still got the blues</TITLE>
<ARTIST>Gary Moore</ARTIST>
<COUNTRY>UK</COUNTRY>
<COMPANY>Virgin records</COMPANY>
<PRICE>10.20</PRICE>
<YEAR>1990</YEAR>
</CD>
</CATALOG>
"""

with open("huge_data.xml", "w") as outfile:
    outfile.write(data)

class MyLovelyCounter(handler.ContentHandler):

    def __init__(self):
        self._elems = 0
        self._attrs = 0
        self._elem_types = {}
        self._attr_types = {}

    def startElement(self, name, attrs):
        
        # print("Hello", name)
        
        self._elems = self._elems + 1
        self._attrs = self._attrs + len(attrs)
        self._elem_types[name] = self._elem_types.get(name, 0) + 1

        for name in attrs.keys():
            self._attr_types[name] = self._attr_types.get(name, 0) + 1
        
    def endElement(self, name):
        pass
        # print("Goodbye", name)

    def endDocument(self):
        
        print("There were", self._elems, "elements.")
        print("There were", self._attrs, "attributes.")
        print("---ELEMENT TYPES")
        
        for pair in  self._elem_types.items():
            print("%20s %d" % pair)

        print("---ATTRIBUTE TYPES")
        
        for pair in  self._attr_types.items():
            print("%20s %d" % pair)

            
parser = make_parser()
parser.setContentHandler(MyLovelyCounter())
parser.parse(open("huge_data.xml","r"))

## Самостоятельное изучение
# Аналогичные средства есть и для JSON
# Хорошие примеры есть на главной странице документации ijson: https://pypi.python.org/pypi/ijson/

There were 29 elements.
There were 0 attributes.
---ELEMENT TYPES
               PRICE 4
               TITLE 4
                YEAR 4
             CATALOG 1
             COMPANY 4
             COUNTRY 4
                  CD 4
              ARTIST 4
---ATTRIBUTE TYPES


In [80]:
# HTML -- это "грязный" XML (есть и "чистая" модификация -- XHTML), всем известный язык разметки веб-страниц.
# Чтобы что-то вытащить, рекомендуется использовать специализированные средства.
# Одна из самых известных библиотек разбора HTML -- BeautifulSoup.

# самый простой способ скачать страницу
import urllib.request

# будем вытаскивать данные из "плохой" страницы
response = urllib.request.urlopen("http://rating.chgk.info/player/9808")
html = response.read()

# посмотрите на нужный элемент в браузере с помощью inspect
from bs4 import BeautifulSoup

soup = BeautifulSoup(html)

print(soup.html.head.title)
# print(soup.html.head.name) # имя тега
# print(soup.html.head.text) # текст
# print(soup.html.head.attrs) # атрибуты, словарь
# print(list(soup.html.head.children)) # наследники

matches = soup.findAll("table", {"class":"tournaments_table"})

for table in matches:
    
    # все строки таблицы
    rows = table.findAll("tr")
    
    for row in rows:    
        # все строки таблицы, у которых не указан класс
        if "class" in row.attrs:
            pass
            # print(row.attrs["class"])
        else:
            # pass
            columns = row.findAll("td")
            if len(columns) > 1:
                pass
                # print(columns[2].text.strip())

# 1. Но всё же здесь лучше задать xpath и всё им вытащить.
# 2. Для подобного сбора данных лучше использовать специализированные средства -- use Scrapy!

<title>Друзь Александр Абрамович - Спортивное "Что? Где? Когда?" Официальный рейтинг МАК</title>




 BeautifulSoup([your markup])

to this:

 BeautifulSoup([your markup], "lxml")

  markup_type=markup_type))


### Задачи
Текст курсивом (или в "звёздочках", если клетка в режиме редактирования)-- полезная практика; не всегда и не всё было рассказано на занятии -- и не всё будет. 
Делать в классе, если есть другие "стандартные задачи" -- не надо.

0. Скачать opencorpora, версию со снятой омонимией (см. http://opencorpora.org/?page=downloads). Вытащить из XML все предложения и записать в файл как единый текст, разбивая на абзацы и проставляя заголовки. // *Далее -- "со звёздочкой" и "на потом": "подогнать" с помощью регулярных выражений функцию разбиения текста на предложения. Придумать оценку качества разбиения. Проверить на любом новостном большом тексте -- по вашей оценке и "на глаз".*
    
    <text id="2" parent="1" name="00021 Школа злословия">
      <tags>
        <tag>Год:2008</tag>
        <tag>Дата:25/08</tag>
        <tag>Автор:Валентин Колесников</tag>
        <tag>url:http://www.chaskor.ru/article/shkola_zlosloviya_uchit_prikusit_yazyk_21</tag>
        <tag>Тема:ЧасКор:Медиа</tag>
        <tag>Тема:ЧасКор:Медиа/ТВ и радио</tag>
      </tags>
      <paragraphs>
        <paragraph id="1">
          <sentence id="1">
            <source>«Школа злословия» учит прикусить язык</source>
    

1. Написать конвертер из XML в JSON. Можно считать, что всё влезет в память. *А если нет?*

2. Выкачать фиды Яндекс.Новостей для нескольких категорий (e.g. категория Бизнес: https://news.yandex.ru/business.rss) с помощью urllib и lxml и записать их в файл с помощью pandas в выбранном  вами "плоском" формате, отдельной колонкой добавив категорию. *Используя TfIdfVectorizer и LogisticRegression из sklearn написать классификатор. Перемешать данные, разделить на две части. Обучить на одной, проверить точность классификации на другой. После рассмотреть значимость фич.*

3. *Выбрать заведения, к которым бывает нужен скорый доступ. Или просто важные "места" в городе, у которых одна и та же функция. Найти список с адресами в сети (пример: http://med-info.ru/reference/list/3/1#r и отдельное заведение -- http://med-info.ru/reference/view/173). С помощью urllib2 -- скачать нужные html и записать в строку; при необходимости можно записать на диск. С помощью BeauifulSoup -- разобрать html и извлечь адреса. С помощью urllib2 обратиться в Я.Геокодер с запросами-адресами https://tech.yandex.ru/maps/doc/geocoder/desc/concepts/response_structure-docpage/#json_response. С помощью библиотеки json извлечь координаты наших заведений. С помощью matplotlib визуализировать расположение точек на "плоскости" (на карту накладывать необязательно). Подумать, как можно отобразить "ещё нагляднее".*

### Что ещё бывает?
 - XLS, XLSX 
 - SQL dumps
 - ARFF, SPSS (редко IRL)
 - protobuf (но всё же это для передачи данных, а не для их распространения)
 - domain-dependent data markup: CoNLL, VoiceXML, MusicXML, ...