# Чтение и запись данных. Часть 1

## 1. Чтение текстовых файлов, файловые дескрипторы

### 1.1

**Простая задача** сформируйте объект класса dict, где ключ - это IP адрес, а значение - количество раз, которые этот ip встретился в тесте.

*Результат выполнения*
<pre>
{'192.168.101.4': 1, '192.168.102.3': 2, '192.168.7.46': 1}
</pre>

In [10]:
file_path = './data/uwsgi.log'
ip_counter = dict()

with open(file_path, 'r', encoding='utf8') as f:
    for row in f:
        str_list = row.split(' ')
        if len(str_list[0])>1:
            if str_list[0] in ip_counter:
                ip_counter[str_list[0]] = ip_counter[str_list[0]] + 1
            else:
                ip_counter[str_list[0]] = 1 

print(ip_counter)

{'192.168.101.4': 1, '192.168.102.3': 2, '192.168.7.46': 1}


### 1.2
**Задача среднего уровня** Распечатайте список URL, к которым происходил доступ. GET или POST параметры печатать не нужно.

*Результат выполнения*
<pre>
/movie/is_personalizable/
/logger/content/time/
/movie/collection/items/recommendations/
/movie/recommendations/
</pre>

In [21]:
file_path = './data/uwsgi.log'

with open(file_path, 'r', encoding='utf8') as f:
    for row in f: 
        str_list = row.split(' ')
        if len(str_list)>=6:
            addr_list = str_list[6].split('?') 
            print(addr_list[0])

/movie/is_personalizable/
/logger/content/time/
/movie/collection/items/recommendations/
/movie/recommendations/


### 1.3
**Задача высокого уровня** Сформируйте объект класса dict, где ключ - это URL, а значение - это массив объектов python `datetime.datetime`: когда происходили запросы к этому URL.

*Результат выполнения*
<pre>
{
    '/movie/is_personalizable/': [datetime.datetime(2019, 2, 5, 21, 36, 7)],
    '/logger/content/time/': [datetime.datetime(2019, 2, 5, 21, 36, 7)],
    '/movie/collection/items/recommendations/': [datetime.datetime(2019, 2, 5, 21, 36, 7)],
    '/movie/recommendations/': [datetime.datetime(2019, 2, 5, 21, 36, 7)]
}
</pre>

In [37]:
import datetime
import pprint
file_path = './data/uwsgi.log'

access_dournal = dict()

ip_counter = dict()

with open(file_path, 'r', encoding='utf8') as f:
    for row in f:
        str_list = row.split(' ')
        if len(str_list)>=6:
            url = str_list[6].split('?')[0]
            str_date = str_list[3][1:]
            date_for_dict = datetime.datetime.strptime(str_date, "%d/%b/%Y:%H:%M:%S")
            if url in access_dournal:
                access_dournal[url].append(date_for_dict)
            else:
                access_dournal[url] = [date_for_dict]           

pprint.pprint(access_dournal)

{'/logger/content/time/': [datetime.datetime(2019, 2, 5, 21, 36, 7)],
 '/movie/collection/items/recommendations/': [datetime.datetime(2019, 2, 5, 21, 36, 7)],
 '/movie/is_personalizable/': [datetime.datetime(2019, 2, 5, 21, 36, 7)],
 '/movie/recommendations/': [datetime.datetime(2019, 2, 5, 21, 36, 7)]}


## 2. Чтение csv файлов: модуль python csv

### 2.1
**Простая задача** Сформируйте словарь, в котором ключ - название столбца, а значение - массив записей в этом столбце.

*Результат выполнения*
<pre>
{
    'Код': ['HYDRA-535', 'HYDRA-534', 'HYDRA-532', 'HYDRA-531', 'HYDRA-530', 'HYDRA-527', 'HYDRA-524', 'HYDRA-523', 'HYDRA-520', 'HYDRA-519', 'HYDRA-518', 'HYDRA-517', 'HYDRA-514', 'HYDRA-513', 'HYDRA-511', 'HYDRA-510', 'HYDRA-509', 'HYDRA-507', 'HYDRA-506'],
    'Тема': ['Пробрасывать пользовательское распределение paid_types в ехидну', 'Гибридный рекомендатель с multi-channel feedback', 'Джоба в дженкинсе для расчёта динамики РВП', 'Интеграция Hydra с Gamora', 'Тестируем интеграцию с Jira', 'Поправить функцию _get_ui_rec_matrix', 'Оптимизировать матрицу ItemFactors', 'Сортировка ЦПБ', 'Закостылить параметр top', "Сделать 'stable' конфигом по умолчанию в Гидре", 'Неудобно тестировать запись в redis', 'Улучшить рекомендации (первая итерация)', 'Добавить логирование в скрипты hydra/bin', 'Поправить storage_backend', 'Перемешивание рекомендаций для старых пользователей', 'Поправить скрипты bpr и и оценщика', 'Динамические персональные рекомендации', 'Навести порядок в prepare_data_for_hydra', 'Техдолг по логике /collection/recommendations/'],
    'Компонент': ['echidna', 'hydra', 'hydramatrices', 'hydramagrices', 'hydra', 'hydra', 'hydra', 'hydra', 'hydra', 'hydra', 'hydramatrices', 'hydra', 'hydramagrices', 'hydramatrices', 'hydra', 'hydra_utils', 'hydra', 'hydramagrices', 'hydra'],
    'Затрачено в часах': ['1', '3', '2', '4', '2', '10', '2', '5', '2', '2', '1', '7', '5', '2', '5', '16', '10', '3', '24']
}
</pre>

In [46]:
import csv
columns_dict = dict()
file_path = './data/task.csv'

# решение
with open(file_path, newline='', encoding='utf8') as csvfile:
    reader = csv.DictReader(csvfile)
    for col_name in reader.fieldnames:
        columns_dict[col_name] = []
    for row in reader:
        for fieldname in reader.fieldnames:
            columns_dict[fieldname].append(row[fieldname])

print(columns_dict)

{'Код': ['HYDRA-535', 'HYDRA-534', 'HYDRA-532', 'HYDRA-531', 'HYDRA-530', 'HYDRA-527', 'HYDRA-524', 'HYDRA-523', 'HYDRA-520', 'HYDRA-519', 'HYDRA-518', 'HYDRA-517', 'HYDRA-514', 'HYDRA-513', 'HYDRA-511', 'HYDRA-510', 'HYDRA-509', 'HYDRA-507', 'HYDRA-506'], 'Тема': ['Пробрасывать пользовательское распределение paid_types в ехидну', 'Гибридный рекомендатель с multi-channel feedback', 'Джоба в дженкинсе для расчёта динамики РВП', 'Интеграция Hydra с Gamora', 'Тестируем интеграцию с Jira', 'Поправить функцию _get_ui_rec_matrix', 'Оптимизировать матрицу ItemFactors', 'Сортировка ЦПБ', 'Закостылить параметр top', "Сделать 'stable' конфигом по умолчанию в Гидре", 'Неудобно тестировать запись в redis', 'Улучшить рекомендации (первая итерация)', 'Добавить логирование в скрипты hydra/bin', 'Поправить storage_backend', 'Перемешивание рекомендаций для старых пользователей', 'Поправить скрипты bpr и и оценщика', 'Динамические персональные рекомендации', 'Навести порядок в prepare_data_for_hydra', '

### 2.2
**Задача среднего уровня** Посчитайте статистику по колонке "Затрачено в часах" (это человеко-часы, затраченные на задачу) – максимальное значение, минимальное значение, среднее значение. Воспользуйтесь словарём `columns_dict` из задания 2.1

*Результат выполнения*
<pre>
min_val=1, max_val=24, mean_val=5.578947368421052

</pre>

In [58]:
import numpy as np
min_val, max_val, mean_val = None, None, None


# решение
array = np.array(columns_dict['Затрачено в часах'], int)

min_val = array.min()
max_val = array.max()
mean_val = array.mean()
print("min_val={}, max_val={}, mean_val={}".format(min_val, max_val, mean_val))

min_val=1, max_val=24, mean_val=5.578947368421052


### 2.3
**Задача высокого уровня** Сколько было выполнено задач, в которых встречается слово "рекомендации" в любых формах? Сколько было выполнено всех остальных задач?

Подсказка - проверка на наличие нужного слова в тексте `txt` выглядит так:

In [3]:
print('рек' in 'Я делаю рекомендательную систему', 'рек' in 'кек')

True False


*Результат выполнения*
<pre>
{'recs': 2, 'non_recs': 17}
</pre>

In [68]:
file_path = './data/task.csv'
task_recs_counter = {'recs': 0, 'non_recs': 0}

with open(file_path, newline='', encoding='utf8') as csvfile:
    reader = csv.DictReader(csvfile)
    for row in reader:
        if 'рекомендации' in row['Тема']:
            task_recs_counter['recs'] +=1
        else:
            task_recs_counter['non_recs'] +=1       

print(task_recs_counter)

{'recs': 2, 'non_recs': 17}


## 3. Чтение csv файлов: модуль pandas

### 3.1

**Простое задание** добавьте столбец `num_tasks`, где отражено количество задач, выполненное внутри каждого компонента. Колонка `mean_val` со средним значением поля 'Затрачено в часах' уже добавлена в качестве примера.

Чтобы выполнить задание, поправьте словарь `aggregation_json`

In [85]:
import numpy as np
import pandas as pd

file_path = './data/task.csv'

df = pd.read_csv(file_path)

## -- ВАШ КОД ТУТ --
aggregation_json = {
 'Затрачено в часах': {
  'mean_val': np.mean,
  'num_tasks': 'count'}
}

df.groupby(by=['Компонент'])[['Затрачено в часах']].aggregate(aggregation_json)

Unnamed: 0_level_0,mean_val,num_tasks
Компонент,Unnamed: 1_level_1,Unnamed: 2_level_1
echidna,1.0,1
hydra,6.545455,11
hydra_utils,16.0,1
hydramagrices,4.0,3
hydramatrices,1.666667,3


### 3.2
**Задание среднего уровня** Добавьте (в виде `list`) для каждого компонента набор задач, который был в этом компоненте выполнен (идентификаторы содержатся в поле "Код"). Для этого замените `.aggregate()` на `.apply(list)`

Пример:

In [89]:
import pandas as pd

print('Исходный DataFrame:')
a = pd.DataFrame({'key':['a', 'a'], 'val':[1, 2]})
print(a)
print('Применяем apply:')
a.groupby('key')['val'].apply(list)

Исходный DataFrame:
  key  val
0   a    1
1   a    2
Применяем apply:


key
a    [1, 2]
Name: val, dtype: object

Результат выполнения

<pre>
Компонент
echidna                                                [HYDRA-535]
hydra            [HYDRA-534, HYDRA-530, HYDRA-527, HYDRA-524, H...
hydra_utils                                            [HYDRA-510]
hydramagrices                    [HYDRA-531, HYDRA-514, HYDRA-507]
hydramatrices                    [HYDRA-532, HYDRA-518, HYDRA-513]
</pre>

In [99]:
import pandas as pd

file_path = './data/task.csv'

df = pd.read_csv(file_path)

codes_list_d = df.groupby('Компонент')['Код'].apply(list)

codes_list_df.head()

Компонент
echidna                                                [HYDRA-535]
hydra            [HYDRA-534, HYDRA-530, HYDRA-527, HYDRA-524, H...
hydra_utils                                            [HYDRA-510]
hydramagrices                    [HYDRA-531, HYDRA-514, HYDRA-507]
hydramatrices                    [HYDRA-532, HYDRA-518, HYDRA-513]
Name: Код, dtype: object

### 3.3
**Задание высокого уровня** Составьте DataFrame с двумя колонками: среднее время на задачу и список задач `codes_list_df` внутри каждого "Компонента". Подсказка: подготовьте два датафрейма и используйте [функцию merge](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html)

In [112]:
import pandas as pd

file_path = './data/task.csv'

df = pd.read_csv(file_path)

codes_list_df = df.groupby('Компонент')['Код'].apply(list)

aggregation_json = {
 'Затрачено в часах': {'mean_val': np.mean}
}

new_df = df.groupby(by=['Компонент'])[['Затрачено в часах']].aggregate(aggregation_json)

new_df.merge(codes_list_df, left_on='Компонент', right_on ='Компонент')

Unnamed: 0_level_0,mean_val,Код
Компонент,Unnamed: 1_level_1,Unnamed: 2_level_1
echidna,1.0,[HYDRA-535]
hydra,6.545455,"[HYDRA-534, HYDRA-530, HYDRA-527, HYDRA-524, H..."
hydra_utils,16.0,[HYDRA-510]
hydramagrices,4.0,"[HYDRA-531, HYDRA-514, HYDRA-507]"
hydramatrices,1.666667,"[HYDRA-532, HYDRA-518, HYDRA-513]"


## 4.  Работа с данными формата HTML

### 4.1

**Задание простого уровня**. Мы вывели весь список курсов на странице. Измените вывод и добавьте в каждому курсу ссылку http на этот курс на сайте skillbox (чтобы решить задачу, исследуйте объект `course_dict`).

In [60]:
import requests
from lxml import html

page = requests.get('https://skillbox.ru/courses/code').content
html_tree = html.fromstring(page.decode("utf-8", "replace"))

items_list = html_tree.xpath("//a[@class='{}']".format('profession-card hover-card profession-card--add'))

for course in items_list:
    course_title = course.xpath("div/b[@class='{}']".format('profession-card__title hover-card__text'))[0]
    course_link = course.xpath("a[@class='{}']".format('profession-card hover-card profession-card--add'))
    print(course_title.text[:-5],course.attrib['href'])


      Профессия Java-разработчик https://course.skillbox.ru/profession-java

      Профессия Python-разработчик https://course.skillbox.ru/profession-python

      Профессия Data Scientist https://course.skillbox.ru/profession-data-scientist

      Профессия разработчик игр на Unity https://course.skillbox.ru/profession-gamedev/

      Профессия Мобильный разработчик https://course.skillbox.ru/iammobdev

      Профессия iOS-разработчик https://course.skillbox.ru/profession-ios

      Профессия Android-разработчик https://course.skillbox.ru/profession-android

      Профессия Frontend-разработчик https://course.skillbox.ru/profession-frontend

      Профессия Веб-разработчик https://course.skillbox.ru/profession-webdev

      Профессия 1С-разработчик https://course.skillbox.ru/profession-1c

      Профессия Тестировщик https://skillbox.ru/course/profession-test/

      Профессия C#-разработчик https://course.skillbox.ru/profession-c-sharp

      Профессия PHP-разработчик https://course

*Результат выполнения*
<pre>
Курс: Веб-дизайн с нуля до PRO  link:  https://skillbox.ru/webdesign/
Курс: Рекламная графика  link:  https://skillbox.ru/cpeople/
Курс: UX-дизайн  link:  https://skillbox.ru/aic/
</pre>

Шаблон для решения:

### 4.2
**Задание среднего уровня** Распечатайте список курсов только из раздела "Программирование". Подсказка: исследуйте объект `course_tag`

In [84]:
#Выведу курсы которые длятся больеш 10 месяцев
import requests
from lxml import html

page = requests.get('https://skillbox.ru/courses/code').content
html_tree = html.fromstring(page.decode("utf-8", "replace"))

items_list = html_tree.xpath("//a[@class='{}']".format('profession-card hover-card profession-card--add'))

for course in items_list:
    course_title = course.xpath("div/b[@class='{}']".format('profession-card__title hover-card__text'))[0]
    course_tag = course.xpath("div/span[@class='{}']".format('duration profession-card__duration hover-card__text'))[0]

    duration = int(course_tag.text.split(' ')[6])
    if duration > 10:
        print(f'Курс "{course_title.text[7:-5]}" длится {duration} месяцев')

Курс "Профессия Data Scientist" длится 12 месяцев
Курс "Профессия разработчик игр на Unity" длится 12 месяцев
Курс "Профессия Мобильный разработчик" длится 24 месяцев
Курс "Профессия Веб-разработчик" длится 24 месяцев
Курс "Профессия Тестировщик" длится 12 месяцев
Курс "Профессия C#-разработчик" длится 12 месяцев
Курс "Профессия PHP-разработчик" длится 12 месяцев
Курс "Профессия разработчик игр на Unreal Engine 4" длится 12 месяцев


### 4.3
**Задание высокого уровня**. Напишите код, который переходит по ссылкам на страницы курсов по программированию из предыдущего задания и распечатывает описание курса.

Подсказка - Зайдите по ссылке на страницу из списка. Проинспектируйте элемент, который нужен. Скопируйте XPath. Подумайте, как можно его записать так, чтобы он работал в цикле (то есть для каждой ссылки).

Примечание: нужны только курсы из раздела "Программирование". По сути нужно соединить два предыдущих сниппета кода воедино.

In [22]:
import requests

links = []
descr = []

# -- ВАШ КОД ТУТ --
for course in items_list:
    pass

result_df = pd.DataFrame({
    'link': links,
    'descr': descr
})

result_df.head()

Unnamed: 0,link,descr


## 5. Работа с данными формата XML

### 5.1

**Задание начального уровня** Распечатайте все фильмы (а не только драмы) в формате: `название фильма: жанр`

In [144]:
from xml.etree import ElementTree

file_path = './data/xml_content_description.xml'

with open(file_path) as f:
    doc = ElementTree.parse(f)
    root=doc.getroot()
    for elem in root.findall('./Content/content_title'):
        genre = ''
        genre_el=elem.find('./genre')
        if genre_el is not None:  
            genre =elem.find('./genre').text
        print(elem.find('./title').text,':',genre)

The Shawshank Redemption : drama
The Dark Knight : drama
"Back 2 the Future" : 


### 5.2
**Задание среднего уровня** Посчитайте среднюю длительность контента в файле. xml_content_description

In [149]:
import math
from xml.etree import ElementTree

file_path = './data/xml_content_description.xml'
duration = []

num_content = 0

with open(file_path) as f:
    doc = ElementTree.parse(f)
    root=doc.getroot()
    for elem in root.findall('./Content/content_title'):
        num_content+=1
        dur_el=elem.find('./duration')
        if dur_el is None:
            dur=0
        else:
            dur=float(dur_el.text)
        duration.append(dur)
        
print("avg_duration={}".format(sum(duration)/num_content))

avg_duration=5880.0


### 5.3
**Задание высокого уровня** Если речь идёт о продакшн-системах машинного обучения, то данные могут приходить в форматах, мало пригодных для использования - например XML. В таких случаях приходится приводить данные к превычному табличному формату - такой кейс мы решим в рамках домашней работы.

Нужно определить, сколько полей будет в выходном файле и как залить в него данные

Алгоритм
* сформируйте массив словарей `content_list`, где каждый элемент массива - это словарь вида `{tag1: value1,...,tag_n:value_n}`
* каждый результат findall можно итеративно обойти, распечатав тэг и его значение в виде
<pre>
        for i in movie:
            print(i.text, i.tag)
</pre>
* из полученного словаря сформируйте DataFrame с тремя колонками: `movie_id | tag | value` (movie_id соответствует номеру словаря среди всех словарей `content_list`)
* сохраните Dataframe c помощью функции `.to_csv()`

In [87]:
import pandas as pd
from xml.etree import ElementTree

# имя входного файла XML
input_file = './data/xml_content_description.xml'
# имя выходного файла CSV
output_file = 'csv_content_description.csv'

# читаем входной файл
content_list = [] 

movie_dic={}
movie_dic['movie_id']=[]
movie_dic['tag']=[]
movie_dic['value']=[]

with open(input_file) as f:
    doc = ElementTree.parse(f)
    root=doc.getroot()
    index=0
    for elem in root.findall('./Content/content_title'):
        for i in elem:
            movie_dic['movie_id'].append(index)
            movie_dic['tag'].append(i.tag)
            movie_dic['value'].append(i.text)
        index+=1

df = pd.DataFrame(movie_dic)
df.to_csv("./movie_dic.csv")