# Чтение и запись данных. Часть 1

## 1. Чтение текстовых файлов, файловые дескрипторы

### 1.1

**Простая задача** сформируйте объект класса dict, где ключ - это IP адрес, а значение - количество раз, которые этот ip встретился в тесте.

*Результат выполнения*
<pre>
{'192.168.101.4': 1, '192.168.102.3': 2, '192.168.7.46': 1}
</pre>

In [1]:
file_path = './data/uwsgi.log'
ip_counter = dict()
i = 1
with open(file_path, 'r', encoding='utf8') as f:
    for row in f:
        if len(row)>1:
            if row.split(' ')[0] in ip_counter:
                ip_counter[row.split(' ')[0]]+=1
            else:
                ip_counter[row.split(' ')[0]] = 1
            i+=1
print(ip_counter)

{'192.168.101.4': 1, '192.168.102.3': 2, '192.168.7.46': 1}


### 1.2
**Задача среднего уровня** Распечатайте список URL, к которым происходил доступ. GET или POST параметры печатать не нужно.

*Результат выполнения*
<pre>
/movie/is_personalizable/
/logger/content/time/
/movie/collection/items/recommendations/
/movie/recommendations/
</pre>

In [2]:
file_path = './data/uwsgi.log'

with open(file_path, 'r', encoding='utf8') as f:
    for row in f:
        if len(row)>1:
            index = row.split(' ')[6].find('?')
            print(row.split(' ')[6][:index])
        

/movie/is_personalizable/
/logger/content/time
/movie/collection/items/recommendations/
/movie/recommendations/


### 1.3
**Задача высокого уровня** Сформируйте объект класса dict, где ключ - это URL, а значение - это массив объектов python `datetime.datetime`: когда происходили запросы к этому URL.

*Результат выполнения*
<pre>
{
    '/movie/is_personalizable/': [datetime.datetime(2019, 2, 5, 21, 36, 7)],
    '/logger/content/time/': [datetime.datetime(2019, 2, 5, 21, 36, 7)],
    '/movie/collection/items/recommendations/': [datetime.datetime(2019, 2, 5, 21, 36, 7)],
    '/movie/recommendations/': [datetime.datetime(2019, 2, 5, 21, 36, 7)]
}
</pre>

In [3]:
from datetime import datetime
file_path = './data/uwsgi.log'

access_dournal = dict()

ip_counter = dict()

with open(file_path, 'r', encoding='utf8') as f:
    for row in f:
        if len(row)>1:
            index = row.split(' ')[6].find('?')          
            datetime_str = row.split(' ')[3][1:]            
            datetime_object = datetime.strptime(datetime_str, '%d/%b/%Y:%H:%M:%S')
            access_dournal[row.split(' ')[6][:index]]=[datetime_object]
            
print(access_dournal)

{'/movie/is_personalizable/': [datetime.datetime(2019, 2, 5, 21, 36, 7)], '/logger/content/time': [datetime.datetime(2019, 2, 5, 21, 36, 7)], '/movie/collection/items/recommendations/': [datetime.datetime(2019, 2, 5, 21, 36, 7)], '/movie/recommendations/': [datetime.datetime(2019, 2, 5, 21, 36, 7)]}


## 2. Чтение csv файлов: модуль python csv

### 2.1
**Простая задача** Сформируйте словарь, в котором ключ - название столбца, а значение - массив записей в этом столбце.

*Результат выполнения*
<pre>
{
    'Код': ['HYDRA-535', 'HYDRA-534', 'HYDRA-532', 'HYDRA-531', 'HYDRA-530', 'HYDRA-527', 'HYDRA-524', 'HYDRA-523', 'HYDRA-520', 'HYDRA-519', 'HYDRA-518', 'HYDRA-517', 'HYDRA-514', 'HYDRA-513', 'HYDRA-511', 'HYDRA-510', 'HYDRA-509', 'HYDRA-507', 'HYDRA-506'],
    'Тема': ['Пробрасывать пользовательское распределение paid_types в ехидну', 'Гибридный рекомендатель с multi-channel feedback', 'Джоба в дженкинсе для расчёта динамики РВП', 'Интеграция Hydra с Gamora', 'Тестируем интеграцию с Jira', 'Поправить функцию _get_ui_rec_matrix', 'Оптимизировать матрицу ItemFactors', 'Сортировка ЦПБ', 'Закостылить параметр top', "Сделать 'stable' конфигом по умолчанию в Гидре", 'Неудобно тестировать запись в redis', 'Улучшить рекомендации (первая итерация)', 'Добавить логирование в скрипты hydra/bin', 'Поправить storage_backend', 'Перемешивание рекомендаций для старых пользователей', 'Поправить скрипты bpr и и оценщика', 'Динамические персональные рекомендации', 'Навести порядок в prepare_data_for_hydra', 'Техдолг по логике /collection/recommendations/'],
    'Компонент': ['echidna', 'hydra', 'hydramatrices', 'hydramagrices', 'hydra', 'hydra', 'hydra', 'hydra', 'hydra', 'hydra', 'hydramatrices', 'hydra', 'hydramagrices', 'hydramatrices', 'hydra', 'hydra_utils', 'hydra', 'hydramagrices', 'hydra'],
    'Затрачено в часах': ['1', '3', '2', '4', '2', '10', '2', '5', '2', '2', '1', '7', '5', '2', '5', '16', '10', '3', '24']
}
</pre>

In [4]:
import csv
columns_dict = dict()
file_path = './data/task.csv'


with open(file_path, newline='', encoding='utf8') as csvfile:
    reader = csv.DictReader(csvfile)
    for col_name in reader.fieldnames:
        columns_dict[col_name] = []
            
    for row in reader:
        for col_name in reader.fieldnames:
            columns_dict[col_name].append(row[col_name])
               
print(columns_dict)

{'Код': ['HYDRA-535', 'HYDRA-534', 'HYDRA-532', 'HYDRA-531', 'HYDRA-530', 'HYDRA-527', 'HYDRA-524', 'HYDRA-523', 'HYDRA-520', 'HYDRA-519', 'HYDRA-518', 'HYDRA-517', 'HYDRA-514', 'HYDRA-513', 'HYDRA-511', 'HYDRA-510', 'HYDRA-509', 'HYDRA-507', 'HYDRA-506'], 'Тема': ['Пробрасывать пользовательское распределение paid_types в ехидну', 'Гибридный рекомендатель с multi-channel feedback', 'Джоба в дженкинсе для расчёта динамики РВП', 'Интеграция Hydra с Gamora', 'Тестируем интеграцию с Jira', 'Поправить функцию _get_ui_rec_matrix', 'Оптимизировать матрицу ItemFactors', 'Сортировка ЦПБ', 'Закостылить параметр top', "Сделать 'stable' конфигом по умолчанию в Гидре", 'Неудобно тестировать запись в redis', 'Улучшить рекомендации (первая итерация)', 'Добавить логирование в скрипты hydra/bin', 'Поправить storage_backend', 'Перемешивание рекомендаций для старых пользователей', 'Поправить скрипты bpr и и оценщика', 'Динамические персональные рекомендации', 'Навести порядок в prepare_data_for_hydra', '

### 2.2
**Задача среднего уровня** Посчитайте статистику по колонке "Затрачено в часах" (это человеко-часы, затраченные на задачу) – максимальное значение, минимальное значение, среднее значение. Воспользуйтесь словарём `columns_dict` из задания 2.1

*Результат выполнения*
<pre>
min_val=1, max_val=24, mean_val=5.578947368421052

</pre>

In [5]:
#преобразуем колонку в числовой тип
value = list(map(lambda x: int(x),columns_dict['Затрачено в часах']))

min_val = min(value)
max_val = max(value)
mean_val = sum(value)/len(value)

print("min_val={}, max_val={}, mean_val={}".format(min_val, max_val, mean_val))

min_val=1, max_val=24, mean_val=5.578947368421052


### 2.3
**Задача высокого уровня** Сколько человеко-часов было потрачено на задачи, в которых встречается слово "рекомендации" в любых формах, а сколько на остальные задачи (в процентах)?

Подсказка - проверка на наличие нужного слова в тексте `txt` выглядит так:

In [3]:
print('рек' in 'Я делаю рекомендательную систему', 'рек' in 'кек')

True False


*Результат выполнения*
<pre>
{'recs': 2, 'non_recs': 17}
</pre>

In [6]:
file_path = './data/task.csv'
task_recs_counter = {'recs': 0, 'non_recs': 0}

with open(file_path, newline='', encoding='utf8') as csvfile:
    reader = csv.DictReader(csvfile)
    for row in reader:
        #Сколько человеко-часов было потрачено на задачи, в которых встречается слово "рекомендации" в любых формах
        if 'рек' in row['Тема']:
            task_recs_counter['recs'] += int(row['Затрачено в часах']) 

#общее количество часов потраченное на задачи
sum_hours = sum(value)
# перевод затраченного времени в проценты
task_recs_counter['recs'] = round(100/sum_hours*task_recs_counter['recs'], 2)
task_recs_counter['non_recs'] = 100 - task_recs_counter['recs']
print(task_recs_counter)


{'recs': 23.58, 'non_recs': 76.42}


## 3. Чтение csv файлов: модуль pandas

### 3.1

**Простое задание** добавьте столбец `num_tasks`, где отражено количество задач, выполненное внутри каждого компонента. Колонка `mean_val` со средним значением поля 'Затрачено в часах' уже добавлена в качестве примера.

Чтобы выполнить задание, поправьте словарь `aggregation_json`

In [7]:
import numpy as np
import pandas as pd

file_path = './data/task.csv'

df = pd.read_csv(file_path)

#  у меня пандас более новой версии. Оттого такая агрегация не работает. Еще в самом уроке была ошибка, что 
# FutureWarning: using a dict with renaming is deprecated and will be removed in a future version
# aggregation_json = {
#  'Затрачено в часах': {
#   'mean_val': np.mean}
# }

df1 = df.groupby(by=['Компонент'])['Затрачено в часах'].agg(['count','mean'])
df1.columns = ['num_task','mean_value']
df1

Unnamed: 0_level_0,num_task,mean_value
Компонент,Unnamed: 1_level_1,Unnamed: 2_level_1
echidna,1,1.0
hydra,11,6.545455
hydra_utils,1,16.0
hydramagrices,3,4.0
hydramatrices,3,1.666667


### 3.2
**Задание среднего уровня** Добавьте (в виде `list`) для каждого компонента набор задач, который был в этом компоненте выполнен (идентификаторы содержатся в поле "Код"). Для этого замените `.aggregate()` на `.apply(list)`

Пример:

In [8]:
import pandas as pd

print('Исходный DataFrame:')
a = pd.DataFrame({'key':['a', 'a'], 'val':[1, 2]})
print(a)
print('Применяем apply:')
a.groupby('key')['val'].apply(list)

Исходный DataFrame:
  key  val
0   a    1
1   a    2
Применяем apply:


key
a    [1, 2]
Name: val, dtype: object

Результат выполнения

<pre>
Компонент
echidna                                                [HYDRA-535]
hydra            [HYDRA-534, HYDRA-530, HYDRA-527, HYDRA-524, H...
hydra_utils                                            [HYDRA-510]
hydramagrices                    [HYDRA-531, HYDRA-514, HYDRA-507]
hydramatrices                    [HYDRA-532, HYDRA-518, HYDRA-513]
</pre>

In [9]:
import pandas as pd


df2 = df.groupby('Компонент')['Код'].apply(list)
df2

Компонент
echidna                                                [HYDRA-535]
hydra            [HYDRA-534, HYDRA-530, HYDRA-527, HYDRA-524, H...
hydra_utils                                            [HYDRA-510]
hydramagrices                    [HYDRA-531, HYDRA-514, HYDRA-507]
hydramatrices                    [HYDRA-532, HYDRA-518, HYDRA-513]
Name: Код, dtype: object

### 3.3
**Задание высокого уровня** Составьте DataFrame с двумя колонками: среднее время на задачу и список задач `codes_list_df` внутри каждого "Компонента". Подсказка: подготовьте два датафрейма и используйте [функцию merge](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html)

In [10]:
df1['codes_list'] = df2
del df1['num_task']
df1


Unnamed: 0_level_0,mean_value,codes_list
Компонент,Unnamed: 1_level_1,Unnamed: 2_level_1
echidna,1.0,[HYDRA-535]
hydra,6.545455,"[HYDRA-534, HYDRA-530, HYDRA-527, HYDRA-524, H..."
hydra_utils,16.0,[HYDRA-510]
hydramagrices,4.0,"[HYDRA-531, HYDRA-514, HYDRA-507]"
hydramatrices,1.666667,"[HYDRA-532, HYDRA-518, HYDRA-513]"


## 4.  Работа с данными формата HTML

### 4.1
**Задание простого уровня** Распечатайте список курсов по программированию от Skillbox.

In [11]:
import requests
from lxml import html

page = requests.get('https://skillbox.ru/courses/all').content

html_tree = html.fromstring(page)

items_list = html_tree.xpath("//div[@class='{}'] ".format('course-info'))

for course in items_list:
    course_title = course.xpath("div[@class='{}']".format('course-title'))[0]
    course_tag = course.xpath("div[@class='{}']/div".format('course-tags'))[0]
    if course_tag.text == 'Программирование':
        print(course_title.text)


    

Профессия Java-разработчик
Профессия Python-разработчик
Профессия Data Scientist
Профессия Веб-разработчик
Профессия 1С-разработчик
Профессия разработчик игр на Unity
Профессия разработчик игр на Unreal Engine 4
Профессия Мобильный разработчик
Программист 1С-Битрикс
Профессия Frontend-разработчик
Профессия iOS-разработчик
Профессия Android-разработчик
Профессия Тестировщик
Профессия PHP-разработчик
Профессия C#-разработчик
Веб-разработчик c 0 до PRO
Frontend-разработчик
PHP-разработчик c 0 до PRO
Java-разработчик
Python-разработчик
Аналитик данных на Python
Мобильный разработчик PRO


### 4.2

**Задание среднего уровня**. Выведите список всех курсов Skillbox по программированию, дизайну, маркетингу и управлению. Добавьте к каждому курсу ссылку http на этот курс на сайте Skillbox.

*Результат выполнения*
<pre>
Курс: Веб-дизайн с нуля до PRO  link:  https://skillbox.ru/webdesign/
Курс: Рекламная графика  link:  https://skillbox.ru/cpeople/
Курс: UX-дизайн  link:  https://skillbox.ru/aic/
</pre>

In [12]:
import requests
from lxml import html

page = requests.get('https://skillbox.ru/courses/all').content

html_tree = html.fromstring(page)

items_list = html_tree.xpath("//div[@class='{}']".format('course-wrap is-list-view js-courseWrap course-wrap-'))

for course in items_list:
    course_title = course.xpath("a/div/div[@class='{}']".format('course-title'))[0]
    link_tag = course.xpath("a/@href")[0]
    if 'http' not in link_tag:
        link_tag = 'https://course.skillbox.ru' + link_tag
    
    print(f"Курс: {course_title.text}. link: {link_tag} ")


Курс: Профессия Веб-дизайнер. link: https://course.skillbox.ru/iamdesigner 
Курс: Профессия UX-дизайнер. link: https://course.skillbox.ru/iamuxdesigner 
Курс: Профессия Графический дизайнер. link: https://course.skillbox.ru/iamgraphicdesigner 
Курс: Профессия Художник компьютерной графики. link: https://course.skillbox.ru/iamartist 
Курс: Профессия Дизайнер интерьеров. link: https://course.skillbox.ru/profession-interiordesigner 
Курс: Профессия Дизайнер мобильных приложений . link: https://skillbox.ru/course/profession-app-designer/ 
Курс: Профессия Motion-дизайнер. link: https://skillbox.ru/course/profession-motiondesigner/ 
Курс: Профессия Sound Designer. link: https://skillbox.ru/course/profession-sound-designer/ 
Курс: Веб-дизайн с 0 до PRO. link: https://course.skillbox.ru/webdesign/ 
Курс: Графический дизайнер с 0 до PRO. link: https://course.skillbox.ru/graphic-design/ 
Курс: Рекламная графика. link: https://course.skillbox.ru/course/cpeople/ 
Курс: Дизайн интерьеров с 0 до PRO

### 4.3
**Задание высокого уровня**. Напишите код, который переходит по ссылкам на страницы курсов по программированию из предыдущего задания и распечатывает описание курса.

In [13]:
import pandas as pd
import requests
from lxml import html

#создадим функцию для посещения сайтов с описанием 
def get_descr(link):
    page_course = requests.get(link).content
    course_tree = html.fromstring(page_course)
    items_list = course_tree.xpath("//p[contains(@class,'desc')]")
    if items_list:
        return items_list[0].text.strip()
    else:    
        return 'Lorem Ipsum'
    
        
        

page = requests.get('https://skillbox.ru/courses/all').content

html_tree = html.fromstring(page)

items_list = html_tree.xpath("//div[@class='{}']".format('course-wrap is-list-view js-courseWrap course-wrap-'))



links = []
cours = []
descr = []

for course in items_list:
    course_title = course.xpath("a/div/div[@class='{}']".format('course-title'))[0]
    link_tag = course.xpath("a/@href")[0]
    if 'http' not in link_tag:
        link_tag = 'https://course.skillbox.ru' + link_tag
    
    cours.append(course_title.text)
    descr.append(get_descr(link_tag))

result_df = pd.DataFrame({
    'course': cours,
    'descr': descr
})

result_df.head(10)
#там, где Lorem Ipsum в описании: ссылки на эти сайты на основном сайте одни,
#Но когда самостоятельно из браузера переходишь, адресс уже другой.
# Например: для профессии веб-дизайнер Линк из основного сайта https://course.skillbox.ru/iamdesigner.
# а при переходе в адрессной строке: https://skillbox.ru/course/profession-webdesigner/. 
# где искать правильную ссылку, я не понял

Unnamed: 0,course,descr
0,Профессия Веб-дизайнер,Lorem Ipsum
1,Профессия UX-дизайнер,Lorem Ipsum
2,Профессия Графический дизайнер,Lorem Ipsum
3,Профессия Художник компьютерной графики,Lorem Ipsum
4,Профессия Дизайнер интерьеров,Lorem Ipsum
5,Профессия Дизайнер мобильных приложений,Вы научитесь создавать приложения под iOS и An...
6,Профессия Motion-дизайнер,Вы с нуля освоите необходимые инструменты для ...
7,Профессия Sound Designer,Вы научитесь работать со звуком: от записи до ...
8,Веб-дизайн с 0 до PRO,Lorem Ipsum
9,Графический дизайнер с 0 до PRO,Lorem Ipsum


## 5. Работа с данными формата XML

### 5.1

**Задание начального уровня** Распечатайте все фильмы (а не только драмы) в формате: `название фильма: жанр`

In [49]:
'''в данном файле у третьего фильма не было ни жанра, ни продолжительности. 
Поэтому я самостоятельно вручную добавил теги genre и duration и значения в них'''

from xml.etree import ElementTree

file_path = './data/xml_content_description.xml'

with open(file_path) as f:
    
    doc = ElementTree.parse(f)
    content_titles = doc.getroot()
    for movie in content_titles.findall("./Content/content_title"):
        name_film = movie.find("./title").text
        genre_film = movie.find("./genre").text
        print(f'{name_film}: {genre_film}')
        

The Shawshank Redemption: drama
The Dark Knight: drama
"Back 2 the Future": adventure


### 5.2
**Задание среднего уровня** Посчитайте среднюю длительность контента в файле. xml_content_description

In [55]:
import math
from xml.etree import ElementTree

file_path = './data/xml_content_description.xml'
duration = []
num_content = 0
with open(file_path) as f:
    doc = ElementTree.parse(f)
    content_titles = doc.getroot()
    for movie in content_titles.findall("./Content/content_title"):
        name_film = movie.find("./title").text
        genre_film = movie.find("./genre").text
        duration_film = int(movie.find("./duration").text)/60
        num_content+=1
        duration.append(duration_film)
        print(f'{name_film}: {genre_film}, продолжительность: {duration_film} минут')



print("avg_duration = {} минут".format(sum(duration)/num_content))

The Shawshank Redemption: drama, продолжительность: 142.0 минут
The Dark Knight: drama, продолжительность: 152.0 минут
"Back 2 the Future": adventure, продолжительность: 120.0 минут
avg_duration = 138.0 минут


### 5.3
**Задание высокого уровня** Если речь идёт о продакшн-системах машинного обучения, то данные могут приходить в форматах, мало пригодных для использования - например XML. В таких случаях приходится приводить данные к превычному табличному формату - такой кейс мы решим в рамках домашней работы.

Нужно определить, сколько полей будет в выходном файле и как залить в него данные

Алгоритм
* сформируйте массив словарей `content_list`, где каждый элемент массива - это словарь вида `{tag1: value1,...,tag_n:value_n}`
* каждый результат findall можно итеративно обойти, распечатав тэг и его значение в виде
<pre>
        for i in movie:
            print(i.text, i.tag)
</pre>
* из полученного словаря сформируйте DataFrame с тремя колонками: `movie_id | tag | value` (movie_id соответствует номеру словаря среди всех словарей `content_list`)
* сохраните Dataframe c помощью функции `.to_csv()`

In [93]:
# читаем входной файл
import pandas as pd
from xml.etree import ElementTree

file_path = './data/xml_content_description.xml'
content_list = []

with open(file_path) as f:
    
    doc = ElementTree.parse(f)
    content_titles = doc.getroot()
    for movie in content_titles.findall("./Content/content_title"):
        #print('-------------------')
        dict_film = {}
        for i in movie:
            dict_film[i.tag] = i.text
            #print(i.text, i.tag)
        content_list.append(dict_film)
        #print('-------------------')
#print(content_list)
#не смог сделать три колонки. да и не понимаю зачем. по мне так, такой вывод логичнее.

df = pd.DataFrame(content_list)
df.to_csv('films.csv')
df


Unnamed: 0,content_id,genre,title,iid,releaseTime,state,location,duration,descr,year
0,1181251680.0,drama,The Shawshank Redemption,040000008200E000,1181572063.0,,,8520,Two imprisoned men bond over a number of years...,
1,1234360800.0,drama,The Dark Knight,604f4792-eb89-478b-a14f-dd34d3cc6c21-1234360800,,dismissed,,9120,The Dark Knight must accept one of the greates...,
2,,adventure,"""Back 2 the Future""",,,,,7200,Marty McFly,1985.0
