# Чтение файлов в Python и командной строке. Практическая работа

### Цели практической работы
1. Научиться считывать информацию из файлов и совершать над ней операции с помощью кода на Python и командной строки.
2. Закрепить навыки стыковки команд в конвейеры и установки внешних пакетов с помощью пакетного менеджера pip.

### Что входит в практическую работу
1. Работа с файлами в командной строке.
2. Работа с файлами в Python 1.
3. Работа с файлами в Python 2.
4. Импортирование модулей.
5. Установка внешних модулей через pip.
6. Бонусное задание.

### Что оценивается
* Выполнены пять обязательных заданий, в каждом из них:
 * программа выполняет все описанные в задании действия;
 * результаты вычислений и применённых операций корректны;
 * стилизация кода соответствует рекомендациям [PEP 8](https://pythonworld.ru/osnovy/pep-8-rukovodstvo-po-napisaniyu-koda-na-python.html).


### Как отправить работу на проверку
Все задания собраны в один Jupyter Notebook. Выполните их, сохраните изменения при помощи опции Save and Checkpoint из вкладки меню File или кнопки Save and Checkpoint на панели инструментов. Отправьте итоговый файл Jupyter Notebook в формате IPYNB или ссылку на него через форму для сдачи практической работы.

---

## Задание 1. Работа с файлами в командной строке

Ранее вы считали количество всех слов в рассказе А. П. Чехова «Анна на шее». Теперь необходимо определить, сколько раз каждое слово встречается в тексте.

Вы уже знаете команды sort и uniq, умеете с их помощью считать количество уникальных строк в построчном файле. В результате у вас должен был получиться такой конвейер команд: `cat anna_words.txt | sort | uniq | wc -l`.

Команда cat перенаправляет слова из файла в команду sort, которая сортирует слова и передаёт упорядоченный список в команду uniq. Последняя удаляет дубликаты и направляет список уникальных слов в команду wc −l, которая их считает.

### Что нужно сделать

Посчитайте количество уникальных слов и определите частоту встречаемости каждого слова. Информацию в виде `частота слово` сохраните в текстовый файл. Для этого:
1. Измените конвейер команд так, чтобы он выводил слова и их частоту встречаемости на экран.
2. Перенаправьте вывод конвейера в текстовый файл `words_freq.txt`.

Если всё сделаете правильно, то получится текстовый файл `words_freq.txt`, в котором будут слова и их частота в виде:

```
...
   1 по-прежнему
   2 по-французски
  40 аня
   6 бал
   1 бог
   2 ваш
   2 вид
...
```

3. Скопируйте конвейер команд в ячейку, которая расположена непосредственно под этой.

### Подсказки
1. Ознакомьтесь с документацией команды uniq, обратите внимание на её ключ `-с`. Официальную документацию можно почитать прямо в командной строке: для этого выполните команду `man uniq`. Команда `man` (от англ. manual) выводит справку для команды, которая передаётся в man как аргумент. Если читать текст в терминале непривычно, то можете поискать информацию в интернете.

2. Перенаправить вывод команды в bash можно с помощью символа `>`. О том, как это сделать, читайте в интернете. Например, в статье [**«Перенаправление ввода вывода Linux»**](https://losst.ru/perenapravlenie-vvoda-vyvoda-linux). 

### Вставьте конвейер команд, который у вас получился

---

## Задание 2. Работа с файлами в Python 1

### Что нужно сделать
В рассказе А. П. Чехова «Анна на шее» найдите десять слов, которые встречаются чаще всего. 

1. Напишите код на Python, который читает файл `word_freq.txt` по строкам, преобразует каждую из них в кортеж `(частота, слово)` и складывает полученные кортежи в список. 
2. Отсортируйте список по частотам, выведите на экран десять самых популярных слов и их частоты.

### Подсказки
1. Обратите внимание, что строки в файле содержат «лишние» символы: пробелы в начале и символ перевода строки в конце. Работать будет удобнее, если предварительно удалить их. Сделать это можно с помощью метода  `strip`. Ознакомьтесь с ним подробнее в [**официальной документации**](https://docs.python.org/3/library/stdtypes.html?highlight=strip#str.strip).

2. Сейчас частота и слово — это одна строка, в которой они разделены пробелом. Их можно разделить с помощью метода [**`split`**](https://docs.python.org/3/library/stdtypes.html?highlight=split#str.split).

3. Для сортировки в Python есть функция `sorted`. Она принимает на вход итерируемый объект, сравнивает его элементы между собой и возвращает итерируемый объект, который отсортирован. По умолчанию функция размещает элементы в порядке возрастания. Например, `sorted([2, 4, 1, 0])` вернёт `[0, 1, 2, 4]`. Подробнее про работу функции можно почитать в [**официальной документации**](https://docs.python.org/3/library/functions.html?highlight=sorted#sorted)

In [22]:
##
## Вставьте свой код сюда
##
from operator import itemgetter
words = []
with open('words_freq.txt') as file:
    for word in file:
        words.append(tuple(word.strip().split(' ')))
res = [(int(x), y) for x, y in words]
sorted(res, reverse = True)[:10]


[(40, 'аня'),
 (28, 'свой'),
 (19, 'говорить'),
 (17, 'это'),
 (17, 'сказать'),
 (17, 'модест'),
 (17, 'который'),
 (17, 'алексеич'),
 (16, 'человек'),
 (16, 'рука')]

---

## Задание 3. Работа с файлами в Python 2

### Что нужно сделать
Найдите букву, с которой чаще всего начинаются слова в рассказе А. П. Чехова «Анна на шее». 
1. Используйте файл с частотами слов `words_freq.txt`. 
2. Напишите код в Python, который выводит на экран самую популярную первую букву и количество слов на неё.


### Подсказки
Скорее всего, вы будете искать в словаре ключ с максимальным значением. Чтобы упростить работу, отсортируйте словарь. Сортировать словарь по значениям сложнее, чем список объектов, которые можно сравнивать непосредственно. Обратите внимание на параметр key функции [**sorted**](https://docs.python.org/3/library/functions.html?highlight=sorted#sorted).

In [82]:
##
## Вставьте свой код сюда
##

words = []
with open('words_freq.txt') as file:
    for word in file:
        words.append(word.strip().lower().split(' '))

res = sorted([[int(x), y[0]] for x, y in words], key = itemgetter(1))
a = [0,0]
n = 0

for i in range(0,len(res)):
    
    if i == 0:
        summy = res[i][0]
    elif res[i][1] == res[i-1][1]:
        summy += res[i][0]
    else:
        summy = res[i][0]
       
    if n < summy:
        a[0] = res[i][1]
        a[1] = summy
        n = summy
        
print(f'Cамая популярная первая буква "{a[0]}", количество слов на неё {a[1]}')

Cамая популярная первая буква "п", количество слов на неё 318


---

## Задание 4. Импортирование модулей

###Что нужно сделать
Напишите функцию `circ_sqrt`. Она должна принимать один параметр `r` типа `float` и возвращать квадратный корень из длины окружности радиуса `r`.

### Подсказки
- Используйте функции встроенного модуля math.
- В работе функции учтите область определения квадратного корня.

In [88]:
import math


def circ_sqrt(r):
    ##
    ## Вставьте ваш код сюда
    ##
    a = math.sqrt(2 * math.pi * r)
       
    return a
## Вызовите функцию здесь
while True:
    radius = float(input('Введите радиус '))
    if radius < 0:
        print('Радиус должен быть положительным')
        continue
    else:
        okr = circ_sqrt(radius)
        break
print (f'Kвадратный корень из длины окружности радиуса равен: {okr}')

Введите радиус 65
Kвадратный корень из длины окружности радиуса равен: 20.20908322924801


---

## Задание 5. Установка внешних модулей через pip

### Что нужно сделать

Установите пакеты из PyPi с помощью пакетного менеджера pip и используйте их в коде. 
1. Установите пакет `cowsay`.
2. Установите в систему пакет `wikipedia` — Python API для очень популярной онлайн-энциклопедии.
3. Напишите функцию `random_article`, которая выводит на экран очень умную корову. Корова должна «рассказывать» краткое содержание случайной статьи из «Википедии» на английском языке.


### Подсказки

Вам понадобятся следующие функции пакета `wikipedia`:

* [**wikipedia.random**](https://wikipedia.readthedocs.io/en/latest/code.html#wikipedia.random)
* [**wikipedia.summary**](https://wikipedia.readthedocs.io/en/latest/code.html#wikipedia.summary)

In [89]:
pip install cowsay

Note: you may need to restart the kernel to use updated packages.


In [90]:
pip install wikipedia

Collecting wikipedia
  Downloading wikipedia-1.4.0.tar.gz (27 kB)
Building wheels for collected packages: wikipedia
  Building wheel for wikipedia (setup.py): started
  Building wheel for wikipedia (setup.py): finished with status 'done'
  Created wheel for wikipedia: filename=wikipedia-1.4.0-py3-none-any.whl size=11696 sha256=c0c4a1fe15a06a4e1ea75b43be82465012eee168b5fb7ad812db3274cc0e894d
  Stored in directory: c:\users\msi-1\appdata\local\pip\cache\wheels\c2\46\f4\caa1bee71096d7b0cdca2f2a2af45cacf35c5760bee8f00948
Successfully built wikipedia
Installing collected packages: wikipedia
Successfully installed wikipedia-1.4.0
Note: you may need to restart the kernel to use updated packages.


In [91]:
import cowsay
import wikipedia


def random_article(namespace = None):
    return cowsay.cow( wikipedia.summary(wikipedia.random(), 10))


random_article()

  _________________________________________________
 /                                                 \
| Geoffrey Lancelot Rutter Davis (died 3 October 20 |
| 08) was an Australian doctor (1958 Bachelor of Me |
| dicine and Bachelor of Surgery (Faculty of Medici |
| ne alumni) a director of the International Aborti |
| on Research and Training Centre. and the owner of |
|  The Abbey in Annandale, Sydney, NSW. In the earl |
| y 1960s Davis had two clinics in the Potts Point  |
| and Arncliffe suburbs of Sydney where he carried  |
| out discreet terminations up until 1971, when abo |
| rtion was legalised in New South Wales. Though Da |
| vis was originally an anaesthetist, he is known f |
| or his work with late term abortions. Davis had w |
| orked with Population Services International, the |
|  International Fertility Research Program, and In |
| ternational Planned Parenthood Federation in the  |
| 1960s. Davis also did research on prior induced a |
| bortion.Davis is best known f

---

## Задание 6. Бонусное

### Что нужно сделать

Выясните, как слова в рассказе «Анна на шее» распределяются по длине. 

1. Посчитайте, сколько слов длины 1, 2 и так далее в файле anna_words.txt.

2. Выведите на экран информацию в формате `длина количество_слов`, отсортируйте её по возрастанию длины.

3. Перенесите вывод программы в Excel или Google Таблицы и постройте столбчатую диаграмму. 

4. Сравните ваш график с [распределением русских слов по длине](http://nskhuman.ru/unislov/statist.php?nstat=21). В гистограмме по ссылке больше данных, поэтому она лучше показывает соотношение длины слов и их количества в русском языке.

### Советы и рекомендации
Вероятнее всего, вы снова будете использовать словарь. Ключами в нём будет длина слов, а значениями — количество слов этой длины. Обратите внимание, что словарь нужно сортировать по ключам, а не по значениям, как вы делали ранее.

In [102]:
##
## Вставьте свой код сюда
##
import pandas as pd
words = []
with open('words_freq.txt') as file:
    for word in file:
        words.append(word.strip().lower().split(' '))

res = sorted([[int(x), int(len(y))] for x, y in words], key = itemgetter(1))
a = dict()
n = 0

for i in range(0,len(res)):
    
    if i == 0:
        summy = res[i][0]
        a[res[i][0]] = summy
    elif res[i][1] == res[i-1][1]:
        summy += res[i][0]
        a[res[i][0]] = summy
    else:
        a[res[i-1][0]] = summy
        summy = res[i][0]
        a[res[i][0]] = summy
       
    
dat = pd.DataFrame(sorted(a.items()))        
dat.to_excel ('words.xlsx', index = False) 
