# Чтение файлов в Python и командной строке. Практическая работа


## Задание 1. Работа с файлами в командной строке

Ранее вы считали количество всех слов в рассказе А. П. Чехова «Анна на шее». Теперь необходимо определить, сколько раз каждое слово встречается в тексте.

Вы уже знаете команды sort и uniq, умеете с их помощью считать количество уникальных строк в построчном файле. В результате у вас должен был получиться такой конвейер команд: `cat anna_words.txt | sort | uniq | wc -l`.

Команда cat перенаправляет слова из файла в команду sort, которая сортирует слова и передаёт упорядоченный список в команду uniq. Последняя удаляет дубликаты и направляет список уникальных слов в команду wc −l, которая их считает.

### Что нужно сделать

Посчитайте количество уникальных слов и определите частоту встречаемости каждого слова. Информацию в виде `частота слово` сохраните в текстовый файл. Для этого:
1. Измените конвейер команд так, чтобы он выводил слова и их частоту встречаемости на экран.
2. Перенаправьте вывод конвейера в текстовый файл `words_freq.txt`.

Если всё сделаете правильно, то получится текстовый файл `words_freq.txt`, в котором будут слова и их частота в виде:

```
...
   1 по-прежнему
   2 по-французски
  40 аня
   6 бал
   1 бог
   2 ваш
   2 вид
...
```

3. Скопируйте конвейер команд в ячейку, которая расположена непосредственно под этой.

### Подсказки
1. Ознакомьтесь с документацией команды uniq, обратите внимание на её ключ `-с`. Официальную документацию можно почитать прямо в командной строке: для этого выполните команду `man uniq`. Команда `man` (от англ. manual) выводит справку для команды, которая передаётся в man как аргумент. Если читать текст в терминале непривычно, то можете поискать информацию в интернете.

2. Перенаправить вывод команды в bash можно с помощью символа `>`. О том, как это сделать, читайте в интернете. Например, в статье [**«Перенаправление ввода вывода Linux»**](https://losst.ru/perenapravlenie-vvoda-vyvoda-linux). 

### Вставьте конвейер команд, который у вас получился

In [135]:
!ls ./cmd

11_hw_Yakovlev.ipynb
anna_words.txt
anna_words_ansi.txt
count_words.py
fopen.ipynb
words_freq.txt
zen.py
zen2.py


In [136]:
##
## Вставьте конвейер команд сюда.
##
!cat ./cmd/"anna_words_ansi.txt" | sort | uniq -c | tee words_freq.txt

      1 1
      1 100
      1 18
      1 2
      1 200
      1 29
      1 52
      1 grand
      1 iv
      1 rond
      2 », 
      1 адвокат
      1 азарт
     17 алексеич
      1 америка
      1 американец
      3 андрюша
      6 анна
      1 антракт
      2 анюта
     40 аня
      1 аренда
      1 армянин
      1 артиллерия
     10 артынов
      1 астма
      1 ах
      5 базар
      2 бакен
      6 бал
      1 баловник
      2 бальный
      1 банк
      1 бант
      1 бараний
      3 бедный
      1 безвкусно
      1 безвкусный
      1 безобразный
      2 белый
      2 бензин
      1 берег
      1 береза
      1 беречь
      1 беспокойный
      1 бить
      3 благодарить
      1 благотворительница
      4 благотворительный
      4 бледный
      1 блеск
      2 блестеть
      1 блестящий
      1 близость
      2 блюдечко
      1 бог
      2 богатый
      2 богач
      1 богомолье
      1 бойкий
      1 бойко
      4 бокал
      1 болван
      5 большой
      1 борзая
      1 ботинок

---

## Задание 2. Работа с файлами в Python 1

### Что нужно сделать
В рассказе А. П. Чехова «Анна на шее» найдите десять слов, которые встречаются чаще всего. 

1. Напишите код на Python, который читает файл `word_freq.txt` по строкам, преобразует каждую из них в кортеж `(частота, слово)` и складывает полученные кортежи в список. 
2. Отсортируйте список по частотам, выведите на экран десять самых популярных слов и их частоты.

### Подсказки
1. Обратите внимание, что строки в файле содержат «лишние» символы: пробелы в начале и символ перевода строки в конце. Работать будет удобнее, если предварительно удалить их. Сделать это можно с помощью метода  `strip`. Ознакомьтесь с ним подробнее в [**официальной документации**](https://docs.python.org/3/library/stdtypes.html?highlight=strip#str.strip).

2. Сейчас частота и слово — это одна строка, в которой они разделены пробелом. Их можно разделить с помощью метода [**`split`**](https://docs.python.org/3/library/stdtypes.html?highlight=split#str.split).

3. Для сортировки в Python есть функция `sorted`. Она принимает на вход итерируемый объект, сравнивает его элементы между собой и возвращает итерируемый объект, который отсортирован. По умолчанию функция размещает элементы в порядке возрастания. Например, `sorted([2, 4, 1, 0])` вернёт `[0, 1, 2, 4]`. Подробнее про работу функции можно почитать в [**официальной документации**](https://docs.python.org/3/library/functions.html?highlight=sorted#sorted)

In [137]:
words = []
with open('./cmd/words_freq.txt', encoding='UTF-8') as file:
    for word in file:
        normalized_word = word.strip()
        freq, letters = normalized_word.split()
        words.append((int(freq), letters))
sorted_words = sorted(words, reverse=True)
print("10 самых популярных слов:", sorted_words[:10])

10 самых популярных слов: [(40, 'аня'), (28, 'свой'), (19, 'говорить'), (17, 'это'), (17, 'сказать'), (17, 'модест'), (17, 'который'), (17, 'алексеич'), (16, 'человек'), (16, 'рука')]


---

## Задание 3. Работа с файлами в Python 2

### Что нужно сделать
Найдите букву, с которой чаще всего начинаются слова в рассказе А. П. Чехова «Анна на шее». 
1. Используйте файл с частотами слов `words_freq.txt`. 
2. Напишите код в Python, который выводит на экран самую популярную первую букву и количество слов на неё.


### Подсказки
Скорее всего, вы будете искать в словаре ключ с максимальным значением. Чтобы упростить работу, отсортируйте словарь. Сортировать словарь по значениям сложнее, чем список объектов, которые можно сравнивать непосредственно. Обратите внимание на параметр key функции [**sorted**](https://docs.python.org/3/library/functions.html?highlight=sorted#sorted).

In [138]:
freq_letters = {}
with open('./cmd/words_freq.txt', encoding='UTF-8') as file:
    for word in file:
        normalized_word = word.strip()
        freq, letters = normalized_word.split()
        freq_letters.setdefault(letters[0], 0)
        freq_letters[letters[0]] += int(freq)

max_freq_letter = max(freq_letters, key=freq_letters.get)
max_freq = freq_letters[max_freq_letter]

# сортировка не потребовалась, но пусть будет рядом
#max_freq_letter = sorted(freq_letters, key=freq_letters.get, reverse=True)[0]

print("Самая популярная первая буква:", max_freq_letter, ", ее частота =", max_freq)

Самая популярная первая буква: п , ее частота = 318


---

## Задание 4. Импортирование модулей

###Что нужно сделать
Напишите функцию `circ_sqrt`. Она должна принимать один параметр `r` типа `float` и возвращать квадратный корень из длины окружности радиуса `r`.

### Подсказки
- Используйте функции встроенного модуля math.
- В работе функции учтите область определения квадратного корня.

In [139]:
import math

# возвращает квадратный корень из длины окружности радиуса r
def circ_sqrt(r):
    if r < 0:
        return None
    circ_len = 2 * math.pi * r   #2*Pi*r
    return circ_len ** 0.5
    
## Вызовите функцию здесь
#r = -1
r = 5
func = circ_sqrt(r)
if func:
    print("для r =", r, ", circ_sqrt =", round(func, 3))
else:
    print("для r =", r, "функция не определена")

для r = 5 , circ_sqrt = 5.605


---

## Задание 5. Установка внешних модулей через pip

### Что нужно сделать

Установите пакеты из PyPi с помощью пакетного менеджера pip и используйте их в коде. 
1. Установите пакет `cowsay`.
2. Установите в систему пакет `wikipedia` — Python API для очень популярной онлайн-энциклопедии.
3. Напишите функцию `random_article`, которая выводит на экран очень умную корову. Корова должна «рассказывать» краткое содержание случайной статьи из «Википедии» на английском языке.


### Подсказки

Вам понадобятся следующие функции пакета `wikipedia`:

* [**wikipedia.random**](https://wikipedia.readthedocs.io/en/latest/code.html#wikipedia.random)
* [**wikipedia.summary**](https://wikipedia.readthedocs.io/en/latest/code.html#wikipedia.summary)

In [140]:
import cowsay
import wikipedia

def random_article():
    article = wikipedia.summary(wikipedia.random())
    cowsay.cow(article)
    return

random_article()

  _________________________________________________
 /                                                 \
| Listerlandet is a peninsula in Sölvesborg Municip |
| ality, Blekinge County, Sweden. Its main settleme |
| nt is Mjällby.                                    |
 \                                                 /
                                                 \
                                                  \
                                                    ^__^
                                                    (oo)\_______
                                                    (__)\       )\/\
                                                        ||----w |
                                                        ||     ||


---

## Задание 6. Бонусное

### Что нужно сделать

Выясните, как слова в рассказе «Анна на шее» распределяются по длине. 

1. Посчитайте, сколько слов длины 1, 2 и так далее в файле anna_words.txt.

2. Выведите на экран информацию в формате `длина количество_слов`, отсортируйте её по возрастанию длины.

3. Перенесите вывод программы в Excel или Google Таблицы и постройте столбчатую диаграмму. 

4. Сравните ваш график с [распределением русских слов по длине](http://nskhuman.ru/unislov/statist.php?nstat=21). В гистограмме по ссылке больше данных, поэтому она лучше показывает соотношение длины слов и их количества в русском языке.

### Советы и рекомендации
Вероятнее всего, вы снова будете использовать словарь. Ключами в нём будет длина слов, а значениями — количество слов этой длины. Обратите внимание, что словарь нужно сортировать по ключам, а не по значениям, как вы делали ранее.

In [141]:
words_len = {}
with open('./cmd/words_freq.txt', encoding='UTF-8') as file:
    for word in file:
        normalized_word = word.strip()
        freq, letters = normalized_word.split()
        len_word = len(letters)
        words_len.setdefault(len_word, 0)
        words_len[len_word] += 1

sorted_words_len = dict(sorted(words_len.items()))

print("Отсортированный словарь \'Длина:КоличествоСлов\':", sorted_words_len)

Отсортированный словарь 'Длина:КоличествоСлов': {1: 4, 2: 9, 3: 33, 4: 95, 5: 145, 6: 177, 7: 203, 8: 162, 9: 125, 10: 94, 11: 76, 12: 38, 13: 20, 14: 9, 15: 4, 16: 1, 17: 1, 18: 2}
