# Чтение файлов в Python и командной строке. Практическая работа

### Цели практической работы
1. Научиться считывать информацию из файлов и совершать над ней операции с помощью кода на Python и командной строки.
2. Закрепить навыки стыковки команд в конвейеры и установки внешних пакетов с помощью пакетного менеджера pip.

### Что входит в практическую работу
1. Работа с файлами в командной строке.
2. Работа с файлами в Python 1.
3. Работа с файлами в Python 2.
4. Импортирование модулей.
5. Установка внешних модулей через pip.
6. Бонусное задание.

### Что оценивается
* Выполнены пять обязательных заданий, в каждом из них:
 * программа выполняет все описанные в задании действия;
 * результаты вычислений и применённых операций корректны;
 * стилизация кода соответствует рекомендациям [PEP 8](https://pythonworld.ru/osnovy/pep-8-rukovodstvo-po-napisaniyu-koda-na-python.html).


### Как отправить работу на проверку
Все задания собраны в один Jupyter Notebook. Выполните их, сохраните изменения при помощи опции Save and Checkpoint из вкладки меню File или кнопки Save and Checkpoint на панели инструментов. Отправьте итоговый файл Jupyter Notebook в формате IPYNB или ссылку на него через форму для сдачи практической работы.

---

## Задание 1. Работа с файлами в командной строке

Ранее вы считали количество всех слов в рассказе А. П. Чехова «Анна на шее». Теперь необходимо определить, сколько раз каждое слово встречается в тексте.

Вы уже знаете команды sort и uniq, умеете с их помощью считать количество уникальных строк в построчном файле. В результате у вас должен был получиться такой конвейер команд: `cat anna_words.txt | sort | uniq | wc -l`.

Команда cat перенаправляет слова из файла в команду sort, которая сортирует слова и передаёт упорядоченный список в команду uniq. Последняя удаляет дубликаты и направляет список уникальных слов в команду wc −l, которая их считает.

### Что нужно сделать

Посчитайте количество уникальных слов и определите частоту встречаемости каждого слова. Информацию в виде `частота слово` сохраните в текстовый файл. Для этого:
1. Измените конвейер команд так, чтобы он выводил слова и их частоту встречаемости на экран.
2. Перенаправьте вывод конвейера в текстовый файл `words_freq.txt`.

Если всё сделаете правильно, то получится текстовый файл `words_freq.txt`, в котором будут слова и их частота в виде:

```
...
   1 по-прежнему
   2 по-французски
  40 аня
   6 бал
   1 бог
   2 ваш
   2 вид
...
```

3. Скопируйте конвейер команд в ячейку, которая расположена непосредственно под этой.

### Подсказки
1. Ознакомьтесь с документацией команды uniq, обратите внимание на её ключ `-с`. Официальную документацию можно почитать прямо в командной строке: для этого выполните команду `man uniq`. Команда `man` (от англ. manual) выводит справку для команды, которая передаётся в man как аргумент. Если читать текст в терминале непривычно, то можете поискать информацию в интернете.

2. Перенаправить вывод команды в bash можно с помощью символа `>`. О том, как это сделать, читайте в интернете. Например, в статье [**«Перенаправление ввода вывода Linux»**](https://losst.ru/perenapravlenie-vvoda-vyvoda-linux). 

### Вставьте конвейер команд, который у вас получился

In [None]:
!ls

11.2_Шпаргалка.docx	      11.6_Практическая_работа.ipynb
11.5_Пометка_по_пакетам.docx


---

## Задание 2. Работа с файлами в Python 1

### Что нужно сделать
В рассказе А. П. Чехова «Анна на шее» найдите десять слов, которые встречаются чаще всего. 

1. Напишите код на Python, который читает файл `word_freq.txt` по строкам, преобразует каждую из них в кортеж `(частота, слово)` и складывает полученные кортежи в список. 
2. Отсортируйте список по частотам, выведите на экран десять самых популярных слов и их частоты.

### Подсказки
1. Обратите внимание, что строки в файле содержат «лишние» символы: пробелы в начале и символ перевода строки в конце. Работать будет удобнее, если предварительно удалить их. Сделать это можно с помощью метода  `strip`. Ознакомьтесь с ним подробнее в [**официальной документации**](https://docs.python.org/3/library/stdtypes.html?highlight=strip#str.strip).

2. Сейчас частота и слово — это одна строка, в которой они разделены пробелом. Их можно разделить с помощью метода [**`split`**](https://docs.python.org/3/library/stdtypes.html?highlight=split#str.split).

3. Для сортировки в Python есть функция `sorted`. Она принимает на вход итерируемый объект, сравнивает его элементы между собой и возвращает итерируемый объект, который отсортирован. По умолчанию функция размещает элементы в порядке возрастания. Например, `sorted([2, 4, 1, 0])` вернёт `[0, 1, 2, 4]`. Подробнее про работу функции можно почитать в [**официальной документации**](https://docs.python.org/3/library/functions.html?highlight=sorted#sorted)

In [6]:
##
## type words_freq.txt | python -c "import sys; lines = sys.stdin.readlines(); sorted_lines = sorted(lines, key=lambda x: int(x.split()[1]) if x.split()[1].isdigit() else 0, reverse=True); print(''.join(sorted_lines[:10]))"
##
## 1 200
## 1 100
## 1 52
## 1 29
## 1 18
## 1 2
## 1 1
## 40 Р°РЅСЏ
## 28 СЃРІРѕР№
## 19 РіРѕРІРѕСЂРёС‚СЊ

In [1]:
with open('words_freq.txt', 'r', encoding='utf-8') as file:
    result = ''.join(file.readline() for _ in range(10))

print(result)

40 аня
28 свой
19 говорить
17 это
17 модест
17 алексеич
17 который
17 сказать
16 человек
16 отец



---

## Задание 3. Работа с файлами в Python 2

### Что нужно сделать
Найдите букву, с которой чаще всего начинаются слова в рассказе А. П. Чехова «Анна на шее». 
1. Используйте файл с частотами слов `words_freq.txt`. 
2. Напишите код в Python, который выводит на экран самую популярную первую букву и количество слов на неё.


### Подсказки
Скорее всего, вы будете искать в словаре ключ с максимальным значением. Чтобы упростить работу, отсортируйте словарь. Сортировать словарь по значениям сложнее, чем список объектов, которые можно сравнивать непосредственно. Обратите внимание на параметр key функции [**sorted**](https://docs.python.org/3/library/functions.html?highlight=sorted#sorted).

In [None]:
##
## type words_freq.txt | find /V "" | python -c "import sys; count = {}; [count.update({line.split()[1][0].upper(): int(line.split()[0])}) for line in sys.stdin]; print(sorted(count.items(), key=lambda x: x[1], reverse=True)[0])"
##

In [2]:
with open('words_freq.txt', 'r', encoding='utf-8') as file:
    text = file.read().replace(' ', '').replace('\n', '')

most_common_letter, frequency = max(((c, text.count(c)) for c in set(text)), key=lambda x: x[1])

print(f"Самая частая буква: {most_common_letter}, Частота: {frequency}")

Самая частая буква: а, Частота: 851


---

## Задание 4. Импортирование модулей

###Что нужно сделать
Напишите функцию `circ_sqrt`. Она должна принимать один параметр `r` типа `float` и возвращать квадратный корень из длины окружности радиуса `r`.

### Подсказки
- Используйте функции встроенного модуля math.
- В работе функции учтите область определения квадратного корня.

In [1]:
import math


def circ_sqrt(r):
    if r < 0:
        return "Радиус должен быть неотрицательным числом."
    
    result = math.sqrt(2 * math.pi * r)
    return result
    
r = 25    
print(circ_sqrt(r))

12.533141373155003


---

## Задание 5. Установка внешних модулей через pip

### Что нужно сделать

Установите пакеты из PyPi с помощью пакетного менеджера pip и используйте их в коде. 
1. Установите пакет `cowsay`.
2. Установите в систему пакет `wikipedia` — Python API для очень популярной онлайн-энциклопедии.
3. Напишите функцию `random_article`, которая выводит на экран очень умную корову. Корова должна «рассказывать» краткое содержание случайной статьи из «Википедии» на английском языке.


### Подсказки

Вам понадобятся следующие функции пакета `wikipedia`:

* [**wikipedia.random**](https://wikipedia.readthedocs.io/en/latest/code.html#wikipedia.random)
* [**wikipedia.summary**](https://wikipedia.readthedocs.io/en/latest/code.html#wikipedia.summary)

In [5]:
import wikipedia
import cowsay

def random_article():
    try:
        article_title = wikipedia.random()
        article_summary = wikipedia.summary(article_title)

        cow_message = f"Случайная статья из Википедии: {article_title}\n\nКраткое содержание:\n{article_summary}"

        cowsay.cow(cow_message)
    except wikipedia.exceptions.WikipediaException as e:
        print(f"Ошибка: {e}")
        
random_article()

  _________________________________________________
 /                                                 \
| Случайная статья из Википедии: 2023 WAC women's s |
| occer tournament                                  |
| Краткое содержание:                               |
| The 2023 Western Athletic Conference women's socc |
| er tournament was the postseason women's soccer t |
| ournament for the Western Athletic Conference hel |
| d from October 29 to November 4, 2023. The five-m |
| atch tournament took place at CBU Soccer Field in |
|  Riverside, California on the campus of Californi |
| a Baptist University. The six-team single-elimina |
| tion tournament consisted of three rounds based o |
| n seeding from regular-season divisional conferen |
| ce play. The defending champions were the New Mex |
| ico State Aggies.  New Mexico State was unable to |
|  defend their title as the moved to Conference US |
| A during the off-season. Grand Canyon would go on |
|  to defeat Seattle in the Fin

---

## Задание 6. Бонусное

### Что нужно сделать

Выясните, как слова в рассказе «Анна на шее» распределяются по длине. 

1. Посчитайте, сколько слов длины 1, 2 и так далее в файле anna_words.txt.

2. Выведите на экран информацию в формате `длина количество_слов`, отсортируйте её по возрастанию длины.

3. Перенесите вывод программы в Excel или Google Таблицы и постройте столбчатую диаграмму. 

4. Сравните ваш график с [распределением русских слов по длине](http://nskhuman.ru/unislov/statist.php?nstat=21). В гистограмме по ссылке больше данных, поэтому она лучше показывает соотношение длины слов и их количества в русском языке.

### Советы и рекомендации
Вероятнее всего, вы снова будете использовать словарь. Ключами в нём будет длина слов, а значениями — количество слов этой длины. Обратите внимание, что словарь нужно сортировать по ключам, а не по значениям, как вы делали ранее.

In [None]:
##
## Вставьте свой код сюда
##