# Чтение файлов в Python и командной строке. Практическая работа

### Цели практической работы
1. Научиться считывать информацию из файлов и совершать над ней операции с помощью кода на Python и командной строки.
2. Закрепить навыки стыковки команд в конвейеры и установки внешних пакетов с помощью пакетного менеджера pip.

### Что входит в практическую работу
1. Работа с файлами в командной строке.
2. Работа с файлами в Python 1.
3. Работа с файлами в Python 2.
4. Импортирование модулей.
5. Установка внешних модулей через pip.
6. Бонусное задание.

### Что оценивается
* Выполнены пять обязательных заданий, в каждом из них:
 * программа выполняет все описанные в задании действия;
 * результаты вычислений и применённых операций корректны;
 * стилизация кода соответствует рекомендациям [PEP 8](https://pythonworld.ru/osnovy/pep-8-rukovodstvo-po-napisaniyu-koda-na-python.html).


### Как отправить работу на проверку
Все задания собраны в один Jupyter Notebook. Выполните их, сохраните изменения при помощи опции Save and Checkpoint из вкладки меню File или кнопки Save and Checkpoint на панели инструментов. Отправьте итоговый файл Jupyter Notebook в формате IPYNB или ссылку на него через форму для сдачи практической работы.

---

## Задание 1. Работа с файлами в командной строке

Ранее вы считали количество всех слов в рассказе А. П. Чехова «Анна на шее». Теперь необходимо определить, сколько раз каждое слово встречается в тексте.

Вы уже знаете команды sort и uniq, умеете с их помощью считать количество уникальных строк в построчном файле. В результате у вас должен был получиться такой конвейер команд: `cat anna_words.txt | sort | uniq | wc -l`.

Команда cat перенаправляет слова из файла в команду sort, которая сортирует слова и передаёт упорядоченный список в команду uniq. Последняя удаляет дубликаты и направляет список уникальных слов в команду wc −l, которая их считает.

### Что нужно сделать

Посчитайте количество уникальных слов и определите частоту встречаемости каждого слова. Информацию в виде `частота слово` сохраните в текстовый файл. Для этого:
1. Измените конвейер команд так, чтобы он выводил слова и их частоту встречаемости на экран.
2. Перенаправьте вывод конвейера в текстовый файл `words_freq.txt`.

Если всё сделаете правильно, то получится текстовый файл `words_freq.txt`, в котором будут слова и их частота в виде:

```
...
   1 по-прежнему
   2 по-французски
  40 аня
   6 бал
   1 бог
   2 ваш
   2 вид
...
```

3. Скопируйте конвейер команд в ячейку, которая расположена непосредственно под этой.

### Подсказки
1. Ознакомьтесь с документацией команды uniq, обратите внимание на её ключ `-с`. Официальную документацию можно почитать прямо в командной строке: для этого выполните команду `man uniq`. Команда `man` (от англ. manual) выводит справку для команды, которая передаётся в man как аргумент. Если читать текст в терминале непривычно, то можете поискать информацию в интернете.

2. Перенаправить вывод команды в bash можно с помощью символа `>`. О том, как это сделать, читайте в интернете. Например, в статье [**«Перенаправление ввода вывода Linux»**](https://losst.ru/perenapravlenie-vvoda-vyvoda-linux). 

### Вставьте конвейер команд, который у вас получился

In [1]:
%pwd

'C:\\Users\\user\\Downloads'

In [2]:
%cd

C:\Users\user


In [3]:
%cd Module_cmd

C:\Users\user\Module_cmd


In [4]:
%ls

 Том в устройстве C имеет метку Windows 10
 Серийный номер тома: F610-113B

 Содержимое папки C:\Users\user\Module_cmd

23.05.2023  19:44    <DIR>          .
23.05.2023  19:44    <DIR>          ..
23.05.2023  19:44    <DIR>          .ipynb_checkpoints
14.05.2023  23:00            33 530 anna_words.txt
23.05.2023  19:46            28 495 words_freq.txt
               2 файлов         62 025 байт
               3 папок  39 573 417 984 байт свободно


In [5]:
%matplotlib inline  
import os

os.system('cat anna_words.txt | sort | uniq -c | sort -nr > words_freq.txt')

255

---

## Задание 2. Работа с файлами в Python 1

### Что нужно сделать
В рассказе А. П. Чехова «Анна на шее» найдите десять слов, которые встречаются чаще всего. 

1. Напишите код на Python, который читает файл `word_freq.txt` по строкам, преобразует каждую из них в кортеж `(частота, слово)` и складывает полученные кортежи в список. 
2. Отсортируйте список по частотам, выведите на экран десять самых популярных слов и их частоты.

### Подсказки
1. Обратите внимание, что строки в файле содержат «лишние» символы: пробелы в начале и символ перевода строки в конце. Работать будет удобнее, если предварительно удалить их. Сделать это можно с помощью метода  `strip`. Ознакомьтесь с ним подробнее в [**официальной документации**](https://docs.python.org/3/library/stdtypes.html?highlight=strip#str.strip).

2. Сейчас частота и слово — это одна строка, в которой они разделены пробелом. Их можно разделить с помощью метода [**`split`**](https://docs.python.org/3/library/stdtypes.html?highlight=split#str.split).

3. Для сортировки в Python есть функция `sorted`. Она принимает на вход итерируемый объект, сравнивает его элементы между собой и возвращает итерируемый объект, который отсортирован. По умолчанию функция размещает элементы в порядке возрастания. Например, `sorted([2, 4, 1, 0])` вернёт `[0, 1, 2, 4]`. Подробнее про работу функции можно почитать в [**официальной документации**](https://docs.python.org/3/library/functions.html?highlight=sorted#sorted)

In [6]:
with open('words_freq.txt', 'r', encoding='UTF-8') as f:
    lines = f.readlines()
    char_counts =[]

freq_words_tuples = []
for line in lines:
    parts = line.strip().split()
    if len(parts) > 0:
        freq, word = parts
        freq_words_tuples.append((int(freq), word))

sorted_freq_word_tuples = sorted(freq_words_tuples, key=lambda x: x[0], reverse=True)
     
print('The most frequent words are:')
for i in range(min(len(sorted_freq_word_tuples), 100)):
    print(f'{sorted_freq_word_tuples[i][1]}: {sorted_freq_word_tuples[i][0]}')

The most frequent words are:
аня: 40
свой: 28
говорить: 19
это: 17
сказать: 17
модест: 17
который: 17
алексеич: 17
человек: 16
рука: 16
отец: 16
сиятельство: 15
весь: 15
муж: 14
деньги: 14
мочь: 13
очень: 11
мать: 11
глаз: 11
выпивать: 11
петр: 10
леонтьич: 10
дама: 10
артынов: 10
видеть: 9
офицер: 8
музыка: 8
молодой: 8
казаться: 8
иметь: 8
время: 8
самый: 7
мальчик: 7
лицо: 7
громадный: 7
вечер: 7
брать: 7
бояться: 7
шея: 6
ходить: 6
фрак: 6
улыбаться: 6
сила: 6
сегодня: 6
свет: 6
рубль: 6
платье: 6
папочка: 6
каждый: 6
идти: 6
жена: 6
должный: 6
день: 6
давать: 6
глядеть: 6
бал: 6
анна: 6
стоять: 5
старый: 5
приходить: 5
получать: 5
поезд: 5
плечо: 5
место: 5
из-за: 5
играть: 5
думать: 5
долг: 5
гимназия: 5
выходить: 5
большой: 5
базар: 5
что-то: 4
что-нибудь: 4
чиновник: 4
хотеть: 4
хороший: 4
уходить: 4
ус: 4
танцевать: 4
сто: 4
степень: 4
слеза: 4
скоро: 4
садиться: 4
просить: 4
понимать: 4
помогать: 4
полный: 4
первый: 4
оставаться: 4
ничто: 4
манера: 4
красота: 4
казенный: 4
из

---

## Задание 3. Работа с файлами в Python 2

### Что нужно сделать
Найдите букву, с которой чаще всего начинаются слова в рассказе А. П. Чехова «Анна на шее». 
1. Используйте файл с частотами слов `words_freq.txt`. 
2. Напишите код в Python, который выводит на экран самую популярную первую букву и количество слов на неё.


### Подсказки
Скорее всего, вы будете искать в словаре ключ с максимальным значением. Чтобы упростить работу, отсортируйте словарь. Сортировать словарь по значениям сложнее, чем список объектов, которые можно сравнивать непосредственно. Обратите внимание на параметр key функции [**sorted**](https://docs.python.org/3/library/functions.html?highlight=sorted#sorted).

In [7]:
import re

def read_word_freq_file(file_path): 
    with open(file_path, 'r', encoding='UTF-8') as f:
        data = f.read()  
        
    words = re.findall(r'\b\w+\b', data)
    word_freq = {}
    
    for word in words:
        first_letter = word[0].lower()
        if first_letter in word_freq:
            word_freq[first_letter] += 1
        else:
            word_freq[first_letter] = 1
            
    return word_freq

def find_most_frequent_letter(word_freq):
    sorted_letters = sorted(word_freq.items(), key=lambda x: x[1], reverse=True)
    return sorted_letters[0]

def main():
    file_path = 'words_freq.txt'
    word_freq = read_word_freq_file(file_path)
    most_frequent_letter, count = find_most_frequent_letter(word_freq)
    
    print(f'The most popular first letter is "{most_frequent_letter}" with {count} words.')

if __name__ == '__main__':
    main() 

The most popular first letter is "1" with 828 words.


In [8]:
import collections

word_count = collections.Counter()

with open('words_freq.txt', 'r', encoding='UTF-8') as f:
    for line in f:
        word = line.split()[1]
        word_count[word[0]] += 1

sorted_word_count = sorted(word_count.items(), key=lambda x: x[1], reverse=True)

most_common_letter = sorted_word_count[0][0]
count = sorted_word_count[0][1]

print(f'The most common first letter is {most_common_letter} with {count} words.')

The most common first letter is п with 196 words.


---

## Задание 4. Импортирование модулей

###Что нужно сделать
Напишите функцию `circ_sqrt`. Она должна принимать один параметр `r` типа `float` и возвращать квадратный корень из длины окружности радиуса `r`.

### Подсказки
- Используйте функции встроенного модуля math.
- В работе функции учтите область определения квадратного корня.

In [9]:
import math

def circ_sqrt(r):  
    if r >= 0:
        return math.sqrt(2 * math.pi * r)
    else:
        raise ValueError('Радиус не может быть отрицательным')

r = 5
print(f'Квадратный корень из длины окружности: {circ_sqrt(r)}')

Квадратный корень из длины окружности: 5.604991216397929


---

## Задание 5. Установка внешних модулей через pip

### Что нужно сделать

Установите пакеты из PyPi с помощью пакетного менеджера pip и используйте их в коде. 
1. Установите пакет `cowsay`.
2. Установите в систему пакет `wikipedia` — Python API для очень популярной онлайн-энциклопедии.
3. Напишите функцию `random_article`, которая выводит на экран очень умную корову. Корова должна «рассказывать» краткое содержание случайной статьи из «Википедии» на английском языке.


### Подсказки

Вам понадобятся следующие функции пакета `wikipedia`:

* [**wikipedia.random**](https://wikipedia.readthedocs.io/en/latest/code.html#wikipedia.random)
* [**wikipedia.summary**](https://wikipedia.readthedocs.io/en/latest/code.html#wikipedia.summary)

In [10]:
!pip install cowsay
!pip install wikipedia

import cowsay
import wikipedia

def random_article():
    summary = None
    while summary is None:
        try:
            summary = wikipedia.summary(wikipedia.random())
        except wikipedia.exceptions.DisambiguationError:
            pass
    cowsay.cow(summary)

random_article()

  _________________________________________________
 /                                                 \
| Body snatching is the illicit removal of corpses  |
| from graves, morgues, and other burial sites. Bod |
| y snatching is distinct from the act of grave rob |
| bery as grave robbing does not explicitly involve |
|  the removal of the corpse, but rather theft from |
|  the burial site itself. The term 'body snatching |
| ' most commonly refers to the removal and sale of |
|  corpses primarily for the purpose of dissection  |
| or anatomy lectures in medical schools. The term  |
| was coined primarily in regard to cases in the Un |
| ited Kingdom and United States throughout the 17t |
| h, 18th, and 19th centuries.  However, there have |
|  been cases of body snatching in many countries,  |
| with the first recorded case dating back to 1319  |
| in Bologna, Italy.                                |
| Those who practiced the act of body snatching and |
|  sale of corpses during this 

---

## Задание 6. Бонусное

### Что нужно сделать

Выясните, как слова в рассказе «Анна на шее» распределяются по длине. 

1. Посчитайте, сколько слов длины 1, 2 и так далее в файле anna_words.txt.

2. Выведите на экран информацию в формате `длина количество_слов`, отсортируйте её по возрастанию длины.

3. Перенесите вывод программы в Excel или Google Таблицы и постройте столбчатую диаграмму. 

4. Сравните ваш график с [распределением русских слов по длине](http://nskhuman.ru/unislov/statist.php?nstat=21). В гистограмме по ссылке больше данных, поэтому она лучше показывает соотношение длины слов и их количества в русском языке.

### Советы и рекомендации
Вероятнее всего, вы снова будете использовать словарь. Ключами в нём будет длина слов, а значениями — количество слов этой длины. Обратите внимание, что словарь нужно сортировать по ключам, а не по значениям, как вы делали ранее.

In [11]:
with open('anna_words.txt', 'r', encoding='UTF-8') as file:
    words = file.read().split()

length_freq = {}

for word in words:
    length = len(word)
    if length in length_freq:
        length_freq[length] += 1
    else:
        length_freq[length] = 1

sorted_lengths = sorted(length_freq.items(), key=lambda x: x[0])

for length, count in sorted_lengths:
    print(f'{length} {count}')

1 6
2 13
3 127
4 299
5 288
6 334
7 399
8 314
9 182
10 124
11 111
12 45
13 21
14 11
15 7
16 1
17 4
18 2


In [12]:
file.close

<function TextIOWrapper.close()>

In [13]:
file. closed

True