# Чтение файлов в Python и командной строке. Практическая работа

### Цели практической работы
1. Научиться считывать информацию из файлов и совершать над ней операции с помощью кода на Python и командной строки.
2. Закрепить навыки стыковки команд в конвейеры и установки внешних пакетов с помощью пакетного менеджера pip.

### Что входит в практическую работу
1. Работа с файлами в командной строке.
2. Работа с файлами в Python 1.
3. Работа с файлами в Python 2.
4. Импортирование модулей.
5. Установка внешних модулей через pip.
6. Бонусное задание.

### Что оценивается
* Выполнены пять обязательных заданий, в каждом из них:
 * программа выполняет все описанные в задании действия;
 * результаты вычислений и применённых операций корректны;
 * стилизация кода соответствует рекомендациям [PEP 8](https://pythonworld.ru/osnovy/pep-8-rukovodstvo-po-napisaniyu-koda-na-python.html).


### Как отправить работу на проверку
Все задания собраны в один Jupyter Notebook. Выполните их, сохраните изменения при помощи опции Save and Checkpoint из вкладки меню File или кнопки Save and Checkpoint на панели инструментов. Отправьте итоговый файл Jupyter Notebook в формате IPYNB или ссылку на него через форму для сдачи практической работы.

---

## Задание 1. Работа с файлами в командной строке

Ранее вы считали количество всех слов в рассказе А. П. Чехова «Анна на шее». Теперь необходимо определить, сколько раз каждое слово встречается в тексте.

Вы уже знаете команды sort и uniq, умеете с их помощью считать количество уникальных строк в построчном файле. В результате у вас должен был получиться такой конвейер команд: `cat anna_words.txt | sort | uniq | wc -l`.

Команда cat перенаправляет слова из файла в команду sort, которая сортирует слова и передаёт упорядоченный список в команду uniq. Последняя удаляет дубликаты и направляет список уникальных слов в команду wc −l, которая их считает.

### Что нужно сделать

Посчитайте количество уникальных слов и определите частоту встречаемости каждого слова. Информацию в виде `частота слово` сохраните в текстовый файл. Для этого:
1. Измените конвейер команд так, чтобы он выводил слова и их частоту встречаемости на экран.
2. Перенаправьте вывод конвейера в текстовый файл `words_freq.txt`.

Если всё сделаете правильно, то получится текстовый файл `words_freq.txt`, в котором будут слова и их частота в виде:

```
...
   1 по-прежнему
   2 по-французски
  40 аня
   6 бал
   1 бог
   2 ваш
   2 вид
...
```

3. Скопируйте конвейер команд в ячейку, которая расположена непосредственно под этой.

### Подсказки
1. Ознакомьтесь с документацией команды uniq, обратите внимание на её ключ `-с`. Официальную документацию можно почитать прямо в командной строке: для этого выполните команду `man uniq`. Команда `man` (от англ. manual) выводит справку для команды, которая передаётся в man как аргумент. Если читать текст в терминале непривычно, то можете поискать информацию в интернете.

2. Перенаправить вывод команды в bash можно с помощью символа `>`. О том, как это сделать, читайте в интернете. Например, в статье [**«Перенаправление ввода вывода Linux»**](https://losst.ru/perenapravlenie-vvoda-vyvoda-linux). 

### Вставьте конвейер команд, который у вас получился

In [None]:
!ls

11.2_Шпаргалка.docx	      11.6_Практическая_работа.ipynb
11.5_Пометка_по_пакетам.docx


---

## Задание 2. Работа с файлами в Python 1

### Что нужно сделать
В рассказе А. П. Чехова «Анна на шее» найдите десять слов, которые встречаются чаще всего. 

1. Напишите код на Python, который читает файл `word_freq.txt` по строкам, преобразует каждую из них в кортеж `(частота, слово)` и складывает полученные кортежи в список. 
2. Отсортируйте список по частотам, выведите на экран десять самых популярных слов и их частоты.

### Подсказки
1. Обратите внимание, что строки в файле содержат «лишние» символы: пробелы в начале и символ перевода строки в конце. Работать будет удобнее, если предварительно удалить их. Сделать это можно с помощью метода  `strip`. Ознакомьтесь с ним подробнее в [**официальной документации**](https://docs.python.org/3/library/stdtypes.html?highlight=strip#str.strip).

2. Сейчас частота и слово — это одна строка, в которой они разделены пробелом. Их можно разделить с помощью метода [**`split`**](https://docs.python.org/3/library/stdtypes.html?highlight=split#str.split).

3. Для сортировки в Python есть функция `sorted`. Она принимает на вход итерируемый объект, сравнивает его элементы между собой и возвращает итерируемый объект, который отсортирован. По умолчанию функция размещает элементы в порядке возрастания. Например, `sorted([2, 4, 1, 0])` вернёт `[0, 1, 2, 4]`. Подробнее про работу функции можно почитать в [**официальной документации**](https://docs.python.org/3/library/functions.html?highlight=sorted#sorted)

In [5]:
##
## Вставьте свой код сюда
##

with open("C:/Users/e.kuzmina/3D Objects/gitfile1/test/words_freq.txt", "r", encoding="utf-8") as file:
    lines = file.readlines()  

word_freq_list = []

for line in lines:
    line = line.strip()  # Удаляем лишние символы в начале и конце строки
    freq, word = line.split()  # Разделяем строку на частоту и слово
    freq = int(freq)
    word_freq_list.append((freq, word))  # Добавляем кортеж в список

sorted_list = sorted(word_freq_list, reverse=True)

# Выводим самые популярные слова и их частоты
for freq, word in sorted_list:
    print(word, freq)


аня 40
свой 28
говорить 19
это 17
сказать 17
модест 17
который 17
алексеич 17
человек 16
рука 16
отец 16
сиятельство 15
весь 15
муж 14
деньги 14
мочь 13
очень 11
мать 11
глаз 11
выпивать 11
петр 10
леонтьич 10
дама 10
артынов 10
видеть 9
офицер 8
музыка 8
молодой 8
казаться 8
иметь 8
время 8
самый 7
мальчик 7
лицо 7
громадный 7
вечер 7
брать 7
бояться 7
шея 6
ходить 6
фрак 6
улыбаться 6
сила 6
сегодня 6
свет 6
рубль 6
платье 6
папочка 6
каждый 6
идти 6
жена 6
должный 6
день 6
давать 6
глядеть 6
бал 6
анна 6
стоять 5
старый 5
приходить 5
получать 5
поезд 5
плечо 5
место 5
из-за 5
играть 5
думать 5
долг 5
гимназия 5
выходить 5
большой 5
базар 5
что-то 4
что-нибудь 4
чиновник 4
хотеть 4
хороший 4
уходить 4
ус 4
танцевать 4
сто 4
степень 4
слеза 4
скоро 4
садиться 4
просить 4
понимать 4
помогать 4
полный 4
первый 4
оставаться 4
ничто 4
манера 4
красота 4
казенный 4
избушка 4
знакомый 4
зала 4
жизнь 4
дрожать 4
директор 4
год 4
высокий 4
второй 4
восторг 4
быстро 4
бокал 4
бледный 4
благотв

---

## Задание 3. Работа с файлами в Python 2

### Что нужно сделать
Найдите букву, с которой чаще всего начинаются слова в рассказе А. П. Чехова «Анна на шее». 
1. Используйте файл с частотами слов `words_freq.txt`. 
2. Напишите код в Python, который выводит на экран самую популярную первую букву и количество слов на неё.


### Подсказки
Скорее всего, вы будете искать в словаре ключ с максимальным значением. Чтобы упростить работу, отсортируйте словарь. Сортировать словарь по значениям сложнее, чем список объектов, которые можно сравнивать непосредственно. Обратите внимание на параметр key функции [**sorted**](https://docs.python.org/3/library/functions.html?highlight=sorted#sorted).

In [6]:
##
## Вставьте свой код сюда
##

with open("C:/Users/e.kuzmina/3D Objects/gitfile1/test/words_freq.txt", "r", encoding="utf-8") as file:
    lines = file.readlines()  # Читаем строки из файла

letters_count = {}

for line in lines:
    line = line.strip()  
    freq, word = line.split()  
    freq = int(freq)  
    first_letter = word[0]  # Получаем первую букву слова
    if first_letter in letters_count:
        letters_count[first_letter] += freq  # Увеличиваем счетчик буквы
    else:
        letters_count[first_letter] = freq  # Добавляем новую букву в словарь

# Находим самую популярную первую букву
most_common_letter = max(letters_count, key=letters_count.get)
count = letters_count[most_common_letter]

# Выводим самую популярную первую букву и количество слов на неё
print("Самая популярная первая буква:", most_common_letter)
print("Количество слов на эту букву:", count)


Самая популярная первая буква: п
Количество слов на эту букву: 318


---

## Задание 4. Импортирование модулей

###Что нужно сделать
Напишите функцию `circ_sqrt`. Она должна принимать один параметр `r` типа `float` и возвращать квадратный корень из длины окружности радиуса `r`.

### Подсказки
- Используйте функции встроенного модуля math.
- В работе функции учтите область определения квадратного корня.

In [16]:
import math ## Вставьте ваш код сюда


def circ_sqrt(r: float):
    ##
    ## Вставьте ваш код сюда
    ##
    circumference = 2 * math.pi * r
    if circumference >= 0:
        return math.sqrt(circumference)
    else:
        return None
    
## Вызовите функцию здесь

circ_sqrt(4)

5.0132565492620005

---

## Задание 5. Установка внешних модулей через pip

### Что нужно сделать

Установите пакеты из PyPi с помощью пакетного менеджера pip и используйте их в коде. 
1. Установите пакет `cowsay`.
2. Установите в систему пакет `wikipedia` — Python API для очень популярной онлайн-энциклопедии.
3. Напишите функцию `random_article`, которая выводит на экран очень умную корову. Корова должна «рассказывать» краткое содержание случайной статьи из «Википедии» на английском языке.


### Подсказки

Вам понадобятся следующие функции пакета `wikipedia`:

* [**wikipedia.random**](https://wikipedia.readthedocs.io/en/latest/code.html#wikipedia.random)
* [**wikipedia.summary**](https://wikipedia.readthedocs.io/en/latest/code.html#wikipedia.summary)

In [1]:
import cowsay
import wikipedia

def random_article():
    # Получение случайного заголовка статьи
    title = wikipedia.random()
    
    # Получение краткого содержания статьи
    summary = wikipedia.summary(title)
    
    # Форматирование текста для вывода коровой
    message = f"Random Article: {title}\n\n{summary}"
    
    # Вывод умной коровы с содержанием статьи
    cowsay.cow(message)

# Вызов функции random_article
random_article()


  _________________________________________________
 /                                                 \
| Random Article: Pantacordis pantsa                |
| Pantacordis pantsa is a moth of the family Autost |
| ichidae. It is found in Greece and the Republic o |
| f Macedonia.                                      |
 \                                                 /
                                                 \
                                                  \
                                                    ^__^
                                                    (oo)\_______
                                                    (__)\       )\/\
                                                        ||----w |
                                                        ||     ||


---

## Задание 6. Бонусное

### Что нужно сделать

Выясните, как слова в рассказе «Анна на шее» распределяются по длине. 

1. Посчитайте, сколько слов длины 1, 2 и так далее в файле anna_words.txt.

2. Выведите на экран информацию в формате `длина количество_слов`, отсортируйте её по возрастанию длины.

3. Перенесите вывод программы в Excel или Google Таблицы и постройте столбчатую диаграмму. 

4. Сравните ваш график с [распределением русских слов по длине](http://nskhuman.ru/unislov/statist.php?nstat=21). В гистограмме по ссылке больше данных, поэтому она лучше показывает соотношение длины слов и их количества в русском языке.

### Советы и рекомендации
Вероятнее всего, вы снова будете использовать словарь. Ключами в нём будет длина слов, а значениями — количество слов этой длины. Обратите внимание, что словарь нужно сортировать по ключам, а не по значениям, как вы делали ранее.

In [2]:
##
## Вставьте свой код сюда
##

word_length_count = {}

with open("words_freq.txt", "r", encoding="utf-8") as file:
    for line in file:
        freq, word = line.split()
        word = word.strip()  # Удаление пробелов в начале и конце слова
        length = len(word)
        if length > 0:  # Игнорирование пустых слов
            if length in word_length_count:
                word_length_count[length] += 1
            else:
                word_length_count[length] = 1

# Сортировка словаря по возрастанию ключей
sorted_word_length_count = sorted(word_length_count.items())

# Вывод информации
for length, count in sorted_word_length_count:
    print(f"{length} {count}")

1 4
2 9
3 33
4 95
5 145
6 177
7 203
8 162
9 125
10 94
11 76
12 38
13 20
14 9
15 4
16 1
17 1
18 2
