<a href="https://colab.research.google.com/github/CodeHunterOfficial/NLP_2024-2025/blob/main/Lecture%201.%20%D0%92%D0%B2%D0%B5%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%B2%20NLP/Lecture_0_5_%D0%A0%D0%B0%D0%B1%D0%BE%D1%82%D0%B0_%D1%81_%D1%84%D0%B0%D0%B9%D0%BB%D0%B0%D0%BC%D0%B8_%D0%B2_Python_%D0%B4%D0%BB%D1%8F_%D0%B7%D0%B0%D0%B4%D0%B0%D1%87_NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Lecture 0.5.  Работа с файлами в Python для задач NLP

### Введение

Работа с файлами — это основополагающая часть любого проекта по обработке естественного языка (NLP). В этой лекции мы рассмотрим, как работать с различными типами файлов, включая `.txt`, `.csv`, `.xls`, и бинарные файлы. Каждый тип файла требует своего подхода для эффективного чтения и записи данных.

### Работа с файлами `.txt`

Файлы `.txt` являются одними из самых простых в работе. Чтение и запись текстовых файлов можно осуществлять с использованием встроенных функций Python.

#### Чтение файла `.txt`

```python
# Открытие и чтение файла .txt
with open('example.txt', 'r', encoding='utf-8') as file:
    content = file.read()
    print(content)
```

#### Запись в файл `.txt`

```python
# Открытие и запись в файл .txt
text_to_write = "Это пример текста для записи в файл."
with open('example.txt', 'w', encoding='utf-8') as file:
    file.write(text_to_write)
```

### Работа с файлами `.csv`

Файлы `.csv` часто используются для хранения табличных данных. Библиотека `csv` и библиотека `pandas` предоставляют удобные инструменты для работы с такими файлами.

#### Чтение файла `.csv` с использованием библиотеки `csv`

```python
import csv

# Открытие и чтение файла .csv
with open('example.csv', newline='', encoding='utf-8') as csvfile:
    reader = csv.reader(csvfile)
    for row in reader:
        print(', '.join(row))
```

#### Запись в файл `.csv` с использованием библиотеки `csv`

```python
import csv

# Данные для записи в .csv файл
data = [['Name', 'Age'], ['Alice', 30], ['Bob', 25]]

# Запись данных в .csv файл
with open('output.csv', 'w', newline='', encoding='utf-8') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerows(data)
```

#### Чтение файла `.csv` с использованием библиотеки `pandas`

```python
import pandas as pd

# Чтение файла .csv с использованием pandas
df = pd.read_csv('example.csv')
print(df.head())
```

#### Запись в файл `.csv` с использованием библиотеки `pandas`

```python
# Запись данных в файл .csv с использованием pandas
df.to_csv('output.csv', index=False, encoding='utf-8')
```

### Работа с файлами `.xls` и `.xlsx`

Для работы с файлами Excel используются библиотеки `pandas` и `openpyxl`.

#### Чтение файла `.xls`/`.xlsx` с использованием `pandas`

```python
# Чтение файла .xls/.xlsx с использованием pandas
excel_df = pd.read_excel('example.xlsx')
print(excel_df.head())
```

#### Запись в файл `.xls`/`.xlsx` с использованием `pandas`

```python
# Запись данных в файл .xls/.xlsx с использованием pandas
excel_df.to_excel('output.xlsx', index=False)
```

### Работа с бинарными файлами

Бинарные файлы могут содержать данные в любом формате, которые не являются текстовыми. Для их обработки можно использовать встроенные функции Python.

#### Чтение бинарного файла

```python
# Чтение бинарного файла
with open('example.bin', 'rb') as file:
    binary_content = file.read()
    print(binary_content)
```

#### Запись в бинарный файл

```python
# Запись данных в бинарный файл
binary_data = b'This is some binary data.'
with open('example.bin', 'wb') as file:
    file.write(binary_data)
```

### Работа с JSON файлами

Файлы JSON широко используются для обмена данными, особенно в веб-приложениях.

#### Чтение файла JSON

```python
import json

# Чтение файла JSON
with open('example.json', 'r', encoding='utf-8') as file:
    data = json.load(file)
    print(data)
```

#### Запись в файл JSON

```python
# Запись данных в файл JSON
data_to_write = {'name': 'Alice', 'age': 25}
with open('output.json', 'w', encoding='utf-8') as file:
    json.dump(data_to_write, file, ensure_ascii=False, indent=4)
```

### Применение в задачах NLP

В задачах NLP часто приходится обрабатывать текстовые данные. Рассмотрим пример, как можно обрабатывать текстовые данные из файлов `.txt` и `.csv`.

#### Пример обработки текста из файла `.txt`

```python
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import string

# Чтение текстового файла
with open('example.txt', 'r', encoding='utf-8') as file:
    text = file.read()

# Токенизация текста
tokens = word_tokenize(text)

# Удаление пунктуации и стоп-слов
tokens = [word for word in tokens if word.isalnum()]
stop_words = set(stopwords.words('english'))
tokens = [word for word in tokens if word.lower() not in stop_words]

print(tokens)

# Запись обработанных токенов обратно в файл
with open('processed_example.txt', 'w', encoding='utf-8') as file:
    file.write(' '.join(tokens))
```

#### Пример обработки текста из файла `.csv`

```python
import pandas as pd
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

# Чтение файла .csv
df = pd.read_csv('example.csv')

# Предположим, что в столбце 'text' содержится текст для обработки
texts = df['text'].tolist()

# Обработка каждого текста
processed_texts = []
stop_words = set(stopwords.words('english'))
for text in texts:
    tokens = word_tokenize(text)
    tokens = [word for word in tokens if word.isalnum()]
    tokens = [word for word in tokens if word.lower() not in stop_words]
    processed_texts.append(' '.join(tokens))

df['processed_text'] = processed_texts
print(df.head())

# Запись обработанных данных обратно в файл .csv
df.to_csv('processed_example.csv', index=False, encoding='utf-8')
```

### Заключение

Работа с файлами является ключевым навыком для любого специалиста в области NLP. В этой лекции мы рассмотрели, как работать с различными типами файлов, включая текстовые, CSV, Excel, бинарные и JSON файлы. Знание этих основ поможет вам эффективно обрабатывать данные для ваших NLP проектов.