# Работа с файлами

Python позволяет работать с файлами. В качестве примера будем работать с текстовым файлом.
Прежде чем начать работать с файлом необходимо его открыть, для этого есть метод open():


In [None]:
f = open('test.txt', 'r')

Мы присваиваем переменной f результат выполнения команды открытия файла, параметры этой команды - адрес файла, путь до места где он расположен на компьютере с названием файла(test) и его расширением(.txt), говорящим что он текстовый. Второй параметр 'r' означает, что файл открыт для чтения, то есть мы не сможем вносить изменения в этот файл до тех пор, пока он открыт только для чтения.


У метода open() существует много аргументов:
•	'r' - открытие на чтение(значение по умолчанию)
•	'w' - открытие на запись, содержимое файла удаляется и перезаписывается заново, если файла не существует, создается новый
•	'x' - открытие на запись, только если файла не существует
•	'a' - открытие на дозапись, информация добавляется в конец файла
•	'b' - открытие файла в двоичном виде
•	't' - открытие в текстовом режиме(значение по умолчанию)
•	'+' - открытие на чтение и запись
Возможно сочетание режимов, например 'rb', чтение в бинарном виде, по умолчанию установлен 'rt'.

После открытия файла можно прочитать из него информацию, благодаря методу read():

In [None]:
f = open('test.txt') 
f.read()


Также можно прочитать и вывести файл построчно:

In [None]:
f = open('test.txt') 
for line in f:
    print(line)

Записать информацию в файл можно открыв файл на запись:

In [None]:
f = open('test.txt', 'w') 
for i in range(1, 4):
    f.write(i + '\n')

По окончании работы с файлом его необходимо закрыть, используя метод close():

In [None]:
f.close()

# Пропущенные значения

Данные являются пропущенными, если они содержат значения NaN. Значение NaN означает, что для конкретной метки индекса в конкретной серии/столбце не указано значение. Как могут возникнуть пропущенные данные? Существует множество причин, по которым значение будет записано как значение NaN, например:
 - Объединение двух наборов данных с несовпадающими названиями меток индексов и столбцов
 - Данные, извлеченные из внешнего источника, являются неполными
 - Значение переменной неизвестно в данный момент времени и будет заполнено позднее и т.д.
Вероятно, существует огромное количество причин, приводящих к появлению пропущенных данных, но общим здесь является то, что эти ситуации происходят, и Вы как пользователь библиотеки Pandas должны будете разрешить их, чтобы суметь выполнить эффективный анализ данных. Давайте начнем рассмотрение способов обработки пропущенных данных.

## Поиск пропущенных значений

Значения NaN в объекте DataFrame можно найти с помощью метода .isnull(). Любое значение True означает, что элемент в этой позиции является значением NaN. Кроме того, мы можем определить является ли элемент непропущенным значением, воспользовавшись методом .notnull(), который возвращает True, если значение является непропущенным, в противном случае он возвращает False.
Мы можем использовать тот факт, что метод .sum() рассматривает True как 1 и False как 0, чтобы вычислить количество значений NaN в объекте DataFrame. Еще один способ определить пропуски – использовать метод .count() объекта Series и объекта DataFrame. Для объекта Series этот метод возвращает число непропущенных значений.
Для объекта DataFrame он будет подсчитывать количество непропущенных значений в каждом столбце.


Один из методов обработки пропущенных данных – простое удаление наблюдений с пропусками из набора данных. Библиотека Pandas делает это возможным с помощью нескольких методов. 
Один из них – фильтрация по условию с использованием результатов методов .isnull() или .notnull(), которые извлекают из объекта Series пропущенные и непропущенные значения соответственно.
Кроме того, библиотека Pandas предлагает удобный метод .dropna(), которая удаляет пропущенные значения в серии. 
Обратите внимание, что метод .dropna() фактически возвращает копию датафрейма без некоторых строк. 
Исходный датафрейм не изменился. 
Когда метод .dropna() применяется к объекту DataFrame, он удаляет из объекта DataFrame все строки, в которых есть хотя бы одно значение NaN. 
Если Вы хотите удалить только те строки, в которых все значения являются значениями NaN, Вы можете использовать параметр how='all'.


Создаем датафрейм с 5 строками и 3 столбцами

In [3]:
import numpy as np
import pandas as pd

In [4]:
df = pd.DataFrame(np.arange(0, 15).reshape(5, 3), 
                  index=['a', 'b', 'c', 'd', 'e'], 
                  columns=['c1', 'c2', 'c3'])
df

Unnamed: 0,c1,c2,c3
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14


- добавляем несколько столбцов и строк в датафрейм столбец c4 со значениями NaN
- строка 'f' со значениями от 15 до 18 
- строка 'g', состоящая из значений NaN
- столбец 'c5', состоящий из значений NaN
- меняем значение в столбце 'c4' строки 'a'

In [6]:
df['c4'] = np.nan
df.loc['f'] = np.arange(15, 19) 
df.loc['g'] = np.nan
df['c5'] = np.nan
df['c4']['a'] = 20
df

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,,,,,


### Пропущенные значения

#### Поиск пропущенных значений

Узнаем какие элементы являются значениями NaN

In [7]:
df.isnull()

Unnamed: 0,c1,c2,c3,c4,c5
a,False,False,False,False,True
b,False,False,False,True,True
c,False,False,False,True,True
d,False,False,False,True,True
e,False,False,False,True,True
f,False,False,False,False,True
g,True,True,True,True,True


Узнаем какие элементы являются непропущенными значениями (можем использовать ~df.isnull() )

In [8]:
df.notnull()

Unnamed: 0,c1,c2,c3,c4,c5
a,True,True,True,True,False
b,True,True,True,False,False
c,True,True,True,False,False
d,True,True,True,False,False
e,True,True,True,False,False
f,True,True,True,True,False
g,False,False,False,False,False


Подсчитываем количество значений NaN в каждом столбце

In [9]:
df.isnull().sum(axis=0)

c1    1
c2    1
c3    1
c4    5
c5    7
dtype: int64

Вычисляем количество значений, отличных от NaN, по каждому столбцу (можем использовать len(df) - df.isnull().sum())

In [10]:
df.count(axis=0)

c1    6
c2    6
c3    6
c4    2
c5    0
dtype: int64

#### Удаление пропущенных значений

In [11]:
df

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,,,,,


Отбираем непропущенные значения в столбце c4

In [12]:
df.c4[df.c4.notnull()]

a    20.0
f    18.0
Name: c4, dtype: float64

Этот программный код извлекает в столбце c4 все значения, кроме значений NaN

In [13]:
df.c4.dropna()

a    20.0
f    18.0
Name: c4, dtype: float64

.dropna() возвращает копию с удаленными значениями, исходный датафрейм/столбец не изменился

In [14]:
df.c4

a    20.0
b     NaN
c     NaN
d     NaN
e     NaN
f    18.0
g     NaN
Name: c4, dtype: float64

Метод .dropna() при применении к датафрейму удаляет целиком строки, в которых есть по крайней мере одно значение NaN в данном случае будут удалены все строки

In [15]:
df.dropna()

Unnamed: 0,c1,c2,c3,c4,c5


Используя параметр how='all', удаляем лишь те строки, в которых все значения являются значениями NaN

In [16]:
df.dropna(how = 'all')

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,


In [17]:
df

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,,,,,


Меняем ось, чтобы удалить столбцы со значениями NaN вместо строк

In [18]:
df.dropna(how='all', axis=1) # удаляем c5

Unnamed: 0,c1,c2,c3,c4
a,0.0,1.0,2.0,20.0
b,3.0,4.0,5.0,
c,6.0,7.0,8.0,
d,9.0,10.0,11.0,
e,12.0,13.0,14.0,
f,15.0,16.0,17.0,18.0
g,,,,


- создаем копию датафрейма df
- заменяем две ячейки с пропусками значениями 0

In [19]:
df2 = df.copy()
df2.loc['g'].c1 = 0
df2.loc['g'].c3 = 0
df2

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,0.0,,0.0,,


Далее удаляем столбцы, в которых есть хотя бы одно значение NaN

In [20]:
df2.dropna(how='any', axis=1) 

Unnamed: 0,c1,c3
a,0.0,2.0
b,3.0,5.0
c,6.0,8.0
d,9.0,11.0
e,12.0,14.0
f,15.0,17.0
g,0.0,0.0


Удаляем лишь те столбцы, в которых по меньшей мере 3 значений не NaN

In [21]:
df2

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,0.0,,0.0,,


In [22]:
df2.dropna(thresh=2, axis=1)

Unnamed: 0,c1,c2,c3,c4
a,0.0,1.0,2.0,20.0
b,3.0,4.0,5.0,
c,6.0,7.0,8.0,
d,9.0,10.0,11.0,
e,12.0,13.0,14.0,
f,15.0,16.0,17.0,18.0
g,0.0,,0.0,


#### Заполнение пропущенных значений

In [23]:
df

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,
b,3.0,4.0,5.0,,
c,6.0,7.0,8.0,,
d,9.0,10.0,11.0,,
e,12.0,13.0,14.0,,
f,15.0,16.0,17.0,18.0,
g,,,,,


Возвращаем новый датафрейм, в котором значения NaN заполнены константой - нулями

In [24]:
filled = df.fillna(0)
filled

Unnamed: 0,c1,c2,c3,c4,c5
a,0.0,1.0,2.0,20.0,0.0
b,3.0,4.0,5.0,0.0,0.0
c,6.0,7.0,8.0,0.0,0.0
d,9.0,10.0,11.0,0.0,0.0
e,12.0,13.0,14.0,0.0,0.0
f,15.0,16.0,17.0,18.0,0.0
g,0.0,0.0,0.0,0.0,0.0


Значения NaN не учитываются при вычислении средних значений

In [26]:
df.mean()

c1     7.5
c2     8.5
c3     9.5
c4    19.0
c5     NaN
dtype: float64

После замены значений NaN на 0 получаем другие средние значения

In [27]:
filled.mean()

c1    6.428571
c2    7.285714
c3    8.142857
c4    5.428571
c5    0.000000
dtype: float64