# Библиотека для численного анализа данных Pandas  
**`Pandas`** — программная библиотека на языке Python для обработки и анализа данных. Предоставляет специальные структуры данных и операции для манипулирования числовыми таблицами и временными рядами. Используется для очистки и первичной оценки данных.  
Не является полноценным пакетом статистической обработки, однако объекты **`DataFrame`** и **`Series`** применяются в качестве входных в большинстве модулей анализа данных и машинного обучения (SciPy, Scikit-Learn и других).  
- Series — объект, используемый для работы с последовательностью одномерных данных.
- Dataframe — объект, описывающий табличную (двумерную) структуру данных, состоящую из упорядоченной коллекции колонок. Каждая из колонок содержит значение определенного типа (числовое, строковое, булевое и так далее).  

Работа pandas с данными строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня.  
Библиотека оптимизирована для высокой производительности, наиболее ресурсоемкие части кода написаны на Cython и Си.  
В этом ноутбуке представлены только базовые функции, методы и параметры библиотеки, за более подробной информацией обращайтесь к документациии.  
[Документация на библиотеку Pandas](https://pandas.pydata.org/pandas-docs/stable/)  
## Данные для машинного обучения
**Задача модели машинного обучения** - на основе известных параметров/признаков объекта отнести его к одному из классов (задача классификации) или предсказать  значение неизвестного параметра (задача регрессии).  
Для обучения модели требуется **обучающая выборка**, которая содержит набор примеров. Каждый пример содержит набор известных признаков и эталонный отклик модели, т.е. правильный ответ. Его иногда называют **целевым параметром**.
Для представления обучающей выборки обычно используется объект Dataframe. 
В этом случае каждая строка датафрейма представляет собой описание примера обучающей выборки; столбцы задают перечень признаков/параметров объекта. 
При этом один из параметров объекта является целевым

**Основные возможности библиотеки:**  
- Объект DataFrame для манипулирования индексированными массивами двумерных данных.
- Инструменты для обмена данными между структурами в памяти и файлами различных форматов.
- Встроенные средства совмещения данных и способы обработки отсутствующей информации.
- Переформатирование наборов данных, в том числе создание сводных таблиц.
- Срез данных по значениям индекса, расширенные возможности индексирования, выборка из больших наборов данных.
- Вставка и удаление столбцов данных.
- Возможности группировки позволяют выполнять трёхэтапные операции типа «разделение, изменение, объединение» (англ. split-apply-combine).
- Слияние и объединение наборов данных.
- Иерархическое индексирование позволяет работать с данными высокой размерности в структурах меньшей размерности.
- Работа с временными рядами: формирование временных периодов и изменение интервалов и так далее.

#### Подключение библиотек

In [4]:
import pandas as pd
import numpy as np

#### Чтение из файла в формате csv  
Одним из распространенных форматов хранения данных является формат CSV.
CSV (от англ. Comma-Separated Values — значения, разделённые запятыми) — текстовый формат, предназначенный для представления табличных данных. Строка таблицы соответствует строке текста, которая содержит одно или несколько полей, разделенных запятыми.
CSV-файлы можно создавать и редактировать в Excel. Данные, сохраненные в CSV-файле, можно легко переносить из одной программы в другую. 
Для чтения CSV-файлов в pandas используется метод **`.read_csv(<путь>, [<sep='разделитель'>])`** .  

In [6]:
data = pd.read_csv("Titanic_train.csv") # датасет по пассажирам Титаника

В результате выполнения операции чтения создается объект Dataframe с указанным именем.

#### Несколько слов про датафрейм
Dataframe можно воспринимать как словарь **`dict`**, состоящий из объектов **`Series`**, где ключи — названия колонок, а значения — объекты Series, которые формируют колонки самого объекта Dataframe. Наконец, все элементы в каждом объекте Series связаны в соответствии с массивом меток, называемым index. 
Таким образом, Dataframe имеет два списка меток. Первый - `index` - ассоциирован со строками (рядами). Второй - `columns` - содержит метки для каждой из колонок. Если метки строк явно не заданы в массиве `index`, pandas автоматически присваивает им числовую последовательность, начиная с нуля.  


#### Метод .head
Позволяет проверить корректность считывания данных. Формат вызова:  
**`.head([<число строк>])`**.
При этом выведется заголовок считанной таблицы и указанное число строк с данными (по умолчанию 5)

In [10]:
data.head() # есть еще и метод .tail - угадайте, что он делает ;) ?

Unnamed: 0,PassengerId,Survived,Pclass,Name,Gender,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


#### Метод .describe()
Используется для "понимания данных" с точки зрения статистики. Выводит сводную статистику для всех  столбцов, содержащих **числовые значения**: количество значений, среднее значение, стандартное отклонение, диапазон и квартили.

In [12]:
data.describe().T
# если добавить атрибут .T (describe().T), таблица будет транспонирована

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
PassengerId,891.0,446.0,257.353842,1.0,223.5,446.0,668.5,891.0
Survived,891.0,0.383838,0.486592,0.0,0.0,0.0,1.0,1.0
Pclass,891.0,2.308642,0.836071,1.0,2.0,3.0,3.0,3.0
Age,714.0,29.699118,14.526497,0.42,20.125,28.0,38.0,80.0
SibSp,891.0,0.523008,1.102743,0.0,0.0,0.0,1.0,8.0
Parch,891.0,0.381594,0.806057,0.0,0.0,0.0,0.0,6.0
Fare,891.0,32.204208,49.693429,0.0,7.9104,14.4542,31.0,512.3292


#### Метод .info()
Метод `.info()` — это быстрый способ посмотреть типы данных, пропущенные значения и размер данных в DataFrame.  
У метода есть полезные аргументы - смотри документацию!

In [14]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Gender       891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


#### Понимание структуры данных  
Атрибут **`.shape`** возвращает набор значений - кортеж, содержащий параметры (число строк, число столбцов).  
Атрибут **`.columns`** объекта DataFrame возвращает имена столбцов в виде объекта Index (что индекс в pandas — это метка строки или столбца). При необходимости его можно преобразовать в список с помощью функции **`list()`**. 
Атрибут **`.index`** возвращает индексы строк.  
Указав в квадратных скобках название колонки, можно получить значений в ней. Возвращаемое значение — объект Series.   
Для обращения к значениям строк внутри Dataframe используется атрибут loc со указанием индекса нужной строки.

In [16]:
print(data.shape) # Получить число строк и столбцов
print('Всего объектов : ', data.shape[0]) # Вывести только число строк

(891, 12)
Всего объектов :  891


In [17]:
print('Всего признаков : ', data.shape[1]) # Вывести только число столбцов

Всего признаков :  12


In [18]:
print('Названия признаков : ', list(data.columns)) # Вывести названия столбцов

Названия признаков :  ['PassengerId', 'Survived', 'Pclass', 'Name', 'Gender', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']


In [19]:
print('Значения индексов : ', data.index ) # Вывести значения индексов

Значения индексов :  RangeIndex(start=0, stop=891, step=1)


In [20]:
print ('Значения признака Пол для каждого пассажира: \n', data['Gender'],'\n')

Значения признака Пол для каждого пассажира: 
 0        male
1      female
2      female
3      female
4        male
        ...  
886      male
887    female
888    female
889      male
890      male
Name: Gender, Length: 891, dtype: object 



In [21]:
print('Сведения о пассажире №10: \n', data.loc[9]) 
#Вывод данных пассажира с номером 10

Сведения о пассажире №10: 
 PassengerId                                     10
Survived                                         1
Pclass                                           2
Name           Nasser, Mrs. Nicholas (Adele Achem)
Gender                                      female
Age                                           14.0
SibSp                                            1
Parch                                            0
Ticket                                      237736
Fare                                       30.0708
Cabin                                          NaN
Embarked                                         C
Name: 9, dtype: object


**Обратите внимание!** в выводе данных по пассажиру 10 номер каюты указан NaN.
Это означает, что этот признак для данного объекта не определен.  

Метод **`.value_counts()`** подсчитывает число значений в колонке.  
Метод **`.unique()`**  формирует список уникальных значений (например, в колонке).

In [23]:
print('Возможные значения признака Survived: ',data['Survived'].unique())
print(data['Survived'].value_counts()) # попробуйте вывести возраст

Возможные значения признака Survived:  [0 1]
Survived
0    549
1    342
Name: count, dtype: int64


Полученную информацию уже интересно визуализировать, т.е. отобразить на графике или диаграмме

#### Некоторые полезные статистические функции
Метод **`.mean()`** возвращает среднее значение.  
Метод **`.median()`** возвращает медиану.  
Метод **`.mode()`** возвращает моду - наиболее часто встречающееся значение.  
Метод **`.count()`** возвращает количество значений за исключением неопределенных (отсутствующих).  
Метод **`.std()`** возвращает стандартное отклонение значений.  
Методы **`.min`** и **`.max`** возвращают минимум и максимум соответственно.

In [26]:
print('Данные о возрасте пассажиров')
print('Средний возраст : ',data['Age'].mean())
print('Минимальный возраст : ',data['Age'].min())
print('Максимальный возраст : ',data['Age'].max())

Данные о возрасте пассажиров
Средний возраст :  29.69911764705882
Минимальный возраст :  0.42
Максимальный возраст :  80.0


#### Обнаружение недостающих данных
Выше мы уже сталкивались с ситуацией, когда данные о каком-либо признаке объекта/примера отсутствуют (надеюсь, вы понимаете разницу между нулевым и отсутствующим значением :) ).  
Это происходит достаточно часто, и с точки зрения обработки данных и машинного обучения является проблемой. Поэтому важно уметь находить пропущенные данные и решать, что с ними делать.  
Метод **`.isnull()`** возвращает логическое значение: True означает, что значение отсутствуюет, а False означает, что соответствующее значение в DataFrame определено.  
Метод **`.notnull()`**  действует наоборот.

In [28]:
(data.isnull()).head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Gender,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False


In [29]:
(data.notnull()).head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Gender,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,True,True,True,True,True,True,True,True,True,True,False,True
1,True,True,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True,False,True
3,True,True,True,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True,True,False,True


Обычно при анализе данных нас интересует количество неопределенных значений параметров в целом по выборке. Для этого нужно просто просуммировать значения.

In [31]:
print(data.isnull().sum())
print('Данные о возрасте отсутствуют у ',data['Age'].isnull().sum(),' пассажиров')

PassengerId      0
Survived         0
Pclass           0
Name             0
Gender           0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64
Данные о возрасте отсутствуют у  177  пассажиров


### Редактирование датафрейма
Обычно по результатам предварительного знакомства с датасетом и разведочного анализа данных исходные данные нуждаются в обработке: кодировке и очистке.
Можно изменять непосредственно датафрейм, созданный в результате чтения из файла, но хорошей практикой считается создание его копии.
Те, кто уже изучал Python, занют, что простой конструкцией вида `train = data` здесь не обойтись. При выполнении этой команды появится переменная `train`, которая фактически является указателем и она будет указывать на тот же самый датафрейм. Проверим:

In [33]:
train = data # создаем переменную
print(data.loc[1,'Ticket']) # выводим номер билета пассажира №1
print(train.loc[1,'Ticket']) 
train.loc[1,'Ticket']='10000' # меняем номер билета, используя новую переменную
print(data.loc[1,'Ticket']) #убеждаемся, что значение изменилось в обоих случаях
print(train.loc[1,'Ticket'])

PC 17599
PC 17599
10000
10000


Метод **`.copy()`**  создает копию исходного DataFrame.  

In [35]:
big_train = data.copy()
big_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Gender       891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


Другой вариант - создание нового датафрейма из подмножества столбцов исходного.
Это может пригодиться, если требуется отобрать в новый датафрейм несколько столбцов исходного, но при этом не хочется выписывать имена столбцов, которые нужно удалить.

In [37]:
train = data[['PassengerId','Survived','Pclass','Gender','Age','Fare','Cabin']]
train.info() # проверим, что получилось

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Gender       891 non-null    object 
 4   Age          714 non-null    float64
 5   Fare         891 non-null    float64
 6   Cabin        204 non-null    object 
dtypes: float64(2), int64(3), object(2)
memory usage: 48.9+ KB


Один из шагов подготовки данных заключается в корректировке данных, имеющих неопределенное значение (как их находить, мы рассмотрели выше).  
Метод **`.dropna()`** создает из исходного датафрейма новый, из которого удалены строки, содержащие неопределенное значение.

In [39]:
print("Количество строк исходного датафрейма:", big_train.shape[0])
big_train = big_train.dropna() #
print("Количество строк полученного датафрейма:", big_train.shape[0])

Количество строк исходного датафрейма: 891
Количество строк полученного датафрейма: 183


Обратите внимание, что после удаления объектов (строк) с неопределенными параметрами размер полученного датафрейма значительно уменьшился. Это может привести к серьезной потере данных.  
Другим вариантом является удаление столбцов (признаков), если они является неопределенными у значительного числа объектов. В нашем примере это столбец с номером билета.  
Метод **'train.drop(<метка строки или название столбца>, axis=<0 - строка, 1 - столбец>)'** создает новый датафрейм без указанных строк или столбцов.

In [41]:
train_clean=train.drop('Cabin', axis=1) # исключим столбец с номером каюты
train_clean.info() # проверим, что получилось

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Gender       891 non-null    object 
 4   Age          714 non-null    float64
 5   Fare         891 non-null    float64
dtypes: float64(2), int64(3), object(1)
memory usage: 41.9+ KB


Однако это тоже приводит к потере данных, поэтому отсутствующие данные часто пытаются заполнить каким-либо разумным способом.  
Одним из вариантов (но не единственным и не всегда лучшим) может быть замена отсутствующего признака на среднее значение по столбцу.  
Метод **`.fillna()`** заменяет неопределенные (NaN) значения  некоторым значением.

In [43]:
mean_age = np.mean(train_clean['Age'])
print(mean_age)
# train_clean['Age'].fillna(mean_age, inplace = True) 
train_clean.fillna ({'Age': mean_age}, inplace = True) 
#inplace = True означает, что исходный датафрейм будет заменен отредактированным
train_clean.info() # проверим, все ли значения заполнены

29.69911764705882
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Gender       891 non-null    object 
 4   Age          891 non-null    float64
 5   Fare         891 non-null    float64
dtypes: float64(2), int64(3), object(1)
memory usage: 41.9+ KB


#### Замена строковых данных

При подготовке данных для статистического анализа и машинного обучения строковые данные по возможности стараются кодировать численными значениями.
Пример, как это можно сделать, приведен ниже.

In [73]:
print('Возможные значения признака Пол: ',train_clean['Gender'].unique())
print(train_clean['Gender'].value_counts())
train_clean = train_clean.replace(to_replace = 'male', value = 1).infer_objects(copy=False)
train_clean = train_clean.replace(to_replace = 'female', value = 2).infer_objects(copy=False)
train_clean.head()
print('Возможные значения признака Пол: ',train_clean['Gender'].unique())
print(train_clean['Gender'].value_counts())

Возможные значения признака Пол:  [1 2]
Gender
1    577
2    314
Name: count, dtype: int64
Возможные значения признака Пол:  [1 2]
Gender
1    577
2    314
Name: count, dtype: int64


#### Сохранение в файл
Метод **`.to_csv (<имя файла>, index = <False/True>)`** 

In [76]:
train_clean.to_csv("Titanic_train_clean.csv", index=False) 
# за что отвечает аргумент index, выясните в документации