# Основы работы с pandas

### Цель работы
На практике ознакомиться с основными приемами обработки данных с использованием библиотеки pandas, освоить основные понятия этой библиотеки,

### Методические указания
Для успешного выполнения данной лабораторной работы необходимо заранее ознакомиться с официальной документацией библиотеки pandas.

Работу следует выполнять в интерактивной среде программирования Jupyter notebook. Оценивается полнота выполнения задания, знание и умение применять библиотечные функции

К данной работе прилагается файл с набором данных. Данный набор данных используется для открытого соревнования по машинному обучения Kaggle. Набор описывает основные характеристики пассажиров Титаника с информацией о том, выжил данный пассажир или нет. Часть полей носит категориальный, часть численный характер. Часть данных отсутствует.

## Задания к выполнению

In [1]:
import pandas as pd
import numpy as np

Получить файл набора данных, прилагающийся к этой работе.

In [6]:
df = pd.read_csv('train.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Считать файл в pandas DataFrame

In [71]:
df.tail(1)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


Ознакомиться с основными параметрами датасета, используя функции библиотеки pandas, включая следующие данные:

<li>Количество точек данных (измерений) в наборе</li>
<li>Количество полей данных (атрибутов)</li>

<li>Тип данных каждого поля, шкала каждого поля</li>

<li>Количество отсутствующих значений для каждого поля</li>

<li>Количество и названия константных и уникальных полей</li>

In [72]:
df.shape

(891, 12)

In [73]:
len(df)

891

In [10]:
df.nunique(axis=0)

PassengerId    891
Survived         2
Pclass           3
Name           891
Sex              2
Age             88
SibSp            7
Parch            7
Ticket         681
Fare           248
Cabin          147
Embarked         3
dtype: int64

In [74]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [11]:
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


Удалить из набора поля, не несущие информативной нагрузки - содержащие уникальные либо константные значения

In [7]:
df.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1, inplace=True)
df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,male,22.0,1,0,7.25,S
1,1,1,female,38.0,1,0,71.2833,C
2,1,3,female,26.0,0,0,7.925,S
3,1,1,female,35.0,1,0,53.1,S
4,0,3,male,35.0,0,0,8.05,S


Заменить возраст пассажиров на год рождения

In [8]:
df['Age'] = (1912 - df['Age'])
df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,male,1890.0,1,0,7.25,S
1,1,1,female,1874.0,1,0,71.2833,C
2,1,3,female,1886.0,0,0,7.925,S
3,1,1,female,1877.0,1,0,53.1,S
4,0,3,male,1877.0,0,0,8.05,S


Переименовать все названия колонок на русском языке

In [77]:
rename = {
    "PClass": "класс пассажира",
    "Sex": "пол",
    "Survived": "выживший",
    "Embarked" : "порт посадки",
    "Pclass":"класс пассажира",
    "SibSp": "родня 2 очереди",
    "Parch": "родня 1 очереди",
    "Age":"возраст", 
    "Fare":"тариф"
}
df = df.rename(columns = rename)
# df.drop(['PassengerId', 'Name', 'Ticket'], axis=1).head()
df.head()

Unnamed: 0,выживший,класс пассажира,пол,возраст,родня 2 очереди,родня 1 очереди,тариф,порт посадки
0,0,3,male,2000.0,1,0,7.25,S
1,1,1,female,1984.0,1,0,71.2833,C
2,1,3,female,1996.0,0,0,7.925,S
3,1,1,female,1987.0,1,0,53.1,S
4,0,3,male,1987.0,0,0,8.05,S


Заменить все отсутствующие данные средним значением (в случае числового поля) либо самым распространенным в категориальных полях.

In [78]:
df.isna().sum()

выживший             0
класс пассажира      0
пол                  0
возраст            177
родня 2 очереди      0
родня 1 очереди      0
тариф                0
порт посадки         2
dtype: int64

In [81]:
df['возраст'] = df['возраст'].fillna(df['возраст'].mean())
df['порт посадки'] = df['порт посадки'].fillna(df['порт посадки'].mode().item())

In [82]:
df.isna().sum()

выживший           0
класс пассажира    0
пол                0
возраст            0
родня 2 очереди    0
родня 1 очереди    0
тариф              0
порт посадки       0
dtype: int64

Сохранить получившийся набор данных в формате CSV

In [9]:
df.to_csv()

Открыть данный файл в программе Microsoft Excel и сохранить в формате .xlsx

Считать файл .xlsx в новый DataFrame

In [None]:
new_df = np.read_excel('df.xlsx')
new_df

## Контрольные вопросы
<li>Какие две главные структуры данных используются в pandas? В чем их отличие?</li>
<li>Назовите основные функции чтения данных из файлов</li>
<li>Напишите функцию записи набора данных А в файл с разделителями-запятыми</li>
<li>Как называется функция, выводящая на экран первые N строчек набора данных?</li>
<li>С помощью какой функции можно удалить поле набора данных? А строку?</li>
<li>Напишите участок кода, демонстрирующий возможность добавления новой строки к набору данных.</li>
<li>Напишите участок кода, демонстрирующий возможность добавления новой колонки (поля) к набору данных.</li>