## Часть 1: Введение в Pandas

Pandas - это библиотека Python для работы с данными. Она предоставляет мощные инструменты для анализа и манипуляции данными.

### Установка Pandas

Для начала убедитесь, что у вас установлена библиотека Pandas. Если ее нет, установите ее с помощью команды:


In [None]:
!pip install pandas

## Импорт библиотеки
Давайте начнем с импорта библиотеки Pandas:

In [1]:
import pandas as pd

## Часть 2: Работа с данными
### Чтение данных
Мы будем использовать датасет Titanic. Давайте прочитаем данные из CSV файла.

In [None]:
# Чтение данных из файла 'titanic.csv'
# Используйте метод pd.read_csv()
# write your code here
titanic = pd.read_csv('titanic.csv')

### Предпросмотр данных
Для первого ознакомления с данными давайте выведем первые несколько строк.

In [None]:
# Вывод первых 5 строк данных
# Используйте метод .head()
# write your code here
titanic.head(5)

### Информация о данных
Чтобы получить общую информацию о данных, воспользуйтесь методом .info().

In [None]:
#   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB

### Работа с NaN
Часто данные содержат пропущенные значения, которые представляются как NaN (Not a Number). Pandas предоставляет удобные методы для работы с ними.

Проверка на наличие NaN. Методы fillna и dropna возвращают новые Dataframe, проверьте нет ли в них NaN

In [2]:
# Проверка на наличие NaN в DataFrame
# Используйте метод .isna()
# write your code here
titanic.isna()

Заполнение NaN

In [None]:
# Заполнение NaN определенным значением (например, нулем)
# Используйте метод .fillna()
# write your code here
titanic.fillna(0)

Удаление строк с NaN

In [3]:
# Удаление строк, содержащих NaN
# Используйте метод .dropna()
# write your code here
titanic.dropna()

## Часть 3: Обработка DataFrame
### Выбор данных
Pandas позволяет выбирать данные по индексам, меткам столбцов и условиям.

In [4]:
# Выбор столбца по метке
# Используйте синтаксис DataFrame['название_столбца']
# write your code here
print(titanic['Name'])

# Выбор нескольких столбцов
# Используйте синтаксис DataFrame[['столбец_1', 'столбец_2']]
# write your code here
print(titanic[['Name', 'Age']])

# Выбор строк по индексу
# Используйте метод .loc[]
# write your code here
print(titanic.loc[1])

# Выбор строк и столбцов по условию
# Используя логические операции, выберите мужчин старше 30
# write your code here
print(titanic[(titanic['Sex'] == 'male') & (titanic['Age'] > 30)])

0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Mr. Karl Howell
890                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object
                                                  Name   Age
0                              Braund, Mr. Owen Harris  22.0
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  38.0
2                               Heikkinen, Miss. Laina  26.0
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  35.0
4                             Allen, Mr. William Henry  35.0
..                                                 ...   ...
886                              Montvila, Rev. Juozas  27.0
887                       Graham, Miss. Margaret Edith  19.0
888           Johnston, Miss. Catherine Helen "Carrie"   NaN
889                              Behr, Mr. Karl Howell  26.0
890                                Dooley, Mr. Patrick  32.0

[891 rows x 2 columns]
PassengerId                                                    2
Survived                                                       1
Pclass                                                         1
Name           Cumings, Mrs. John Bradley (Florence Briggs Th...
Sex                                                       female
Age                                                         38.0
SibSp                                                          1
Parch                                                          0
Ticket                                                  PC 17599
Fare                                                     71.2833
Cabin                                                        C85
Embarked                                                       C
Name: 1, dtype: object
     PassengerId  Survived  Pclass  ...     Fare        Cabin  Embarked
4              5         0       3  ...   8.0500          NaN         S
6              7         0       1  ...  51.8625          E46         S
13            14         0       3  ...  31.2750          NaN         S
20            21         0       2  ...  26.0000          NaN         S
21            22         1       2  ...  13.0000          D56         S
..           ...       ...     ...  ...      ...          ...       ...
867          868         0       1  ...  50.4958          A24         S
872          873         0       1  ...   5.0000  B51 B53 B55         S
873          874         0       3  ...   9.0000          NaN         S
881          882         0       3  ...   7.8958          NaN         S
890          891         0       3  ...   7.7500          NaN         Q

[202 rows x 12 columns]0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Mr. Karl Howell
890                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object
                                                  Name   Age
0                              Braund, Mr. Owen Harris  22.0
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  38.0
2                               Heikkinen, Miss. Laina  26.0
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  35.0
4                             Allen, Mr. William Henry  35.0
..                                                 ...   ...
886                              Montvila, Rev. Juozas  27.0
887                       Graham, Miss. Margaret Edith  19.0
888           Johnston, Miss. Catherine Helen "Carrie"   NaN
889                              Behr, Mr. Karl Howell  26.0
890                                Dooley, Mr. Patrick  32.0

[891 rows x 2 columns]
PassengerId                                                    2
Survived                                                       1
Pclass                                                         1
Name           Cumings, Mrs. John Bradley (Florence Briggs Th...
Sex                                                       female
Age                                                         38.0
SibSp                                                          1
Parch                                                          0
Ticket                                                  PC 17599
Fare                                                     71.2833
Cabin                                                        C85
Embarked                                                       C
Name: 1, dtype: object
     PassengerId  Survived  Pclass  ...     Fare        Cabin  Embarked
4              5         0       3  ...   8.0500          NaN         S
6              7         0       1  ...  51.8625          E46         S
13            14         0       3  ...  31.2750          NaN         S
20            21         0       2  ...  26.0000          NaN         S
21            22         1       2  ...  13.0000          D56         S
..           ...       ...     ...  ...      ...          ...       ...
867          868         0       1  ...  50.4958          A24         S
872          873         0       1  ...   5.0000  B51 B53 B55         S
873          874         0       3  ...   9.0000          NaN         S
881          882         0       3  ...   7.8958          NaN         S
890          891         0       3  ...   7.7500          NaN         Q

[202 rows x 12 columns]

### Сортировка данных
Сортировка данных по значениям столбцов.

In [5]:
# Сортировка данных по столбцу 'столбец_1' по возрастанию
# Используйте метод .sort_values()
# write your code here
titanic.sort_values(by='Age', ascending = True)

### Группировка данных
Pandas также позволяет группировать данные и выполнять агрегирующие операции.

In [6]:
# Найдите долю выживших среди всех PClass
# Используйте метод .groupby()
# write your code here
titanic.groupby('Pclass')['Survived'].mean()

## Часть 4: Задания для практики
Прочитайте данные из файла 'titanic.csv'.
Проверьте, есть ли пропущенные значения в данных и заполните их нулями.
Выведите первые 10 строк данных.
Выберите только те строки, где значение в столбце 'Age' больше 30.
Отсортируйте данные по столбцу 'Fare' в порядке убывания.
Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса.

In [None]:
import pandas as pd
titanic = pd.read_csv('titanic.csv')
titanic.fillna(0)
print('Первые 10 строк:')
print(titanic.head(10))
print('Строки с Age > 30:')
print(titanic[titanic['Age'] > 30])
print('Сортировка по столбцу Fare в порядке убывания:')
print(titanic.sort_values(by='Fare', ascending=False))
print('Группировка по столбцу Pclass с вычислением среднего возраста:')
print(titanic.groupby('Pclass')['Age'].mean())

Первые 10 строк:
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S
5            6         0       3  ...   8.4583   NaN         Q
6            7         0       1  ...  51.8625   E46         S
7            8         0       3  ...  21.0750   NaN         S
8            9         1       3  ...  11.1333   NaN         S
9           10         1       2  ...  30.0708   NaN         C

[10 rows x 12 columns]
Строки с Age > 30:
     PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
1              2         1       1  ...  71.2833   C85         C
3              4         1       1  ...  53.1000  C123         S
4              5         0       3  ...   8.0500   NaN         S
6              7         0       1  ...  51.8625   E46         S
11            12         1       1  ...  26.5500  C103         S
..           ...       ...     ...  ...      ...   ...       ...
873          874         0       3  ...   9.0000   NaN         S
879          880         1       1  ...  83.1583   C50         C
881          882         0       3  ...   7.8958   NaN         S
885          886         0       3  ...  29.1250   NaN         Q
890          891         0       3  ...   7.7500   NaN         Q

[305 rows x 12 columns]
Сортировка по столбцу Fare в порядке убывания:
     PassengerId  Survived  Pclass  ...      Fare        Cabin  Embarked
679          680         1       1  ...  512.3292  B51 B53 B55         C
258          259         1       1  ...  512.3292          NaN         C
737          738         1       1  ...  512.3292         B101         C
88            89         1       1  ...  263.0000  C23 C25 C27         S
438          439         0       1  ...  263.0000  C23 C25 C27         S
..           ...       ...     ...  ...       ...          ...       ...
806          807         0       1  ...    0.0000          A36         S
815          816         0       1  ...    0.0000         B102         S
466          467         0       2  ...    0.0000          NaN         S
481          482         0       2  ...    0.0000          NaN         S
822          823         0       1  ...    0.0000          NaN         S

[891 rows x 12 columns]
Группировка по столбцу Pclass с вычислением среднего возраста:
Pclass
1    38.233441
2    29.877630
3    25.140620
Name: Age, dtype: float64
