## Часть 1: Введение в Pandas

Pandas - это библиотека Python для работы с данными. Она предоставляет мощные инструменты для анализа и манипуляции данными.

### Установка Pandas

Для начала убедитесь, что у вас установлена библиотека Pandas. Если ее нет, установите ее с помощью команды:


In [None]:
!pip install pandas

## Импорт библиотеки
Давайте начнем с импорта библиотеки Pandas:

In [None]:
import pandas as pd

## Часть 2: Работа с данными
### Чтение данных
Мы будем использовать датасет Titanic. Давайте прочитаем данные из CSV файла.

In [6]:
# Чтение данных из файла 'titanic.csv'
file = pd.read_csv('titanic.csv')
print(file)

     PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex   Age  SibSp  \
0                              Braund, Mr. Owen Harris    male  22.0      1   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                               Heikkinen, Miss. Laina  female  26.0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                             Allen, Mr. William Henry    male  35.0      0   
..                                                 ...     ...   ... 

### Предпросмотр данных
Для первого ознакомления с данными давайте выведем первые несколько строк.

In [7]:
# Вывод первых 5 строк данных
file = pd.read_csv('titanic.csv')
print(file.head())

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  


### Информация о данных
Чтобы получить общую информацию о данных, воспользуйтесь методом .info().

In [8]:
file = pd.read_csv('titanic.csv')
print(file.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 66.2+ KB
None


### Работа с NaN
Часто данные содержат пропущенные значения, которые представляются как NaN (Not a Number). Pandas предоставляет удобные методы для работы с ними.

Проверка на наличие NaN. Методы fillna и dropna возвращают новые Dataframe, проверьте нет ли в них NaN

In [9]:
# Проверка на наличие NaN в DataFrame
file = pd.read_csv('titanic.csv')
print(file.isna().sum())

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


Заполнение NaN

In [10]:
# Заполнение NaN определенным значением (например, нулем)
file = pd.read_csv('titanic.csv')
print(file.fillna(0))

     PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex   Age  SibSp  \
0                              Braund, Mr. Owen Harris    male  22.0      1   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                               Heikkinen, Miss. Laina  female  26.0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                             Allen, Mr. William Henry    male  35.0      0   
..                                                 ...     ...   ... 

Удаление строк с NaN

In [11]:
# Удаление строк, содержащих NaN
file = pd.read_csv('titanic.csv')
print(file.dropna())

     PassengerId  Survived  Pclass  \
1              2         1       1   
3              4         1       1   
6              7         0       1   
10            11         1       3   
11            12         1       1   
..           ...       ...     ...   
871          872         1       1   
872          873         0       1   
879          880         1       1   
887          888         1       1   
889          890         1       1   

                                                  Name     Sex   Age  SibSp  \
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
6                              McCarthy, Mr. Timothy J    male  54.0      0   
10                     Sandstrom, Miss. Marguerite Rut  female   4.0      1   
11                            Bonnell, Miss. Elizabeth  female  58.0      0   
..                                                 ...     ...   ... 

## Часть 3: Обработка DataFrame
### Выбор данных
Pandas позволяет выбирать данные по индексам, меткам столбцов и условиям.

In [12]:
# Выбор столбца по метке
# Используйте синтаксис DataFrame['название_столбца']
# write your code here
file = pd.read_csv('titanic.csv')
print(file['PassengerId'])

# Выбор нескольких столбцов
# Используйте синтаксис DataFrame[['столбец_1', 'столбец_2']]
# write your code here
print(file[['PassengerId', 'Survived']])

# Выбор строк по индексу
# Используйте метод .loc[]
# write your code here
print(file.loc[500])

# Выбор строк и столбцов по условию
# Используя логические операции, выберите мужчин старше 30
# write your code here
print(file[(file['Sex'] == 'male') & (file['Age'] > 30)])

0        1
1        2
2        3
3        4
4        5
      ... 
886    887
887    888
888    889
889    890
890    891
Name: PassengerId, Length: 891, dtype: int64
     PassengerId  Survived
0              1         0
1              2         1
2              3         1
3              4         1
4              5         0
..           ...       ...
886          887         0
887          888         1
888          889         0
889          890         1
890          891         0

[891 rows x 2 columns]
PassengerId                 501
Survived                      0
Pclass                        3
Name           Calic, Mr. Petar
Sex                        male
Age                        17.0
SibSp                         0
Parch                         0
Ticket                   315086
Fare                     8.6625
Cabin                       NaN
Embarked                      S
Name: 500, dtype: object
     PassengerId  Survived  Pclass                                  Name  \
4

### Сортировка данных
Сортировка данных по значениям столбцов.

In [13]:
# Сортировка данных по столбцу 'столбец_1' по возрастанию
# Используйте метод .sort_values()
# write your code here
file = pd.read_csv('titanic.csv')
print(file.sort_values('Fare'))

     PassengerId  Survived  Pclass                                Name  \
271          272         1       3        Tornquist, Mr. William Henry   
597          598         0       3                 Johnson, Mr. Alfred   
302          303         0       3     Johnson, Mr. William Cahoone Jr   
633          634         0       1       Parr, Mr. William Henry Marsh   
277          278         0       2         Parkes, Mr. Francis "Frank"   
..           ...       ...     ...                                 ...   
438          439         0       1                   Fortune, Mr. Mark   
341          342         1       1      Fortune, Miss. Alice Elizabeth   
737          738         1       1              Lesurer, Mr. Gustave J   
258          259         1       1                    Ward, Miss. Anna   
679          680         1       1  Cardeza, Mr. Thomas Drake Martinez   

        Sex   Age  SibSp  Parch    Ticket      Fare        Cabin Embarked  
271    male  25.0      0      0    

### Группировка данных
Pandas также позволяет группировать данные и выполнять агрегирующие операции.

In [14]:
# Найдите долю выживших среди всех PClass
# Используйте метод .groupby()
# write your code here
file = pd.read_csv('titanic.csv')
print(file.groupby('Pclass')['Survived'].mean())

Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64


## Часть 4: Задания для практики
Прочитайте данные из файла 'titanic.csv'.
Проверьте, есть ли пропущенные значения в данных и заполните их нулями.
Выведите первые 10 строк данных.
Выберите только те строки, где значение в столбце 'Age' больше 30.
Отсортируйте данные по столбцу 'Fare' в порядке убывания.
Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса.

In [15]:
import pandas as pd

file = pd.read_csv('titanic.csv')
file = file.fillna(0)
print('Первые 10 строк данных')
print(file.head(10))
print('Только те строки, где значение в столбце \'Age\' больше 30')
print([file['Age'] > 30])
print('Данные по столбцу \'Fare\' в порядке убывания')
print(file.sort_values('Fare', ascending=False))
print('Сгруппированные данные по столбцу \'Pclass\' и вычисленный средний возраст для каждого класса')
print(file.groupby('Pclass')['Age'].mean())

Первые 10 строк данных
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   
5            6         0       3   
6            7         0       1   
7            8         0       3   
8            9         1       3   
9           10         1       2   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   
5                                   Moran, Mr. James    male   0.0      0   
6                            McCarthy, Mr