## Часть 1: Введение в Pandas

Pandas - это библиотека Python для работы с данными. Она предоставляет мощные инструменты для анализа и манипуляции данными.

### Установка Pandas

Для начала убедитесь, что у вас установлена библиотека Pandas. Если ее нет, установите ее с помощью команды:


In [15]:
!pip install pandas



## Импорт библиотеки
Давайте начнем с импорта библиотеки Pandas:

In [16]:
import pandas as pd

In [1]:
import pandas as pd
df = pd.read_csv('titanic.csv')


### Предпросмотр данных
Для первого ознакомления с данными давайте выведем первые несколько строк.

In [2]:
# Выведем первые пять строк таблицы для ознакомления
print(df.head())

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  


### Информация о данных
Чтобы получить общую информацию о данных, воспользуйтесь методом .info().

In [19]:
print(df.info)

<bound method DataFrame.info of      PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex   Age  SibSp  \
0                              Braund, Mr. Owen Harris    male  22.0      1   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                               Heikkinen, Miss. Laina  female  26.0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                             Allen, Mr. William Henry    male  35.0      0   
..                                   

### Работа с NaN
Часто данные содержат пропущенные значения, которые представляются как NaN (Not a Number). Pandas предоставляет удобные методы для работы с ними.

Проверка на наличие NaN. Методы fillna и dropna возвращают новые Dataframe, проверьте нет ли в них NaN

In [20]:
has_nan_values = df.isna().any().any()

if has_nan_values:
    print("В DataFrame присутствуют NaN-значения.")
else:
    print("В DataFrame отсутствуют NaN-значения.")

В DataFrame присутствуют NaN-значения.


Заполнение NaN

In [22]:
df_filled = df.fillna(0)

print(df_filled)

     PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex   Age  SibSp  \
0                              Braund, Mr. Owen Harris    male  22.0      1   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                               Heikkinen, Miss. Laina  female  26.0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                             Allen, Mr. William Henry    male  35.0      0   
..                                                 ...     ...   ... 

Удаление строк с NaN

In [23]:
df_cleaned = df.dropna()

print(df_cleaned)

     PassengerId  Survived  Pclass  \
1              2         1       1   
3              4         1       1   
6              7         0       1   
10            11         1       3   
11            12         1       1   
..           ...       ...     ...   
871          872         1       1   
872          873         0       1   
879          880         1       1   
887          888         1       1   
889          890         1       1   

                                                  Name     Sex   Age  SibSp  \
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
6                              McCarthy, Mr. Timothy J    male  54.0      0   
10                     Sandstrom, Miss. Marguerite Rut  female   4.0      1   
11                            Bonnell, Miss. Elizabeth  female  58.0      0   
..                                                 ...     ...   ... 

## Часть 3: Обработка DataFrame
### Выбор данных
Pandas позволяет выбирать данные по индексам, меткам столбцов и условиям.

In [26]:
filtered_df = df[(df['Sex'] == 'male') & (df['Age'] > 30)]
print(filtered_df)

     PassengerId  Survived  Pclass                                  Name  \
4              5         0       3              Allen, Mr. William Henry   
6              7         0       1               McCarthy, Mr. Timothy J   
13            14         0       3           Andersson, Mr. Anders Johan   
20            21         0       2                  Fynney, Mr. Joseph J   
21            22         1       2                 Beesley, Mr. Lawrence   
..           ...       ...     ...                                   ...   
867          868         0       1  Roebling, Mr. Washington Augustus II   
872          873         0       1              Carlsson, Mr. Frans Olof   
873          874         0       3           Vander Cruyssen, Mr. Victor   
881          882         0       3                    Markun, Mr. Johann   
890          891         0       3                   Dooley, Mr. Patrick   

      Sex   Age  SibSp  Parch    Ticket     Fare        Cabin Embarked  
4    male  35.

### Сортировка данных
Сортировка данных по значениям столбцов.

In [32]:
sorted_descending = df.sort_values(by='PassengerId')
print(sorted_descending)

     PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex   Age  SibSp  \
0                              Braund, Mr. Owen Harris    male  22.0      1   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                               Heikkinen, Miss. Laina  female  26.0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                             Allen, Mr. William Henry    male  35.0      0   
..                                                 ...     ...   ... 

### Группировка данных
Pandas также позволяет группировать данные и выполнять агрегирующие операции.

In [33]:
survival_rate = df.groupby('Pclass')['Survived'].mean()

print(survival_rate)

Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64


## Часть 4: Задания для практики
Прочитайте данные из файла 'titanic.csv'.
Проверьте, есть ли пропущенные значения в данных и заполните их нулями.
Выведите первые 10 строк данных.
Выберите только те строки, где значение в столбце 'Age' больше 30.
Отсортируйте данные по столбцу 'Fare' в порядке убывания.
Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса.

In [36]:
import pandas as pd

df = pd.read_csv('titanic.csv')

print("Есть ли пропуски:", df.isnull().sum())
df_filled = df.fillna(0)

print("\nПервые 10 строк:")
print(df_filled.head(10))

df_filtered = df_filled[df_filled['Age'] > 30]

df_sorted = df_filtered.sort_values(by='Fare', ascending=False)

average_age_per_class = df_sorted.groupby('Pclass')['Age'].mean()

print("\nСредний возраст по классам:")
print(average_age_per_class)

Есть ли пропуски: PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Первые 10 строк:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   
5            6         0       3   
6            7         0       1   
7            8         0       3   
8            9         1       3   
9           10         1       2   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, 