## Часть 1: Введение в Pandas

Pandas - это библиотека Python для работы с данными. Она предоставляет мощные инструменты для анализа и манипуляции данными.

### Установка Pandas

Для начала убедитесь, что у вас установлена библиотека Pandas. Если ее нет, установите ее с помощью команды:


In [None]:
!pip install pandas

## Импорт библиотеки
Давайте начнем с импорта библиотеки Pandas:

In [None]:
import pandas as pd

## Часть 2: Работа с данными
### Чтение данных
Мы будем использовать датасет Titanic. Давайте прочитаем данные из CSV файла.

In [6]:
titanic_df = pd.read_csv('titanic.csv')
print("Файл прочитан")


Файл прочитан


### Предпросмотр данных
Для первого ознакомления с данными давайте выведем первые несколько строк.

In [23]:
titanic_df = pd.read_csv('titanic.csv')
print(titanic_df.head())


   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  


### Информация о данных
Чтобы получить общую информацию о данных, воспользуйтесь методом .info().

In [7]:
titanic_df = pd.read_csv('titanic.csv')
titanic_df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### Работа с NaN
Часто данные содержат пропущенные значения, которые представляются как NaN (Not a Number). Pandas предоставляет удобные методы для работы с ними.

Проверка на наличие NaN. Методы fillna и dropna возвращают новые Dataframe, проверьте нет ли в них NaN

In [16]:
titanic_df = pd.read_csv('titanic.csv')

print(titanic_df.isna().any())
print("\nЗначения NaN для каждого столбца\n", titanic_df.isna().sum())


PassengerId    False
Survived       False
Pclass         False
Name           False
Sex            False
Age             True
SibSp          False
Parch          False
Ticket         False
Fare           False
Cabin           True
Embarked        True
dtype: bool

Значения NaN для каждого столбца
 PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


Заполнение NaN

In [17]:
titanic_df = pd.read_csv('titanic.csv')
titanic_df_filled = titanic_df.fillna(0)

print(titanic_df_filled.isna().any())
print("\nЗначения NaN для каждого столбца (после заполнения):\n", titanic_df_filled.isna().sum())

PassengerId    False
Survived       False
Pclass         False
Name           False
Sex            False
Age            False
SibSp          False
Parch          False
Ticket         False
Fare           False
Cabin          False
Embarked       False
dtype: bool

Значения NaN для каждого столбца (после заполнения):
 PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64


Удаление строк с NaN

In [18]:
titanic_df = pd.read_csv('titanic.csv')
titanic_df_dropna = titanic_df.dropna()

print("Форма исходного фрейма данных:", titanic_df.shape)
print("Форма фрейма данных после удаления NaN:", titanic_df_dropna.shape)
print("\nЗначения NaN для каждого столбца (после удаления):\n", titanic_df_dropna.isna().sum())


Форма исходного фрейма данных: (891, 12)
Форма фрейма данных после удаления NaN: (183, 12)

Значения NaN для каждого столбца (после удаления):
 PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64


## Часть 3: Обработка DataFrame
### Выбор данных
Pandas позволяет выбирать данные по индексам, меткам столбцов и условиям.

In [19]:
titanic_df = pd.read_csv('titanic.csv')

age_column = titanic_df['Age']
print("Age column:\n", age_column.head())

selected_columns = titanic_df[['Name', 'Age', 'Sex']]
print("\nSelected columns:\n", selected_columns.head())

row_5 = titanic_df.loc[5]
print("\nRow with index 5:\n", row_5)

rows_2_to_5 = titanic_df.loc[2:5]
print("\nRows from index 2 to 5:\n", rows_2_to_5)

men_over_30 = titanic_df[(titanic_df['Sex'] == 'male') & (titanic_df['Age'] > 30)]
print("\nMen over 30:\n", men_over_30.head())

Age column:
 0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

Selected columns:
                                                 Name   Age     Sex
0                            Braund, Mr. Owen Harris  22.0    male
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  38.0  female
2                             Heikkinen, Miss. Laina  26.0  female
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  35.0  female
4                           Allen, Mr. William Henry  35.0    male

Row with index 5:
 PassengerId                   6
Survived                      0
Pclass                        3
Name           Moran, Mr. James
Sex                        male
Age                         NaN
SibSp                         0
Parch                         0
Ticket                   330877
Fare                     8.4583
Cabin                       NaN
Embarked                      Q
Name: 5, dtype: object

Rows from index 2 to 5:
    PassengerId  Survived  Pclass  \


### Сортировка данных
Сортировка данных по значениям столбцов.

In [20]:
titanic_df = pd.read_csv('titanic.csv')


titanic_df_sorted_age = titanic_df.sort_values(by='Age')
print("Sorted by Age (ascending):\n", titanic_df_sorted_age.head())

titanic_df_sorted_age_desc = titanic_df.sort_values(by='Age', ascending=False)
print("\nSorted by Age (descending):\n", titanic_df_sorted_age_desc.head())

titanic_df_sorted_multiple = titanic_df.sort_values(by=['Sex', 'Age'])
print("\nSorted by Sex and Age:\n", titanic_df_sorted_multiple.head())


Sorted by Age (ascending):
      PassengerId  Survived  Pclass                             Name     Sex  \
803          804         1       3  Thomas, Master. Assad Alexander    male   
755          756         1       2        Hamalainen, Master. Viljo    male   
644          645         1       3           Baclini, Miss. Eugenie  female   
469          470         1       3    Baclini, Miss. Helene Barbara  female   
78            79         1       2    Caldwell, Master. Alden Gates    male   

      Age  SibSp  Parch  Ticket     Fare Cabin Embarked  
803  0.42      0      1    2625   8.5167   NaN        C  
755  0.67      1      1  250649  14.5000   NaN        S  
644  0.75      2      1    2666  19.2583   NaN        C  
469  0.75      2      1    2666  19.2583   NaN        C  
78   0.83      0      2  248738  29.0000   NaN        S  

Sorted by Age (descending):
      PassengerId  Survived  Pclass                                  Name  \
630          631         1       1  Barkwor

### Группировка данных
Pandas также позволяет группировать данные и выполнять агрегирующие операции.

In [21]:
titanic_df = pd.read_csv('titanic.csv')

survival_rate_by_pclass = titanic_df.groupby('Pclass')['Survived'].mean()
print("Survival rate by Pclass:\n", survival_rate_by_pclass)


Survival rate by Pclass:
 Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64


## Часть 4: Задания для практики
Прочитайте данные из файла 'titanic.csv'.
Проверьте, есть ли пропущенные значения в данных и заполните их нулями.
Выведите первые 10 строк данных.
Выберите только те строки, где значение в столбце 'Age' больше 30.
Отсортируйте данные по столбцу 'Fare' в порядке убывания.
Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса.

In [22]:
titanic_df = pd.read_csv('titanic.csv')

print("NaN values before filling:\n", titanic_df.isna().sum())
titanic_df.fillna(0, inplace=True)
print("\nNaN values after filling:\n", titanic_df.isna().sum())

print("\nFirst 10 rows:\n", titanic_df.head(10))

age_over_30 = titanic_df[titanic_df['Age'] > 30]
print("\nPassengers with age over 30:\n", age_over_30.head())

titanic_df_sorted_fare = titanic_df.sort_values(by='Fare', ascending=False)
print("\nSorted by Fare (descending):\n", titanic_df_sorted_fare.head())

average_age_by_pclass = titanic_df.groupby('Pclass')['Age'].mean()
print("\nAverage age by Pclass:\n", average_age_by_pclass)


NaN values before filling:
 PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

NaN values after filling:
 PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

First 10 rows:
    PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   
5            6         0       3   
6            7         0       1   
7            8         0       3   
8            9         1       3   
9           10         1       2   

                                                Name     Sex   Age  SibS