## Часть 1: Введение в Pandas

Pandas - это библиотека Python для работы с данными. Она предоставляет мощные инструменты для анализа и манипуляции данными.

### Установка Pandas

Для начала убедитесь, что у вас установлена библиотека Pandas. Если ее нет, установите ее с помощью команды:


In [1]:
!pip install pandas

Collecting pandas
  Downloading pandas-2.3.3-cp313-cp313-win_amd64.whl.metadata (19 kB)
Collecting numpy>=1.26.0 (from pandas)
  Downloading numpy-2.3.5-cp313-cp313-win_amd64.whl.metadata (60 kB)
Collecting tzdata>=2022.7 (from pandas)
  Using cached tzdata-2025.2-py2.py3-none-any.whl.metadata (1.4 kB)
Downloading pandas-2.3.3-cp313-cp313-win_amd64.whl (11.0 MB)
   ---------------------------------------- 0.0/11.0 MB ? eta -:--:--
   -- ------------------------------------- 0.8/11.0 MB 4.8 MB/s eta 0:00:03
   -------- ------------------------------- 2.4/11.0 MB 8.4 MB/s eta 0:00:02
   ------------------ --------------------- 5.0/11.0 MB 10.0 MB/s eta 0:00:01
   ---------------------------- ----------- 7.9/11.0 MB 10.6 MB/s eta 0:00:01
   ------------------------------------- -- 10.2/11.0 MB 10.6 MB/s eta 0:00:01
   ---------------------------------------- 11.0/11.0 MB 10.5 MB/s  0:00:01
Downloading numpy-2.3.5-cp313-cp313-win_amd64.whl (12.8 MB)
   -------------------------------------

## Импорт библиотеки
Давайте начнем с импорта библиотеки Pandas:

In [1]:
import pandas as pd

## Часть 2: Работа с данными
### Чтение данных
Мы будем использовать датасет Titanic. Давайте прочитаем данные из CSV файла.

In [14]:
df = pd.read_csv('titanic.csv')

### Предпросмотр данных
Для первого ознакомления с данными давайте выведем первые несколько строк.

In [15]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Информация о данных
Чтобы получить общую информацию о данных, воспользуйтесь методом .info().

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### Работа с NaN
Часто данные содержат пропущенные значения, которые представляются как NaN (Not a Number). Pandas предоставляет удобные методы для работы с ними.

Проверка на наличие NaN. Методы fillna и dropna возвращают новые Dataframe, проверьте нет ли в них NaN

In [16]:
nan_check = df.isna()
print("Проверка на NaN (первые 5 строк, первые 5 столбцов):")
print(nan_check.iloc[:5, :5])

nan_count = df.isna().sum()
print("\nКоличество NaN по столбцам:")
print(nan_count)

has_nan = df.isna().any().any()
print(f"\nЕсть ли NaN в данных: {has_nan}")

Проверка на NaN (первые 5 строк, первые 5 столбцов):
   PassengerId  Survived  Pclass   Name    Sex
0        False     False   False  False  False
1        False     False   False  False  False
2        False     False   False  False  False
3        False     False   False  False  False
4        False     False   False  False  False

Количество NaN по столбцам:
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Есть ли NaN в данных: True


Заполнение NaN

In [17]:
df_filled_zero = df.fillna(0)

print("Количество NaN после заполнения нулями:")
print(df_filled_zero.isna().sum().sum())

df_filled_mean = df.fillna(df.mean(numeric_only=True))

df_filled_median = df.fillna(df.median(numeric_only=True))

df_filled_ffill = df.fillna(method='ffill')

Количество NaN после заполнения нулями:
0


  df_filled_ffill = df.fillna(method='ffill')


Удаление строк с NaN

In [18]:
df_dropped = df.dropna()

print(f"Исходный размер: {df.shape}")
print(f"Размер после удаления строк с NaN: {df_dropped.shape}")
print(f"Удалено строк: {df.shape[0] - df_dropped.shape[0]}")

print(f"\nОсталось ли NaN после удаления: {df_dropped.isna().any().any()}")

df_dropped_all_nan = df.dropna(how='all')

df_dropped_specific = df.dropna(subset=['Age', 'Embarked'])

df_dropped_columns = df.dropna(axis=1)

Исходный размер: (891, 12)
Размер после удаления строк с NaN: (183, 12)
Удалено строк: 708

Осталось ли NaN после удаления: False


## Часть 3: Обработка DataFrame
### Выбор данных
Pandas позволяет выбирать данные по индексам, меткам столбцов и условиям.

In [19]:
age_column = df['Age']
print("Столбец 'Age' (первые 10 значений):")
print(age_column.head(10))

selected_columns = df[['Name', 'Age', 'Sex', 'Survived']]
print("\nНесколько столбцов (первые 5 строк):")
print(selected_columns.head())

rows_by_index = df.loc[0:4]
print("\nСтроки с индексами 0-4:")
print(rows_by_index)

rows_and_columns = df.loc[0:4, ['Name', 'Age', 'Sex']]
print("\nСтроки 0-4 и столбцы Name, Age, Sex:")
print(rows_and_columns)

men_over_30 = df[(df['Sex'] == 'male') & (df['Age'] > 30)]
print(f"\nМужчины старше 30 лет (найдено {len(men_over_30)} человек):")
print(men_over_30[['Name', 'Age', 'Sex']].head())

men_over_30_survived = df[(df['Sex'] == 'male') & (df['Age'] > 30) & (df['Survived'] == 1)]
print(f"\nМужчины старше 30 лет, которые выжили (найдено {len(men_over_30_survived)} человек):")
print(men_over_30_survived[['Name', 'Age', 'Sex', 'Survived']].head())

Столбец 'Age' (первые 10 значений):
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
5     NaN
6    54.0
7     2.0
8    27.0
9    14.0
Name: Age, dtype: float64

Несколько столбцов (первые 5 строк):
                                                Name   Age     Sex  Survived
0                            Braund, Mr. Owen Harris  22.0    male         0
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  38.0  female         1
2                             Heikkinen, Miss. Laina  26.0  female         1
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  35.0  female         1
4                           Allen, Mr. William Henry  35.0    male         0

Строки с индексами 0-4:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                  

### Сортировка данных
Сортировка данных по значениям столбцов.

In [20]:
sorted_by_age = df.sort_values('Age')
print("Данные, отсортированные по возрасту (возрастание):")
print(sorted_by_age[['Name', 'Age']].head(10))

sorted_by_age_desc = df.sort_values('Age', ascending=False)
print("\nДанные, отсортированные по возрасту (убывание):")
print(sorted_by_age_desc[['Name', 'Age']].head(10))

sorted_multiple = df.sort_values(['Pclass', 'Age'], ascending=[True, False])
print("\nДанные, отсортированные по классу (возрастание) и возрасту (убывание):")
print(sorted_multiple[['Pclass', 'Name', 'Age']].head(10))

Данные, отсортированные по возрасту (возрастание):
                                Name   Age
803  Thomas, Master. Assad Alexander  0.42
755        Hamalainen, Master. Viljo  0.67
644           Baclini, Miss. Eugenie  0.75
469    Baclini, Miss. Helene Barbara  0.75
78     Caldwell, Master. Alden Gates  0.83
831  Richards, Master. George Sibley  0.83
305   Allison, Master. Hudson Trevor  0.92
386  Goodwin, Master. Sidney Leonard  1.00
172     Johnson, Miss. Eleanor Ileen  1.00
183        Becker, Master. Richard F  1.00

Данные, отсортированные по возрасту (убывание):
                                     Name   Age
630  Barkworth, Mr. Algernon Henry Wilson  80.0
851                   Svensson, Mr. Johan  74.0
493               Artagaveytia, Mr. Ramon  71.0
96              Goldschmidt, Mr. George B  71.0
116                  Connors, Mr. Patrick  70.5
745          Crosby, Capt. Edward Gifford  70.0
672           Mitchell, Mr. Henry Michael  70.0
33                  Wheadon, Mr. Edward H  

### Группировка данных
Pandas также позволяет группировать данные и выполнять агрегирующие операции.

In [21]:
survival_by_class = df.groupby('Pclass')['Survived'].mean() * 100
print("Процент выживших по классам:")
print(survival_by_class)

detailed_stats = df.groupby('Pclass').agg({
    'Survived': ['mean', 'sum', 'count'],
    'Age': ['mean', 'median', 'min', 'max'],
    'Fare': ['mean', 'median']
})
print("\nПодробная статистика по классам:")
print(detailed_stats)

survival_by_sex_class = df.groupby(['Sex', 'Pclass'])['Survived'].mean() * 100
print("\nПроцент выживших по полу и классу:")
print(survival_by_sex_class)

survival_summary = df.groupby(['Pclass', 'Survived']).size().unstack()
survival_summary.columns = ['Погибло', 'Выжило']
survival_summary['Всего'] = survival_summary.sum(axis=1)
survival_summary['Доля выживших'] = (survival_summary['Выжило'] / survival_summary['Всего'] * 100).round(2)

print("\nСводка по выживаемости в зависимости от класса:")
print(survival_summary)

age_survival_by_class = df.groupby(['Pclass', 'Survived'])['Age'].mean().unstack()
age_survival_by_class.columns = ['Средний возраст погибших', 'Средний возраст выживших']
print("\nСредний возраст выживших и погибших по классам:")
print(age_survival_by_class)

Процент выживших по классам:
Pclass
1    62.962963
2    47.282609
3    24.236253
Name: Survived, dtype: float64

Подробная статистика по классам:
        Survived                   Age                          Fare         
            mean  sum count       mean median   min   max       mean   median
Pclass                                                                       
1       0.629630  136   216  38.233441   37.0  0.92  80.0  84.154687  60.2875
2       0.472826   87   184  29.877630   29.0  0.67  70.0  20.662183  14.2500
3       0.242363  119   491  25.140620   24.0  0.42  74.0  13.675550   8.0500

Процент выживших по полу и классу:
Sex     Pclass
female  1         96.808511
        2         92.105263
        3         50.000000
male    1         36.885246
        2         15.740741
        3         13.544669
Name: Survived, dtype: float64

Сводка по выживаемости в зависимости от класса:
        Погибло  Выжило  Всего  Доля выживших
Pclass                                   

## Часть 4: Задания для практики
Прочитайте данные из файла 'titanic.csv'.
Проверьте, есть ли пропущенные значения в данных и заполните их нулями.
Выведите первые 10 строк данных.
Выберите только те строки, где значение в столбце 'Age' больше 30.
Отсортируйте данные по столбцу 'Fare' в порядке убывания.
Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса.

In [22]:
df = pd.read_csv('titanic.csv')
print("1. Данные успешно прочитаны из файла 'titanic.csv'")
print(f"   Размер данных: {df.shape}")
print()

nan_count = df.isnull().sum()
print("2. Проверка пропущенных значений:")
for column, count in nan_count.items():
    if count > 0:
        print(f"   {column}: {count} пропущенных значений ({count/len(df)*100:.1f}%)")
print(f"   Всего пропущенных значений: {df.isnull().sum().sum()}")
print()

df_filled = df.fillna(0)
print("3. Пропущенные значения заполнены нулями")
print(f"   Проверка: осталось пропущенных значений - {df_filled.isnull().sum().sum()}")
print()

print("4. Первые 10 строк данных:")
print(df_filled.head(10))
print()

age_over_30 = df_filled[df_filled['Age'] > 30]
print(f"5. Пассажиры старше 30 лет: {len(age_over_30)} человек")
print("   Первые 5 строк:")
print(age_over_30[['Name', 'Age', 'Sex', 'Pclass']].head())
print()

sorted_by_fare_desc = df_filled.sort_values('Fare', ascending=False)
print("6. Данные отсортированы по стоимости билета (Fare) в порядке убывания")
print("   Топ-5 самых дорогих билетов:")
print(sorted_by_fare_desc[['Name', 'Pclass', 'Fare', 'Embarked']].head())
print()

average_age_by_class = df_filled.groupby('Pclass')['Age'].mean()
print("7. Средний возраст по классам:")
for pclass, avg_age in average_age_by_class.items():
    print(f"   Класс {pclass}: средний возраст = {avg_age:.1f} лет")

detailed_age_stats = df_filled.groupby('Pclass')['Age'].agg(['mean', 'median', 'min', 'max', 'count'])
print("\n   Подробная статистика по возрасту:")
print(detailed_age_stats)

1. Данные успешно прочитаны из файла 'titanic.csv'
   Размер данных: (891, 12)

2. Проверка пропущенных значений:
   Age: 177 пропущенных значений (19.9%)
   Cabin: 687 пропущенных значений (77.1%)
   Embarked: 2 пропущенных значений (0.2%)
   Всего пропущенных значений: 866

3. Пропущенные значения заполнены нулями
   Проверка: осталось пропущенных значений - 0

4. Первые 10 строк данных:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   
5            6         0       3   
6            7         0       1   
7            8         0       3   
8            9         1       3   
9           10         1       2   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  fe