## Часть 1: Введение в Pandas

Pandas - это библиотека Python для работы с данными. Она предоставляет мощные инструменты для анализа и манипуляции данными.

### Установка Pandas

Для начала убедитесь, что у вас установлена библиотека Pandas. Если ее нет, установите ее с помощью команды:


In [2]:
%pip install pandas numpy matplotlib seaborn

Collecting pandas
  Downloading pandas-2.3.3-cp312-cp312-win_amd64.whl.metadata (19 kB)
Collecting numpy
  Downloading numpy-2.3.4-cp312-cp312-win_amd64.whl.metadata (60 kB)
Collecting matplotlib
  Downloading matplotlib-3.10.7-cp312-cp312-win_amd64.whl.metadata (11 kB)
Collecting seaborn
  Downloading seaborn-0.13.2-py3-none-any.whl.metadata (5.4 kB)
Collecting pytz>=2020.1 (from pandas)
  Downloading pytz-2025.2-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Downloading tzdata-2025.2-py2.py3-none-any.whl.metadata (1.4 kB)
Collecting contourpy>=1.0.1 (from matplotlib)
  Downloading contourpy-1.3.3-cp312-cp312-win_amd64.whl.metadata (5.5 kB)
Collecting cycler>=0.10 (from matplotlib)
  Downloading cycler-0.12.1-py3-none-any.whl.metadata (3.8 kB)
Collecting fonttools>=4.22.0 (from matplotlib)
  Downloading fonttools-4.60.1-cp312-cp312-win_amd64.whl.metadata (114 kB)
Collecting kiwisolver>=1.3.1 (from matplotlib)
  Downloading kiwisolver-1.4.9-cp312-cp312-

## Импорт библиотеки
Давайте начнем с импорта библиотеки Pandas:

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
print("Все библиотеки успешно импортированы!")

Все библиотеки успешно импортированы!


## Часть 2: Работа с данными
### Чтение данных
Мы будем использовать датасет Titanic. Давайте прочитаем данные из CSV файла.

In [4]:
# Чтение данных из файла 'titanic.csv'
data = pd.read_csv('titanic.csv')
print("Данные успешно загружены!")
print(f"Размер данных: {data.shape}")

Данные успешно загружены!
Размер данных: (891, 12)


### Предпросмотр данных
Для первого ознакомления с данными давайте выведем первые несколько строк.

In [5]:
# Вывод первых 5 строк данных
print("Первые 5 строк данных:")
print(data.head())

Первые 5 строк данных:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0

### Информация о данных
Чтобы получить общую информацию о данных, воспользуйтесь методом .info().

In [None]:
# Общая информация о данных
print("Информация о данных:")
data.info()

Информация о данных:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### Работа с NaN
Часто данные содержат пропущенные значения, которые представляются как NaN (Not a Number). Pandas предоставляет удобные методы для работы с ними.

Проверка на наличие NaN. Методы fillna и dropna возвращают новые Dataframe, проверьте нет ли в них NaN

In [15]:
# Проверка на наличие NaN в DataFrame
print("Пропущенные значения по столбцам:")
print(data.isna().sum())

Пропущенные значения по столбцам:
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


Заполнение NaN

In [16]:
# Заполнение NaN определенным значением (например, нулем)
data_filled = data.fillna(0)
print("После заполнения нулями:")
print(data_filled.isna().sum())

После заполнения нулями:
PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64


Удаление строк с NaN

In [17]:
# Удаление строк, содержащих NaN
data_dropped = data.dropna()
print(f"Исходный размер: {len(data)}")
print(f"После удаления NaN: {len(data_dropped)}")

Исходный размер: 891
После удаления NaN: 183


## Часть 3: Обработка DataFrame
### Выбор данных
Pandas позволяет выбирать данные по индексам, меткам столбцов и условиям.

In [18]:
# выбор столбца по метке
age_column = data['Age']
print("Столбец Age (первые 5 значений):")
print(age_column.head())

# выбор нескольких столбцов
selected_columns = data[['Name', 'Age', 'Sex']]
print("Выбранные столбцы (первые 5 строк):")
print(selected_columns.head())

# выбор строк по индексу
first_five_rows = data.loc[0:4]
print("Первые 5 строк:")
print(first_five_rows)

# выбор строк по условию (мужчины старше 30)
men_over_30 = data[(data['Sex'] == 'male') & (data['Age'] > 30)]
print(f"Мужчин старше 30 лет: {len(men_over_30)}")
print("Примеры:")
print(men_over_30[['Name', 'Age']].head())


Столбец Age (первые 5 значений):
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
Выбранные столбцы (первые 5 строк):
                                                Name   Age     Sex
0                            Braund, Mr. Owen Harris  22.0    male
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  38.0  female
2                             Heikkinen, Miss. Laina  26.0  female
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  35.0  female
4                           Allen, Mr. William Henry  35.0    male
Первые 5 строк:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0

### Сортировка данных
Сортировка данных по значениям столбцов.

In [22]:
# Сортировка данных по столбцу 'Fare' по возрастанию
sorted_data = data.sort_values('Fare')
print("5 самых дешевых билетов:")
print(sorted_data[['Name', 'Fare']].head(50))

5 самых дешевых билетов:
                                 Name    Fare
815                  Fry, Mr. Richard  0.0000
806            Andrews, Mr. Thomas Jr  0.0000
413    Cunningham, Mr. Alfred Fleming  0.0000
481  Frost, Mr. Anthony Wood "Archie"  0.0000
302   Johnson, Mr. William Cahoone Jr  0.0000
271      Tornquist, Mr. William Henry  0.0000
277       Parkes, Mr. Francis "Frank"  0.0000
822   Reuchlin, Jonkheer. John George  0.0000
263             Harrison, Mr. William  0.0000
466             Campbell, Mr. William  0.0000
597               Johnson, Mr. Alfred  0.0000
179               Leonard, Mr. Lionel  0.0000
674        Watson, Mr. Ennis Hastings  0.0000
732              Knight, Mr. Robert J  0.0000
633     Parr, Mr. William Henry Marsh  0.0000
378               Betros, Mr. Tannous  4.0125
872          Carlsson, Mr. Frans Olof  5.0000
326         Nysveen, Mr. Johan Hansen  6.2375
843        Lemberopolous, Mr. Peter L  6.4375
818  Holm, Mr. John Fredrik Alexander  6.4500
202      

### Группировка данных
Pandas также позволяет группировать данные и выполнять агрегирующие операции.

In [23]:
# Найдите долю выживших среди всех PClass
survival_rate = data.groupby('Pclass')['Survived'].mean()
print("Доля выживших по классам:")
print(survival_rate)

Доля выживших по классам:
Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64


## Часть 4: Задания для практики
Прочитайте данные из файла 'titanic.csv'.
Проверьте, есть ли пропущенные значения в данных и заполните их нулями.
Выведите первые 10 строк данных.
Выберите только те строки, где значение в столбце 'Age' больше 30.
Отсортируйте данные по столбцу 'Fare' в порядке убывания.
Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса.

In [27]:
# 1. данные из файла titanic
titanic_data = pd.read_csv('titanic.csv')
print("1 - данные загружены")

# 2. проверка пропущенных значений и заполнение их нулями
print("\n2. Пропущенные значения:")
print(titanic_data.isna().sum())
titanic_data_filled = titanic_data.fillna(0)
print("После заполнения нулями:")
print(titanic_data_filled.isna().sum())

# 3. вывод первых 10 строк данных
print("\n3. Первые 10 строк:")
print(titanic_data_filled.head(10))


1 - данные загружены

2. Пропущенные значения:
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64
После заполнения нулями:
PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

3. Первые 10 строк:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   
5            6         0       3   
6            7         0       1   
7            8         0       3   
8            9         1       3   
9           10         1       2   

                                                Name

In [26]:
# 4. строка где age > 30
age_over_30 = titanic_data_filled[titanic_data_filled['Age'] > 30]
print(f"\n4. Пассажиров старше 30 лет: {len(age_over_30)}")

# 5. сорт Fare в порядке убывания
sorted_by_fare = titanic_data_filled.sort_values('Fare', ascending=False)
print("\n5. Топ-5 самых дорогих билетов:")
print(sorted_by_fare[['Name', 'Fare']].head())

# 6. группировка Pclass и вычисление среднего возраста
mean_age = titanic_data_filled.groupby('Pclass')['Age'].mean()
print("\n6. Средний возраст по классам:")
print(mean_age)


4. Пассажиров старше 30 лет: 305

5. Топ-5 самых дорогих билетов:
                                   Name      Fare
679  Cardeza, Mr. Thomas Drake Martinez  512.3292
258                    Ward, Miss. Anna  512.3292
737              Lesurer, Mr. Gustave J  512.3292
88           Fortune, Miss. Mabel Helen  263.0000
438                   Fortune, Mr. Mark  263.0000

6. Средний возраст по классам:
Pclass
1    32.923241
2    28.091467
3    18.177026
Name: Age, dtype: float64
