## Часть 1: Введение в Pandas

Pandas - это библиотека Python для работы с данными. Она предоставляет мощные инструменты для анализа и манипуляции данными.

### Установка Pandas

Для начала убедитесь, что у вас установлена библиотека Pandas. Если ее нет, установите ее с помощью команды:


In [None]:
!pip install pandas

## Импорт библиотеки
Давайте начнем с импорта библиотеки Pandas:

In [1]:
import pandas as pd

## Часть 2: Работа с данными
### Чтение данных
Мы будем использовать датасет Titanic. Давайте прочитаем данные из CSV файла.

In [None]:
# Чтение данных из файла 'titanic.csv'
# Используйте метод pd.read_csv()
# write your code here
per = pd.read_csv('titanic.csv')
print(per)

In [None]:
     PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0              1         0       3  ...   7.2500   NaN         S
1              2         1       1  ...  71.2833   C85         C
2              3         1       3  ...   7.9250   NaN         S
3              4         1       1  ...  53.1000  C123         S
4              5         0       3  ...   8.0500   NaN         S
..           ...       ...     ...  ...      ...   ...       ...
886          887         0       2  ...  13.0000   NaN         S
887          888         1       1  ...  30.0000   B42         S
888          889         0       3  ...  23.4500   NaN         S
889          890         1       1  ...  30.0000  C148         C
890          891         0       3  ...   7.7500   NaN         Q

### Предпросмотр данных
Для первого ознакомления с данными давайте выведем первые несколько строк.

In [None]:
# Вывод первых 5 строк данных
# Используйте метод .head()
# write your code here
per = pd.read_csv('titanic.csv')
print(per.head())

In [None]:
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

### Информация о данных
Чтобы получить общую информацию о данных, воспользуйтесь методом .info().

In [None]:
per = pd.read_csv('titanic.csv')
print(per.info())

In [None]:
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype
---  ------       --------------  -----
 0   PassengerId  891 non-null    int64
 1   Survived     891 non-null    int64
 2   Pclass       891 non-null    int64
 3   Name         891 non-null    object
 4   Sex          891 non-null    object
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64
 7   Parch        891 non-null    int64
 8   Ticket       891 non-null    object
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object
 11  Embarked     889 non-null    object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None

### Работа с NaN
Часто данные содержат пропущенные значения, которые представляются как NaN (Not a Number). Pandas предоставляет удобные методы для работы с ними.

Проверка на наличие NaN. Методы fillna и dropna возвращают новые Dataframe, проверьте нет ли в них NaN

In [2]:
# Проверка на наличие NaN в DataFrame
# Используйте метод .isna()
# write your code here
per = pd.read_csv('titanic.csv')
print(per.isna().sum())

In [None]:
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Заполнение NaN

In [None]:
# Заполнение NaN определенным значением (например, нулем)
# Используйте метод .fillna()
# write your code here
per = pd.read_csv('titanic.csv')
print(per.fillna(0).head())

In [None]:
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500     0         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250     0         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500     0         S

Удаление строк с NaN

In [3]:
per = pd.read_csv('titanic.csv')
print(per.dropna().head())

In [None]:
    PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
1             2         1       1  ...  71.2833   C85         C
3             4         1       1  ...  53.1000  C123         S
6             7         0       1  ...  51.8625   E46         S
10           11         1       3  ...  16.7000    G6         S
11           12         1       1  ...  26.5500  C103         S

## Часть 3: Обработка DataFrame
### Выбор данных
Pandas позволяет выбирать данные по индексам, меткам столбцов и условиям.

In [4]:
# Выбор столбца по метке
# Используйте синтаксис DataFrame['название_столбца']
# write your code here

# Выбор нескольких столбцов
# Используйте синтаксис DataFrame[['столбец_1', 'столбец_2']]
# write your code here

# Выбор строк по индексу
# Используйте метод .loc[]
# write your code here

# Выбор строк и столбцов по условию
# Используя логические операции, выберите мужчин старше 30
# write your code here
import pandas as pd
per = pd.read_csv('titanic.csv')
age = per['Age']
select = per[['Name', 'Age']]
row = per.loc[10]
men_over_30 = per[(per['Sex'] == 'male') & (per['Age']>30)]
print(men_over_30)

In [None]:
     PassengerId  Survived  Pclass  ...     Fare        Cabin  Embarked
4              5         0       3  ...   8.0500          NaN         S       
6              7         0       1  ...  51.8625          E46         S       
13            14         0       3  ...  31.2750          NaN         S       
20            21         0       2  ...  26.0000          NaN         S       
21            22         1       2  ...  13.0000          D56         S       
..           ...       ...     ...  ...      ...          ...       ...       
867          868         0       1  ...  50.4958          A24         S       
872          873         0       1  ...   5.0000  B51 B53 B55         S       
873          874         0       3  ...   9.0000          NaN         S       
881          882         0       3  ...   7.8958          NaN         S       
890          891         0       3  ...   7.7500          NaN         Q  

### Сортировка данных
Сортировка данных по значениям столбцов.

In [5]:
# Сортировка данных по столбцу 'столбец_1' по возрастанию
# Используйте метод .sort_values()
# write your code here
per = pd.read_csv('titanic.csv')
print(per.sort_values(by='Age'))

In [None]:
     PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
803          804         1       3  ...   8.5167   NaN         C
755          756         1       2  ...  14.5000   NaN         S
644          645         1       3  ...  19.2583   NaN         C
469          470         1       3  ...  19.2583   NaN         C
78            79         1       2  ...  29.0000   NaN         S
..           ...       ...     ...  ...      ...   ...       ...
859          860         0       3  ...   7.2292   NaN         C
863          864         0       3  ...  69.5500   NaN         S
868          869         0       3  ...   9.5000   NaN         S
878          879         0       3  ...   7.8958   NaN         S
888          889         0       3  ...  23.4500   NaN         S

### Группировка данных
Pandas также позволяет группировать данные и выполнять агрегирующие операции.

In [6]:
# Найдите долю выживших среди всех PClass
# Используйте метод .groupby()
# write your code here
per = pd.read_csv('titanic.csv')
print(per.groupby('Pclass')['Survived'].mean())

In [None]:
Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64

## Часть 4: Задания для практики
Прочитайте данные из файла 'titanic.csv'.
Проверьте, есть ли пропущенные значения в данных и заполните их нулями.
Выведите первые 10 строк данных.
Выберите только те строки, где значение в столбце 'Age' больше 30.
Отсортируйте данные по столбцу 'Fare' в порядке убывания.
Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса.

In [None]:
import pandas as pd

per = pd.read_csv('titanic.csv')
data = per.fillna(0)
print("Первые 10 строк данных:")
print(data.head(10))

age_bol_30 = data[data['Age']>30]
print("\nСтроки, где Age больше 30:")
print(age_bol_30)

sorted_fare = data.sort_values(by='Fare', ascending=False)
print("\nДанные, отсортированные по столцу 'Fare' в порядке убывания:")
print(sorted_fare.head(8))

sr_age_by_class = data.groupby('Pclass')['Age'].mean()
print("\nСредний возраст для кад=ждого класса Pclass")
print(sr_age_by_class)

In [None]:
Первые 10 строк данных:
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500     0         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250     0         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500     0         S
5            6         0       3  ...   8.4583     0         Q
6            7         0       1  ...  51.8625   E46         S
7            8         0       3  ...  21.0750     0         S
8            9         1       3  ...  11.1333     0         S
9           10         1       2  ...  30.0708     0         C

[10 rows x 12 columns]

Строки, где Age больше 30:
     PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
1              2         1       1  ...  71.2833   C85         C
3              4         1       1  ...  53.1000  C123         S
4              5         0       3  ...   8.0500     0         S
6              7         0       1  ...  51.8625   E46         S
11            12         1       1  ...  26.5500  C103         S
..           ...       ...     ...  ...      ...   ...       ...
873          874         0       3  ...   9.0000     0         S
879          880         1       1  ...  83.1583   C50         C
881          882         0       3  ...   7.8958     0         S
885          886         0       3  ...  29.1250     0         Q
890          891         0       3  ...   7.7500     0         Q

[305 rows x 12 columns]

Данные, отсортированные по столцу 'Fare' в порядке убывания:
     PassengerId  Survived  Pclass  ...      Fare            Cabin  Embarked  
258          259         1       1  ...  512.3292                0         C  
737          738         1       1  ...  512.3292             B101         C  
679          680         1       1  ...  512.3292      B51 B53 B55         C  
88            89         1       1  ...  263.0000      C23 C25 C27         S  
27            28         0       1  ...  263.0000      C23 C25 C27         S  
341          342         1       1  ...  263.0000      C23 C25 C27         S  
438          439         0       1  ...  263.0000      C23 C25 C27         S  
311          312         1       1  ...  262.3750  B57 B59 B63 B66         C  

[8 rows x 12 columns]

Средний возраст для кад=ждого класса Pclass
Pclass
1    32.923241
2    28.091467
3    18.177026
Name: Age, dtype: float64