## Часть 1: Введение в Pandas

Pandas - это библиотека Python для работы с данными. Она предоставляет мощные инструменты для анализа и манипуляции данными.

### Установка Pandas

Для начала убедитесь, что у вас установлена библиотека Pandas. Если ее нет, установите ее с помощью команды:


In [None]:
!pip install pandas

## Импорт библиотеки
Давайте начнем с импорта библиотеки Pandas:

In [1]:
import pandas as pd


## Часть 2: Работа с данными
### Чтение данных
Мы будем использовать датасет Titanic. Давайте прочитаем данные из CSV файла.

In [2]:
file_path = 'titanic.csv'

titanic_data = pd.read_csv(file_path)

### Предпросмотр данных
Для первого ознакомления с данными давайте выведем первые несколько строк.

In [3]:
titanic_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Информация о данных
Чтобы получить общую информацию о данных, воспользуйтесь методом .info().

In [4]:

titanic_data.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### Работа с NaN
Часто данные содержат пропущенные значения, которые представляются как NaN (Not a Number). Pandas предоставляет удобные методы для работы с ними.

Проверка на наличие NaN. Методы fillna и dropna возвращают новые Dataframe, проверьте нет ли в них NaN

In [7]:

data = {'A': [1, 2, 3, None, 5],
        'B': [None, 2, 3, 4, 5]}
df = pd.DataFrame(data)


nan_check = df.isna()


print(nan_check)

       A      B
0  False   True
1  False  False
2  False  False
3   True  False
4  False  False


Заполнение NaN

In [8]:
import pandas as pd
import numpy as np


data = {'A': [1, 2, np.nan, 4, 5],
        'B': [np.nan, 2, 3, 4, np.nan]}
df = pd.DataFrame(data)


df_filled = df.fillna(0)

print(df_filled)


     A    B
0  1.0  0.0
1  2.0  2.0
2  0.0  3.0
3  4.0  4.0
4  5.0  0.0


Удаление строк с NaN

In [9]:
import pandas as pd
import numpy as np


data = {'A': [1, 2, np.nan, 4, 5],
        'B': [np.nan, 2, 3, 4, np.nan]}
df = pd.DataFrame(data)


df_dropped = df.dropna()

print(df_dropped)


     A    B
1  2.0  2.0
3  4.0  4.0


## Часть 3: Обработка DataFrame
### Выбор данных
Pandas позволяет выбирать данные по индексам, меткам столбцов и условиям.

In [10]:
import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
        'Age': [25, 32, 28, 37, 22],
        'Gender': ['Female', 'Male', 'Male', 'Male', 'Female']}

df = pd.DataFrame(data)

name_column = df['Name']
print(name_column)

name_age_columns = df[['Name', 'Age']]
print(name_age_columns)

row = df.loc[2]
print(row)

condition = (df['Gender'] == 'Male') & (df['Age'] > 30)
males_over_30 = df.loc[condition]
print(males_over_30)


0      Alice
1        Bob
2    Charlie
3      David
4        Eve
Name: Name, dtype: object
      Name  Age
0    Alice   25
1      Bob   32
2  Charlie   28
3    David   37
4      Eve   22
Name      Charlie
Age            28
Gender       Male
Name: 2, dtype: object
    Name  Age Gender
1    Bob   32   Male
3  David   37   Male


### Сортировка данных
Сортировка данных по значениям столбцов.

In [11]:
import pandas as pd


data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
        'Age': [25, 32, 28, 37, 22]}

df = pd.DataFrame(data)


sorted_df = df.sort_values(by='Age')

print(sorted_df)


      Name  Age
4      Eve   22
0    Alice   25
2  Charlie   28
1      Bob   32
3    David   37


### Группировка данных
Pandas также позволяет группировать данные и выполнять агрегирующие операции.

In [12]:
import pandas as pd


data = {'PClass': ['1st', '2nd', '1st', '2nd', '3rd'],
        'Survived': [1, 0, 1, 1, 0]}

df = pd.DataFrame(data)


survival_rate = df.groupby('PClass')['Survived'].mean()

print(survival_rate)


PClass
1st    1.0
2nd    0.5
3rd    0.0
Name: Survived, dtype: float64


## Часть 4: Задания для практики
Прочитайте данные из файла 'titanic.csv'.
Проверьте, есть ли пропущенные значения в данных и заполните их нулями.
Выведите первые 10 строк данных.
Выберите только те строки, где значение в столбце 'Age' больше 30.
Отсортируйте данные по столбцу 'Fare' в порядке убывания.
Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса.

In [13]:
import pandas as pd

df = pd.read_csv('titanic.csv')
df.fillna(0, inplace=True)

print("Первые 10 строк данных:")
print(df.head(10))

df_age_over_30 = df[df['Age'] > 30]

df_sorted_by_fare = df.sort_values(by='Fare', ascending=False)

average_age_by_class = df.groupby('Pclass')['Age'].mean()

print("Средний возраст по классам:")
print(average_age_by_class)


Первые 10 строк данных:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   
5            6         0       3   
6            7         0       1   
7            8         0       3   
8            9         1       3   
9           10         1       2   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   
5                                   Moran, Mr. James    male   0.0      0   
6                            McCarthy, M