## Часть 1: Введение в Pandas

Pandas - это библиотека Python для работы с данными. Она предоставляет мощные инструменты для анализа и манипуляции данными.

### Установка Pandas

Для начала убедитесь, что у вас установлена библиотека Pandas. Если ее нет, установите ее с помощью команды:


In [None]:
!pip install pandas

## Импорт библиотеки
Давайте начнем с импорта библиотеки Pandas:

In [5]:
import pandas as pd

## Часть 2: Работа с данными
### Чтение данных
Мы будем использовать датасет Titanic. Давайте прочитаем данные из CSV файла.

In [8]:
df = pd.read_csv('titanic.csv')
print(df)

     PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex   Age  SibSp  \
0                              Braund, Mr. Owen Harris    male  22.0      1   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                               Heikkinen, Miss. Laina  female  26.0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                             Allen, Mr. William Henry    male  35.0      0   
..                                                 ...     ...   ... 

### Предпросмотр данных
Для первого ознакомления с данными давайте выведем первые несколько строк.

In [29]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,0,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,0,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,0,S


### Информация о данных
Чтобы получить общую информацию о данных, воспользуйтесь методом .info().

In [28]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          891 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        891 non-null    object 
 11  Embarked     891 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### Работа с NaN
Часто данные содержат пропущенные значения, которые представляются как NaN (Not a Number). Pandas предоставляет удобные методы для работы с ними.

Проверка на наличие NaN. Методы fillna и dropna возвращают новые Dataframe, проверьте нет ли в них NaN

In [27]:
df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

Заполнение NaN

In [26]:
df.fillna(0, inplace=True)
df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

Удаление строк с NaN

In [25]:
# Удаление строк, содержащих NaN
df_dropped = df.dropna()
df_dropped.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

## Часть 3: Обработка DataFrame
### Выбор данных
Pandas позволяет выбирать данные по индексам, меткам столбцов и условиям.

In [30]:
# Выбор столбца по метке
age_column = df['Age']
print(age_column)
print('-'*75)

# Выбор нескольких столбцов
selected_columns = df[['Name', 'Age', 'Sex']]
print(selected_columns)
print('-'*75)

# Выбор строк по индексу
first_row = df.loc[0]
print(first_row)
print('-'*75)

# Выбор строк и столбцов по условию (мужчины старше 30)
men_over_30 = df[(df['Sex'] == 'male') & (df['Age'] > 30)]
print(men_over_30)

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     0.0
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64
---------------------------------------------------------------------------
                                                  Name   Age     Sex
0                              Braund, Mr. Owen Harris  22.0    male
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  38.0  female
2                               Heikkinen, Miss. Laina  26.0  female
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  35.0  female
4                             Allen, Mr. William Henry  35.0    male
..                                                 ...   ...     ...
886                              Montvila, Rev. Juozas  27.0    male
887                       Graham, Miss. Margaret Edith  19.0  female
888           Johnston, Miss. Catherine Helen "Carrie"   0.0  female
889                              Behr, Mr. Karl Howell  26.0   

### Сортировка данных
Сортировка данных по значениям столбцов.

In [23]:
# Сортировка данных по столбцу 'Age' по возрастанию
df_sorted = df.sort_values('Age')
df_sorted

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
863,864,0,3,"Sage, Miss. Dorothy Edith ""Dolly""",female,0.0,8,2,CA. 2343,69.5500,0,S
711,712,0,1,"Klaber, Mr. Herman",male,0.0,0,0,113028,26.5500,C124,S
718,719,0,3,"McEvoy, Mr. Michael",male,0.0,0,0,36568,15.5000,0,Q
256,257,1,1,"Thorne, Mrs. Gertrude Maybelle",female,0.0,0,0,PC 17585,79.2000,0,C
727,728,1,3,"Mannion, Miss. Margareth",female,0.0,0,0,36866,7.7375,0,Q
...,...,...,...,...,...,...,...,...,...,...,...,...
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.7500,0,Q
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,0,C
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.7750,0,S


### Группировка данных
Pandas также позволяет группировать данные и выполнять агрегирующие операции.

In [31]:
# Найдите долю выживших среди всех PClass
survival_by_class = df.groupby('Pclass')['Survived'].mean()
survival_by_class

Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64

## Часть 4: Задания для практики
Прочитайте данные из файла 'titanic.csv'.
Проверьте, есть ли пропущенные значения в данных и заполните их нулями.
Выведите первые 10 строк данных.
Выберите только те строки, где значение в столбце 'Age' больше 30.
Отсортируйте данные по столбцу 'Fare' в порядке убывания.
Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса.

In [33]:
# 1. Прочитайте данные из файла 'titanic.csv'
df_practice = pd.read_csv('titanic.csv')

# 2. Проверьте, есть ли пропущенные значения в данных и заполните их нулями
print("Пропущенные значения до заполнения:")
print(df_practice.isna().sum())
df_practice_filled = df_practice.fillna(0)
print("\nПропущенные значения после заполнения:")
print(df_practice_filled.isna().sum())

# 3. Выведите первые 10 строк данных
print("\nПервые 10 строк данных:")
print(df_practice_filled.head(10))

# 4. Выберите только те строки, где значение в столбце 'Age' больше 30
age_over_30 = df_practice_filled[df_practice_filled['Age'] > 30]
print(f"\nКоличество пассажиров старше 30 лет: {len(age_over_30)}")

# 5. Отсортируйте данные по столбцу 'Fare' в порядке убывания
df_sorted_fare = df_practice_filled.sort_values('Fare', ascending=False)
print("\nПервые 5 строк после сортировки по Fare (убывание):")
print(df_sorted_fare.head())

# 6. Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса
mean_age_by_class = df_practice_filled.groupby('Pclass')['Age'].mean()
print("\nСредний возраст по классам:")
print(mean_age_by_class)

Пропущенные значения до заполнения:
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Пропущенные значения после заполнения:
PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

Первые 10 строк данных:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   
5            6         0       3   
6            7         0       1   
7            8         0       3   
8            9         1       3   
9           10         1       2   

                                            