## Часть 1: Введение в Pandas

Pandas - это библиотека Python для работы с данными. Она предоставляет мощные инструменты для анализа и манипуляции данными.

### Установка Pandas

Для начала убедитесь, что у вас установлена библиотека Pandas. Если ее нет, установите ее с помощью команды:


In [1]:
!pip install pandas



## Импорт библиотеки
Давайте начнем с импорта библиотеки Pandas:

In [3]:
import pandas as pd

## Часть 2: Работа с данными
### Чтение данных
Мы будем использовать датасет Titanic. Давайте прочитаем данные из CSV файла.

In [7]:
# Чтение данных из файла 'titanic.csv'
# Используйте метод pd.read_csv()
data = pd.read_csv('titanic.csv')

### Предпросмотр данных
Для первого ознакомления с данными давайте выведем первые несколько строк.

In [8]:
# Вывод первых 5 строк данных
# Используйте метод .head()
print(data.head(5))

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  


### Информация о данных
Чтобы получить общую информацию о данных, воспользуйтесь методом .info().

In [9]:
print(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None


### Работа с NaN
Часто данные содержат пропущенные значения, которые представляются как NaN (Not a Number). Pandas предоставляет удобные методы для работы с ними.

Проверка на наличие NaN. Методы fillna и dropna возвращают новые Dataframe, проверьте нет ли в них NaN

In [19]:
print(data.isna())

     PassengerId  Survived  Pclass   Name    Sex    Age  SibSp  Parch  Ticket  \
0          False     False   False  False  False  False  False  False   False   
1          False     False   False  False  False  False  False  False   False   
2          False     False   False  False  False  False  False  False   False   
3          False     False   False  False  False  False  False  False   False   
4          False     False   False  False  False  False  False  False   False   
..           ...       ...     ...    ...    ...    ...    ...    ...     ...   
886        False     False   False  False  False  False  False  False   False   
887        False     False   False  False  False  False  False  False   False   
888        False     False   False  False  False   True  False  False   False   
889        False     False   False  False  False  False  False  False   False   
890        False     False   False  False  False  False  False  False   False   

      Fare  Cabin  Embarked

Заполнение NaN

In [20]:
filled_data = data.fillna(0)

Удаление строк с NaN

In [17]:
dropped_data = data.dropna()

## Часть 3: Обработка DataFrame
### Выбор данных
Pandas позволяет выбирать данные по индексам, меткам столбцов и условиям.

In [25]:
# выбор столбца по метке
# н-р, столбец 'Age'
age_columns = data['Age']
print("Столбец 'Age':")
print(age_columns.head())

# выбор нескольких столбцов
# н-р, столбцы 'Name' и 'Sex'
name_sex_columns = data[['Name', 'Sex']]
print("\n Столбцы 'Name' и 'Sex':")
print(name_sex_columns.head())

# выбор строк по индексу
# н-р, строки с индексами от 3 до 5 включительно
indexed_rows = data.loc[3:5]
print("\n Строки по индексам от 3 до 5:")
print(indexed_rows)

# выбор строк и столбцов по условию
# н-р, выберем мужчин старше 30
male_over_30 = data[(data['Sex'] == 'male') & (data['Age'] > 30)]
print("\n Мужчины старше 30 лет:")
print(male_over_30.head())

Столбец 'Age':
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

 Столбцы 'Name' и 'Sex':
                                                Name     Sex
0                            Braund, Mr. Owen Harris    male
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female
2                             Heikkinen, Miss. Laina  female
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female
4                           Allen, Mr. William Henry    male

 Строки по индексам от 3 до 5:
   PassengerId  Survived  Pclass  \
3            4         1       1   
4            5         0       3   
5            6         0       3   

                                           Name     Sex   Age  SibSp  Parch  \
3  Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1      0   
4                      Allen, Mr. William Henry    male  35.0      0      0   
5                              Moran, Mr. James    male   NaN      0      0   

   Ticket     Fare Cabi

### Сортировка данных
Сортировка данных по значениям столбцов.

In [39]:
sorted_data = data.sort_values(by='Age')

print(sorted_data.head())

     PassengerId  Survived  Pclass                             Name     Sex  \
803          804         1       3  Thomas, Master. Assad Alexander    male   
755          756         1       2        Hamalainen, Master. Viljo    male   
644          645         1       3           Baclini, Miss. Eugenie  female   
469          470         1       3    Baclini, Miss. Helene Barbara  female   
78            79         1       2    Caldwell, Master. Alden Gates    male   

      Age  SibSp  Parch  Ticket     Fare Cabin Embarked  
803  0.42      0      1    2625   8.5167   NaN        C  
755  0.67      1      1  250649  14.5000   NaN        S  
644  0.75      2      1    2666  19.2583   NaN        C  
469  0.75      2      1    2666  19.2583   NaN        C  
78   0.83      0      2  248738  29.0000   NaN        S  


### Группировка данных
Pandas также позволяет группировать данные и выполнять агрегирующие операции.

In [38]:
survival_rate_by_pclass = data.groupby('Pclass')['Survived'].mean()

print("Доля выживших по каждому классу:\n" )
print(survival_rate_by_pclass)

Доля выживших по каждому классу:

Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64


## Часть 4: Задания для практики
Прочитайте данные из файла 'titanic.csv'.
Проверьте, есть ли пропущенные значения в данных и заполните их нулями.
Выведите первые 10 строк данных.
Выберите только те строки, где значение в столбце 'Age' больше 30.
Отсортируйте данные по столбцу 'Fare' в порядке убывания.
Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса.

In [41]:
data.fillna(0)

print("Первые 10 строк данных:")
print(data.head(10))

age_over_30 = data[data['Age'] > 30]

sorted_data_by_fare = data.sort_values(by='Fare', ascending=False)

average_age_by_pclass = data.groupby('Pclass')['Age'].mean()

print("\n Строки, где возраст больше 30:")
print(age_over_30)

print("\n Данные, отсортированные по столбцу 'Fare' в порядке убывания:")
print(sorted_data_by_fare)

print("\n Средний возраст ('Age') для каждого класса:")
print(average_age_by_pclass)

Первые 10 строк данных:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   
5            6         0       3   
6            7         0       1   
7            8         0       3   
8            9         1       3   
9           10         1       2   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   
5                                   Moran, Mr. James    male   NaN      0   
6                            McCarthy, M