## Часть 1: Введение в Pandas

Pandas - это библиотека Python для работы с данными. Она предоставляет мощные инструменты для анализа и манипуляции данными.

### Установка Pandas

Для начала убедитесь, что у вас установлена библиотека Pandas. Если ее нет, установите ее с помощью команды:


In [None]:
!pip install pandas

## Импорт библиотеки
Давайте начнем с импорта библиотеки Pandas:

In [1]:
import pandas as pd

## Часть 2: Работа с данными
### Чтение данных
Мы будем использовать датасет Titanic. Давайте прочитаем данные из CSV файла.

In [2]:
# Чтение данных из файла 'titanic.csv'
# Используйте метод pd.read_csv()
# write your code here

with open('titanic.csv', 'r', encoding='utf-8-sig') as file:
    reader = pd.read_csv(file)
    print(reader)

     PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex   Age  SibSp  \
0                              Braund, Mr. Owen Harris    male  22.0      1   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                               Heikkinen, Miss. Laina  female  26.0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                             Allen, Mr. William Henry    male  35.0      0   
..                                                 ...     ...   ... 

### Предпросмотр данных
Для первого ознакомления с данными давайте выведем первые несколько строк.

In [8]:
# Вывод первых 5 строк данных
# Используйте метод .head()
# write your code here

with open('titanic.csv', 'r', encoding='utf-8-sig') as file:
    reader = pd.read_csv(file)
    print(reader.head(n=5))

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  


### Информация о данных
Чтобы получить общую информацию о данных, воспользуйтесь методом .info().

In [9]:
with open('titanic.csv', 'r', encoding='utf-8-sig') as file:
    reader = pd.read_csv(file)
    print(reader.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None


### Работа с NaN
Часто данные содержат пропущенные значения, которые представляются как NaN (Not a Number). Pandas предоставляет удобные методы для работы с ними.

Проверка на наличие NaN. Методы fillna и dropna возвращают новые Dataframe, проверьте нет ли в них NaN

In [14]:
# Проверка на наличие NaN в DataFrame
# Используйте метод .isna()
# write your code here

with open('titanic.csv', 'r', encoding='utf-8-sig') as file:
    reader = pd.read_csv(file)
    print(reader[reader.isna().any(axis=1)])

     PassengerId  Survived  Pclass                                      Name  \
0              1         0       3                   Braund, Mr. Owen Harris   
2              3         1       3                    Heikkinen, Miss. Laina   
4              5         0       3                  Allen, Mr. William Henry   
5              6         0       3                          Moran, Mr. James   
7              8         0       3            Palsson, Master. Gosta Leonard   
..           ...       ...     ...                                       ...   
884          885         0       3                    Sutehall, Mr. Henry Jr   
885          886         0       3      Rice, Mrs. William (Margaret Norton)   
886          887         0       2                     Montvila, Rev. Juozas   
888          889         0       3  Johnston, Miss. Catherine Helen "Carrie"   
890          891         0       3                       Dooley, Mr. Patrick   

        Sex   Age  SibSp  Parch        

Заполнение NaN

In [16]:
# Заполнение NaN определенным значением (например, нулем)
# Используйте метод .fillna()
# write your code here

with open('titanic.csv', 'r', encoding='utf-8-sig') as file:
    reader = pd.read_csv(file)
    missing = reader[reader.isna().any(axis=1)]
    print(missing.fillna('был Nan')) 

     PassengerId  Survived  Pclass                                      Name  \
0              1         0       3                   Braund, Mr. Owen Harris   
2              3         1       3                    Heikkinen, Miss. Laina   
4              5         0       3                  Allen, Mr. William Henry   
5              6         0       3                          Moran, Mr. James   
7              8         0       3            Palsson, Master. Gosta Leonard   
..           ...       ...     ...                                       ...   
884          885         0       3                    Sutehall, Mr. Henry Jr   
885          886         0       3      Rice, Mrs. William (Margaret Norton)   
886          887         0       2                     Montvila, Rev. Juozas   
888          889         0       3  Johnston, Miss. Catherine Helen "Carrie"   
890          891         0       3                       Dooley, Mr. Patrick   

        Sex      Age  SibSp  Parch     

Удаление строк с NaN

In [18]:
# Удаление строк, содержащих NaN
# Используйте метод .dropna()
# write your code here
with open('titanic.csv', 'r', encoding='utf-8-sig') as file:
    reader = pd.read_csv(file)
    print("Количество строк до удаления NaN:", len(reader))
    clean_reader = reader.dropna()
    print("Количество строк после удаления NaN:", len(clean_reader))

Количество строк до удаления NaN: 891
Количество строк после удаления NaN: 183


## Часть 3: Обработка DataFrame
### Выбор данных
Pandas позволяет выбирать данные по индексам, меткам столбцов и условиям.

In [23]:
with open('titanic.csv', 'r', encoding='utf-8-sig') as file:
    reader = pd.read_csv(file)

# Выбор столбца по метке
# Используйте синтаксис DataFrame['название_столбца']
# write your code here
    print(reader['Name'].head(n=2))
    print()

# Выбор нескольких столбцов
# Используйте синтаксис DataFrame[['столбец_1', 'столбец_2']]
# write your code here
    print(reader[['PassengerId', 'Name']].head(n=2))
    print()

# Выбор строк по индексу
# Используйте метод .loc[]
# write your code here
    print(reader.loc[2])
    print()
# Выбор строк и столбцов по условию
# Используя логические операции, выберите мужчин старше 30
# write your code here
    print(reader[(reader['Sex'] == 'male') & (reader['Age'] > 30)])


0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
Name: Name, dtype: object

   PassengerId                                               Name
0            1                            Braund, Mr. Owen Harris
1            2  Cumings, Mrs. John Bradley (Florence Briggs Th...

PassengerId                         3
Survived                            1
Pclass                              3
Name           Heikkinen, Miss. Laina
Sex                            female
Age                              26.0
SibSp                               0
Parch                               0
Ticket               STON/O2. 3101282
Fare                            7.925
Cabin                             NaN
Embarked                            S
Name: 2, dtype: object

     PassengerId  Survived  Pclass                                  Name  \
4              5         0       3              Allen, Mr. William Henry   
6              7         0      

### Сортировка данных
Сортировка данных по значениям столбцов.

In [26]:
# Сортировка данных по столбцу 'столбец_1' по возрастанию
# Используйте метод .sort_values()
# write your code here

with open('titanic.csv', 'r', encoding='utf-8-sig') as file:
    reader = pd.read_csv(file)
    print(reader.sort_values('Age')[['Name', 'Age']])

                                         Name   Age
803           Thomas, Master. Assad Alexander  0.42
755                 Hamalainen, Master. Viljo  0.67
644                    Baclini, Miss. Eugenie  0.75
469             Baclini, Miss. Helene Barbara  0.75
78              Caldwell, Master. Alden Gates  0.83
..                                        ...   ...
859                          Razi, Mr. Raihed   NaN
863         Sage, Miss. Dorothy Edith "Dolly"   NaN
868               van Melkebeke, Mr. Philemon   NaN
878                        Laleff, Mr. Kristo   NaN
888  Johnston, Miss. Catherine Helen "Carrie"   NaN

[891 rows x 2 columns]


### Группировка данных
Pandas также позволяет группировать данные и выполнять агрегирующие операции.

In [29]:
# Найдите долю выживших среди всех PClass
# Используйте метод .groupby()
# write your code here

with open('titanic.csv', 'r', encoding='utf-8-sig') as file:
    reader = pd.read_csv(file)
    print(reader.groupby('Pclass')['Survived'].mean())


Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64


## Часть 4: Задания для практики
Прочитайте данные из файла 'titanic.csv'.
Проверьте, есть ли пропущенные значения в данных и заполните их нулями.
Выведите первые 10 строк данных.
Выберите только те строки, где значение в столбце 'Age' больше 30.
Отсортируйте данные по столбцу 'Fare' в порядке убывания.
Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса.

In [35]:
with open('titanic.csv', 'r', encoding='utf-8-sig') as file:
    reader = pd.read_csv(file)
    print('Строк с Nan: ',len(reader[reader.isna().any(axis=1)]))

    reader = reader.fillna(0)
    print('Длина после замены Nan: ',len(reader))

    print('Первые 10 строк:')
    print(reader.head(n=5))

    print('Строки с Age > 30')
    print(reader[reader['Age'] > 30])

    print('Строки в порядке убыания по Fare')
    print(reader.sort_values('Fare'))

    print('Lанные по столбцу "Pclass" и вычислил средний возраст ("Age") для каждого класса')
    print(reader.groupby('Pclass')['Age'].mean())



Строк с Nan:  708
Длина после замены Nan:  891
Первые 10 строк:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500     0        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250     0        S  
3      0            113803  53.1000  C123   