## Часть 1: Введение в Pandas

Pandas - это библиотека Python для работы с данными. Она предоставляет мощные инструменты для анализа и манипуляции данными.

### Установка Pandas

Для начала убедитесь, что у вас установлена библиотека Pandas. Если ее нет, установите ее с помощью команды:


In [1]:
!pip install pandas

Defaulting to user installation because normal site-packages is not writeable


## Импорт библиотеки
Давайте начнем с импорта библиотеки Pandas:

In [2]:
import pandas as pd

## Часть 2: Работа с данными
### Чтение данных
Мы будем использовать датасет Titanic. Давайте прочитаем данные из CSV файла.

In [3]:
titanic_data = pd.read_csv('titanic.csv')

### Предпросмотр данных
Для первого ознакомления с данными давайте выведем первые несколько строк.

In [4]:
titanic_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Информация о данных
Чтобы получить общую информацию о данных, воспользуйтесь методом .info().

In [5]:
titanic_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### Работа с NaN
Часто данные содержат пропущенные значения, которые представляются как NaN (Not a Number). Pandas предоставляет удобные методы для работы с ними.

Проверка на наличие NaN. Методы fillna и dropna возвращают новые Dataframe, проверьте нет ли в них NaN

In [6]:
nan_check = titanic_data.isna()

Заполнение NaN

In [7]:
# Заполнение NaN определенным значением (например, нулем)
# Используйте метод .fillna()
# write your code here
filled_data = titanic_data.fillna(0)

Удаление строк с NaN

In [8]:
# Удаление строк, содержащих NaN
# Используйте метод .dropna()
cleaned_data = titanic_data.dropna()

## Часть 3: Обработка DataFrame
### Выбор данных
Pandas позволяет выбирать данные по индексам, меткам столбцов и условиям.

In [16]:
import pandas as pd

file = pd.read_csv('titanic.csv')

age = file['Age']
print("Возраст пассажиров:")
print(age)

select = file[['Name', 'Age']]
print("\nИмя и возраст пассажиров:")
print(select)

row = file.loc[10]
print("\nСтрока с индексом 10:")
print(row)

men_za_30 = file[(file['Sex'] == 'male') & (file['Age'] > 30)]
print("\nМужчины старше 30 лет:")
print(men_za_30)


Возраст пассажиров:
0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64

Имя и возраст пассажиров:
                                                  Name   Age
0                              Braund, Mr. Owen Harris  22.0
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  38.0
2                               Heikkinen, Miss. Laina  26.0
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  35.0
4                             Allen, Mr. William Henry  35.0
..                                                 ...   ...
886                              Montvila, Rev. Juozas  27.0
887                       Graham, Miss. Margaret Edith  19.0
888           Johnston, Miss. Catherine Helen "Carrie"   NaN
889                              Behr, Mr. Karl Howell  26.0
890                                Dooley, Mr. Patrick  32.0

[891 rows x 2 columns]

Строка с индексом 10:
Pas

### Сортировка данных
Сортировка данных по значениям столбцов.

In [15]:
file = pd.read_csv('titanic.csv')
print(file.sort_values(by='Age'))

     PassengerId  Survived  Pclass                                      Name  \
803          804         1       3           Thomas, Master. Assad Alexander   
755          756         1       2                 Hamalainen, Master. Viljo   
644          645         1       3                    Baclini, Miss. Eugenie   
469          470         1       3             Baclini, Miss. Helene Barbara   
78            79         1       2             Caldwell, Master. Alden Gates   
..           ...       ...     ...                                       ...   
859          860         0       3                          Razi, Mr. Raihed   
863          864         0       3         Sage, Miss. Dorothy Edith "Dolly"   
868          869         0       3               van Melkebeke, Mr. Philemon   
878          879         0       3                        Laleff, Mr. Kristo   
888          889         0       3  Johnston, Miss. Catherine Helen "Carrie"   

        Sex   Age  SibSp  Parch      Ti

### Группировка данных
Pandas также позволяет группировать данные и выполнять агрегирующие операции.

In [17]:
import pandas as pd

file = pd.read_csv('titanic.csv')

survival_rate = file.groupby('Pclass')['Survived'].mean()

print("Доля выживших среди всех PClass:")
print(survival_rate)

Доля выживших среди всех PClass:
Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64


## Часть 4: Задания для практики
Прочитайте данные из файла 'titanic.csv'.
Проверьте, есть ли пропущенные значения в данных и заполните их нулями.
Выведите первые 10 строк данных.
Выберите только те строки, где значение в столбце 'Age' больше 30.
Отсортируйте данные по столбцу 'Fare' в порядке убывания.
Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса.

In [1]:
import pandas as pd

file = pd.read_csv('titanic.csv')

print("Пропущенные значения в данных:")
print(file.isnull().sum())

file.fillna(0, inplace=True)

print("\nПервые 10 строк данных:")
print(file.head(10))

age_above_30 = file[file['Age'] > 30]
print("\nСтроки, где Age больше 30:")
print(age_above_30)

sorted_data = file.sort_values(by='Fare', ascending=False)
print("\nДанные, отсортированные по Fare (по убыванию):")
print(sorted_data)

average_age_by_class = file.groupby('Pclass')['Age'].mean()
print("\nСредний возраст (Age) для каждого класса (Pclass):")
print(average_age_by_class)

Пропущенные значения в данных:
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Первые 10 строк данных:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   
5            6         0       3   
6            7         0       1   
7            8         0       3   
8            9         1       3   
9           10         1       2   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0  