## Часть 1: Введение в Pandas

Pandas - это библиотека Python для работы с данными. Она предоставляет мощные инструменты для анализа и манипуляции данными.

### Установка Pandas

Для начала убедитесь, что у вас установлена библиотека Pandas. Если ее нет, установите ее с помощью команды:


In [1]:
!pip install pandas



## Импорт библиотеки
Давайте начнем с импорта библиотеки Pandas:

In [2]:
import pandas as pd

## Часть 2: Работа с данными
### Чтение данных
Мы будем использовать датасет Titanic. Давайте прочитаем данные из CSV файла.

In [5]:
titanic_df = pd.read_csv('/kaggle/input/titanic/Titanic.csv')

### Предпросмотр данных
Для первого ознакомления с данными давайте выведем первые несколько строк.

In [6]:
# Вывод первых 5 строк данных
# Используйте метод .head()
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Информация о данных
Чтобы получить общую информацию о данных, воспользуйтесь методом .info().

In [7]:
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### Работа с NaN
Часто данные содержат пропущенные значения, которые представляются как NaN (Not a Number). Pandas предоставляет удобные методы для работы с ними.

Проверка на наличие NaN. Методы fillna и dropna возвращают новые Dataframe, проверьте нет ли в них NaN

In [8]:
# Проверка на наличие NaN в DataFrame
# Используйте метод .isna()
titanic_df.isna()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...
886,False,False,False,False,False,False,False,False,False,False,True,False
887,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,False,False,True,False,False,False,False,True,False
889,False,False,False,False,False,False,False,False,False,False,False,False


Заполнение NaN

In [9]:
# Заполнение NaN определенным значением (например, нулем)
titanic_filled = titanic_df.fillna(0)
titanic_filled.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

Удаление строк с NaN

In [10]:
# Удаление строк, содержащих NaN
titanic_cleaned = titanic_df.dropna()
titanic_cleaned.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

## Часть 3: Обработка DataFrame
### Выбор данных
Pandas позволяет выбирать данные по индексам, меткам столбцов и условиям.

In [12]:
# Выбор столбца по метке
ages = titanic_df['Age']
print(ages.head())

# Выбор нескольких столбцов
subset = titanic_df[['Name', 'Age', 'Sex']]
print(subset.head())

# Выбор строк по индексу
first_five = titanic_df.loc[0:4]
print(first_five)

# Выбор строк и столбцов по условию
men_over_30 = titanic_df[(titanic_df['Sex'] == 'male') & (titanic_df['Age'] > 30)]
print(men_over_30.head())

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
                                                Name   Age     Sex
0                            Braund, Mr. Owen Harris  22.0    male
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  38.0  female
2                             Heikkinen, Miss. Laina  26.0  female
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  35.0  female
4                           Allen, Mr. William Henry  35.0    male
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0 

  return op(a, b)


### Сортировка данных
Сортировка данных по значениям столбцов.

In [13]:
# Сортировка данных по столбцу 'Fare' по возрастанию
sorted_by_fare = titanic_df.sort_values('Fare')
print(sorted_by_fare.head())

     PassengerId  Survived  Pclass                             Name   Sex  \
271          272         1       3     Tornquist, Mr. William Henry  male   
597          598         0       3              Johnson, Mr. Alfred  male   
302          303         0       3  Johnson, Mr. William Cahoone Jr  male   
633          634         0       1    Parr, Mr. William Henry Marsh  male   
277          278         0       2      Parkes, Mr. Francis "Frank"  male   

      Age  SibSp  Parch  Ticket  Fare Cabin Embarked  
271  25.0      0      0    LINE   0.0   NaN        S  
597  49.0      0      0    LINE   0.0   NaN        S  
302  19.0      0      0    LINE   0.0   NaN        S  
633   NaN      0      0  112052   0.0   NaN        S  
277   NaN      0      0  239853   0.0   NaN        S  


  has_large_values = (abs_vals > 1e6).any()
  has_small_values = ((abs_vals < 10 ** (-self.digits)) & (abs_vals > 0)).any()
  has_small_values = ((abs_vals < 10 ** (-self.digits)) & (abs_vals > 0)).any()


### Группировка данных
Pandas также позволяет группировать данные и выполнять агрегирующие операции.

In [14]:
# Доля выживших среди всех PClass
survival_by_class = titanic_df.groupby('Pclass')['Survived'].mean()
print(survival_by_class)

Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64


## Часть 4: Задания для практики
Прочитайте данные из файла 'titanic.csv'.
Проверьте, есть ли пропущенные значения в данных и заполните их нулями.
Выведите первые 10 строк данных.
Выберите только те строки, где значение в столбце 'Age' больше 30.
Отсортируйте данные по столбцу 'Fare' в порядке убывания.
Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса.

In [16]:
# Прочитайте данные из файла 'titanic.csv'
titanic_df1 = pd.read_csv('/kaggle/input/titanic/Titanic.csv')

# Проверьте, есть ли пропущенные значения в данных и заполните их нулями
print("Пропущенные значения до заполнения:")
print(titanic_df1.isna().sum())

titanic_filled = titanic_df1.fillna(0)
print("\nПропущенные значения после заполнения:")
print(titanic_filled.isna().sum())

# Выведите первые 10 строк данных
print("\nПервые 10 строк данных:")
print(titanic_filled.head(10))

# Выберите только те строки, где значение в столбце 'Age' больше 30
adults_over_30 = titanic_filled[titanic_filled['Age'] > 30]
print(f"\nКоличество пассажиров старше 30 лет: {len(adults_over_30)}")

# Отсортируйте данные по столбцу 'Fare' в порядке убывания
sorted_by_fare_desc = titanic_filled.sort_values('Fare', ascending=False)
print("\nТоп-5 самых дорогих билетов:")
print(sorted_by_fare_desc[['Name', 'Fare']].head())

# Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст для каждого класса
mean_age_by_class = titanic_filled.groupby('Pclass')['Age'].mean()
print("\nСредний возраст по классам:")
print(mean_age_by_class)

Пропущенные значения до заполнения:
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Пропущенные значения после заполнения:
PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

Первые 10 строк данных:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   
5            6         0       3   
6            7         0       1   
7            8         0       3   
8            9         1       3   
9           10         1       2   

                                            