## Часть 1: Введение в Pandas

Pandas - это библиотека Python для работы с данными. Она предоставляет мощные инструменты для анализа и манипуляции данными.

### Установка Pandas

Для начала убедитесь, что у вас установлена библиотека Pandas. Если ее нет, установите ее с помощью команды:


In [None]:
##!pip install pandas

## Импорт библиотеки
Давайте начнем с импорта библиотеки Pandas:

In [None]:
import pandas as pd

## Часть 2: Работа с данными
### Чтение данных
Мы будем использовать датасет Titanic. Давайте прочитаем данные из CSV файла.

In [14]:
df = pd.read_csv('titanic.csv')

### Предпросмотр данных
Для первого ознакомления с данными давайте выведем первые несколько строк.

In [13]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Информация о данных
Чтобы получить общую информацию о данных, воспользуйтесь методом .info().

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### Работа с NaN
Часто данные содержат пропущенные значения, которые представляются как NaN (Not a Number). Pandas предоставляет удобные методы для работы с ними.

Проверка на наличие NaN. Методы fillna и dropna возвращают новые Dataframe, проверьте нет ли в них NaN

In [16]:
df.isna()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...
886,False,False,False,False,False,False,False,False,False,False,True,False
887,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,False,False,True,False,False,False,False,True,False
889,False,False,False,False,False,False,False,False,False,False,False,False


Заполнение NaN

In [17]:
df_filled = df.fillna(0)

Удаление строк с NaN

In [18]:
df_droped = df.dropna()

## Часть 3: Обработка DataFrame
### Выбор данных
Pandas позволяет выбирать данные по индексам, меткам столбцов и условиям.

In [3]:
import pandas as pd
df = pd.read_csv('titanic.csv')

# Выбор столбца по метке
passengerId_column = df['PassengerId']
print(passengerId_column)

# Выбор нескольких столбцов
two_columns = df[['Name','Sex']]
print(two_columns)

# Выбор строк по индексу
rows = df.loc[0:11]
print(rows)

# Выбор строк и столбцов по условию
df_droped = df.dropna()
men_over_thirty = df_droped[(df_droped['Sex'] == 'male') & (df_droped['Age'] > 30)]
print(men_over_thirty)

0        1
1        2
2        3
3        4
4        5
      ... 
886    887
887    888
888    889
889    890
890    891
Name: PassengerId, Length: 891, dtype: int64
                                                  Name     Sex
0                              Braund, Mr. Owen Harris    male
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female
2                               Heikkinen, Miss. Laina  female
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female
4                             Allen, Mr. William Henry    male
..                                                 ...     ...
886                              Montvila, Rev. Juozas    male
887                       Graham, Miss. Margaret Edith  female
888           Johnston, Miss. Catherine Helen "Carrie"  female
889                              Behr, Mr. Karl Howell    male
890                                Dooley, Mr. Patrick    male

[891 rows x 2 columns]
    PassengerId  Survived  Pclass  \
0             1  

### Сортировка данных
Сортировка данных по значениям столбцов.

In [4]:
import pandas as pd
df = pd.read_csv('titanic.csv')

df_sorted = df.sort_values('Age')
print(df_sorted)

     PassengerId  Survived  Pclass                                      Name  \
803          804         1       3           Thomas, Master. Assad Alexander   
755          756         1       2                 Hamalainen, Master. Viljo   
644          645         1       3                    Baclini, Miss. Eugenie   
469          470         1       3             Baclini, Miss. Helene Barbara   
78            79         1       2             Caldwell, Master. Alden Gates   
..           ...       ...     ...                                       ...   
859          860         0       3                          Razi, Mr. Raihed   
863          864         0       3         Sage, Miss. Dorothy Edith "Dolly"   
868          869         0       3               van Melkebeke, Mr. Philemon   
878          879         0       3                        Laleff, Mr. Kristo   
888          889         0       3  Johnston, Miss. Catherine Helen "Carrie"   

        Sex   Age  SibSp  Parch      Ti

### Группировка данных
Pandas также позволяет группировать данные и выполнять агрегирующие операции.

In [9]:
import pandas as pd
df = pd.read_csv('titanic.csv')

df_survivaled = df.groupby('Pclass')['Survived']
print(df_survivaled.mean())

Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64


## Часть 4: Задания для практики
Прочитайте данные из файла 'titanic.csv'.
Проверьте, есть ли пропущенные значения в данных и заполните их нулями.
Выведите первые 10 строк данных.
Выберите только те строки, где значение в столбце 'Age' больше 30.
Отсортируйте данные по столбцу 'Fare' в порядке убывания.
Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса.

In [12]:
import pandas as pd
df = pd.read_csv('titanic.csv')

print(df.isna().sum())

df_filled = df.fillna(0)
print(df_filled.head(10))

age_over_thirty = df_filled[df_filled['Age'] > 30]
fare_sorted = df_filled.sort_values('Fare', ascending=False)
avg_age_class = df_filled.groupby('Pclass')['Age'].mean()
print(avg_age_class.head)



PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   
5            6         0       3   
6            7         0       1   
7            8         0       3   
8            9         1       3   
9           10         1       2   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  