### 3.2 Основы работы с данными: выбор данных, фильтрация, сортировка
* Приведение типов столбцов
* Выбор столбцов и строк
* Замена значений в данных
* Удаление столбцов
* Фильтрация данных по условию
* Сортировка данных по определенному столбцу
* Создание новых столбцов на основе существующих:

Задача: Оптимизировать датасет, выбрать определенные столбцы из датасета, отфильтровать строки по определенному условию и отсортировать результаты.

In [1]:
import pandas as pd
# Загрузка CSV файла в DataFrame.
def read_df():
    df = pd.read_csv('countries_dataset/countries-of-the-world.csv', encoding = 'utf-8', sep = ',')
    return df
# Создадим функцию чтения из файла, для дальнейшего использования

In [2]:
df = read_df()

In [3]:
# Посмотрим общую информацию о нашем DataFrame
df.info()

# Если конкретно информацию о столбцах, то используем:
df.dtypes

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 227 entries, 0 to 226
Data columns (total 20 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   Страна                             227 non-null    object 
 1   Регион                             227 non-null    object 
 2   Численность                        227 non-null    int64  
 3   Площадь (sq. mi.)                  227 non-null    int64  
 4   Плотность населения (per sq. mi.)  227 non-null    object 
 5   Длина побережья к общей площади    227 non-null    object 
 6   Миграция                           224 non-null    object 
 7   Детская смертность                 224 non-null    object 
 8   ВВП на душу населения              226 non-null    float64
 9   Грамотность(%)                     209 non-null    object 
 10  Телефонов (на 1000)                223 non-null    object 
 11  пахотные земли (%)                 225 non-null    object 

Страна                                object
Регион                                object
Численность                            int64
Площадь (sq. mi.)                      int64
Плотность населения (per sq. mi.)     object
Длина побережья к общей площади       object
Миграция                              object
Детская смертность                    object
ВВП на душу населения                float64
Грамотность(%)                        object
Телефонов (на 1000)                   object
пахотные земли (%)                    object
 земель под посевы(%)                 object
других земель (%)                     object
Климатический регион                  object
Рождаемость                           object
Смертность                            object
С/Х в ВВП                             object
Промышленность в ВВП                  object
Услуг в ВВП                           object
dtype: object

### Преобразование в числовые типы

Если ваши данные были считаны как строки, а вы хотите работать с ними как с числами (или наоборот), вам потребуется привести их к нужному типу.

In [4]:
# Мы видим, что значения в поле 'Плотность населения (per sq. mi.)' определилось как строка, 
# однако преобразовать сразу в тип float64 у нас не получится, потому что разделитель целой и дробной части у нас запятая, 
# а нужно, чтобы была точка
df['Плотность населения (per sq. mi.)']

0       48,0
1      124,6
2       13,8
3      290,4
4      152,1
       ...  
222    419,9
223      1,0
224     40,6
225     15,3
226     31,3
Name: Плотность населения (per sq. mi.), Length: 227, dtype: object

In [5]:
# Применим функцию к значениям столбца, заменив значения на новые и выполним преобразование столбцов 
# к правильным типам с помощью метода .astype()

df['Плотность населения (per sq. mi.)'] = df['Плотность населения (per sq. mi.)'].str.replace(',', '.').astype('float64')
df['Плотность населения (per sq. mi.)']

0       48.0
1      124.6
2       13.8
3      290.4
4      152.1
       ...  
222    419.9
223      1.0
224     40.6
225     15.3
226     31.3
Name: Плотность населения (per sq. mi.), Length: 227, dtype: float64

In [6]:
# Напишем функцию для преобразования всех строковых данных, оставив 2 знака после запятой
# однако если в столбце будут действительно строки, то пропустим такие данные
def convert_columns(df):
    for col in df.columns:
        if df[col].dtype == 'object':
            try:
                df[col] = df[col].str.replace(',', '.').astype(float).round(2)
            except ValueError:
                pass
    return df

df = convert_columns(df)

In [7]:
# Таким образом мы привели наш DataFrame в правильное состояние
df.dtypes

Страна                                object
Регион                                object
Численность                            int64
Площадь (sq. mi.)                      int64
Плотность населения (per sq. mi.)    float64
Длина побережья к общей площади      float64
Миграция                             float64
Детская смертность                   float64
ВВП на душу населения                float64
Грамотность(%)                       float64
Телефонов (на 1000)                  float64
пахотные земли (%)                   float64
 земель под посевы(%)                float64
других земель (%)                    float64
Климатический регион                 float64
Рождаемость                          float64
Смертность                           float64
С/Х в ВВП                            float64
Промышленность в ВВП                 float64
Услуг в ВВП                          float64
dtype: object

In [8]:
# Проверим уникальные значения столбца 'Регион'
df['Регион'].unique()

array(['Азия         ', 'ВОСТОЧНАЯ ЕВРОПА                     ',
       'СЕВЕРНАЯ АФРИКА                    ',
       'ОКЕАНИЯ                            ',
       'Западная Европа                     ',
       'Южная Африка                 ', 'Латинская Америка    ', 'СНГ ',
       'Ближний Восток                          ',
       'Северная Америка                   ',
       'Прибалтика                            '], dtype=object)

In [9]:
df['Страна'].unique()

array(['Afghanistan ', 'Albania ', 'Algeria ', 'American Samoa ',
       'Andorra ', 'Angola ', 'Anguilla ', 'Antigua & Barbuda ',
       'Argentina ', 'Armenia ', 'Aruba ', 'Australia ', 'Austria ',
       'Azerbaijan ', 'Bahamas, The ', 'Bahrain ', 'Bangladesh ',
       'Barbados ', 'Belarus ', 'Belgium ', 'Belize ', 'Benin ',
       'Bermuda ', 'Bhutan ', 'Bolivia ', 'Bosnia & Herzegovina ',
       'Botswana ', 'Brazil ', 'British Virgin Is. ', 'Brunei ',
       'Bulgaria ', 'Burkina Faso ', 'Burma ', 'Burundi ', 'Cambodia ',
       'Cameroon ', 'Canada ', 'Cape Verde ', 'Cayman Islands ',
       'Central African Rep. ', 'Chad ', 'Chile ', 'China ', 'Colombia ',
       'Comoros ', 'Congo, Dem. Rep. ', 'Congo, Repub. of the ',
       'Cook Islands ', 'Costa Rica ', "Cote d'Ivoire ", 'Croatia ',
       'Cuba ', 'Cyprus ', 'Czech Republic ', 'Denmark ', 'Djibouti ',
       'Dominica ', 'Dominican Republic ', 'East Timor ', 'Ecuador ',
       'Egypt ', 'El Salvador ', 'Equatorial Guinea

In [10]:
# Здесь мы видим много лишних пробелов 
# Чтобы удалить лишние пробелы из столбца в DataFrame, вы можете использовать метод str.strip().
# Этот метод удаляет начальные и конечные пробелы из строк. 
df['Регион'] = df['Регион'].str.strip()
# Сделаем эту операцию и со столбцом 'Страна'
df['Страна'] = df['Страна'].str.strip()

In [11]:
# Теперь все в порядке
df['Регион'].unique()

array(['Азия', 'ВОСТОЧНАЯ ЕВРОПА', 'СЕВЕРНАЯ АФРИКА', 'ОКЕАНИЯ',
       'Западная Европа', 'Южная Африка', 'Латинская Америка', 'СНГ',
       'Ближний Восток', 'Северная Америка', 'Прибалтика'], dtype=object)

In [12]:
df['Страна'].unique()

array(['Afghanistan', 'Albania', 'Algeria', 'American Samoa', 'Andorra',
       'Angola', 'Anguilla', 'Antigua & Barbuda', 'Argentina', 'Armenia',
       'Aruba', 'Australia', 'Austria', 'Azerbaijan', 'Bahamas, The',
       'Bahrain', 'Bangladesh', 'Barbados', 'Belarus', 'Belgium',
       'Belize', 'Benin', 'Bermuda', 'Bhutan', 'Bolivia',
       'Bosnia & Herzegovina', 'Botswana', 'Brazil', 'British Virgin Is.',
       'Brunei', 'Bulgaria', 'Burkina Faso', 'Burma', 'Burundi',
       'Cambodia', 'Cameroon', 'Canada', 'Cape Verde', 'Cayman Islands',
       'Central African Rep.', 'Chad', 'Chile', 'China', 'Colombia',
       'Comoros', 'Congo, Dem. Rep.', 'Congo, Repub. of the',
       'Cook Islands', 'Costa Rica', "Cote d'Ivoire", 'Croatia', 'Cuba',
       'Cyprus', 'Czech Republic', 'Denmark', 'Djibouti', 'Dominica',
       'Dominican Republic', 'East Timor', 'Ecuador', 'Egypt',
       'El Salvador', 'Equatorial Guinea', 'Eritrea', 'Estonia',
       'Ethiopia', 'Faroe Islands', 'Fiji', 

### Выбор определенного столбца:

In [13]:
# Выбор определенного столбца
population = df[['Страна','Численность']]
print(population)

             Страна  Численность
0       Afghanistan     31056997
1           Albania      3581655
2           Algeria     32930091
3    American Samoa        57794
4           Andorra        71201
..              ...          ...
222       West Bank      2460492
223  Western Sahara       273008
224           Yemen     21456188
225          Zambia     11502010
226        Zimbabwe     12236805

[227 rows x 2 columns]


### Замена значений в данных:

In [14]:
# Замена всех значений 'СНГ' в столбце 'Регион' на 'ex-USSR'
df['Регион'] = df['Регион'].replace('СНГ', 'ex-USSR')
df[df['Регион'] == 'ex-USSR'][['Страна', 'Регион']]


Unnamed: 0,Страна,Регион
9,Armenia,ex-USSR
13,Azerbaijan,ex-USSR
18,Belarus,ex-USSR
75,Georgia,ex-USSR
106,Kazakhstan,ex-USSR
112,Kyrgyzstan,ex-USSR
137,Moldova,ex-USSR
169,Russia,ex-USSR
199,Tajikistan,ex-USSR
207,Turkmenistan,ex-USSR


### Удаление столбцов:

In [15]:
# Удаление столбца 'Климатический регион', т.к непонятно, что он означает))
df = df.drop(columns=['Климатический регион'])


### Фильтрация данных:

In [16]:
# Получение стран с населением больше 1 миллиарда
large_countries = df[df['Численность'] > 1e9][['Страна', 'Численность']]
print(large_countries)

   Страна  Численность
42  China   1313973713
94  India   1095351995


### Сортировка данных:

In [17]:
# Сортировка стран по населению в порядке убывания, выводим только название и значение
sorted_countries = df.sort_values('Численность', ascending=False)[['Страна','Численность']]
print(sorted_countries)

                   Страна  Численность
42                  China   1313973713
94                  India   1095351995
214         United States    298444215
95              Indonesia    245452739
27                 Brazil    188078227
..                    ...          ...
144                 Nauru        13287
209                Tuvalu        11810
140            Montserrat         9439
171          Saint Helena         7502
174  St Pierre & Miquelon         7026

[227 rows x 2 columns]


### Создание новых столбцов на основе существующих:

In [18]:
# Создание нового столбца 'Численность в млн' на основе столбца 'Численность'
df['Численность в млн'] = df['Численность'] / 1e9

# Создадим новые столбцы, с указанием численности в квадратных километрах и плотности населения - человек на кв.км
df['Площадь(кв.км)'] = df['Площадь (sq. mi.)'] * 2.59
df['Плотность населения(на кв.км)'] = df['Плотность населения (per sq. mi.)'] * 2.59
df[['Площадь (sq. mi.)','Площадь(кв.км)','Плотность населения(на кв.км)']]


Unnamed: 0,Площадь (sq. mi.),Площадь(кв.км),Плотность населения(на кв.км)
0,647500,1677025.00,124.320
1,28748,74457.32,322.714
2,2381740,6168706.60,35.742
3,199,515.41,752.136
4,468,1212.12,393.939
...,...,...,...
222,5860,15177.40,1087.541
223,266000,688940.00,2.590
224,527970,1367442.30,105.154
225,752614,1949270.26,39.627


In [19]:
# Сохраним наш DataFrame для дольнейшего использования
df.to_csv('countries_dataset/train_dataset.csv')
df.to_excel('countries_dataset/countries-of-the-world.xlsx')