<a href="https://colab.research.google.com/github/HalyshAnton/Python-AI/blob/AI_2_lesson/pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas

Мабуть, найважливішою структурою даних oabdas є `DataFrame`. Це таблична структура, тісно інтегрована з `Series`.


In [1]:
import numpy as np
import pandas as pd

Ми проведемо аналіз країн G7 і зараз розглянемо DataFrames.


<img width="700" src="https://user-images.githubusercontent.com/872296/38153492-72c032ca-3443-11e8-80f4-9de9060a5127.png" />

Створення `DataFrame` вручну може бути виснажливим. У 99% випадків ви отримуватимете дані з бази даних, файлу CSV або Інтернету. Але все ж ви можете створити DataFrame, вказавши стовпці та значення:

In [2]:
df = pd.DataFrame({
    'Name': [
        'Canada',
        'France',
        'Germany',
        'Italy',
        'Japan',
        'United Kingdom',
        'United States',
    ],
    'Population': [35.467, 63.951, 80.94 , 60.665, 127.061, 64.511, 318.523],
    'GDP': [
        1785387,
        2833687,
        3874437,
        2167744,
        4602367,
        2950039,
        17348075
    ],
    'Surface Area': [
        9984670,
        640679,
        357114,
        301336,
        377930,
        242495,
        9525067
    ],
    'HDI': [
        0.913,
        0.888,
        0.916,
        0.873,
        0.891,
        0.907,
        0.915
    ],
    'Continent': [
        'America',
        'Europe',
        'Europe',
        'Europe',
        'Asia',
        'Europe',
        'America'
    ]
})

In [5]:
df

Unnamed: 0,Name,Population,GDP,Surface Area,HDI,Continent
0,Canada,35.467,1785387,9984670,0.913,America
1,France,63.951,2833687,640679,0.888,Europe
2,Germany,80.94,3874437,357114,0.916,Europe
3,Italy,60.665,2167744,301336,0.873,Europe
4,Japan,127.061,4602367,377930,0.891,Asia
5,United Kingdom,64.511,2950039,242495,0.907,Europe
6,United States,318.523,17348075,9525067,0.915,America


`DataFrame` також мають індекси рядків. Як ви можете бачити в «таблиці» вище, pandas автоматично призначила числовий зромтаючий індекс кожному «рядку» в нашому DataFrame.

Стовпці "індексуються" назвами типу `str`

In [6]:
df.columns

Index(['Name', 'Population', 'GDP', 'Surface Area', 'HDI', 'Continent'], dtype='object')

In [None]:
df.index

RangeIndex(start=0, stop=7, step=1)

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Name          7 non-null      object 
 1   Population    7 non-null      float64
 2   GDP           7 non-null      int64  
 3   Surface Area  7 non-null      int64  
 4   HDI           7 non-null      float64
 5   Continent     7 non-null      object 
dtypes: float64(2), int64(2), object(2)
memory usage: 464.0+ bytes


In [None]:
df.size

42

In [None]:
df.shape

(7, 6)

In [7]:
df.dtypes

Name             object
Population      float64
GDP               int64
Surface Area      int64
HDI             float64
Continent        object
dtype: object

## Індексування та відбір
Окремі стовпці в DataFrame можна вибирати за допомогою звичайного індексування. Кожен стовпець представлено як `Series`:

In [None]:
df

Unnamed: 0,Name,Population,GDP,Surface Area,HDI,Continent
0,Canada,35.467,1785387,9984670,0.913,America
1,France,63.951,2833687,640679,0.888,Europe
2,Germany,80.94,3874437,357114,0.916,Europe
3,Italy,60.665,2167744,301336,0.873,Europe
4,Japan,127.061,4602367,377930,0.891,Asia
5,United Kingdom,64.511,2950039,242495,0.907,Europe
6,United States,318.523,17348075,9525067,0.915,America


In [9]:
df['Population']

Кілька стовпців також можна вибрати подібно до `numpy` і `Series`:

In [14]:
df[['Name', 'Population']]

Unnamed: 0,Name,Population
0,Canada,35.467
1,France,63.951
2,Germany,80.94
3,Italy,60.665
4,Japan,127.061
5,United Kingdom,64.511
6,United States,318.523


Для індексування `DataFrame` як матрицю `numpy` можна використовувати метод iloc

In [19]:
df.iloc[:, 1:2]

Unnamed: 0,Population
0,35.467
1,63.951
2,80.94
3,60.665
4,127.061
5,64.511
6,318.523


Якщо потрібно вказувати не індекси, а назви стовпців, то використовуємо метод loc

In [21]:
df.loc[:, ['Name', 'Population']]

Unnamed: 0,Name,Population
0,Canada,35.467
1,France,63.951
2,Germany,80.94
3,Italy,60.665
4,Japan,127.061
5,United Kingdom,64.511
6,United States,318.523


## Умовний вибір (булеві масиви)

Ми бачили умовний вибір, застосований в `numpy`, і він працюватиме таким же чином для `DataFrame`.

In [None]:
df

Unnamed: 0,Name,Population,GDP,Surface Area,HDI,Continent
0,Canada,35.467,1785387,9984670,0.913,America
1,France,63.951,2833687,640679,0.888,Europe
2,Germany,80.94,3874437,357114,0.916,Europe
3,Italy,60.665,2167744,301336,0.873,Europe
4,Japan,127.061,4602367,377930,0.891,Asia
5,United Kingdom,64.511,2950039,242495,0.907,Europe
6,United States,318.523,17348075,9525067,0.915,America


In [22]:
df['Population'] > 70

0    False
1    False
2     True
3    False
4     True
5    False
6     True
Name: Population, dtype: bool

In [24]:
df[df['Population'] > 70]

Unnamed: 0,Name,Population,GDP,Surface Area,HDI,Continent
2,Germany,80.94,3874437,357114,0.916,Europe
4,Japan,127.061,4602367,377930,0.891,Asia
6,United States,318.523,17348075,9525067,0.915,America


Булева маска дозволяє вибрати потрібні рядки, враховуючи всі стовпчики. Якщо потрібно вибрати лише деякі стовпці, то використовуємо метод `.loc`

In [25]:
df.loc[df['Population'] > 70, ['Name']]

Unnamed: 0,Name
2,Germany
4,Japan
6,United States


In [None]:
df.loc[df['Population'] > 70, ['Name', 'Population', 'GDP']]

Unnamed: 0,Name,Population,GDP
2,Germany,80.94,3874437
4,Japan,127.061,4602367
6,United States,318.523,17348075


## Видалення

На противагу поняттю відбору є «видалення». Замість того, щоб вказувати, які стовпці ви хочете _вибрати_, ви можете вказати, які з них ви хочете `викинути`:

In [26]:
df.drop(columns=['Population'])

Unnamed: 0,Name,GDP,Surface Area,HDI,Continent
0,Canada,1785387,9984670,0.913,America
1,France,2833687,640679,0.888,Europe
2,Germany,3874437,357114,0.916,Europe
3,Italy,2167744,301336,0.873,Europe
4,Japan,4602367,377930,0.891,Asia
5,United Kingdom,2950039,242495,0.907,Europe
6,United States,17348075,9525067,0.915,America


In [None]:
df.drop(columns=['Population', 'HDI'])

Unnamed: 0,Name,GDP,Surface Area,Continent
0,Canada,1785387,9984670,America
1,France,2833687,640679,Europe
2,Germany,3874437,357114,Europe
3,Italy,2167744,301336,Europe
4,Japan,4602367,377930,Asia
5,United Kingdom,2950039,242495,Europe
6,United States,17348075,9525067,America


In [None]:
df.drop(['Population', 'HDI'], axis=1)

Unnamed: 0,Name,GDP,Surface Area,Continent
0,Canada,1785387,9984670,America
1,France,2833687,640679,Europe
2,Germany,3874437,357114,Europe
3,Italy,2167744,301336,Europe
4,Japan,4602367,377930,Asia
5,United Kingdom,2950039,242495,Europe
6,United States,17348075,9525067,America


In [None]:
df.drop(['Population', 'HDI'], axis='columns')

Unnamed: 0,Name,GDP,Surface Area,Continent
0,Canada,1785387,9984670,America
1,France,2833687,640679,Europe
2,Germany,3874437,357114,Europe
3,Italy,2167744,301336,Europe
4,Japan,4602367,377930,Asia
5,United Kingdom,2950039,242495,Europe
6,United States,17348075,9525067,America


Усі ці методи `drop` повертають новий `DataFrame`. Якщо ви хочете змінити його "на місці", ви можете скористатися атрибутом `inplace`

In [None]:
df

Unnamed: 0,Name,Population,GDP,Surface Area,HDI,Continent
0,Canada,35.467,1785387,9984670,0.913,America
1,France,63.951,2833687,640679,0.888,Europe
2,Germany,80.94,3874437,357114,0.916,Europe
3,Italy,60.665,2167744,301336,0.873,Europe
4,Japan,127.061,4602367,377930,0.891,Asia
5,United Kingdom,64.511,2950039,242495,0.907,Europe
6,United States,318.523,17348075,9525067,0.915,America



## Операції

In [28]:
df[['Population', 'GDP']]

Unnamed: 0,Population,GDP
0,35.467,1785387
1,63.951,2833687
2,80.94,3874437
3,60.665,2167744
4,127.061,4602367
5,64.511,2950039
6,318.523,17348075


In [29]:
df['Population'] * 1000

0     35467.0
1     63951.0
2     80940.0
3     60665.0
4    127061.0
5     64511.0
6    318523.0
Name: Population, dtype: float64

In [30]:
df['Population'].sum()

751.118

Аналогічно до `numpy` можна виконувати операції між рядками. Операції виконуються поелементно.

In [31]:
df['GDP'] / df['Population']

0    50339.385908
1    44310.284437
2    47868.013343
3    35733.025633
4    36221.712406
5    45729.239975
6    54464.120330
dtype: float64

## Зміна даних

Це просто та інтуїтивно зрозуміло. Ви можете без проблем додавати стовпці або замінювати значення для стовпців:

### Додавання нового стовпця

In [36]:
df['Language'] = ['English', 'French', 'German', 'Italian', 'Jananese', 'English', 'English']

In [37]:
df

Unnamed: 0,Name,Population,GDP,Surface Area,HDI,Continent,Language
0,Canada,35.467,1785387,9984670,0.913,America,English
1,France,63.951,2833687,640679,0.888,Europe,French
2,Germany,80.94,3874437,357114,0.916,Europe,German
3,Italy,60.665,2167744,301336,0.873,Europe,Italian
4,Japan,127.061,4602367,377930,0.891,Asia,Jananese
5,United Kingdom,64.511,2950039,242495,0.907,Europe,English
6,United States,318.523,17348075,9525067,0.915,America,English


---
### Заміна значень у стовпці

In [38]:
df['Language'] = 'English'

In [39]:
df

Unnamed: 0,Name,Population,GDP,Surface Area,HDI,Continent,Language
0,Canada,35.467,1785387,9984670,0.913,America,English
1,France,63.951,2833687,640679,0.888,Europe,English
2,Germany,80.94,3874437,357114,0.916,Europe,English
3,Italy,60.665,2167744,301336,0.873,Europe,English
4,Japan,127.061,4602367,377930,0.891,Asia,English
5,United Kingdom,64.511,2950039,242495,0.907,Europe,English
6,United States,318.523,17348075,9525067,0.915,America,English


---
### Перейменування стовпців


In [40]:
df.rename(
    columns={
        'HDI': 'Human Development Index',
        'Anual Popcorn Consumption': 'APC'
    })

Unnamed: 0,Name,Population,GDP,Surface Area,Human Development Index,Continent,Language
0,Canada,35.467,1785387,9984670,0.913,America,English
1,France,63.951,2833687,640679,0.888,Europe,English
2,Germany,80.94,3874437,357114,0.916,Europe,English
3,Italy,60.665,2167744,301336,0.873,Europe,English
4,Japan,127.061,4602367,377930,0.891,Asia,English
5,United Kingdom,64.511,2950039,242495,0.907,Europe,English
6,United States,318.523,17348075,9525067,0.915,America,English


---
### Видалення стовпців

In [41]:
df.drop(columns='Language', inplace=True)

In [42]:
df

Unnamed: 0,Name,Population,GDP,Surface Area,HDI,Continent
0,Canada,35.467,1785387,9984670,0.913,America
1,France,63.951,2833687,640679,0.888,Europe
2,Germany,80.94,3874437,357114,0.916,Europe
3,Italy,60.665,2167744,301336,0.873,Europe
4,Japan,127.061,4602367,377930,0.891,Asia
5,United Kingdom,64.511,2950039,242495,0.907,Europe
6,United States,318.523,17348075,9525067,0.915,America


---
### Зміна індексу

In [None]:
df.set_index('Name')

Unnamed: 0_level_0,Population,GDP,Surface Area,HDI,Continent
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Canada,35.467,1785387,9984670,0.913,America
France,63.951,2833687,640679,0.888,Europe
Germany,80.94,3874437,357114,0.916,Europe
Italy,60.665,2167744,301336,0.873,Europe
Japan,127.061,4602367,377930,0.891,Asia
United Kingdom,64.511,2950039,242495,0.907,Europe
United States,318.523,17348075,9525067,0.915,America


## Створення стовпців з інших стовпців

Зміна DataFrame часто передбачає поєднання різних стовпців в інші. Наприклад, у нашому аналізі країн ми могли б спробувати обчислити «ВВП на душу населення», що означає просто `GDP / Population`.

In [None]:
df[['GDP', 'Population']]

Unnamed: 0,Population,GDP
0,35.467,1785387
1,63.951,2833687
2,80.94,3874437
3,60.665,2167744
4,127.061,4602367
5,64.511,2950039
6,318.523,17348075


In [None]:
df['GDP'] / df['Population']

0    50339.385908
1    44310.284437
2    47868.013343
3    35733.025633
4    36221.712406
5    45729.239975
6    54464.120330
dtype: float64

Результатом цієї операції є ще одна `Series`, яку ви можете додати до оригінального `DataFrame`:

In [43]:
df['GDP Per Capita'] = df['GDP'] / df['Population']

In [44]:
df

Unnamed: 0,Name,Population,GDP,Surface Area,HDI,Continent,GDP Per Capita
0,Canada,35.467,1785387,9984670,0.913,America,50339.385908
1,France,63.951,2833687,640679,0.888,Europe,44310.284437
2,Germany,80.94,3874437,357114,0.916,Europe,47868.013343
3,Italy,60.665,2167744,301336,0.873,Europe,35733.025633
4,Japan,127.061,4602367,377930,0.891,Asia,36221.712406
5,United Kingdom,64.511,2950039,242495,0.907,Europe,45729.239975
6,United States,318.523,17348075,9525067,0.915,America,54464.12033


## Пропущені значення

In [45]:
for i, j in zip([0, 2, 2, 5], [5, 3, 6, 3]):
  df.iloc[i, j] = np.nan

df

Unnamed: 0,Name,Population,GDP,Surface Area,HDI,Continent,GDP Per Capita
0,Canada,35.467,1785387,9984670.0,0.913,,50339.385908
1,France,63.951,2833687,640679.0,0.888,Europe,44310.284437
2,Germany,80.94,3874437,,0.916,Europe,
3,Italy,60.665,2167744,301336.0,0.873,Europe,35733.025633
4,Japan,127.061,4602367,377930.0,0.891,Asia,36221.712406
5,United Kingdom,64.511,2950039,,0.907,Europe,45729.239975
6,United States,318.523,17348075,9525067.0,0.915,America,54464.12033


Метод `.info` дозволяє дізнатись кількість непропущених значень(non-null count) у кожному стовпчику.

In [46]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Name            7 non-null      object 
 1   Population      7 non-null      float64
 2   GDP             7 non-null      int64  
 3   Surface Area    5 non-null      float64
 4   HDI             7 non-null      float64
 5   Continent       6 non-null      object 
 6   GDP Per Capita  6 non-null      float64
dtypes: float64(4), int64(1), object(2)
memory usage: 520.0+ bytes


In [None]:
df['Continent'].isnull()

0     True
1    False
2    False
3    False
4    False
5    False
6    False
Name: Continent, dtype: bool

In [48]:
df.isnull().sum()

Name              0
Population        0
GDP               0
Surface Area      2
HDI               0
Continent         1
GDP Per Capita    1
dtype: int64

Для видалення всіх рядків, які мають хоча б одне пропущене значення можна використати метод `dropna`. Після цього бажано перевірити кількість рядків, що залишились.

In [49]:
df.dropna()

Unnamed: 0,Name,Population,GDP,Surface Area,HDI,Continent,GDP Per Capita
1,France,63.951,2833687,640679.0,0.888,Europe,44310.284437
3,Italy,60.665,2167744,301336.0,0.873,Europe,35733.025633
4,Japan,127.061,4602367,377930.0,0.891,Asia,36221.712406
6,United States,318.523,17348075,9525067.0,0.915,America,54464.12033


In [50]:
df

Unnamed: 0,Name,Population,GDP,Surface Area,HDI,Continent,GDP Per Capita
0,Canada,35.467,1785387,9984670.0,0.913,,50339.385908
1,France,63.951,2833687,640679.0,0.888,Europe,44310.284437
2,Germany,80.94,3874437,,0.916,Europe,
3,Italy,60.665,2167744,301336.0,0.873,Europe,35733.025633
4,Japan,127.061,4602367,377930.0,0.891,Asia,36221.712406
5,United Kingdom,64.511,2950039,,0.907,Europe,45729.239975
6,United States,318.523,17348075,9525067.0,0.915,America,54464.12033


Для видалення рядків, які мають пропуск в конкретному стовпці, можна використати логічну маску.

In [None]:
df[~df['Continent'].isnull()]

Unnamed: 0,Name,Population,GDP,Surface Area,HDI,Continent,GDP Per Capita
1,France,63.951,2833687,640679.0,0.888,Europe,44310.284437
2,Germany,80.94,3874437,,0.916,Europe,
3,Italy,60.665,2167744,301336.0,0.873,Europe,35733.025633
4,Japan,127.061,4602367,377930.0,0.891,Asia,36221.712406
5,United Kingdom,64.511,2950039,,0.907,Europe,45729.239975
6,United States,318.523,17348075,9525067.0,0.915,America,54464.12033


## Збереження

Щоб зберегти `DataFrame` як файл `csv` використовуйте метод `to_csv`

In [55]:
df.to_csv("g7_data.csv")

In [57]:
new_df = pd.read_csv('/content/g7_data.csv', index_col='Unnamed: 0')

new_df

Unnamed: 0,Name,Population,GDP,Surface Area,HDI,Continent,GDP Per Capita
0,Canada,35.467,1785387,9984670.0,0.913,,50339.385908
1,France,63.951,2833687,640679.0,0.888,Europe,44310.284437
2,Germany,80.94,3874437,,0.916,Europe,
3,Italy,60.665,2167744,301336.0,0.873,Europe,35733.025633
4,Japan,127.061,4602367,377930.0,0.891,Asia,36221.712406
5,United Kingdom,64.511,2950039,,0.907,Europe,45729.239975
6,United States,318.523,17348075,9525067.0,0.915,America,54464.12033
