In [None]:
import numpy as np
import pandas as pd

# Основні типи об'єктів у Pandas

- Series (ряд)
- DataFrame (датафрейм)
- Index (індекс)

## Series

### Створення, доступ до елементів

In [None]:
list_1 = [100, 200, 300, 400]
series_1 = pd.Series(list_1)
print(series_1)

0    100
1    200
2    300
3    400
dtype: int64


In [None]:
series_1[0:2]

0    100
1    200
dtype: int64

In [None]:
series_1[-2:]

2    300
3    400
dtype: int64

In [None]:
series_1 = pd.Series(list_1, index=['a', 'b', 'c', 'd'])
series_1

a    100
b    200
c    300
d    400
dtype: int64

In [None]:
series_1['a']

100

In [None]:
series_1['a':'c']

a    100
b    200
c    300
dtype: int64

In [None]:
dict_1 = {0: 'a', 'a': 'b', 'b': 3.25}
print(dict_1)

{0: 'a', 'a': 'b', 'b': 3.25}


### Основні атрибути

In [None]:
series_1.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [None]:
series_1.values

array([100, 200, 300, 400])

## DataFrame

### Створення, доступ до елементів

In [None]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [None]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [None]:
df_1 = pd.DataFrame({'population': population, 'area': area})
df_1

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [None]:
df_1['population'] # або df_1.population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
Name: population, dtype: int64

In [None]:
df_1['population':'area'] # зріз за замовчуванням по колонкам не працює

KeyError: ignored

In [None]:
df_1['California':'New York'] # зріз по рядкам

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297


In [None]:
df_1.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [None]:
df_1.columns

Index(['population', 'area'], dtype='object')

In [None]:
df_1.values

array([[38332521,   423967],
       [26448193,   695662],
       [19651127,   141297],
       [19552860,   170312],
       [12882135,   149995]])

In [None]:
df_1.iloc[1, 0] # iloc = integer location (індекси -- цілі числа)

26448193

In [None]:
df_1.loc['Texas', 'population'] # loc = location (індекси -- назви рядків та стовпчиків)

26448193

In [None]:
df_1.loc['Texas':'New York', 'population']

Texas       26448193
New York    19651127
Name: population, dtype: int64

In [None]:
df_1.loc[['California', 'New York'], 'population']

California    38332521
New York      19651127
Name: population, dtype: int64

### Фільтрування за умовами

In [None]:
df_1[ df_1['population'] > 20e+6 ] # штати з населенням більше 20 мільйонів

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662


In [None]:
df_1[ df_1['population'] > 20e+6 ]['area'] # площа штатів із населенням більше 20 мільйонів

California    423967
Texas         695662
Name: area, dtype: int64

In [None]:
df_1.loc[df_1['population'] > 20e+6, 'area'] # площа штатів із населенням більше 20 мільйонів

California    423967
Texas         695662
Name: area, dtype: int64

### Створення нових колонок

In [None]:
df_1['density'] = df_1['population'] / df_1['area']
df_1

Unnamed: 0,population,area,density
California,38332521,423967,90.413926
Texas,26448193,695662,38.01874
New York,19651127,141297,139.076746
Florida,19552860,170312,114.806121
Illinois,12882135,149995,85.883763


### Основні атрибути

In [None]:
df_1.dtypes

population      int64
area            int64
density       float64
dtype: object

In [None]:
df_1.shape

(5, 3)

In [None]:
df_1.shape[0] # кількість рядків

5

In [None]:
df_1.shape[1] # кількість стовпчиків

3

### Корисні методи

In [None]:
df_1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, California to Illinois
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   population  5 non-null      int64  
 1   area        5 non-null      int64  
 2   density     5 non-null      float64
dtypes: float64(1), int64(2)
memory usage: 332.0+ bytes


In [None]:
df_1.describe()

Unnamed: 0,population,area,density
count,5.0,5.0,5.0
mean,23373370.0,316246.6,93.639859
std,9640386.0,242437.411951,37.672251
min,12882140.0,141297.0,38.01874
25%,19552860.0,149995.0,85.883763
50%,19651130.0,170312.0,90.413926
75%,26448190.0,423967.0,114.806121
max,38332520.0,695662.0,139.076746
