<a href="https://colab.research.google.com/github/JakeOh/202110_itw_lab_python/blob/main/py19_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import numpy as np
import pandas as pd

# Series

* 한가지 타입의 값 여러개를 저장할 수 있는 1차원 모양의 데이터 타입(클래스).
* 축(axis) 레이블을 가지고 있는 1차원 배열(ndarray)

In [2]:
# pd.Series 클래스의 생성자를 호출 -> Series 클래스의 인스턴스를 생성
s = pd.Series(data=[1, 3, -5, -7])

In [3]:
s  # expression(식) 자동 출력

0    1
1    3
2   -5
3   -7
dtype: int64

In [4]:
print(s)  # print 문장(statement) 출력

0    1
1    3
2   -5
3   -7
dtype: int64


In [5]:
type(s)

pandas.core.series.Series

In [6]:
s.index  # Series 객체의 index 속성(property, attribute) - 레이블(label)

RangeIndex(start=0, stop=4, step=1)

In [7]:
s.values  # Series 객체의  values 속성 - 값들의 배열(ndarray)

array([ 1,  3, -5, -7])

In [8]:
print(s.values)

[ 1  3 -5 -7]


## indexing, slicing

In [9]:
s[0]  # indexing

1

In [10]:
s[3]  # indexing

-7

In [11]:
s[0:2]  # slicing - [0, 2) 범위의 원소들

0    1
1    3
dtype: int64

In [13]:
# s[-1]  # 음수 인덱스를 사용하면 ValueError가 발생
s[-2:]  # 음수 slicing 가능

2   -5
3   -7
dtype: int64

## `iloc, loc` 속성

* `iloc`: __정수 인덱스__ 기반의 원소 참조(integer location)
* `loc`: __레이블__ 기반의 원소 참조(location)

In [14]:
s

0    1
1    3
2   -5
3   -7
dtype: int64

In [15]:
s.loc[0]

1

In [16]:
s.loc[3]

-7

In [None]:
# s.loc[-1] 
#> ValueError: 레이블 -1은 없기 때문에.

In [19]:
s.iloc[3]

-7

In [20]:
s.iloc[-1]

-7

Series의 기본 indexing 방식은 loc 기반 인덱싱이이서, 음수 인덱스 사용이 불가능.

In [21]:
# loc를 사용한 slicing
s.loc[0:2]

0    1
1    3
2   -5
dtype: int64

In [22]:
# iloc를 사용한 slciing
s.iloc[0:2]

0    1
1    3
dtype: int64

Slicing의 기본 slicing 방식은 iloc 기반 slicing이어서, 음수 인덱스 사용이 가능.

In [23]:
s = pd.Series(data=[1, -3, 5, -7, 9], index=['a', 'b', 'x', 'y', 'z'])
s

a    1
b   -3
x    5
y   -7
z    9
dtype: int64

In [24]:
# indexing
print(s.loc['z'])
print(s.iloc[4])
print(s.iloc[-1])

9
9
9


In [27]:
# slicing
print(s.loc['x':'z'])
print(s.iloc[-3:])

x    5
y   -7
z    9
dtype: int64
x    5
y   -7
z    9
dtype: int64


In [28]:
print(s.iloc[2:5])

x    5
y   -7
z    9
dtype: int64


## fancy indexing

In [30]:
s

a    1
b   -3
x    5
y   -7
z    9
dtype: int64

In [29]:
s.loc[['a', 'x', 'z']]

a    1
x    5
z    9
dtype: int64

In [31]:
s.iloc[[0, 2, 4]]

a    1
x    5
z    9
dtype: int64

## boolean indexing

boolean indexing은 loc 기반으로만 가능.

In [35]:
s > 0

a     True
b    False
x     True
y    False
z     True
dtype: bool

In [32]:
s[s > 0]

a    1
x    5
z    9
dtype: int64

In [33]:
s.loc[s > 0]

a    1
x    5
z    9
dtype: int64

# DataFrame

* 데이터를 2차원(행 row, 열 column) 형태로 저장하는 데이터 구조(클래스)
* 데이터베이스의 테이블과 유사한 구조

In [36]:
data = {
    'city': ['서울'] * 3 + ['경기'] * 3,
    'year': [2020, 2021, 2022] * 2,
    'pop' : [0.89, 0.91, 0.92, 1.1, 1.3, 1.25],
}

In [37]:
data

{'city': ['서울', '서울', '서울', '경기', '경기', '경기'],
 'pop': [0.89, 0.91, 0.92, 1.1, 1.3, 1.25],
 'year': [2020, 2021, 2022, 2020, 2021, 2022]}

In [38]:
# pd.DataFrame 생성자 호출 -> pd.DataFrame 클래스의 인스턴스를 생성
df = pd.DataFrame(data)

In [39]:
print(df)

  city  year   pop
0   서울  2020  0.89
1   서울  2021  0.91
2   서울  2022  0.92
3   경기  2020  1.10
4   경기  2021  1.30
5   경기  2022  1.25


In [40]:
df  # expression 자동 출력

Unnamed: 0,city,year,pop
0,서울,2020,0.89
1,서울,2021,0.91
2,서울,2022,0.92
3,경기,2020,1.1
4,경기,2021,1.3
5,경기,2022,1.25


In [43]:
# pd.DataFrame의 속성들(properties)
print('shape:', df.shape)  #> (rows, columns)
print('index:', df.index)  #> 행(row) 레이블
print('columns:', df.columns)  #> 열(column) 레이블

shape: (6, 3)
index: RangeIndex(start=0, stop=6, step=1)
columns: Index(['city', 'year', 'pop'], dtype='object')


# DataFrame에서 컬럼 선택

* `df['column_name']`
* `df.column_name`
    * 컬럼 이름이 Python의 변수 이름 규칙에 맞지 않는 경우에는 사용할 수 없음.
        * 변수 이름은 영문자, 숫자, underscore(_)만 사용할 수 있음.
        * 변수 이름은 숫자로 시작할 수 없음.
    * 컬럼 이름 DataFrame 객체가 원래 가지고 있었던 속성(변수, 메서드) 이름과 같은 경우에는 사용할 수 없음.

In [44]:
# DataFrame에서 'pop' 컬럼 선택 --> Series
df['pop']

0    0.89
1    0.91
2    0.92
3    1.10
4    1.30
5    1.25
Name: pop, dtype: float64

In [49]:
df.pop  # pop은 DataFrame이 원래 갖고 있었던 속성의 이름.

<bound method DataFrame.pop of   city  year   pop
0   서울  2020  0.89
1   서울  2021  0.91
2   서울  2022  0.92
3   경기  2020  1.10
4   경기  2021  1.30
5   경기  2022  1.25>

In [46]:
# DataFrame에서 'city' 컬럼 선택
df['city']

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object

In [47]:
df.city

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object