<a href="https://colab.research.google.com/github/sejinseo/Python/blob/main/py19_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import numpy as np
import pandas as pd

# Series

* 한가지 타입의 값 여러개를 저장할 수 있는 1차원 모양의 데이터 타입(클래스)
* 축(axis) 레이블을 가지고 있는 1차원 배열(ndarray)

In [2]:
# pd.Series 클래스의 생성자를 호출 -> Series 클래스의 인스턴스를 생성.
s = pd.Series(data=[1, 3, -5, -7])

In [3]:
s # expression(식) 자동 출력

0    1
1    3
2   -5
3   -7
dtype: int64

In [4]:
print(s) # print 문장(statement) 출력

0    1
1    3
2   -5
3   -7
dtype: int64


In [5]:
type(s)

pandas.core.series.Series

In [7]:
s.index # Series 객체의 index 속성(property, attribute) = 레이블(lable)

RangeIndex(start=0, stop=4, step=1)

In [9]:
s.values # Series 객체의 values 속성 - 값들의 배열(ndarray)

array([ 1,  3, -5, -7])

In [10]:
print(s.values)

[ 1  3 -5 -7]


## indexing, slicing

In [11]:
s[0] # indexing 

1

In [13]:
s[3] # indexing

-7

In [15]:
s[0:2] # slicing - [0, 2) 범위의 원소들

0    1
1    3
dtype: int64

In [16]:
# s[-1] # 음수 인덱스를 사용하면 ValueError가 발생
s[-2:] # 음수 slicing 가능 

2   -5
3   -7
dtype: int64

## `iloc, loc` 속성

* `iloc`: __정수 인덱스__ 기반의 원소 참조(integer location)
* `loc`: __레이블__ 기반의 원소 참조(location)

In [17]:
s

0    1
1    3
2   -5
3   -7
dtype: int64

In [19]:
s.loc[0]

1

In [20]:
s.loc[3]

-7

In [21]:
# s.loc[-1]
#> ValueError: 레이블 -1은 없기 때문에.

In [22]:
s.iloc[3]

-7

In [23]:
s.iloc[-1]

-7

Series의 기본 indexing 방식은 loc 기반 인덱싱이어서, 음수 인덱스 사용이 불가능.

In [24]:
# loc를 사용한 slicing
s.loc[0:2]

0    1
1    3
2   -5
dtype: int64

In [25]:
# iloc를 사용한 slicing
s.iloc[0:2]

0    1
1    3
dtype: int64

Slicing의 기본 slicing 방식은 iloc 기반 slicing이어서, 음수 인덱스 사용이 가능.

In [27]:
s = pd.Series(data=[1, -3, 5, -7, 9], index=['a', 'b', 'x', 'y', 'z'])
s

a    1
b   -3
x    5
y   -7
z    9
dtype: int64

In [29]:
# indexing
print(s.loc['z'])
print(s.iloc[4])
print(s.iloc[-1])

9
9
9


In [32]:
# slicing
print(s.loc['x':'z'])
print(s.iloc[-3:])

x    5
y   -7
z    9
dtype: int64
x    5
y   -7
z    9
dtype: int64


In [33]:
print(s.iloc[2:5])

x    5
y   -7
z    9
dtype: int64


## fancy indexing

In [35]:
s

a    1
b   -3
x    5
y   -7
z    9
dtype: int64

In [34]:
s.loc[['a', 'x', 'z']]

a    1
x    5
z    9
dtype: int64

In [36]:
s.iloc[[0, 2, 4]]

a    1
x    5
z    9
dtype: int64

## boolean indexing

boolean indexing은 loc 기반으로만 가능.

In [39]:
s > 0

a     True
b    False
x     True
y    False
z     True
dtype: bool

In [37]:
s[s > 0]

a    1
x    5
z    9
dtype: int64

In [38]:
s.loc[s > 0]

a    1
x    5
z    9
dtype: int64

# DataFrame

* 데이터를 2차원 (행 row, 열 column) 형태로 저장하는 데이터 구조(클래스)
* 데이터 베이스의 테이블과 유사한 구조.

In [43]:
data = {
    'city': ['서울'] * 3 + ['경기'] * 3,
    'year': [2020, 2021, 2022] * 2,
    'pop': [0.89, 0.91, 0.92, 1.1, 1.3, 1.25]
}

In [44]:
data

{'city': ['서울', '서울', '서울', '경기', '경기', '경기'],
 'pop': [0.89, 0.91, 0.92, 1.1, 1.3, 1.25],
 'year': [2020, 2021, 2022, 2020, 2021, 2022]}

In [46]:
# pd.DataFrame 생성자 호출 -> pd.DataFrame 클래스의 인스턴스를 생성
df = pd.DataFrame(data)

In [47]:
print(df)

  city  year   pop
0   서울  2020  0.89
1   서울  2021  0.91
2   서울  2022  0.92
3   경기  2020  1.10
4   경기  2021  1.30
5   경기  2022  1.25


In [48]:
df # expression 자동 출력

Unnamed: 0,city,year,pop
0,서울,2020,0.89
1,서울,2021,0.91
2,서울,2022,0.92
3,경기,2020,1.1
4,경기,2021,1.3
5,경기,2022,1.25


In [51]:
# pd.DataFrame의 속성들(priperties)
print('shape:', df.shape) #> (row, columns)
print('index:', df.index) #> 행(row) 레이블
print('columns:', df.columns) #> 열(column) 레이블

shape: (6, 3)
index: RangeIndex(start=0, stop=6, step=1)
columns: Index(['city', 'year', 'pop'], dtype='object')


## DataFrame에서 컬럼 선택

* `df['column_name']`
* `df.column_name`
    * 컬럼 이름이 Python의 변수 이름 규칙에 맞지 않는 경우에는 사용할 수 없음.
        * 변수 이름은 영문자, 숫자, underscore(_)만 사용할 수 있음.
        * 변수 이름은 숫자로 시작할 수 없음.
    * 컬럼 이름 DataFrame 객체가 원래 가지고 있었던 속성(변수, 메서드) 이름과 같은 경우에는 사용할 수 없음.

In [53]:
# DataFrame에서 'pop' 컬럼 선택 --> Series
df['pop']

0    0.89
1    0.91
2    0.92
3    1.10
4    1.30
5    1.25
Name: pop, dtype: float64

In [54]:
df.pop # pop은 DataFrame이 원래 갖고 있었던 속성의 이름.

<bound method DataFrame.pop of   city  year   pop
0   서울  2020  0.89
1   서울  2021  0.91
2   서울  2022  0.92
3   경기  2020  1.10
4   경기  2021  1.30
5   경기  2022  1.25>

In [55]:
# DataFrame에서 'city' 컬럼 선택
df['city']

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object

In [56]:
df.city

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object

In [57]:
# DataFrame에서 1개 이상의 컬럼 선택 - fancy indexing
df[['city', 'pop']]

Unnamed: 0,city,pop
0,서울,0.89
1,서울,0.91
2,서울,0.92
3,경기,1.1
4,경기,1.3
5,경기,1.25


In [59]:
df[['pop']] #> DataFrame - 컬럼이 1개인 데이터프레임
# df['pop'] #> Series - 컬럼

Unnamed: 0,pop
0,0.89
1,0.91
2,0.92
3,1.1
4,1.3
5,1.25


## DataFrame에서 행(row) 선택

* `df.loc[레이블 기반 행 인덱스]`
* `df.iloc[정수 기반 행 인덱스]`

In [60]:
df

Unnamed: 0,city,year,pop
0,서울,2020,0.89
1,서울,2021,0.91
2,서울,2022,0.92
3,경기,2020,1.1
4,경기,2021,1.3
5,경기,2022,1.25


In [61]:
df.loc[0]

city      서울
year    2020
pop     0.89
Name: 0, dtype: object

In [62]:
df.loc[5] # loc를 사용한 indexing

city      경기
year    2022
pop     1.25
Name: 5, dtype: object

In [64]:
df.iloc[-1] # iloc를 사용한 indexing

city      경기
year    2022
pop     1.25
Name: 5, dtype: object

In [65]:
df.loc[1:3] # loc를 사용한 slicing

Unnamed: 0,city,year,pop
1,서울,2021,0.91
2,서울,2022,0.92
3,경기,2020,1.1


In [66]:
df.iloc[1:3] # iloc를 사용한 slicing

Unnamed: 0,city,year,pop
1,서울,2021,0.91
2,서울,2022,0.92


In [67]:
# DataFrame에서 첫 3개의 행을 출력
df.iloc[:3]

Unnamed: 0,city,year,pop
0,서울,2020,0.89
1,서울,2021,0.91
2,서울,2022,0.92


In [69]:
df.head(n=3) # 메서드

Unnamed: 0,city,year,pop
0,서울,2020,0.89
1,서울,2021,0.91
2,서울,2022,0.92


In [70]:
# DataFrame에서 마지막 3개의 행 출력
df.iloc[-3:]

Unnamed: 0,city,year,pop
3,경기,2020,1.1
4,경기,2021,1.3
5,경기,2022,1.25


In [71]:
df.tail(n=3)

Unnamed: 0,city,year,pop
3,경기,2020,1.1
4,경기,2021,1.3
5,경기,2022,1.25


## boolean indexing

DataFrame에서 조건을 만족하는 행(row)들을 선택.

In [72]:
df

Unnamed: 0,city,year,pop
0,서울,2020,0.89
1,서울,2021,0.91
2,서울,2022,0.92
3,경기,2020,1.1
4,경기,2021,1.3
5,경기,2022,1.25


In [80]:
df['year'] == 2022

0    False
1    False
2     True
3    False
4    False
5     True
Name: year, dtype: bool

In [81]:
df[df['year'] == 2022]

Unnamed: 0,city,year,pop
2,서울,2022,0.92
5,경기,2022,1.25


* boolean indexing에서는 `and, or, not`을 사용할 수 없음.
* 대신에 `&, |, ~` 연산자를 사용함.
* 반드시 `()`를 사용해서 연산의 순서를 명시해야 함

In [82]:
# 서울의 2020년 레코드만 선택
df[(df['city'] == '서울') & (df['year'] == 2020)]

Unnamed: 0,city,year,pop
0,서울,2020,0.89


In [83]:
df[(df.city == '서울') & (df.year == 2020)]

Unnamed: 0,city,year,pop
0,서울,2020,0.89


In [84]:
# city가 '서울'이거나 또는 pop이 1.2 이상인 레코드들을 선택
df[(df['city'] =='서울') | (df['pop'] >= 1.2)]

Unnamed: 0,city,year,pop
0,서울,2020,0.89
1,서울,2021,0.91
2,서울,2022,0.92
4,경기,2021,1.3
5,경기,2022,1.25


## DataFrame 메서드

In [86]:
# 숫자 타입 데이터의 기술 통계량(descriptive statistics) 요약: 
# NA가 아닌 개수, 평균, 표준편차, 최솟값, 4분위수, 최댓값
df.describe()

Unnamed: 0,year,pop
count,6.0,6.0
mean,2021.0,1.061667
std,0.894427,0.182364
min,2020.0,0.89
25%,2020.25,0.9125
50%,2021.0,1.01
75%,2021.75,1.2125
max,2022.0,1.3


In [87]:
# 카테고리 타입 변수의 요약: 빈도수
df['city'].value_counts()

서울    3
경기    3
Name: city, dtype: int64

In [88]:
# 통계 메서드: sum, mean, var, std, min, max, median, ...
print('평균:', df['pop'].mean())
print('표준편차:', df['pop'].std())
print('중앙값:', df['pop'].median())

평균: 1.0616666666666668
표준편차: 0.18236410465512853
중앙값: 1.01
