<a href="https://colab.research.google.com/github/JakeOh/20230228_itwill_java140_lab_python/blob/main/py14_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 패키지 임포트

In [1]:
import numpy as np
import pandas as pd

# Series

*  한 가지 타입의 여러개의 값들을 저장할 수 있는 1차원 모양의 데이터 타입(클래스)
*  축 레이블(axis label)을 가지고 있는 1차원 배열(ndarray)


In [2]:
s = pd.Series(data=[1, 2, -3, -4, 5, -6])  # Series 클래스의 생성자 호출

In [3]:
type(s)

pandas.core.series.Series

In [4]:
print(s)  # __str__ 메서드

0    1
1    2
2   -3
3   -4
4    5
5   -6
dtype: int64


In [5]:
s1  # __repr__ 메서드

0    1
1    2
2   -3
3   -4
4    5
5   -6
dtype: int64

## Series 속성(Attributes)

In [6]:
s.values  # Series의 값들로 이루어진 ndarray

array([ 1,  2, -3, -4,  5, -6])

In [7]:
s.index  # Series의 인덱스(레이블)

RangeIndex(start=0, stop=6, step=1)

In [8]:
s = pd.Series(data=[1, 2, 3], index=['a', 'b', 'c'])
s

a    1
b    2
c    3
dtype: int64

In [9]:
s.values

array([1, 2, 3])

In [10]:
s.index

Index(['a', 'b', 'c'], dtype='object')

## indexing, slicing

*  `iloc`: integer locatioin. 정수 인덱스(ndarry의 기본 인덱스) 기반으로 원소 참조 또는 슬라이싱.
*  `loc`: location. 레이블 기반의 원소 참조 또는 슬라이싱.


In [16]:
np.random.seed(1)
s1 = pd.Series(data=np.random.randint(-10, 10, size=6))
s1

0   -5
1    1
2    2
3   -2
4   -1
5    1
dtype: int64

In [17]:
# iloc를 사용한 인덱싱
print(s1.iloc[0])  # Series에서 첫번째 원소
print(s1.iloc[-1])  # Sereis에서 마지막 원소

-5
1


In [18]:
# iloc를 사용한 슬라이싱
print(s1.iloc[:3])  # Series에서 첫 3개 원소 자르기
print(s1.iloc[-3:])  # Seires에서 마지막 3개 원소 자르기

0   -5
1    1
2    2
dtype: int64
3   -2
4   -1
5    1
dtype: int64


In [21]:
# loc를 사용한 인덱싱
print(s1.loc[0])  # Series의 첫번째 원소
print(s1.loc[5])  # Series의 마지막 원소 - 음수 인덱스 사용 불가능!

-5
1


In [23]:
# loc를 사용한 슬라이싱
print(s1.loc[:2])

0   -5
1    1
2    2
dtype: int64


In [24]:
np.random.seed(42)
s2 = pd.Series(data=np.random.randint(-10, 11, size=6),
               index=['a', 'b', 'c', 'd', 'e', 'f'])
s2

a    -4
b     9
c     4
d     0
e    -3
f    10
dtype: int64

In [25]:
s2.iloc[0]

-4

In [26]:
s2.iloc[-1]

10

In [27]:
s2.iloc[:3]

a   -4
b    9
c    4
dtype: int64

In [28]:
s2.loc['a']

-4

In [29]:
s2.loc['f']

10

In [30]:
s2.loc[:'c']

a   -4
b    9
c    4
dtype: int64

## fancy indexing, boolean indexing

In [31]:
s2

a    -4
b     9
c     4
d     0
e    -3
f    10
dtype: int64

In [32]:
s2.loc[['a', 'c', 'e']]  # loc 속성을 사용한 fancy indexing

a   -4
c    4
e   -3
dtype: int64

In [33]:
s2.iloc[[0, 2, 4]]  # iloc 속성을 사용한 fancy indexing

a   -4
c    4
e   -3
dtype: int64

In [35]:
s2

a    -4
b     9
c     4
d     0
e    -3
f    10
dtype: int64

In [36]:
s2 > 0

a    False
b     True
c     True
d    False
e    False
f     True
dtype: bool

In [37]:
s2[s2 > 0]  # boolean indexing

b     9
c     4
f    10
dtype: int64

In [38]:
s2.loc[s2 > 0]

b     9
c     4
f    10
dtype: int64

# DataFrame

*  데이터를 2차원(행 row, 열 column) 형태로 저장하는 데이터 타입(클래스).
*  데이터베이스의 테이블과 비슷한 구조.
*  DataFrame에서 컬럼은 Series 타입.


In [39]:
# dict
data = {
    'city': ['서울'] * 3 + ['경기'] * 3,
    'year': [2021, 2022, 2023] * 2,
    'pop': np.random.random(size=6)
}
data

{'city': ['서울', '서울', '서울', '경기', '경기', '경기'],
 'year': [2021, 2022, 2023, 2021, 2022, 2023],
 'pop': array([0.15601864, 0.15599452, 0.05808361, 0.86617615, 0.60111501,
        0.70807258])}

In [40]:
 df = pd.DataFrame(data)

In [43]:
print(df)  # __str__

  city  year       pop
0   서울  2021  0.156019
1   서울  2022  0.155995
2   서울  2023  0.058084
3   경기  2021  0.866176
4   경기  2022  0.601115
5   경기  2023  0.708073


In [44]:
df  # __repr__

Unnamed: 0,city,year,pop
0,서울,2021,0.156019
1,서울,2022,0.155995
2,서울,2023,0.058084
3,경기,2021,0.866176
4,경기,2022,0.601115
5,경기,2023,0.708073


## DataFrame 속성(Attributes)

In [45]:
df.shape  #> (row 개수, column 개수)

(6, 3)

In [46]:
df.index  #> 행 레이블(row label)

RangeIndex(start=0, stop=6, step=1)

In [47]:
df.columns  #> 열 레이블(column label)

Index(['city', 'year', 'pop'], dtype='object')

## DataFrame에서 컬럼 선택

*  `df['column_name']`
    *  항상 사용 가능
*  `df.column_name`
    *  컬럼 이름이 Python 변수 이름 규칙에 맞지 않는 경우에는 사용할 수 없음.
        *  변수 이름은 영문자, 숫자, underscore(_)만 사용 가능.
        *  변수 이름은 숫자로 시작할 수 없다.
    *  컬럼 이름이 DataFrame 객체가 원래 가지고 있는 속성(필드, 메서드) 이름과 같은 경우에는 사용할 수 없음.


In [49]:
df['city']

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object

In [50]:
df.city

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object

In [51]:
df['pop']

0    0.156019
1    0.155995
2    0.058084
3    0.866176
4    0.601115
5    0.708073
Name: pop, dtype: float64

In [52]:
df.pop  #> pop 컬럼 선택이 아니라, DataFrame의 pop 메서드를 사용.

<bound method DataFrame.pop of   city  year       pop
0   서울  2021  0.156019
1   서울  2022  0.155995
2   서울  2023  0.058084
3   경기  2021  0.866176
4   경기  2022  0.601115
5   경기  2023  0.708073>

2개 이상의 컬럼 선택 - fancy indexing

In [53]:
df[['city', 'pop']]

Unnamed: 0,city,pop
0,서울,0.156019
1,서울,0.155995
2,서울,0.058084
3,경기,0.866176
4,경기,0.601115
5,경기,0.708073


## DataFrame에서 행 선택

*  `df.loc[label]`: 행 인덱스(레이블) 기반 참조.
*  `df.iloc[integer]`: ndarray의 정수 인덱스 기반 참조.


In [55]:
df.iloc[0]  # DataFrame의 첫번째 행
#> 행 1개를 선택 -> 결과: Series

city          서울
year        2021
pop     0.156019
Name: 0, dtype: object

In [56]:
df.iloc[:3]  # DataFrame에서 첫 3개 행 선택
#> 2개 이상의 행을 선택 -> 결과: DataFrame

Unnamed: 0,city,year,pop
0,서울,2021,0.156019
1,서울,2022,0.155995
2,서울,2023,0.058084


In [57]:
df.iloc[-1]  # DataFrame에서 마지막 행

city          경기
year        2023
pop     0.708073
Name: 5, dtype: object

In [58]:
df.iloc[-3:]  # DataFrame에서 마지막 3개 행

Unnamed: 0,city,year,pop
3,경기,2021,0.866176
4,경기,2022,0.601115
5,경기,2023,0.708073


In [60]:
df.loc[0]

city          서울
year        2021
pop     0.156019
Name: 0, dtype: object

In [61]:
df.loc[5]

city          경기
year        2023
pop     0.708073
Name: 5, dtype: object

In [62]:
df.loc[:2]

Unnamed: 0,city,year,pop
0,서울,2021,0.156019
1,서울,2022,0.155995
2,서울,2023,0.058084


In [65]:
df.loc[3:]

Unnamed: 0,city,year,pop
3,경기,2021,0.866176
4,경기,2022,0.601115
5,경기,2023,0.708073


In [67]:
df.head(n=3)  # DataFrame에서 첫 n개 행을 선택하는 메서드. n의 기본값은 5.

Unnamed: 0,city,year,pop
0,서울,2021,0.156019
1,서울,2022,0.155995
2,서울,2023,0.058084


In [69]:
df.tail(n=3)  # DataFrame에서 끝에서 n개의 행을 선택하는 메서드. n의 기본값은 5.

Unnamed: 0,city,year,pop
3,경기,2021,0.866176
4,경기,2022,0.601115
5,경기,2023,0.708073


## DataFrame에서 조건에 맞는 행을 선택 - boolean indexing

In [70]:
df

Unnamed: 0,city,year,pop
0,서울,2021,0.156019
1,서울,2022,0.155995
2,서울,2023,0.058084
3,경기,2021,0.866176
4,경기,2022,0.601115
5,경기,2023,0.708073


In [71]:
df.year == 2023

0    False
1    False
2     True
3    False
4    False
5     True
Name: year, dtype: bool

In [73]:
df[df.year == 2023]

Unnamed: 0,city,year,pop
2,서울,2023,0.058084
5,경기,2023,0.708073


*  boolean indexing을 사용할 때는, 파이썬의 논리 연산자(`and, or, not`)를 사용할 수 없음!
*  boolean indexing에서는 `&, |, ~` 연산자를 사용함!
*  조건식과 조건식은 `()`를 사용해서 구분, 연산의 순서를 명시해야 함.

In [79]:
# city가 '서울'이거나, pop이 0.65 이하인 행들을 선택:
df[(df['city'] == '서울') | (df['pop'] <= 0.65)]

Unnamed: 0,city,year,pop
0,서울,2021,0.156019
1,서울,2022,0.155995
2,서울,2023,0.058084
4,경기,2022,0.601115


In [80]:
# 경기도의 2023년 자료를 선택
df[(df.city == '경기') & (df.year == 2023)]

Unnamed: 0,city,year,pop
5,경기,2023,0.708073


## DataFrame에서 행과 열을 함께 선택

In [83]:
df[df.city == '서울'][['year', 'pop']]

Unnamed: 0,year,pop
0,2021,0.156019
1,2022,0.155995
2,2023,0.058084


In [84]:
df.loc[df.city == '서울', ['year', 'pop']]  # df.loc[row, column]

Unnamed: 0,year,pop
0,2021,0.156019
1,2022,0.155995
2,2023,0.058084


## DataFrame 메서드

In [86]:
df

Unnamed: 0,city,year,pop
0,서울,2021,0.156019
1,서울,2022,0.155995
2,서울,2023,0.058084
3,경기,2021,0.866176
4,경기,2022,0.601115
5,경기,2023,0.708073


In [85]:
df.describe()
# 숫자 타입 컬럼(들)의 기술 통계량(descriptive statistics)
# NA가 아닌 데이터 개수, 평균, 표준편차, 최솟값, 4사분위 값, 최댓값

Unnamed: 0,year,pop
count,6.0,6.0
mean,2022.0,0.424243
std,0.894427,0.342088
min,2021.0,0.058084
25%,2021.25,0.156001
50%,2022.0,0.378567
75%,2022.75,0.681333
max,2023.0,0.866176
