<a href="https://colab.research.google.com/github/JakeOh/202511_BD53/blob/main/lab_python/da02_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import numpy as np
import pandas as pd

# Series

*   한가지 타입의 값 여러개를 저장하는 1차원 모양의 데이터 타입(클래스)
*   축(axis) 레이블을 가지고 있는 1차원 배열(ndarray)
    *    정수 기반의 인덱스와 축 레이블을 함께 가질 수 있음.


In [2]:
s = pd.Series([1, 2, -3, -4, 5])

In [4]:
print(type(s))

<class 'pandas.core.series.Series'>


In [5]:
print(s)

0    1
1    2
2   -3
3   -4
4    5
dtype: int64


In [6]:
s

Unnamed: 0,0
0,1
1,2
2,-3
3,-4
4,5


In [7]:
s.index  # Series 객체의 index 속성

RangeIndex(start=0, stop=5, step=1)

In [8]:
s.values  # Series 객체의 values 속성

array([ 1,  2, -3, -4,  5])

## indexing, slicing

*   `iloc`: ndarray에서 자동으로 부여되는 정수 인덱스 기반으로 원소를 참조.
    *   list 또는 ndarray에서 사용하는 방법과 같음.
    *   마지막 원소부터 역순으로 자동 부여되는 음수 인덱스 사용이 가능.
*   `loc`: 축 레이블을 기반으로 원소를 참조.
    *   음수 인덱스 사용이 불가능.


In [9]:
s.iloc[0]  # 시리즈의 첫번째 원소

np.int64(1)

In [10]:
s.iloc[-1]  # 시리즈의 마지막 원소

np.int64(5)

In [11]:
s.iloc[:2]  # 시리즈에서 첫 2개 원소 잘라내기

Unnamed: 0,0
0,1
1,2


In [12]:
s.iloc[-2:]  # 시리즈에서 마지막 2개 원소 잘라내기

Unnamed: 0,0
3,-4
4,5


In [13]:
s.iloc[3:5]

Unnamed: 0,0
3,-4
4,5


In [14]:
s.loc[0]

np.int64(1)

In [15]:
s.loc[4]

np.int64(5)

In [16]:
s.loc[-1]  # list나 ndarray처럼 끝에서부터 역순으로 부여되는 음수 인덱스는 없음.

KeyError: -1

In [17]:
s.loc[0:2]

Unnamed: 0,0
0,1
1,2
2,-3


In [19]:
s.loc[3:4]

Unnamed: 0,0
3,-4
4,5


In [20]:
s = pd.Series(data=[1, 2, -3, -4, 5], index=['a', 'b', 'x', 'y', 'z'])

In [21]:
s

Unnamed: 0,0
a,1
b,2
x,-3
y,-4
z,5


In [22]:
s.index

Index(['a', 'b', 'x', 'y', 'z'], dtype='object')

In [23]:
s.values

array([ 1,  2, -3, -4,  5])

In [24]:
s.iloc[0]

np.int64(1)

In [25]:
s.iloc[-1]

np.int64(5)

In [27]:
s.iloc[:2]

Unnamed: 0,0
a,1
b,2


In [28]:
s.iloc[-2:]

Unnamed: 0,0
y,-4
z,5


In [30]:
s.loc['a']

np.int64(1)

In [31]:
s.loc['z']

np.int64(5)

In [32]:
s.loc['a':'b']

Unnamed: 0,0
a,1
b,2


## fancy indexing

iloc와 loc에서 모두 사용이 가능.

In [33]:
s

Unnamed: 0,0
a,1
b,2
x,-3
y,-4
z,5


In [35]:
s.loc[['a', 'z']]

Unnamed: 0,0
a,1
z,5


In [36]:
s.iloc[[0, 4]]

Unnamed: 0,0
a,1
z,5


## boolean indexing

loc만 사용 가능, iloc는 사용 불가.

In [38]:
s.loc[[True, True, False, False, True]]

Unnamed: 0,0
a,1
b,2
z,5


In [39]:
s > 0  # element-wise(원소별) 연산 수행.

Unnamed: 0,0
a,True
b,True
x,False
y,False
z,True


In [40]:
s.loc[s > 0]

Unnamed: 0,0
a,1
b,2
z,5


In [41]:
s.loc[s < 0]

Unnamed: 0,0
x,-3
y,-4


# DataFrame

*   테이블 모양의 2차원 데이터 타입.
    *   행(row)과 열(column)을 가지고 있는 데이터 타입


In [66]:
data = {
    'city': ['서울'] * 3 + ['경기도'] * 3,
    'year': [2022, 2023, 2024] * 2,
    'pop': [0.89, 0.91, 0.92, 1.1, 1.2, 1.15]
}
data

{'city': ['서울', '서울', '서울', '경기도', '경기도', '경기도'],
 'year': [2022, 2023, 2024, 2022, 2023, 2024],
 'pop': [0.89, 0.91, 0.92, 1.1, 1.2, 1.15]}

In [67]:
df = pd.DataFrame(data)

In [68]:
print(df)

  city  year   pop
0   서울  2022  0.89
1   서울  2023  0.91
2   서울  2024  0.92
3  경기도  2022  1.10
4  경기도  2023  1.20
5  경기도  2024  1.15


In [69]:
df

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92
3,경기도,2022,1.1
4,경기도,2023,1.2
5,경기도,2024,1.15


## DataFrame의 속성들

In [70]:
print('shape:', df.shape)  # shape: (row 개수, column 개수)

shape: (6, 3)


In [71]:
print('index:', df.index)  # index: 행 레이블(row label)

index: RangeIndex(start=0, stop=6, step=1)


In [72]:
print('columns:', df.columns)  # columns: 컬럼 레이블(column label)

columns: Index(['city', 'year', 'pop'], dtype='object')


In [73]:
print(df.values)  # values: 데이터프레임의 값들로만 만들어진 2차원 ndarray

[['서울' 2022 0.89]
 ['서울' 2023 0.91]
 ['서울' 2024 0.92]
 ['경기도' 2022 1.1]
 ['경기도' 2023 1.2]
 ['경기도' 2024 1.15]]


## DataFrame에서 column 선택하는 방법

*   `data_frame['column_name']`
    *   항상 사용 가능.
*   `data_frame.column_name`
    *   컬럼 이름이 변수 이름 규칙에 맞지 않는 경우에는 사용할 수 없음.
        *   변수 이름은 영문자, 숫자, _(underscore)만 사용 가능.
        *   변수 이름은 숫자로 시작할 수 없음.
        *   파이썬 키워드(if, for, while, def, class, ...)들은 변수 이름으로 사용할 수 없음.
    *   컬럼 이름이 DataFrame 클래스의 속성 또는 메서드 이름과 같은 경우에는 사용할 수 없음.


In [74]:
df['city']

Unnamed: 0,city
0,서울
1,서울
2,서울
3,경기도
4,경기도
5,경기도


In [75]:
df.city

Unnamed: 0,city
0,서울
1,서울
2,서울
3,경기도
4,경기도
5,경기도


In [76]:
df['pop']

Unnamed: 0,pop
0,0.89
1,0.91
2,0.92
3,1.1
4,1.2
5,1.15


In [77]:
df.pop  # DataFrame에서 정의된 pop 메서드 객체.

In [78]:
# 2개 이상의 컬럼을 함께 선택
df[['city', 'pop']]

Unnamed: 0,city,pop
0,서울,0.89
1,서울,0.91
2,서울,0.92
3,경기도,1.1
4,경기도,1.2
5,경기도,1.15


In [79]:
df[['year', 'city', 'pop']]

Unnamed: 0,year,city,pop
0,2022,서울,0.89
1,2023,서울,0.91
2,2024,서울,0.92
3,2022,경기도,1.1
4,2023,경기도,1.2
5,2024,경기도,1.15


## DataFrame에서 row 선택 방법

*   `data_frame.iloc[idx]`: 배열(ndarray)의 정수 인덱스를 사용해서 행을 선택.
*   `data_frame.loc[idx]`: DataFrame의 index 속성(row label)을 사용해서 행을 선택.


In [80]:
df

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92
3,경기도,2022,1.1
4,경기도,2023,1.2
5,경기도,2024,1.15


In [81]:
df.iloc[0]  # 첫번째 행

Unnamed: 0,0
city,서울
year,2022
pop,0.89


In [82]:
df.iloc[-1]  # 마지막 행

Unnamed: 0,5
city,경기도
year,2024
pop,1.15


In [83]:
# df.loc[-1]  #> 에러
df.loc[5]

Unnamed: 0,5
city,경기도
year,2024
pop,1.15


In [84]:
df.iloc[:3]  # 데이터프레임에서 첫 3개 행

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92


In [85]:
df.loc[:2]

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92


In [86]:
df.iloc[-3:]  # 데이터프레임에서 마지막 3개 행

Unnamed: 0,city,year,pop
3,경기도,2022,1.1
4,경기도,2023,1.2
5,경기도,2024,1.15


In [87]:
df.loc[3:]

Unnamed: 0,city,year,pop
3,경기도,2022,1.1
4,경기도,2023,1.2
5,경기도,2024,1.15


### fancy indexing

In [89]:
df.iloc[[0, 2, 4]]

Unnamed: 0,city,year,pop
0,서울,2022,0.89
2,서울,2024,0.92
4,경기도,2023,1.2


In [90]:
df.loc[[0, 2, 4]]

Unnamed: 0,city,year,pop
0,서울,2022,0.89
2,서울,2024,0.92
4,경기도,2023,1.2


### boolean indexing

*   조건을 만족하는 행(row)들을 선택하는 방법.
*   `data_frame.loc[조건식]` 또는 `data_frame[조건식]`


In [109]:
df.loc[[True, True, True, False, False, False]]

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92


In [94]:
df.city == '서울'

Unnamed: 0,city
0,True
1,True
2,True
3,False
4,False
5,False


In [95]:
df.loc[df.city == '서울']

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92


In [96]:
df[df.city == '서울']

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92


In [98]:
df[df.year == 2024]  # 2024년 행만 선택

Unnamed: 0,city,year,pop
2,서울,2024,0.92
5,경기도,2024,1.15



*   boolean indexing에서는 파이썬 논리 연산자 `and, or, not`을 사용할 수 없음.
*   대신에 `&, |, ~` 연산자를 사용함.
*   `&, |`의 피연산자들은 반드시 `()`를 사용해야 함.


In [110]:
# year 컬럼의 값이 2023 또는 2024인 행을 선택.
df[(df.year == 2023) | (df.year == 2024)]

Unnamed: 0,city,year,pop
1,서울,2023,0.91
2,서울,2024,0.92
4,경기도,2023,1.2
5,경기도,2024,1.15


In [112]:
# 서울 2024년 자료
df[(df.city == '서울') & (df.year == 2024)]

Unnamed: 0,city,year,pop
2,서울,2024,0.92


## DataFrame 메서드

In [113]:
df

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92
3,경기도,2022,1.1
4,경기도,2023,1.2
5,경기도,2024,1.15


In [114]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   city    6 non-null      object 
 1   year    6 non-null      int64  
 2   pop     6 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 276.0+ bytes


In [115]:
# 숫자 타입(정수, 실수)의 기술 통계량:
# non-null 데이터 개수, 평균, 표준편차, 최솟값, 1사분위값, 중앙값, 3사분위값, 최댓값
df.describe()

Unnamed: 0,year,pop
count,6.0,6.0
mean,2023.0,1.028333
std,0.894427,0.13732
min,2022.0,0.89
25%,2022.25,0.9125
50%,2023.0,1.01
75%,2023.75,1.1375
max,2024.0,1.2


In [117]:
# 카테고리(범주) 타입의 데이터 기술 -> 빈도수.
df.city.value_counts()

Unnamed: 0_level_0,count
city,Unnamed: 1_level_1
서울,3
경기도,3


In [119]:
df.head(n=3)  # n의 기본값은 5

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92


In [121]:
df.tail(n=3)

Unnamed: 0,city,year,pop
3,경기도,2022,1.1
4,경기도,2023,1.2
5,경기도,2024,1.15


In [122]:
# pop 컬럼의 평균
df['pop'].mean()

np.float64(1.0283333333333333)

In [123]:
# 데이터프레임 df에서 pop 컬럼의 값이 평균보다 큰 행들을 찾으세요.
df[df['pop'] > df['pop'].mean()]

Unnamed: 0,city,year,pop
3,경기도,2022,1.1
4,경기도,2023,1.2
5,경기도,2024,1.15
