In [2]:
import numpy as np
import pandas as pd

# Series

*   한가지 타입의 값 여러개를 저장할 수 있는 1차원 모양의 데이터 타입(클래스).
*   축(axis) 레이블을 가지고 있는 1차원 배열.
    *   정수 기반의 인덱스(range)와 축 레이블을 함께 가질 수 있음.

In [3]:
s = pd.Series([1, 2, -3, -4, 5])

In [4]:
print(type(s))

<class 'pandas.core.series.Series'>


In [5]:
print(s)

0    1
1    2
2   -3
3   -4
4    5
dtype: int64


In [6]:
s

Unnamed: 0,0
0,1
1,2
2,-3
3,-4
4,5


In [7]:
s.index

RangeIndex(start=0, stop=5, step=1)

In [8]:
s.values

array([ 1,  2, -3, -4,  5])

# indexing, slicing

*   `iloc`: ndarray의 정수 인덱스 기반으로 원소를 참조. 리스트 또는 ndarray에서 사용하는 방법과 동일.
    *    음수 인덱스 사용이 가능.
*   `loc`:  축 레이블 기반으로 원소를 참조
    *   음수 인덱스 사용이 불가능.

In [9]:
s.iloc[0]       # 시리즈의 첫번째 원소

np.int64(1)

In [10]:
s.iloc[-1]      # 시리즈의 마지막 원소

np.int64(5)

In [11]:
s.iloc[4]

np.int64(5)

In [12]:
s.loc[0]

np.int64(1)

In [13]:
s.loc[4]

np.int64(5)

In [14]:
# s.loc[-1]         #>에러발생

In [15]:
# iloc를 사용한 slicing
s.iloc[0:2]

Unnamed: 0,0
0,1
1,2


In [16]:
# loc를 사용한 slicing
s.loc[0:2]

Unnamed: 0,0
0,1
1,2
2,-3


In [17]:
s.iloc[2:4]


Unnamed: 0,0
2,-3
3,-4


In [18]:
s.loc[2:3]

Unnamed: 0,0
2,-3
3,-4


In [19]:
s = pd.Series(data = [1,2,-3,-4,5], index=[ 'a', 'b', 'x', 'y','c'])

In [20]:
s.iloc[0]

np.int64(1)

In [21]:
s.iloc[-1]

np.int64(5)

In [22]:
s.loc['a']

np.int64(1)

In [23]:
s.loc['c']

np.int64(5)

In [24]:
s.loc['a':'b']

Unnamed: 0,0
a,1
b,2


In [25]:
s.loc['y':'c']

Unnamed: 0,0
y,-4
c,5


## fancy indexing

In [26]:
s

Unnamed: 0,0
a,1
b,2
x,-3
y,-4
c,5


In [27]:
s.loc[['a','b','c']]

Unnamed: 0,0
a,1
b,2
c,5


In [28]:
s.iloc[[0,1,4]]

Unnamed: 0,0
a,1
b,2
c,5


## boolean indexing

boollean indexing은 loc 기반으로 동작. iloc는 사용할 수 없음.

In [29]:
s.loc[[True, False, True, False, True]]

Unnamed: 0,0
a,1
x,-3
c,5


In [30]:
s > 0

Unnamed: 0,0
a,True
b,True
x,False
y,False
c,True


In [31]:
s.loc[s>0]              # 시리즈 s의 원소들 중 양수들로만 이루어진 부분집합.

Unnamed: 0,0
a,1
b,2
c,5


In [32]:
s.loc[s<0]              # 음수 원소들만 찾음.

Unnamed: 0,0
x,-3
y,-4


In [33]:
s.loc['x': ]

Unnamed: 0,0
x,-3
y,-4
c,5


In [34]:
s.loc['x'::-1]

Unnamed: 0,0
x,-3
b,2
a,1


In [69]:
s

Unnamed: 0,0
a,1
b,2
x,-3
y,-4
c,5


# DataFrame

*   테이블 형식의 2차원 데이터 타입
    *   행(row)과 열(column)을 가지고 있는 데이터 타입.

In [35]:
data ={
    'city': ['서울'] * 3 + ['경기'] * 3,
    'year': [2022,2023,2024] * 2,
    'pop' : [0.89, 0.91, 0.92, 1.1, 1.2, 1.15]
}

data

{'city': ['서울', '서울', '서울', '경기', '경기', '경기'],
 'year': [2022, 2023, 2024, 2022, 2023, 2024],
 'pop': [0.89, 0.91, 0.92, 1.1, 1.2, 1.15]}

In [36]:
df = pd.DataFrame(data)

In [37]:
print(df)       # __str__() 메서드가 리턴하는 문자열.

  city  year   pop
0   서울  2022  0.89
1   서울  2023  0.91
2   서울  2024  0.92
3   경기  2022  1.10
4   경기  2023  1.20
5   경기  2024  1.15


In [38]:
df

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92
3,경기,2022,1.1
4,경기,2023,1.2
5,경기,2024,1.15


## DataFrame의 속성들

In [39]:
print('shape: ',df.shape)       # shape(모양):   row 갯수, column 갯수
print('index: ',df.index)       # index(인덱스): row index. 행의 레이블
print('columns: ', df.columns)  # columns: colum index. 열의 레이블(이름). dtype = 'object'일때, 문자열이라고 생각하면 된다.

shape:  (6, 3)
index:  RangeIndex(start=0, stop=6, step=1)
columns:  Index(['city', 'year', 'pop'], dtype='object')


In [40]:
print(df.values)        # values: 데이터 프레임의 값들로만 이루어진 2차원 np.ndarray

[['서울' 2022 0.89]
 ['서울' 2023 0.91]
 ['서울' 2024 0.92]
 ['경기' 2022 1.1]
 ['경기' 2023 1.2]
 ['경기' 2024 1.15]]


## DataFrame에서 column 선택

*   두가지 방법

    1.   `data_frame['column_name']` : 항상 사용가능
    1.   `data_frame.column_name`:
        *   컬럼의 이름이 변수 이름 규칙(문법)에 맞지 않는 경우에는 사용할 수 없음.
            *   변수 이름은 영문자, 숫자, _(underscore, 밑줄)만 사용.
            *   변수 이름은 숫자로 시작할 수 없음.
            *   Python 키워드(if, for, in, class, def, True, ...)들은 변수 이름으로 사용할 수 없음.
        *   컬럼 이름이 DataFrame 클래스의 property(변수) 또는 메서드 이름과 같은 경우에는 사용할 수 없음.


In [41]:
df['city']      # 데이터프레임에서 'city' 컬럼 선택

Unnamed: 0,city
0,서울
1,서울
2,서울
3,경기
4,경기
5,경기


In [42]:
df['city']         # 데이터프레임에서 'city' 컬럼 선택

Unnamed: 0,city
0,서울
1,서울
2,서울
3,경기
4,경기
5,경기


In [43]:
df['pop']

Unnamed: 0,pop
0,0.89
1,0.91
2,0.92
3,1.1
4,1.2
5,1.15


In [44]:
df.pop      # DataFrame 클래스의 pop 메서드 객체

In [45]:
# DataFrame에서 2개이상의 열(column)을 선택
df[['year', 'pop']]

Unnamed: 0,year,pop
0,2022,0.89
1,2023,0.91
2,2024,0.92
3,2022,1.1
4,2023,1.2
5,2024,1.15


In [46]:
df[['year', 'city', 'pop']]

Unnamed: 0,year,city,pop
0,2022,서울,0.89
1,2023,서울,0.91
2,2024,서울,0.92
3,2022,경기,1.1
4,2023,경기,1.2
5,2024,경기,1.15


## DataFrame에서 row 선택

*   `data_frame.iloc[idx]`: ndarray의 정수 인덱스를 사용해서 행을 선택.
*   `data_frame.loc[idx]`   DataFrame의 행 레이블(DataFrame.index)을 사용해서 행을 선택.

In [47]:
df

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92
3,경기,2022,1.1
4,경기,2023,1.2
5,경기,2024,1.15


In [48]:
df.iloc[0]

Unnamed: 0,0
city,서울
year,2022
pop,0.89


In [49]:
df.loc[0]

Unnamed: 0,0
city,서울
year,2022
pop,0.89


In [50]:
df.iloc [-1]        # == df.iloc[5]

Unnamed: 0,5
city,경기
year,2024
pop,1.15


In [51]:
df.loc[5]           # != df.loc[-1] 에러 발생.

Unnamed: 0,5
city,경기
year,2024
pop,1.15


In [52]:
df.iloc[:3]        # 첫 3개 행을 선택

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92


In [53]:
df.loc[:3]          # df.loc[:3] 와는 다른 결과!

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92
3,경기,2022,1.1


In [54]:
# df.iloc[3:]
df.iloc[-3:]       # 마지막 3개 행을 선택

Unnamed: 0,city,year,pop
3,경기,2022,1.1
4,경기,2023,1.2
5,경기,2024,1.15


In [55]:
# df.loc[-3:]       #> 에러는 발생하지 않지만 마지막 3개 행을 선택하는 기능은 아님!
df.loc[3:]

Unnamed: 0,city,year,pop
3,경기,2022,1.1
4,경기,2023,1.2
5,경기,2024,1.15


## Boolean indexing

* 조건을 만족하는 행(row)들을 선택하는 방법
* `data_frame[조건식]`


In [56]:
df['city'] == '서울'

Unnamed: 0,city
0,True
1,True
2,True
3,False
4,False
5,False


In [57]:
df[df.city == '서울']

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92


In [58]:
df[df.year == 2024]

Unnamed: 0,city,year,pop
2,서울,2024,0.92
5,경기,2024,1.15


*   Boolean indexing에서는 논리연산자 `and, or, not`을 사용할 수 없음!
*   대신에 `&(and), |(or), ~(not)` 기호들을 사용해야함.
*   반드시 `()`를 사용해서 연산 순서를 명확히 해야함.

In [59]:
# 연도가 2023 또는 2024인 행들을 선택
df[(df.year == 2023) | (df.year == 2024)]

Unnamed: 0,city,year,pop
1,서울,2023,0.91
2,서울,2024,0.92
4,경기,2023,1.2
5,경기,2024,1.15


In [60]:
# 서울 2024 행을 선택
df[(df.city == '서울') & (df.year == 2024)]

Unnamed: 0,city,year,pop
2,서울,2024,0.92


In [61]:
# 2022년을 제외한 행들을 선택
df[df.year != 2022]

Unnamed: 0,city,year,pop
1,서울,2023,0.91
2,서울,2024,0.92
4,경기,2023,1.2
5,경기,2024,1.15


In [62]:
# 위의 문제를 not연산자 사용방법
df[~(df.year == 2022)]

Unnamed: 0,city,year,pop
1,서울,2023,0.91
2,서울,2024,0.92
4,경기,2023,1.2
5,경기,2024,1.15


# DataFrame 메서드

In [63]:
df

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92
3,경기,2022,1.1
4,경기,2023,1.2
5,경기,2024,1.15


In [64]:
df.info()           #> DataFrame 요약정보

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   city    6 non-null      object 
 1   year    6 non-null      int64  
 2   pop     6 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 276.0+ bytes


In [65]:
# 숫자 타입 데이터의 기술 통계량:
# non-null 자료 개수, 평균, 표준편차 , 최솟값, 1사분위값, 중위값, 3사분위값, 최대값
df.describe()

Unnamed: 0,year,pop
count,6.0,6.0
mean,2023.0,1.028333
std,0.894427,0.13732
min,2022.0,0.89
25%,2022.25,0.9125
50%,2023.0,1.01
75%,2023.75,1.1375
max,2024.0,1.2


In [66]:
# 카테고리(범주) 타입 데이터의 기술 통계량: 빈도수
df.city.value_counts()

Unnamed: 0_level_0,count
city,Unnamed: 1_level_1
서울,3
경기,3


In [67]:
# 통계 메서드
print(df['pop'].mean())
print(df['pop'].std())

1.0283333333333333
0.13731957859921745


In [68]:
# pop의 값이 평균보다 큰 행들을 찾아보세요
df[(df['pop']) > (df['pop'].mean())]

Unnamed: 0,city,year,pop
3,경기,2022,1.1
4,경기,2023,1.2
5,경기,2024,1.15
