<a href="https://colab.research.google.com/github/Sjleerodls/Data_Analysis/blob/main/lab_da/da02_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import numpy as np
import pandas as pd

# Series

* 한가지 타입의 값 여러개를 저장할 수 있는 1차원 모양의 데이터 타입(클래스).
* 축(axis) 레이블을 가지고 있는 1차원 배열.
    * 정수 기반의 인덱스(range)와 축 레이블을 함께 가질 수 있음.

In [2]:
s = pd.Series([1, 2, -3, -4, 5])

In [3]:
print(type(s))

<class 'pandas.core.series.Series'>


In [4]:
print(s)

0    1
1    2
2   -3
3   -4
4    5
dtype: int64


In [5]:
s

Unnamed: 0,0
0,1
1,2
2,-3
3,-4
4,5


In [6]:
s.index

RangeIndex(start=0, stop=5, step=1)

In [7]:
s.values

array([ 1,  2, -3, -4,  5])

# indexing, slicing

* `iloc` : ndarray의 정수 인덱스 기반으로 원소를 참조. 리스트 또는 ndarray에서 사용하는 방법과 동일.
    * 음수 인덱스 사용이 가능
* `loc` : 축 레이블 기반으로 원소를 참조
    * 음수 인덱스 사용이 불가능

In [8]:
s.iloc[0]   # 시리즈의 첫번째 원소

np.int64(1)

In [9]:
s.iloc[-1]  # 시리즈의 마지막 원소, 음수 인덱스 사용이 가능함.

np.int64(5)

In [10]:
s.iloc[4]   # 시리즈의 마지막 원소

np.int64(5)

In [11]:
s.loc[0]

np.int64(1)

In [12]:
s.loc[4]

np.int64(5)

In [13]:
# s.loc[-1] #> 에러 발생

In [14]:
# iloc를 사용한 slicing
s.iloc[0:2]     # 배열의 index 기반 호출

Unnamed: 0,0
0,1
1,2


In [15]:
# loc를 사용한 slicing
s.loc[0:2]  # 뒤의 2까지 출력함. 시리즈의 레이블 기반으로 자름 (0~2까지의 포스트잇 안의 내용을 가져옴)

Unnamed: 0,0
0,1
1,2
2,-3


In [16]:
s.iloc[2:4]

Unnamed: 0,0
2,-3
3,-4


In [17]:
s.loc[2:3]

Unnamed: 0,0
2,-3
3,-4


In [18]:
s = pd.Series(data=[1, 2, -3, -4, 5],
              index=['a', 'b', 'x', 'y', 'c'])
s

Unnamed: 0,0
a,1
b,2
x,-3
y,-4
c,5


In [19]:
s.iloc[0]   # ndarray의 정수 인덱스 기반

np.int64(1)

In [20]:
s.iloc[-1]  # s.iloc[4]

np.int64(5)

In [21]:
s.loc['a']  # 레이블 기반의 인덱스

np.int64(1)

In [22]:
s.loc['c']

np.int64(5)

In [23]:
s.loc['a':'b']

Unnamed: 0,0
a,1
b,2


In [24]:
s.loc['y':'c']

Unnamed: 0,0
y,-4
c,5


## fancy indexing

In [25]:
s

Unnamed: 0,0
a,1
b,2
x,-3
y,-4
c,5


In [26]:
s.loc[['a', 'b', 'c']]

Unnamed: 0,0
a,1
b,2
c,5


In [27]:
s.iloc[[0, 1, 4]]

Unnamed: 0,0
a,1
b,2
c,5


## boolean indexing

boolean indexing은 loc 기반으로 동작. iloc는 사용할 수 없음.

In [28]:
s.loc[[True, False, True, False, True]]

Unnamed: 0,0
a,1
x,-3
c,5


In [29]:
s > 0

Unnamed: 0,0
a,True
b,True
x,False
y,False
c,True


In [30]:
s.loc[s > 0 ]   # 시리즈 s의 원소들 중 양수들로만 이루어진 부분집합

Unnamed: 0,0
a,1
b,2
c,5


In [31]:
s.loc[s < 0]    # 음수 원소들만 찾겠다.

Unnamed: 0,0
x,-3
y,-4


In [32]:
s.loc[:'x'] # s.loc['x':]

Unnamed: 0,0
a,1
b,2
x,-3


In [33]:
s.loc[::-1] # 역순으로 출력.

Unnamed: 0,0
c,5
y,-4
x,-3
b,2
a,1


In [34]:
s.loc['c':'x':-1]

Unnamed: 0,0
c,5
y,-4
x,-3


In [35]:
s.loc[:'x':-1]

Unnamed: 0,0
c,5
y,-4
x,-3


In [36]:
s.loc['x'::-1]

Unnamed: 0,0
x,-3
b,2
a,1


In [37]:
test_series = pd.Series(data=[1, 10, 100, 1000],
                        index=[1, 2, -1, -2])
test_series

Unnamed: 0,0
1,1
2,10
-1,100
-2,1000


In [38]:
print(test_series.loc[-1])

100


In [39]:
print(test_series.iloc[-1])

1000


In [40]:
test_series[-2] # 기본적으로 loc로 동작하고 있음.

np.int64(1000)

# DataFrame

* 테이블 형식의 2차원 데이터 타입
    * 행(row)과 열(column)을 가지고 있는 데이터 타입

In [41]:
data = {
    'city' : ['서울'] * 3 + ['경기'] * 3,
    'year' : [2022, 2023, 2024] * 2,
    'pop' : [0.89, 0.91, 0.92, 1.1, 1.2, 1.15]
}

data

{'city': ['서울', '서울', '서울', '경기', '경기', '경기'],
 'year': [2022, 2023, 2024, 2022, 2023, 2024],
 'pop': [0.89, 0.91, 0.92, 1.1, 1.2, 1.15]}

In [42]:
df = pd.DataFrame(data)

In [53]:
print(df)   # __str__ 메서드가 리턴하는 문자열

  city  year   pop
0   서울  2022  0.89
1   서울  2023  0.91
2   서울  2024  0.92
3   경기  2022  1.10
4   경기  2023  1.20
5   경기  2024  1.15


In [55]:
df

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92
3,경기,2022,1.1
4,경기,2023,1.2
5,경기,2024,1.15


## DataFrame의 속성들

In [45]:
print('shape:', df.shape)   # shape(모양) : (row 갯수, column 갯수)
print('index:', df.index)   # index : row index. 행 레이블.
print('columns:', df.columns)   # columns : column index. 열 레이블(이름).

shape: (6, 3)
index: RangeIndex(start=0, stop=6, step=1)
columns: Index(['city', 'year', 'pop'], dtype='object')


In [46]:
print(df.values)    # values : 데이터프레임의 값들로만 이루어진 2차원 np.ndarray

[['서울' 2022 0.89]
 ['서울' 2023 0.91]
 ['서울' 2024 0.92]
 ['경기' 2022 1.1]
 ['경기' 2023 1.2]
 ['경기' 2024 1.15]]


## DataFrame에서 column 선택

* `data_frame['column_name']`
* `data_frame.column_name` : 컬럼 명을 변수 이름처럼 참조하여 사용.
    * 컬럼의 이름이 변수 이름 규칙(문법)에 맞지 않는 경우에는 사용할 수 없음.
        * 변수 이름은 영문자, 숫자, _(underscore, 밑줄)만 사용.
        * 변수 이름은 숫자로 시작할 수 없음.
        * Python 키워드(if, for, in, class, def, True, ...)들은 변수 이름으로 사용할 수 없음.
    * 컬럼 이름이 DataFrame 클래스의 프로퍼티(변수) 또는 메서드 이름과 같은 경우에는 사용할 수 없음.

In [47]:
df['city']  # 데이터프레임에서 'city' 컬럼 선택

Unnamed: 0,city
0,서울
1,서울
2,서울
3,경기
4,경기
5,경기


In [48]:
df.city # 위와 같은 결과 출력.

Unnamed: 0,city
0,서울
1,서울
2,서울
3,경기
4,경기
5,경기


In [49]:
df['pop']

Unnamed: 0,pop
0,0.89
1,0.91
2,0.92
3,1.1
4,1.2
5,1.15


In [50]:
df.pop  #> DataFrame 클래스의 pop 메서드 객체

In [51]:
# 데이터프레임에서 2개 이상의 열(column)을 선택
df[['year', 'pop']]

Unnamed: 0,year,pop
0,2022,0.89
1,2023,0.91
2,2024,0.92
3,2022,1.1
4,2023,1.2
5,2024,1.15


In [52]:
df[['year', 'city', 'pop']]

Unnamed: 0,year,city,pop
0,2022,서울,0.89
1,2023,서울,0.91
2,2024,서울,0.92
3,2022,경기,1.1
4,2023,경기,1.2
5,2024,경기,1.15


## DataFrame에서 row 선택

* `data_frame.iloc[]` : ndarray의 정수 인덱스를 사용해서 행을 선택.
* `data_frame.loc[]` : DataFrame의 행 레이블(DataFrame.index)을 사용해서 행을 선택.

In [56]:
df

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92
3,경기,2022,1.1
4,경기,2023,1.2
5,경기,2024,1.15


In [62]:
df.iloc[0]

Unnamed: 0,0
city,서울
year,2022
pop,0.89


In [63]:
df.loc[0]

Unnamed: 0,0
city,서울
year,2022
pop,0.89


In [68]:
df.iloc[-1]     # df.iloc[5] 도 동일한 결과 출력.

Unnamed: 0,5
city,경기
year,2024
pop,1.15


In [70]:
df.loc[5]   # df.loc[-1]은 KeyError 발생.
# df.loc[-1] #> 에러 발생.

Unnamed: 0,5
city,경기
year,2024
pop,1.15


In [73]:
df.iloc[:3] # 첫 3개 행 선택.

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92


In [76]:
df.loc[:2]  # :3일 경우 3의 레이블까지 가져와서 다른 결과가 출력됨.

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92


In [78]:
df.iloc[-3:]    # 마지막 3개 행을 선택

Unnamed: 0,city,year,pop
3,경기,2022,1.1
4,경기,2023,1.2
5,경기,2024,1.15


In [79]:
# df.loc[-3:] # -3이라는 레이블에 없지만 모든 결과를 출력
#> 에러는 발생하지 않지만 마지막 3개 행을 선택하는 기능은 아님!

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92
3,경기,2022,1.1
4,경기,2023,1.2
5,경기,2024,1.15


## Boolean indexing

* 조건을 만족하는 행(row)들을 선택하는 방법
* `data_frame[조건식]`

In [93]:
df

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92
3,경기,2022,1.1
4,경기,2023,1.2
5,경기,2024,1.15


In [94]:
df['city'] == '서울'

Unnamed: 0,city
0,True
1,True
2,True
3,False
4,False
5,False


In [95]:
df[df['city'] == '서울']    # df[df.city == '서울']

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92


In [97]:
df[df.year == 2024]

Unnamed: 0,city,year,pop
2,서울,2024,0.92
5,경기,2024,1.15


* Boolean indexing에서는 논리연산자 `and, or, not`을 사용할 수 없음!
* 대신에 `&, |, ~` 기호들을 사용해야 함.
* 반드시 `()`를 사용해서 연산 순서를 명확히 해야 함.

In [100]:
# 연도가 2023 또는 2024인 행들을 선택
df[(df.year == 2023) | (df.year == 2024)]

Unnamed: 0,city,year,pop
1,서울,2023,0.91
2,서울,2024,0.92
4,경기,2023,1.2
5,경기,2024,1.15


In [101]:
# 서울의 2024 행을 선택
df[(df.city == '서울') & (df.year == 2024)]

Unnamed: 0,city,year,pop
2,서울,2024,0.92


In [105]:
# 2022년을 제외한 행들을 선택
df[df.year != 2022]

Unnamed: 0,city,year,pop
1,서울,2023,0.91
2,서울,2024,0.92
4,경기,2023,1.2
5,경기,2024,1.15


In [106]:
df[~(df.year == 2022)]

Unnamed: 0,city,year,pop
1,서울,2023,0.91
2,서울,2024,0.92
4,경기,2023,1.2
5,경기,2024,1.15


# DataFrame 메서드

In [107]:
df

Unnamed: 0,city,year,pop
0,서울,2022,0.89
1,서울,2023,0.91
2,서울,2024,0.92
3,경기,2022,1.1
4,경기,2023,1.2
5,경기,2024,1.15


In [111]:
df.info()   #> DataFrame 요약정보

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   city    6 non-null      object 
 1   year    6 non-null      int64  
 2   pop     6 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 276.0+ bytes


In [112]:
# 숫자 타입 데이터의 기술 통계량 :
# non-null 자료 개수, 평균, 표준편차, 최솟값, 1사분위값, 중위값, 3사분위값, 최댓값
df.describe()

Unnamed: 0,year,pop
count,6.0,6.0
mean,2023.0,1.028333
std,0.894427,0.13732
min,2022.0,0.89
25%,2022.25,0.9125
50%,2023.0,1.01
75%,2023.75,1.1375
max,2024.0,1.2


In [119]:
# 카테고리(범주) 타입 데이터의 기술 통계량 : 빈도수
df.city.value_counts()

Unnamed: 0_level_0,count
city,Unnamed: 1_level_1
서울,3
경기,3


In [122]:
# 통계 메서드
print(df['pop'].mean())
print(df['pop'].std())

1.0283333333333333
0.13731957859921745


In [115]:
# None 값 확인
test_data = {'A': [1, None, 2, 3], 'B' : [None, None, None, 'qwer']}
test_df = pd.DataFrame(test_data)
test_df

Unnamed: 0,A,B
0,1.0,
1,,
2,2.0,
3,3.0,qwer


In [117]:
test_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       3 non-null      float64
 1   B       1 non-null      object 
dtypes: float64(1), object(1)
memory usage: 196.0+ bytes


In [126]:
# pop의 값이 평균보다 큰 행들을 찾기.
df[(df['pop'] > df['pop'].mean())]

Unnamed: 0,city,year,pop
3,경기,2022,1.1
4,경기,2023,1.2
5,경기,2024,1.15


In [128]:
df['pop'].mean()

np.float64(1.0283333333333333)