* NumPy 패키지
    * 클래스: ndarray(n-dimensional array)
    * 배열(array) 또는 행렬(matrix)과 같은 숫자형 데이터들을 빠르게 연산
* pandas 패키지
    * 클래스: Series(1차원 데이터), DataFrame(2차원 데이터)
    * 표(table)와 같은 형태의 데이터를 분석, 정제, 조작하는 기능
* matplotlib 패키지
    * 시각화(visualization). 그래프

In [1]:
# pandas 패키지 import
import pandas as pd

In [2]:
pd.__version__ # Colab에서 설치된 pandas 패키지의 버전

'1.1.5'

In [9]:
# pandas.Series: 한가지 타입의 값 여러개를 저장할 수 있는 1차원 모양의 데이터 타입(클래스)
# One-dimensional ndarray with axis labels
s = pd.Series([1, 3, -5, 7])
print(s)

0    1
1    3
2   -5
3    7
dtype: int64


In [5]:
print(type(s))

<class 'pandas.core.series.Series'>


In [6]:
print(s.index)

RangeIndex(start=0, stop=4, step=1)


In [8]:
print(s.values)  # Series.values: 저장된 값들(ndarray)

[ 1  3 -5  7]


In [12]:
# Series의 원소 접근 - 인덱스를 사용. indexing, slicing, ...
print(s[0])

1


In [14]:
print(s[1:3])

1    3
2   -5
dtype: int64


In [15]:
print(s[:3])

0    1
1    3
2   -5
dtype: int64


In [16]:
print(s[2:])

2   -5
3    7
dtype: int64


In [18]:
# fancy indexing - list, array와 같은 객체로 indexing
print(s[[0, 2]])

0    1
2   -5
dtype: int64


In [20]:
# boolean indexing - boolean들의 list(또는 array)로 indexing
print(s[[True, False, True, False]])

0    1
2   -5
dtype: int64


In [21]:
s > 0 

0     True
1     True
2    False
3     True
dtype: bool

In [22]:
print(s[s > 0])

0    1
1    3
3    7
dtype: int64


In [28]:
# Series.loc[label]: label-base location
# Series.iloc[integer]: integer-base location
s = pd.Series(data=[1, 3, -5, 7], index=['a', 'b', 'c', 'd'])
print(s)

a    1
b    3
c   -5
d    7
dtype: int64


In [30]:
print(s['a'], s[0])

1 1


In [32]:
print(s['d'], s[3], s[-1])

7 7 7


In [35]:
print(s.loc['a'])
# print(s.loc[0]) #> Error

1


In [38]:
print(s.iloc[0])
# print(s.iloc['a']) #> Error

1


In [42]:
# slicing에서 loc와 iloc 차이
print(s.loc['a':'c']) #> s.loc['a']와 s.loc['c'] 모두 포함됨

a    1
b    3
c   -5
dtype: int64


In [44]:
print(s.iloc[0:2])  #> 0 <= i < 2 범위 slicing. s.iloc[2]이 포함되지 않음

a    1
b    3
dtype: int64


In [51]:
s = pd.Series([1, 3, 5, 7, 9])
print(s)
print()
print(s.loc[1:3])

print()
print(s.iloc[1:3])

0    1
1    3
2    5
3    7
4    9
dtype: int64

1    3
2    5
3    7
dtype: int64

1    3
2    5
dtype: int64


In [52]:
print(s.loc[4], s.iloc[4], s.iloc[-1])

9 9 9


In [54]:
city_pop = {'서울': 10_000_000, '경기': 15_000_000, '인천': 1_000_000} # dict
print(city_pop)

{'서울': 10000000, '경기': 15000000, '인천': 1000000}


In [56]:
s = pd.Series(data=city_pop)
print(s)
#> dict의 key가 Series의 index가 되고, dict의 values가 Series의 Value가 됨

서울    10000000
경기    15000000
인천     1000000
dtype: int64


In [59]:
# loc를 사용한 fancy indexing
print(s.loc[['경기', '서울']])

경기    15000000
서울    10000000
dtype: int64


In [62]:
# iloc를 사용한 fancy indexing
print(s.iloc[[1, 0]])

경기    15000000
서울    10000000
dtype: int64


In [68]:
# pandas.DataFrame: 2차원 표(table) 형태의 데이터 타입(클래스)
data = {
    'city': ['서울', '서울', '서울', '경기', '경기', '경기'],
    'year': [2018, 2019, 2020, 2018, 2019, 2020],
    'pop' : [0.85, 0.9, 0.92, 1.1, 1.2, 1.5]
    }
print(data)

{'city': ['서울', '서울', '서울', '경기', '경기', '경기'], 'year': [2018, 2019, 2020, 2018, 2019, 2020], 'pop': [0.85, 0.9, 0.92, 1.1, 1.2, 1.5]}


In [70]:
df = pd.DataFrame(data)
print(df)  #> 6 rows, 3 columns

  city  year   pop
0   서울  2018  0.85
1   서울  2019  0.90
2   서울  2020  0.92
3   경기  2018  1.10
4   경기  2019  1.20
5   경기  2020  1.50


In [73]:
df #> Jupyter Notebook은 DataFrame을 HTML table 형식으로 출력해줌

Unnamed: 0,city,year,pop
0,서울,2018,0.85
1,서울,2019,0.9
2,서울,2020,0.92
3,경기,2018,1.1
4,경기,2019,1.2
5,경기,2020,1.5


In [79]:
# DataFrame 객체의 속성들(attributes)
print('shape', df.shape)       # (row, column 개수)
print('index:', df.index)      # row index 
print('columns:', df.columns)  # column index. 컬럼 이름들

shape (6, 3)
index: RangeIndex(start=0, stop=6, step=1)
columns: Index(['city', 'year', 'pop'], dtype='object')


In [82]:
# DataFrame에서 column을 선택하는 방법
# 1) df['column_name'] - dict에서 key를 사용해서 value 값을 읽는 방법과 유사
df['city']

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object

In [83]:
# 2) df.column_name - 클래스 객체의 attribute 이름으로 값을 읽는 방법과 유사
df.city

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object

In [84]:
df = pd.DataFrame(data={
    'col_1': [1, 2, 3],
    '2_x': [4, 5, 6],
    'class': ['a', 'a', 'b']
})
df

Unnamed: 0,col_1,2_x,class
0,1,4,a
1,2,5,a
2,3,6,b


In [85]:
print(df['col_1'])
print()
print(df.col_1)

0    1
1    2
2    3
Name: col_1, dtype: int64

0    1
1    2
2    3
Name: col_1, dtype: int64


In [88]:
print(df['2_x'])
# print(df.2_x) # SyntaxError

0    4
1    5
2    6
Name: 2_x, dtype: int64


In [90]:
print(df['class'])
# print(df.class) # SyntaxError

0    a
1    a
2    b
Name: class, dtype: object


In [92]:
# DataFrame에서 row를 선택하는 방법
# 1) df.loc[label]
# 2) df.iloc[integer]
df = pd.DataFrame(data)
df

Unnamed: 0,city,year,pop
0,서울,2018,0.85
1,서울,2019,0.9
2,서울,2020,0.92
3,경기,2018,1.1
4,경기,2019,1.2
5,경기,2020,1.5


In [96]:
df.loc[2] #  Series 타입
df.loc[2]['pop']

0.92

# DataFrame slicing

In [97]:
df.loc[0:2] # start <= label <= end

Unnamed: 0,city,year,pop
0,서울,2018,0.85
1,서울,2019,0.9
2,서울,2020,0.92


In [98]:
df.iloc[0:3] # start <= index < end

Unnamed: 0,city,year,pop
0,서울,2018,0.85
1,서울,2019,0.9
2,서울,2020,0.92


In [101]:
df.loc[4:]   # df.loc[4:5]

Unnamed: 0,city,year,pop
4,경기,2019,1.2
5,경기,2020,1.5


In [102]:
df.iloc[4:]  # df.iloc[4:6]

Unnamed: 0,city,year,pop
4,경기,2019,1.2
5,경기,2020,1.5


# DataFrame Boolean indexing

In [103]:
df

Unnamed: 0,city,year,pop
0,서울,2018,0.85
1,서울,2019,0.9
2,서울,2020,0.92
3,경기,2018,1.1
4,경기,2019,1.2
5,경기,2020,1.5


In [104]:
# 2020년 데이터 출력
print(df.year)

0    2018
1    2019
2    2020
3    2018
4    2019
5    2020
Name: year, dtype: int64


In [105]:
print(df.year == 2020)

0    False
1    False
2     True
3    False
4    False
5     True
Name: year, dtype: bool


In [106]:
df[df.year == 2020]  # df[df['year'] == 2020]

Unnamed: 0,city,year,pop
2,서울,2020,0.92
5,경기,2020,1.5


In [107]:
# pop > 1.0 만족하는 데이터 출력
df[df['pop'] > 1.0]

Unnamed: 0,city,year,pop
3,경기,2018,1.1
4,경기,2019,1.2
5,경기,2020,1.5


In [110]:
# np.ndarray, pd.Series, pd.DataFrame의 boolean indexing에서는 and, or, not을 사용할 수 없음
# &, |, ~ 연산자를 사용함 
# ()로 연산 순서를 명시해야 함!! 

# 2020년 데이터 중에서 pop이 1.0 이상인 데이터를 출력
df[(df['year'] == 2020) & (df['pop'] >= 1.0)]

Unnamed: 0,city,year,pop
5,경기,2020,1.5
