# Pandas 

In [None]:
'''
# pandas : 데이터 분석 기능을 제공하는 라이브러리
#        : CSV, Excel, JSON 등의 데이터를 읽고 원하는 데이터 형식으로 변환

# pandas 자료 구조 : Series, DataFrame
'''

In [2]:
import pandas as pd
from pandas import Series, DataFrame

## Series

In [3]:
# Series 는 일차원 배열 같은 자료구조 객체
obj = Series([3, 22, 34, 11])

obj

0     3
1    22
2    34
3    11
dtype: int64

In [4]:
print(obj.values)
print('------------------------')
print(obj.index)

[ 3 22 34 11]
------------------------
RangeIndex(start=0, stop=4, step=1)


In [5]:
# index가 보이므로 지정 가능
obj2 = Series([4, 5, 6, 2], index=['c', 'd', 'e', 'f'])
obj2

c    4
d    5
e    6
f    2
dtype: int64

In [6]:
# indexing
obj2['c']

4

In [7]:
# 요소를 한꺼번에 지정
obj2[['c', 'd', 'f']]

c    4
d    5
f    2
dtype: int64

In [8]:
# 요소별 연산 가능
obj2*2

c     8
d    10
e    12
f     4
dtype: int64

In [12]:
# 인덱스 존재 여부 (true/false return)
print('b' in obj2)
print('-------------')
print('c' in obj2)

False
-------------
True


In [13]:
# Series 객체는 딕셔너리와 거의 유사하므로 대체 가능
data = {'kim':3400, 'hong':2000, 'kang':1000, 'lee':2400}

obj3 = Series(data)
obj3

kim     3400
hong    2000
kang    1000
lee     2400
dtype: int64

In [14]:
name = ['woo', 'hong', 'kang', 'lee']

obj4 = Series(data, index=name)

obj4

woo        NaN
hong    2000.0
kang    1000.0
lee     2400.0
dtype: float64

In [19]:
# 누락된 데이터를 찾을 때 사용하는 함수 : isnull, notnull
print(pd.isnull(obj4))    # null인 값
print('-----------------------')
print(pd.notnull(obj4))   # null이 아닌 값

woo      True
hong    False
kang    False
lee     False
dtype: bool
-----------------------
woo     False
hong     True
kang     True
lee      True
dtype: bool


In [20]:
# 정리
data = {'Seoul':4000, 'Busan':2000, 'Incheon':1500, 'Gwangju':1000}
obj = Series(data)
obj

Seoul      4000
Busan      2000
Incheon    1500
Gwangju    1000
dtype: int64

In [21]:
cities = ['Seoul', 'Daegu', 'Incheon', 'Gwangju']
obj2 = Series(data, index=cities)
obj2

Seoul      4000.0
Daegu         NaN
Incheon    1500.0
Gwangju    1000.0
dtype: float64

In [22]:
obj + obj2     # NaN은 연산이 안 됨

Busan         NaN
Daegu         NaN
Gwangju    2000.0
Incheon    3000.0
Seoul      8000.0
dtype: float64

In [23]:
# Series 객체와 Series의 색인(index)는 모두 name 속성이 있음
obj2.name = '인구수'
obj2

Seoul      4000.0
Daegu         NaN
Incheon    1500.0
Gwangju    1000.0
Name: 인구수, dtype: float64

In [24]:
obj2.index

Index(['Seoul', 'Daegu', 'Incheon', 'Gwangju'], dtype='object')

In [None]:
obj2.index.name = '도시'
obj2

In [26]:
# index 바로 변경
obj2.index = ['Daejeon', 'Busan', 'Jeju', 'Jeonju']

obj2

Daejeon    4000.0
Busan         NaN
Jeju       1500.0
Jeonju     1000.0
Name: 인구수, dtype: float64

## DataFrame

In [None]:
# DataFrame은 2차원리스트(2차원배열) 같은 자료구조 객체

In [27]:
x = pd.DataFrame([
    [1, 2, 3], 
    [4, 5, 6],
    [7, 8, 9]
])

x

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [28]:
print(x)

   0  1  2
0  1  2  3
1  4  5  6
2  7  8  9


In [29]:
# 딕셔너리로도 데이터프레임을 생성할 수 있음
data = {
    'city' : ['서울', '부산', '광주', '대구'],
    'year' : [2000, 2001, 2002, 2002],
    'pop' : [4000, 2000, 1000, 1000]
}

df = pd.DataFrame(data)
df 

Unnamed: 0,city,year,pop
0,서울,2000,4000
1,부산,2001,2000
2,광주,2002,1000
3,대구,2002,1000


In [33]:
# 컬럼 순서 변경 / 추가
df = DataFrame(data, columns=['year', 'city', 'pop', 'debt'], index=['one', 'two', 'three', 'four'])
df

Unnamed: 0,year,city,pop,debt
one,2000,서울,4000,
two,2001,부산,2000,
three,2002,광주,1000,
four,2002,대구,1000,


In [36]:
# 인덱스 변경/추가
df2 = DataFrame(data, columns=['year', 'city', 'pop', 'debt'], index=['one', 'two', 'three', 'four'])
df2

Unnamed: 0,year,city,pop,debt
one,2000,서울,4000,
two,2001,부산,2000,
three,2002,광주,1000,
four,2002,대구,1000,


In [37]:
# 인덱싱 가능
print(df2['city'])
print('----------------------')
print(df2['debt'])

one      서울
two      부산
three    광주
four     대구
Name: city, dtype: object
----------------------
one      NaN
two      NaN
three    NaN
four     NaN
Name: debt, dtype: object


In [38]:
# 요소 접근 (컬럼명/인덱스)
print(df2.columns)
print('-----------------')
print(df2.index)

Index(['year', 'city', 'pop', 'debt'], dtype='object')
-----------------
Index(['one', 'two', 'three', 'four'], dtype='object')


In [46]:
# row 위치 접근할 때 사용하는 메소드 
# iloc[index] : position 기반으로 indexing 
#             - 색인을 name 속성의 값으로 할당
# loc[name] : label 기반으로 indexing
print(df2.loc['three'])

print('-------------------')
print(type(df2.iloc[2]))

year    2002
city      광주
pop     1000
debt     NaN
Name: three, dtype: object
-------------------
<class 'pandas.core.series.Series'>


In [47]:
# 값 삽입
df2['debt'] = 1000

df2

Unnamed: 0,year,city,pop,debt
one,2000,서울,4000,1000
two,2001,부산,2000,1000
three,2002,광주,1000,1000
four,2002,대구,1000,1000


In [49]:
# 연속된 값 넣기
import numpy as np

df2['debt'] = np.arange(4)
df2

Unnamed: 0,year,city,pop,debt
one,2000,서울,4000,0
two,2001,부산,2000,1
three,2002,광주,1000,2
four,2002,대구,1000,3


In [51]:
# Series 이용해서 값 삽입 (유의 - index 매칭이 필요)
val = Series([1000, 2000, 3000, 4000], index=['one', 'two', 'three', 'four'])

df2['debt'] = val
df2

Unnamed: 0,year,city,pop,debt
one,2000,서울,4000,1000
two,2001,부산,2000,2000
three,2002,광주,1000,3000
four,2002,대구,1000,4000


In [52]:
# Series 이용해서 값 삽입 (필요한 부분만 삽입)
val = Series([1000, 3000, 4000], index=['one', 'three', 'four'])

df2['debt'] = val
df2

Unnamed: 0,year,city,pop,debt
one,2000,서울,4000,1000.0
two,2001,부산,2000,
three,2002,광주,1000,3000.0
four,2002,대구,1000,4000.0


In [53]:
# 컬럼 추가하면서 t/f 삽입
df2['cap'] = df2.city == '서울'
df2

Unnamed: 0,year,city,pop,debt,cap
one,2000,서울,4000,1000.0,True
two,2001,부산,2000,,False
three,2002,광주,1000,3000.0,False
four,2002,대구,1000,4000.0,False


In [54]:
# 컬럼 삭제
del df2['cap']
df2

Unnamed: 0,year,city,pop,debt
one,2000,서울,4000,1000.0
two,2001,부산,2000,
three,2002,광주,1000,3000.0
four,2002,대구,1000,4000.0


In [None]:
# 전치행렬

In [55]:
data2 = {
    'seoul' : {2019 : 20, 2020 : 30},
    'busan' : {2018 : 10, 2019 : 200, 2020 : 300}
}

df3 = DataFrame(data2)
df3

Unnamed: 0,seoul,busan
2019,20.0,200
2020,30.0,300
2018,,10


In [56]:
df3.T

Unnamed: 0,2019,2020,2018
seoul,20.0,30.0,
busan,200.0,300.0,10.0


In [58]:
# 데이터만 추출
df3.values       # 데이터프레임에서 values 속성은 저장된 데이터를 2차배열형태로 리턴

array([[ 20., 200.],
       [ 30., 300.],
       [ nan,  10.]])