## Pandas

In [None]:
'''
# pandas : 데이터 분석 기능을 제공하는 라이브러리

#        : CSV, Excel, JSON 등의 데이터를 읽고 원하는 데이터 형식으로 변환

# pandas 자료 구조 : Series, DataFrame
'''

In [1]:
import pandas as pd
from pandas import Series, DataFrame 

### Series 

In [2]:
# Series 는 일차원 배열 같은 자료구조 객체 
obj = Series([3, 22, 34, 11])

obj 

0     3
1    22
2    34
3    11
dtype: int64

In [4]:
print(obj.values)
print('-----------------------------')
print(obj.index)

[ 3 22 34 11]
-----------------------------
RangeIndex(start=0, stop=4, step=1)


In [6]:
# index가 보이므로 지정 가능 
obj2 = Series([4,5,6,2],index=['c','d','e','f'])

obj2

c    4
d    5
e    6
f    2
dtype: int64

In [9]:
# indexing

obj2['e']


6

In [10]:
# 요소를 한꺼번에 지정
obj2[['c','d','f']]

c    4
d    5
f    2
dtype: int64

In [11]:
# 요소별 연산 가능
obj2*2

c     8
d    10
e    12
f     4
dtype: int64

In [13]:
# index 존재 여부 (true/false return)
print('b' in obj2)
print('-----------------------')
print('c' in obj2)

False
-----------------------
True


In [14]:
# Series 객체는 딕셔너리와 거의 유사하므로 대체 가능
data = {'kim':3400, 'hong':2000, 'kang':1000, 'lee':2400}

obj3 = Series(data)
obj3


kim     3400
hong    2000
kang    1000
lee     2400
dtype: int64

In [15]:
name = ['woo','hong','kang','lee']

obj4 = Series(data, index=name)

obj4

woo        NaN
hong    2000.0
kang    1000.0
lee     2400.0
dtype: float64

In [17]:
# 누락된 데이터를 찾을 때 사용하는 함수 : isnull, notnull
print(pd.isnull(obj4))
print('----------------------------')
print(pd.notnull(obj4))

woo      True
hong    False
kang    False
lee     False
dtype: bool
----------------------------
woo     False
hong     True
kang     True
lee      True
dtype: bool


In [18]:
# 정리 
data = {'Seoul': 4000, 'Busan': 2000, 'Incheon':1500, 'Gwangju':1000}
obj = Series(data)
obj



Seoul      4000
Busan      2000
Incheon    1500
Gwangju    1000
dtype: int64

In [19]:
cities = ['Seoul', 'Daegu', 'Incheon', 'Gwangju']
obj2 = Series(data, index=cities)
obj2

Seoul      4000.0
Daegu         NaN
Incheon    1500.0
Gwangju    1000.0
dtype: float64

In [20]:
obj + obj2

Busan         NaN
Daegu         NaN
Gwangju    2000.0
Incheon    3000.0
Seoul      8000.0
dtype: float64

In [22]:
# Series 객체와 Series의 색인(index)는 모두 name 속성이 각각 있음
obj2.name = '인구수'
obj2

도시
Seoul      4000.0
Daegu         NaN
Incheon    1500.0
Gwangju    1000.0
Name: 인구수, dtype: float64

In [23]:
obj2.index.name='도시'
obj2

도시
Seoul      4000.0
Daegu         NaN
Incheon    1500.0
Gwangju    1000.0
Name: 인구수, dtype: float64

In [25]:
# index 바로 변경
obj2.index = ['Daejeon','Busan','jaeju','jeonju']

obj2

Daejeon    4000.0
Busan         NaN
jaeju      1500.0
jeonju     1000.0
Name: 인구수, dtype: float64

### DataFrame

In [None]:
# DataFrame은 2차원리스트(2차원배열) 같은 자료구조 객체

In [27]:
x = pd.DataFrame([
    [1,2,3],
    [4,5,6],
    [7,8,9]

])

x

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [28]:
print(x)

   0  1  2
0  1  2  3
1  4  5  6
2  7  8  9


In [44]:

data = {
    'city' : ['서울','부산','광주','대구'],
    'year' : [2000,2001,2002,2002],
    'pop' : [4000,2000,1000,1000]
}

df = pd.DataFrame(data)
df

Unnamed: 0,city,year,pop
0,서울,2000,4000
1,부산,2001,2000
2,광주,2002,1000
3,대구,2002,1000


In [45]:
# 컬럼 순서 변경
df = DataFrame(data, columns=['year','city','pop'])
df

Unnamed: 0,year,city,pop
0,2000,서울,4000
1,2001,부산,2000
2,2002,광주,1000
3,2002,대구,1000


In [46]:
# 인덱스 변경 / 추가
df2 = DataFrame(data, columns=['year','city','pop', 'debt'], index=['one','two','three','four'])
df2

Unnamed: 0,year,city,pop,debt
one,2000,서울,4000,
two,2001,부산,2000,
three,2002,광주,1000,
four,2002,대구,1000,


In [47]:
# 인덱싱 가능
print(df2['city'])
print('------------------------')
print(df2['debt'])

one      서울
two      부산
three    광주
four     대구
Name: city, dtype: object
------------------------
one      NaN
two      NaN
three    NaN
four     NaN
Name: debt, dtype: object


In [49]:
# 요소 접근 (컬럼명 / 인덱스 )
print(df2.columns)
print('-------------------------')
print(df2.index)

Index(['year', 'city', 'pop', 'debt'], dtype='object')
-------------------------
Index(['one', 'two', 'three', 'four'], dtype='object')


In [53]:
# row 위치 접근할 때 사용하는 메소드
# iloc[index] : position 기반으로 indexing
# - 색인을 name 속성의 값으로 할당
# loc[name]: label 기반으로 indexing
print(df2.loc['two'])
print('--------------------------')
print(type(df2.iloc[2]))

year    2001
city      부산
pop     2000
debt     NaN
Name: two, dtype: object
--------------------------
<class 'pandas.core.series.Series'>


In [56]:
df2

Unnamed: 0,year,city,pop,debt
one,2000,서울,4000,
two,2001,부산,2000,
three,2002,광주,1000,
four,2002,대구,1000,


In [57]:
# 값 삽입
df2['debt'] = 1000

df2

Unnamed: 0,year,city,pop,debt
one,2000,서울,4000,1000
two,2001,부산,2000,1000
three,2002,광주,1000,1000
four,2002,대구,1000,1000


In [None]:
import numby as 

In [61]:
# Series 이용해서 값 삽입  (유의 - index 매칭이 필요)
val = Series([1000,2000,3000,4000], index=['one','two','three','four'])

df2['debt'] = val
df2

Unnamed: 0,year,city,pop,debt
one,2000,서울,4000,1000
two,2001,부산,2000,2000
three,2002,광주,1000,3000
four,2002,대구,1000,4000


In [62]:
# Series 이용해서 값 삽입(필요한 부분만 삽입)
val = Series([1000,3000,4000], index=['one','three','four'])

df2['debt'] = val
df2

Unnamed: 0,year,city,pop,debt
one,2000,서울,4000,1000.0
two,2001,부산,2000,
three,2002,광주,1000,3000.0
four,2002,대구,1000,4000.0


In [64]:
# 컬럼 추가하면서 t/f 삽입
df2['cap'] = df2.city =='서울'
df2




Unnamed: 0,year,city,pop,debt,cap
one,2000,서울,4000,1000.0,True
two,2001,부산,2000,,False
three,2002,광주,1000,3000.0,False
four,2002,대구,1000,4000.0,False


In [65]:
# 컬럼 삭제
del df2['cap']

df2

Unnamed: 0,year,city,pop,debt
one,2000,서울,4000,1000.0
two,2001,부산,2000,
three,2002,광주,1000,3000.0
four,2002,대구,1000,4000.0


In [69]:
# 
data = {
    'seoul':[20,30],
    'busan':[200,300,10]
    
}


df3 = Dataframe(data)
df3

NameError: name 'Dataframe' is not defined

In [None]:
df3.T

In [None]:
# 데이터만 추출
df3.values    # 데이터프레임에서 values 속성은 저장된 데이터를 2차배열형태로 리턴