## Pandas에서 제공하는 대표적인 자료구조
    1) Series
       : 값과 인덱스를 묶어서 하나의 구조로 만드는 것
    2) DataFrame
       : 테이블
    3) http://pandas.pydata.org

In [1]:
import pandas as pd
import numpy as np

### Series

In [5]:
s=pd.Series([9904312,3448737,2890451,2466052])
print(type(s))
print(s)    # 시리즈로 묶어주면 인덱스로 표시를 해준다.

<class 'pandas.core.series.Series'>
0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64


In [6]:
for i in enumerate([9904312,3448737,2890451,2466052]):
    print(i)                           

(0, 9904312)
(1, 3448737)
(2, 2890451)
(3, 2466052)


In [13]:
#인덱스를 자유롭게 지정하는 방법
s=pd.Series([9904312,3448737,2890451,2466052],index=['1','2','3','4'])
print(s)
s=pd.Series([9904312,3448737,2890451,2466052],index=['서울','부산','인천','대구'])
print(s)

print("--------------------------------------------")
print(s.index)
print(s.values)
print("-------- ---------------------------------------")
s.index.name='도시'
print(s)
s.name='인구'
print(s)

1    9904312
2    3448737
3    2890451
4    2466052
dtype: int64
서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
--------------------------------------------
Index(['서울', '부산', '인천', '대구'], dtype='object')
[9904312 3448737 2890451 2466052]
-----------------------------------------------
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [14]:
# 벡터화 연산
s1=s/1000000
print(s1)

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64


In [20]:
# 인덱싱
print(s[1],s['부산'])
print(s[[0,3,1]],s[['서울','대구','부산']])
print(s[(250e4<s) & (s<500e4)])

print("-----------------------------------------")
print(s[1:3])
print(s['부산':'대구'])

3448737 3448737
도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64 도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
-----------------------------------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [34]:
#Series와 dict
print("서울" in s)
print('대전' in s)
print(s.items())

for k,v in s.items():
    print("%s=%d"%(k,v))
print("----------------------------------------------") 
s2=pd.Series({'서울': 9631482, "부산": 3448737, '인천': 2632035, '대전': 1490158})
print(s2)
    

True
False
<zip object at 0x000001F109C3FB88>
서울=9904312
부산=3448737
인천=2890451
대구=2466052
----------------------------------------------
서울    9631482
부산    3448737
인천    2632035
대전    1490158
dtype: int64


In [36]:
# 인덱스 기반 연산
print(s)
print("------------------------------------")
print(s2)
print("------------------------------")
ds=s-s2
print(ds)
print("----------------------------------")
print(s.values-s2.values)

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
------------------------------------
서울    9631482
부산    3448737
인천    2632035
대전    1490158
dtype: int64
------------------------------
대구         NaN
대전         NaN
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
----------------------------------
[272830      0 258416 975894]


In [44]:
#결측치 지우는 방법

print(ds)    # NaN지우기


print(ds.notnull())     # Nan값을 False로 값을 가지는 것들은True로 출력한다.

# notnull()인덱스에 적용
print(ds[ds.notnull()])       

print("-------------------------------------------------------")


#인구 증가율: (끝연도-시작연도/시작연도)*100
ds2=(s2-s)/s*100
print(ds2)
ds2=ds[ds2.notnull()]
print(ds2)

대구         NaN
대전         NaN
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
-------------------------------------------------------
대구         NaN
대전         NaN
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64


In [45]:
# 데이터를 수정,삭제,갱신
ds2['부산']=1.63
print(ds2)

ds2['대구']=1.41
print(ds2)

del ds2['서울']
print(ds2)

부산         1.63
서울    272830.00
인천    258416.00
dtype: float64
부산         1.63
서울    272830.00
인천    258416.00
대구         1.41
dtype: float64
부산         1.63
인천    258416.00
대구         1.41
dtype: float64


### DataFrame

In [47]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
print(type(data))
print(data)

<class 'dict'>
{'2015': [9904312, 3448737, 2890451, 2466052], '2010': [9631482, 3393191, 2632035, 2431774], '2005': [9762546, 3512547, 2517680, 2456016], '2000': [9853972, 3655437, 2466338, 2473990], '지역': ['수도권', '경상권', '수도권', '경상권'], '2010-2015 증가율': [0.0283, 0.0163, 0.0982, 0.0141]}


In [50]:
df=pd.DataFrame(data)
df

Unnamed: 0,2015,2010,2005,2000,지역,2010-2015 증가율
0,9904312,9631482,9762546,9853972,수도권,0.0283
1,3448737,3393191,3512547,3655437,경상권,0.0163
2,2890451,2632035,2517680,2466338,수도권,0.0982
3,2466052,2431774,2456016,2473990,경상권,0.0141


In [53]:
# 컬럼의 위치 변경
cols=['지역','2015','2010','2005','2000','2010-2015 증가율']
df=pd.DataFrame(data, columns=cols)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
0,수도권,9904312,9631482,9762546,9853972,0.0283
1,경상권,3448737,3393191,3512547,3655437,0.0163
2,수도권,2890451,2632035,2517680,2466338,0.0982
3,경상권,2466052,2431774,2456016,2473990,0.0141


In [55]:
# 인덱스명 변경하기
idx=['서울','부산','인천','대구']
df=pd.DataFrame(data,columns=cols,index=idx)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [59]:
print(df.values)
print(df.columns)
print(df.index)

[['수도권' 9904312 9631482 9762546 9853972 0.0283]
 ['경상권' 3448737 3393191 3512547 3655437 0.0163]
 ['수도권' 2890451 2632035 2517680 2466338 0.0982]
 ['경상권' 2466052 2431774 2456016 2473990 0.0141]]
Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')
Index(['서울', '부산', '인천', '대구'], dtype='object')


In [60]:
# 컬럼과 인덱스에 이름부여
df.index.name='도시'
df.columns.name='특성'
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [61]:
#전치 가능
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [70]:
# 열 인덱싱    
print(df['지역'])
print(type(df['지역']))
print(df['2015'])

print("-----------------------------")
print(df[['지역']])
print(df[['2005','2010']])
print("-----------------------------")
#print(df[0])  오류

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object
<class 'pandas.core.series.Series'>
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64
-----------------------------
특성   지역
도시     
서울  수도권
부산  경상권
인천  수도권
대구  경상권
특성     2005     2010
도시                  
서울  9762546  9631482
부산  3512547  3393191
인천  2517680  2632035
대구  2456016  2431774
-----------------------------


In [74]:
# 행 인덱스 : 반드시 슬라이스 이용.
df[:]
df[:1]
df[1:2]
#df['서울']  -> 오류 . 슬라이스를 이용하지 않아서 행이 아니라 열로 인식한다. 

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,0.0163


In [77]:
# 동시에 행과 열에 접근하는 방법
df['2005']['서울']          #[2005]가 시리즈이기 때문에 접근가능
#df[['2005','2010']]['서울']  #   ['2005','2010']는 배열이기 때문에 ['서울'] 로 접근불가
df[['2005','2010']][:'서울']     # 접근하고 싶으면 이런방법으로 

특성,2005,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9762546,9631482


In [85]:
# 열 데이터의 갱신,추가,삭제

df['2010-2015 증가율']=df['2010-2015 증가율']*100
df

df['2005-2010 증가율']=((df['2010']-df['2005'])/df['2005']*100).round(2)
df

del df['2010-2015 증가율']
df


KeyError: '2010-2015 증가율'

#### 실습문제

In [92]:
# 1. 인덱스를 춘향, 몽룡, 향단, 방자로 구성된 데이터프레임 df를 작성하시
data={
    '국어':[80,90,70,30],
    '영어':[90,70,60,40],
    '수학':[90,60,80,70]
}
idx=['춘향','몽룡','향단','방자']
col=['국어','수학','영어']
df=pd.DataFrame(data,index=idx,columns=col)
df

Unnamed: 0,국어,수학,영어
춘향,80,90,90
몽룡,90,60,70
향단,70,80,60
방자,30,70,40


In [103]:
# 2. 모든 학생의 수학점수를 나타내시오
df['수학']

# 3. 모든 학생의 국어와 영어 점수를 나타내시오
df[['국어','영어']]

# 4. 모든 학생의 각 과목 평균 점수를 새로운 열로 추가하시오.
df['평균']=((df['국어']+df['수학']+df['영어'])/3).round(2)
df
# 5. 방자의 영어점수를 80점으로 수정하고 평균 점수도 다시 수정하시오

# 6. 춘향의 점수를 데이터 프레임으로 나타내시오


# 7. 향단의 점수를 Series로 나타내시오.


### 데이터입출력
      - read_csv()
      - to_csv()
      - read_table()

In [105]:
%%writefile data/sample1.csv
c1,c2,c3
1,1.11,one
2,2.22,two
3,3.33,three

Overwriting data/sample1.csv


In [106]:
sample1=pd.read_csv('data/sample1.csv')
sample1

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [108]:
%%writefile data/sample2.csv
c1,c2,c3
1,1.11,one
2,2.22,two
3,3.33,three

Writing data/sample2.csv


In [110]:
#컬럼명을 부여
sample2=pd.read_csv('data/sample2.csv',names=['c1','c2','c3'])
sample2

Unnamed: 0,c1,c2,c3
0,c1,c2,c3
1,1,1.11,one
2,2,2.22,two
3,3,3.33,three


In [111]:
#특정 열을 인덱스로 지정하고 싶을 때
sample1=pd.read_csv('data/sample1.csv',index_col='c1')
sample1

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [115]:
%%writefile data/sample4.csv
c1,c2,c3
1,1.11,one
2,,two
누락,3.33,three

Writing data/sample4.csv


In [117]:
sample4=pd.read_csv('data/sample4.csv',na_values=['','누락'])    #공백과 누락은 결측치로 처리하겠다
sample4

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [118]:
%%writefile data/sample5.txt
 c1     c2    c3       c4
0.23   0.33  0.354   0.2389
0.123  0.345 0.567   0.986

Writing data/sample5.txt


In [119]:
sample5=pd.read_csv('data/sample5.txt',sep='\s+')
sample5

Unnamed: 0,c1,c2,c3,c4
0,0.23,0.33,0.354,0.2389
1,0.123,0.345,0.567,0.986


In [123]:
# to_csv()
df.to_csv('data/sample6.csv')
df.to_csv('data/sample7.txt',sep='|')   #구분을 |로 한다.
df.to_csv('data/sample8.csv',index=False,header=False)    # 인덱스와 컬럼명 빼고 들고오기!
sample4.to_csv('data/sample9.txt',sep='|',na_rep='누락')

### 고급 인덱싱 : indexer
     loc  : 라벨값 기반의 2차원 인덱싱을 지원하는 인덱서
     iloc : 순서를 나타내는 정수기반의 2차원 인덱서
     ix   
     at   : 스칼라값
     iat

#### loc


In [130]:
df=pd.DataFrame(np.arange(10,22).reshape(3,4),index=['a','b','c'],columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [133]:
df[:'a']
df.loc['a']
df.loc['a':'b']

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17


In [136]:
#df[['a','c']]        
#df.loc[['A','B']]    #loc는 행을 기준으로 하기 때문에 열로 할 수 없다.
df.loc[['a','c']]   

Unnamed: 0,A,B,C,D
a,10,11,12,13
c,18,19,20,21


In [138]:
df.A>15

df.loc[df.A>15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [140]:
def select_rows(df,num):
    return df.A>num
#######################################

select_rows(df,15)
df.loc[select_rows(df,15)]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [145]:
# 인덱싱을 행과 열로 모두 받을 경우
df['A']['b']
df.loc['b']['A']   #loc는 행이 기준이기 때문에 행먼저 싸준다.

#df['A','b']  처럼 합쳐서는 오류나지만
df.loc['b','A']   #loc를 이용해서 합치면 괜찮다

df.loc['b':,'A']
df.loc['a',:]
df.loc[['a','b'],['B','C']]

# 모든 행에 대해서 첫번째 행에 있는 값이 11보다 작거나 같은 행의 컬럼을 추출
df.loc[:,df.loc['a',:]<=11]

Unnamed: 0,A,B
a,10,11
b,14,15
c,18,19


#### iloc

In [148]:
df.iloc[0,1]    # 위치의 숫자로 접근 .  loc는 인덱스와 컬럼명으로 접근했다.

11

In [150]:
df.iloc[:2,2]
df.iloc[0,-2:]

C    12
D    13
Name: a, dtype: int32

#### at,iat

In [152]:
%timeit df.loc['a','A']
%timeit df.at['a','A']

5.17 µs ± 145 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
2.95 µs ± 7.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
