In [94]:
import pandas as pd

In [95]:
# Pandas 의 Series 생성
series1 = pd.Series([1,2,3,4,5])
series1

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [96]:
# 인덱스 지정해서 Series 생성
series2=pd.Series([1,2,3,4,5], index=['일','이','삼','사','오'])
series2

일    1
이    2
삼    3
사    4
오    5
dtype: int64

In [97]:
population=pd.Series([9904312,3448737,2890451,2466052], index=['서울','부산','인천', '대구'])
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [98]:
# Series 정보 확인
# 값, 인덱스, 타입
# values, index, dtype
population.values # 값확인

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [99]:
population.index # 인덱스 확인

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [100]:
population.dtype #타입 확인

dtype('int64')

In [101]:
#Series의 컬럼 이름 지정
population.name='인구'
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [102]:
population.index.name='도시'
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [103]:
# 시리즈 연산
population/1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

In [104]:
# 시리즈 인덱싱
population[1] # 인덱스 번호 사용
population['부산'] #같은결과,  지정 인덱스 사용

3448737

In [105]:
# 리스트를 활용한 인덱싱
# 순서, 횟수 무관
# 작성한 순서대로 출력
# 작성한 횟수만큼 출력
population[['서울','부산']] 

도시
서울    9904312
부산    3448737
Name: 인구, dtype: int64

In [106]:
population[[0,3,1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [107]:
# Boolean 인덱싱
# 인구수가 250만 이상인 도시의 정보 출력
population[population >= 2500000]

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [108]:
# 인구수가 500만 이하의 도시 정보 출력
population[population<=5000000]

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [109]:
# 인구수가 250만 이상이고 500만 이하의 도시 정보 출력
population[(population>=2500000) & (population<=5000000)]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [110]:
# 시리즈 슬라이싱
# 인덱스 번호로 슬라이싱[첫번째 수 : 끝 수+1]
# 지정한 인덱스로 슬라이싱[첫번째 값 : 끝나는값]
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [111]:
population[1:3]
population['부산':'대구']

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [112]:
# 딕셔너리 객체로 Series 생성
# 인덱스 부여가 자동으로 완성
# key = 인덱스
# values = 값
data= {'서울':9631482,'부산':3393191,'인천':2632035,'대전':1490158}
population2=pd.Series(data)
population2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [113]:
# population2 : 2010년 인구
# population : 2015년 인구
# 2015년과 2010년도의 인구 증가를 계산
# 같은 인덱스와 값을 가지고 있는 것들끼리 계산
ds=population-population2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [114]:
print(population.index)
print(population2.index)

Index(['서울', '부산', '인천', '대구'], dtype='object', name='도시')
Index(['서울', '부산', '인천', '대전'], dtype='object')


In [115]:
# notnull() : null이 아니면 True, null이면 False
# isnull() : null이 아니면 False, null이면 True

In [116]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [117]:
ds[ds.isnull()]

대구   NaN
대전   NaN
dtype: float64

In [118]:
# 2015년도와 2010년도의 읜구 증가율 계산
# 단 없는 값은 출력 X
# 인구 증가율은 (2015년인구-2010년인구)/2010년*100 
rs=((population-population2)/population2)*100
rs[rs.notnull()]

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [119]:
#Series값 갱신, 추가, 삭제
# 대구의 값 갱신
rs['대구'] = 1.41  

In [120]:
rs

대구    1.410000
대전         NaN
부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [121]:
# 값 추가 -> 기존의 있는값에 추가
rs['광주'] = 2.08
rs

대구    1.410000
대전         NaN
부산    1.636984
서울    2.832690
인천    9.818107
광주    2.080000
dtype: float64

In [122]:
# 값 삭제 -> del 사용
del rs['대전']
rs

대구    1.410000
부산    1.636984
서울    2.832690
인천    9.818107
광주    2.080000
dtype: float64

### DataFrame

In [123]:
# 딕셔너리를 통해서 DataFrame만들기
data={
    "2015" : [9904312,3448737,2890451,2466052],
    "2010" : [9631482,3393191,2632035,2431774]
}
df=pd.DataFrame(data)
df

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [124]:
#DataFrame 생성후 index 설정
df.index = ['서울','부산','인천','대구']
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [125]:
# DataFrame 생성시 index 지정, column 지정
data =[
    [9904312,3448737,2890451,2466052],
    [9631482,3393191,2632035,2431774]
]

ind = ['2015','2010']
col = ['서울', '부산', '인천', '대구']
df2=pd.DataFrame(data, index= ind, columns= col)
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [126]:
# 전치 col<->ind  : T
# T : 데이터 프레임에만 사용가능, 데이터프레임의 속성
# transpose() : 전치가 가능한 모든 데이터에 적용 가능
df2.T
df2=df2.transpose() #같은 값
df2

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [127]:
# 데이터프레임 정보 확인 
# 값 확인 : values
# 인덱스 확인 : index
# 컬럼 확인 : columns

In [128]:
df2.values

array([[9904312, 9631482],
       [3448737, 3393191],
       [2890451, 2632035],
       [2466052, 2431774]], dtype=int64)

In [129]:
df2.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [130]:
df2.columns

Index(['2015', '2010'], dtype='object')

In [131]:
# 데이터프레임에 값 추가
# 컬럼을 기준으로 값 추가
# 기존에 가지고있는 컬럼을 입력시 값의 수정이 이루어짐
df2['2005']=[9762546,3512547,2517680,2450000]
df2

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2450000


In [132]:
# 인덱싱 슬라이싱
# 칼럼으로 인덱싱하기
df2["2010"] # 하나의 컬럼 출력시 Series로 출력

서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

In [133]:
# 리스트를 사용한 인덱싱
# 데이터 프레임으로 출력
df2[["2015","2005"]]

Unnamed: 0,2015,2005
서울,9904312,9762546
부산,3448737,3512547
인천,2890451,2517680
대구,2466052,2450000


In [134]:
#인덱스를 기준으로 하는 슬라이싱
df2[0:2]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547


In [135]:
#인덱서 (1. iloc, 2.loc)
# iloc : 인덱스 번호 사용
# loc : 지정한 인덱스 사용

In [136]:
df2

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2450000


In [137]:
# loc[index,columns ] 
df2.loc["서울":"부산", "2015":"2010"]

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [138]:
# iloc 인덱서를 사용해서 동일한 결과값 출력
df2.iloc[:2,:2]

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [139]:
# 데이터프레임 불리언인덱싱
# 2010년 인구가 2500000만 이상인 데이터 출력

In [146]:
bol=df2.loc[:, '2010']>=2500000
bol

서울     True
부산     True
인천     True
대구    False
Name: 2010, dtype: bool

In [152]:
df2.loc[bol,:]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680


In [161]:
# read_csv()
pn=pd.read_csv('population_number.csv', encoding='euc-kr', index_col='도시')
pn

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [164]:
# 값의 갯수 세기
# value_counts
pn.loc[:,'지역'].value_counts()

수도권    2
경상권    2
Name: 지역, dtype: int64