## Series

In [1]:
import pandas as pd

In [2]:
# Series 생성
series1 =pd.Series([1,2,3,4,5])
print(series1)

0    1
1    2
2    3
3    4
4    5
dtype: int64


In [3]:
# Index 지정하고 Series 생성
series2 = pd.Series([1,2,3,4,5], index = ['일','이','삼','사','오'])
print(series2)

일    1
이    2
삼    3
사    4
오    5
dtype: int64


In [4]:
population = pd.Series([9904312,3448737,2890451,2466052],index = ['서울','부산','인천','대구'])
print(population)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64


In [5]:
#  값,인덱스,타입 = values,index,dtype
print(population.values)
print(population.index)
print(population.dtype)

[9904312 3448737 2890451 2466052]
Index(['서울', '부산', '인천', '대구'], dtype='object')
int64


In [6]:
# 컬럼 이름
population.name='인구'
print(population)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [7]:
# 인덱스 이름
population.index.name = '도시'
print(population)

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [8]:
# 시리즈 연산
print(population/1000000)

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64


In [9]:
# 시리즈 인덱싱
print(population['서울'])
print(population[1])
print(population['부산':'대구'])
print(population[1:3])

9904312
3448737
도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64


In [10]:
# list를 활용한 인덱싱
# 원하는 순서로 원하는 만큼 출력 가능.
print(population[['서울','부산']])
print(population[['부산','부산','서울']])

도시
서울    9904312
부산    3448737
Name: 인구, dtype: int64
도시
부산    3448737
부산    3448737
서울    9904312
Name: 인구, dtype: int64


In [11]:
# boolean 인덱싱 - numoy와 동일하게 사용
print(population[population >= 2500000])

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64


In [12]:
print(population[population <= 5000000])

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [13]:
print(population[2500000 <= population][population <= 5000000])
print(population[(2500000 <= population) & (population <= 5000000)])

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64


In [14]:
# 딕셔너리로 시리즈를 생성하면 인덱스가 자동으로 부여
#  key = index, value = 값
data = {'서울':9631482, '부산':3393191, '인천':2632035, '대전':1490158}
population2 = pd.Series(data)
print(population2)

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64


In [15]:
# Series 연산
# population,population2 2015,2010 인구
# 증가 인구 계산
bs = population - population2
print (bs)
# notnull() : 값이 없으면 false, 값이 있으면 true
# ismull() : notnull()과 반대
print(bs[bs.notnull()])
print(bs[bs.isnull()])

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64
대구   NaN
대전   NaN
dtype: float64


In [16]:
# 2015년도와 2010년도의 인구 증가율 계산
# 없는 값은 출력 X
# 인구 증가율  (2015 - 2010)/2010*100
rs = (population - population2)/population2*100
print(rs[rs.notnull()].astype(str)+'%')

부산    1.6369841839141974%
서울     2.832689714833086%
인천     9.818106522139713%
dtype: object


In [17]:
# 갱신
rs['대구'] = 1.41
# 추가
rs['광주'] = 2.08
# 제거
del rs['대전']
print(rs)

대구    1.410000
부산    1.636984
서울    2.832690
인천    9.818107
광주    2.080000
dtype: float64


## DataFrame

In [18]:
# Dictionary 로 DataFrame 만들기
# Key : column name , value : 값
dict = {'2015': [9904312,3448737,2890451,2466052],'2010':[9631482,3393191,2632035,2431774]}
df = pd.DataFrame(dict)
df

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [19]:
# index 설정 방법
# DataFrame 생성 후 index 설정
df.index = ['서울','부산','인천','대구']
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [20]:
# DataFrame 생성시 index 지정, column name 지정
dict = [[9904312,3448737,2890451,2466052],[9631482,3393191,2632035,2431774]]
ind = ['2015','2010']
col = ['서울','부산','인천','대구']
df2 = pd.DataFrame(dict,index = ind,columns = col)
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [21]:
dict = [[9904312,9631482],[3448737,3393191],[2890451,2632035],[2466052,2431774]]
col = ['2015','2010']
ind = ['서울','부산','인천','대구']
df3 = pd.DataFrame(dict,index = ind,columns = col)
df3

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [22]:
# .transpose() = .T(DataFrame 만 가능)
df4 = df2.transpose()
df4

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [23]:
print(df4.index)
print(df4.columns)

Index(['서울', '부산', '인천', '대구'], dtype='object')
Index(['2015', '2010'], dtype='object')


In [24]:
# column 기준 값 추가
# 기존에 가지고 있던 column 명을 입력하면 수정이 이루어짐
df4['2005']=[9762546,3515247,2517680,2450000]
df4

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3515247
인천,2890451,2632035,2517680
대구,2466052,2431774,2450000


In [25]:
# DataFrame 인덱싱(column) & 슬라이싱(index)
# column 기준
print(df4['2015'])
print(df4[['2015']])
print(df4[['2015','2005']])
# index 기준
print(df4['서울':'인천'])
# 혼합
print(df4['2015']['서울'])
print(df4['2015']['서울':'인천'])
print(df4[['2015','2010']]['서울':'인천'])
# 잘 안씁니다....

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64
       2015
서울  9904312
부산  3448737
인천  2890451
대구  2466052
       2015     2005
서울  9904312  9762546
부산  3448737  3515247
인천  2890451  2517680
대구  2466052  2450000
       2015     2010     2005
서울  9904312  9631482  9762546
부산  3448737  3393191  3515247
인천  2890451  2632035  2517680
9904312
서울    9904312
부산    3448737
인천    2890451
Name: 2015, dtype: int64
       2015     2010
서울  9904312  9631482
부산  3448737  3393191
인천  2890451  2632035


In [26]:
# 인덱서 : iloc, loc
#  iloc : index 번호 사용
# loc : 지정한 index 사용
df4.loc['서울':'부산','2015':'2010']

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [27]:
df4.iloc[:2,:2]

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [28]:
df4

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3515247
인천,2890451,2632035,2517680
대구,2466052,2431774,2450000


In [29]:
# boolean 인덱싱
df4[df4 >= 5000000]

Unnamed: 0,2015,2010,2005
서울,9904312.0,9631482.0,9762546.0
부산,,,
인천,,,
대구,,,


In [30]:
df4 >= 5000000

Unnamed: 0,2015,2010,2005
서울,True,True,True
부산,False,False,False
인천,False,False,False
대구,False,False,False


In [31]:
df4.loc[df4['2010']>=2500000]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3515247
인천,2890451,2632035,2517680


In [32]:
df4['2010']>=2500000

서울     True
부산     True
인천     True
대구    False
Name: 2010, dtype: bool

In [33]:
df4[df4['2010']>=2500000]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3515247
인천,2890451,2632035,2517680


In [36]:
# csv 불러오기
pn = pd.read_csv('population_number.csv',encoding = "euc-kr",index_col = '도시')
pn

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [45]:
# 값의개수 세기 : count(열별로 Data 개수를 세어 준다), value_counts(값에 따라 세어준다)
print(pn.count())
print(pn.count()['지역'])
print(pn.loc[:,'지역'].value_counts())
# 정렬

지역      4
2015    4
2010    3
2005    2
2000    4
dtype: int64
4
수도권    2
경상권    2
Name: 지역, dtype: int64
