In [1]:
import pandas as pd

In [6]:
# Series생성 , 인덱스 지정해서 생성하기
pop = pd.Series([9904312,3448737,2890451,2466052], 
          index = ['서울','부산','인천','대구'])
pop

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [9]:
## 값 확인하기 : values
print(pop.values)
## 인덱스 확인하기 : index
print(pop.index)
## 타입 확인하기 : dtype
print(pop.dtype)
## 크기 확인하기
len(pop)

[9904312 3448737 2890451 2466052]
Index(['서울', '부산', '인천', '대구'], dtype='object')
int64


4

In [14]:
# 열 이름 달기
pop.name = "인구"
# 행 이름 달기
pop.index.name = "도시"
pop

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

인덱싱

In [23]:
# 인덱싱 / 슬라이싱
print(pop["부산"],pop[1],"\n")
print(pop[1:3],"\n\n",pop["부산":"대구"]) 

3448737 3448737 

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64 

 도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [27]:
# 불리언인뎅싱 
print(pop >= 3000000,"\n")
pop[pop>=3000000]

도시
서울     True
부산     True
인천    False
대구    False
Name: 인구, dtype: bool 



도시
서울    9904312
부산    3448737
Name: 인구, dtype: int64

In [29]:
# 펜시 인덱싱           기존과 순서가 다르게
pop[["서울","인천","부산"]]

도시
서울    9904312
인천    2890451
부산    3448737
Name: 인구, dtype: int64

딕셔너리를 사용해서 시리즈 생성

In [31]:
dic_data = {"서울":9631482,"부산":3393191,"인천":2632035,"대전":1490158}
pop2 = pd.Series(dic_data)
pop2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

연산

In [34]:
# 시리즈끼리 연산 : 인덱스 값들을 기준으로 연산함
## 같은 인덱스가 없으면 계산을 하지못해 NaN을 출력
tmp = pop - pop2
tmp

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [39]:
# isnull : null(NaN) 이면 True 아니면 false
# notnull : 반대
tmp[tmp.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

Series 데이터 갱신, 추가, 삭제

In [42]:
# 갱신
tmp["부산"] = 700
tmp

대구         NaN
대전         NaN
부산       700.0
서울    272830.0
인천    258416.0
dtype: float64

In [43]:
# 추가 : 없는 인덱스
tmp["광주"] = 99999
tmp

대구         NaN
대전         NaN
부산       700.0
서울    272830.0
인천    258416.0
광주     99999.0
dtype: float64

In [44]:
# 삭제 : del
del tmp["대전"]
tmp

대구         NaN
부산       700.0
서울    272830.0
인천    258416.0
광주     99999.0
dtype: float64

# DataFrame 

In [57]:
# 딕셔너리를 사용해서 DataFrame 만들기
data = {
    '2015' : [9904312,3448737,2890451,2466052],
    '2010' : [9631482,3393191,2632035,2431774]
}
df = pd.DataFrame(data)
df

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [58]:
# 인덱스 수정
df.index = ['서울','부산','인천','대구']
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [59]:
# 리스트를 사용해서 DataFrame 만들기
data = [
    [9904312,3448737,2890451,2466052],
    [9631482,3393191,2632035,2431774]
]
ind = ['2015','2010']
col = ['서울','부산','인천','대구']
df2 = pd.DataFrame(data, index = ind, columns = col)
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [67]:
# 행과 열을 바꿔서 다시 만들기
# T : 전치함수
df2 = df2.T
df2

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [68]:
# values, index, colums : 값, 인덱스, 컬럼 확인
print(df2.values)
print(df2.index)
print(df2.columns)

[[9904312 9631482]
 [3448737 3393191]
 [2890451 2632035]
 [2466052 2431774]]
Index(['서울', '부산', '인천', '대구'], dtype='object')
Index(['2015', '2010'], dtype='object')


인덱싱

In [69]:
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [75]:
# 인덱싱 : 열에서만 가능
df['2015']

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64

In [76]:
# 슬라이싱 : 행에서만 가능
df['서울':"부산"]

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [77]:
# 인덱서 : 원하는 행과 열을 기준으로 데이터 출력 가능
# df.loc[ 행 , 열 ]
# loc : 직접 지정한 행,열 값
# iloc : 행,열의 인덱스 값 사용
# 행, 열공간에 인덱싱, 슬라이싱, 불리언인뎅싱, 펜시인덱싱 모두 사용 가능
# [ 하나의 값 ] 만 입력하면 행에 대한 정보로 인식

In [79]:
df.loc['인천','2010']

2632035

In [80]:
df.iloc[2,1]

2632035

In [81]:
df.loc["부산"]

2015    3448737
2010    3393191
Name: 부산, dtype: int64

In [82]:
df.loc[:,"2015"]

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64

예제 : 2010년의 인구수가 250만 이상인 데이터 출력

In [100]:
df[df['2010'] > 2500000]['2010']

서울    9631482
부산    3393191
인천    2632035
Name: 2010, dtype: int64