In [1]:
import pandas as pd

In [2]:
# Pandas 의 Series 생성
series1 = pd.Series([1,2,3,4,5])
series1

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [3]:
# 인덱스 지정해서 Series 생성
series2 = pd.Series([1,2,3,4,5], index = ['일','이','삼','사','오'])
series2                                       

일    1
이    2
삼    3
사    4
오    5
dtype: int64

In [4]:
population = pd.Series([9904312,3448737,2890451,2466052],index=['서울','부산','인천','대구'])
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [5]:
# Series 정보확인
# 값, 인덱스, 타입 확인가능
# value, index, dtype
population.values # 값 확인

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [6]:
population.index # 인덱스 확인

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [7]:
population.dtype # 타입 확인

dtype('int64')

In [8]:
# Series의 컬럼 이름 지정
population.name = '인구'
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [9]:
population.index.name='도시'
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [10]:
# 시리즈 연산
population / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

#### 인덱싱

In [11]:
# 시리즈 인덱싱
population[1]

3448737

In [12]:
# 지정한 인덱스 사용
population['부산']

3448737

In [13]:
# 리스트를 활용한 인덱싱
# 적은 순서대로 정리하여 출력됨
print(population[ ['서울','부산'] ])
# 기존의 순서나 횟수에 상관없음
print(population[ ['부산','서울','부산'] ])

도시
서울    9904312
부산    3448737
Name: 인구, dtype: int64
도시
부산    3448737
서울    9904312
부산    3448737
Name: 인구, dtype: int64


In [14]:
population[[0,3,1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [15]:
# Boolean 인덱싱
# 인구수 250만 이상인 도시의 정보 출력
over = population >= 2500000
over

도시
서울     True
부산     True
인천     True
대구    False
Name: 인구, dtype: bool

In [16]:
population[over]

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [17]:
# 인구수가 500만 이하의 도시 정보 출력
population[population<=5000000]

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [18]:
# 인구수가 250만 이상이고 500만 이하의 도시 정보 출력
# 판다스에서는 and 인식을 못함
population[(population>=2500000) & (population <=5000000)]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [19]:
# Boolean 인덱싱을 두번함
# 결과를 2번 출력하므로 성능이 떨어짐 
population[(population>=2500000)][(population <=5000000)]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

#### 슬라이싱

In [20]:
# 슬라이싱
# 인덱스 번호로 슬라이싱 [첫번째 수 : 끝 수+1]
print(population[1:3])
# 지정한 인덱스로 슬라이싱 [첫번째 값 : 끝나는 값]
population['부산':'대구']

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64


도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [21]:
# 딕셔너리 객체로 Series 생성
# 인덱스 부여가 자동으로 완성
# key = 인덱스 // values = 값
data = {'서울':9631482 , '부산' : 3393191 , '대전':1490158 , '인천':2632035}
population2 = pd.Series(data)
population2

서울    9631482
부산    3393191
대전    1490158
인천    2632035
dtype: int64

In [22]:
# population2 : 2010년 인구
# population : 2015년 인구
# 2015년도와 2010년도의 인구 증가를 계산
# 같은 인덱스 값을 갖고 있는 것끼리 계산
ds = population - population2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [23]:
# numpy array는 인덱스마다 바로 계산했지만
# series 에서는 순서에 상관없이 인덱스가 맞아야 계산을 진행한다
# 계산 대상이 없을 경우  NaN(Not a Number) 출력
print(population.index)
print(population2.index)

Index(['서울', '부산', '인천', '대구'], dtype='object', name='도시')
Index(['서울', '부산', '대전', '인천'], dtype='object')


In [24]:
# notnull() : null이 아니면 True, null이면 False
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [25]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [26]:
# isnull() : null이 아니면 False, null이면 True
ds.isnull()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [27]:
ds[ds.isnull()]

대구   NaN
대전   NaN
dtype: float64

In [28]:
# 2015년도와 2010년도의 인구 증가율 계산
# 단, 없는값은 출력 X
# (2015년 인구 - 2010년 인구) / 2010년 인구 * 100
rs = (population - population2) / population2 * 100
rs[rs.notnull()]

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [29]:
# Series값 갱신 추가 삭제
# 대구 값 갱신
# 기존에 가지고 있던 값을 사용
rs['대구'] = 1.41

In [30]:
rs

대구    1.410000
대전         NaN
부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [31]:
# 값 추가
# 기존에 가지고 있지 않은 값 사용
rs['광주'] = 2.08
rs

대구    1.410000
대전         NaN
부산    1.636984
서울    2.832690
인천    9.818107
광주    2.080000
dtype: float64

In [32]:
# 값 삭제
del rs['대전']
rs

대구    1.410000
부산    1.636984
서울    2.832690
인천    9.818107
광주    2.080000
dtype: float64

### DataFrame

In [33]:
# 딕셔너리를 통해서 DataFrame 만들기
data = {
    "2015" : [9904312,3448737,2890451,2466052],
    "2010" : [9631482,3393191,2632035,2431774]
}

df = pd.DataFrame(data)
df

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [34]:
# DataFrame 생성 후 index 설정
df.index = ['서울','부산','인천','대구']
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [35]:
# DataFrame 생성시 index 지정, column 지정
data = [
    [9904312,3448737,2890451,2466052],
    [9631482,3393191,2632035,2431774]
]
ind = ['2015','2010']
col = ['서울','부산','인천','대구']

df2 = pd.DataFrame(data, index = ind, columns = col)
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [36]:
ind = ['서울','부산','인천','대구']
col = ['2015','2010']
data2 = [
    [9904312,9631482],[3448737,3393191],[2890451,2632035],[2466052,2431774]
]
df2 = pd.DataFrame(data2, index =ind, columns=col)
df2

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [37]:
# 전치
# T  : DataFrame의 속성
# transpose() : 전치가 가능한 모든 데이터에 적용 가능
# 값은 출력할뿐 저장은 안함
df4 = df2.T
print(df4)
df4 = df2.transpose()
df4

           서울       부산       인천       대구
2015  9904312  3448737  2890451  2466052
2010  9631482  3393191  2632035  2431774


Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


## 데이터프레임 정보 확인

In [38]:
# 데이터프레임 정보 확인
# 값 확인 : values
# 인덱스 확인 : index
# 컬럼 확인 : columns

In [39]:
df2.values

array([[9904312, 9631482],
       [3448737, 3393191],
       [2890451, 2632035],
       [2466052, 2431774]], dtype=int64)

In [40]:
df2.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [41]:
df2.columns

Index(['2015', '2010'], dtype='object')

In [42]:
# 데이터프레임에 값 추가
# 컬럼을 기준으로 값 추가
# 기존에 가지고있는 컬럼을 입력시 값의 수정이 이루어짐
df2['2005'] = [9762546,3512547,2517680,2456016]
print(df2)
df2['2005'] = [9762546,3512547,2517680,2450000]
df2

       2015     2010     2005
서울  9904312  9631482  9762546
부산  3448737  3393191  3512547
인천  2890451  2632035  2517680
대구  2466052  2431774  2456016


Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2450000


In [43]:
# 인덱싱 슬라이싱
# 컬럼으로 인덱싱하기
# 하나의 컬럼 출력시 Series로 출력
df2["2010"]

서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

In [46]:
# 리스트를 사용한 인덱싱
# 데이터 프레임으로 출력
df2[["2015","2005"]]
df2[["2010"]]

Unnamed: 0,2010
서울,9631482
부산,3393191
인천,2632035
대구,2431774


In [47]:
# 인덱스를 기준으로 하는 슬라이싱
# 끝숫자 + 1
df2[0:2]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547


In [48]:
df2['서울':'인천']

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680


## 인덱서
- 가장 많이 쓰는 방법

In [None]:
# 인덱서
# iloc : 인덱스 번호 사용
# loc : 지정한 인덱스 사용

In [49]:
df2

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2450000


In [59]:
# loc[ index,columns ]
df2.loc['서울':'부산','2015':'2010']

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [61]:
# iloc 인덱서를 사용해서 동일한 결과값 출력
df2.iloc[:2,:2]

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [63]:
# 특정값 출력
df2.iloc[1,1]

3393191

In [69]:
# 데이터프레임 불리언 인덱싱
# 2010년 인구가 2500000만 이상인 데이터를 포함하는 행 출력
bol = df2.loc[:,'2010'] >= 2500000
bol

서울     True
부산     True
인천     True
대구    False
Name: 2010, dtype: bool

In [78]:
df2.loc[bol,:]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680


In [81]:
# read_csv()
pn = pd.read_csv('population_number.csv', encoding = 'euc-kr' , index_col = '도시')
pn

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [86]:
# 값의 개수 세기
# value_counts
pn.loc[:,'지역'].value_counts()

수도권    2
경상권    2
Name: 지역, dtype: int64

In [90]:
# 값의 개수 세기
# value_counts
pn.loc[:,'지역':'2015'].value_counts()

지역   2015   
경상권  2466052    1
     3448737    1
수도권  2890451    1
     9904312    1
dtype: int64

In [None]:
# 정렬