In [1]:
import pandas as pd

In [2]:
# Pandas의 Series 생성
series1 = pd.Series([1,2,3,4,5])
series1

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [3]:
# 인덱스 지정해서 Series 생성
series2 = pd.Series([1,2,3,4,5], index = ['일','이','삼','사','오'])
series2

일    1
이    2
삼    3
사    4
오    5
dtype: int64

In [4]:
population = pd.Series([9904312,3448737,2890451,2466052],
                      index = ['서울','부산','인천','대구'])
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [5]:
#Series 정보 확인
#값, 인덱스, 타입
#values, index, dtype
population.values #값 확인

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [6]:
population.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [7]:
population.dtype

dtype('int64')

In [8]:
# Series의 컬럼 이름 지정
population.name = '인구'
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [9]:
#인덱스 이름 설정
population.index.name = '도시'
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [10]:
#시리즈 연산
population / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

In [11]:
#시리즈 인덱싱
population[1] # 인덱스 번호 사용

3448737

In [12]:
population['부산'] # 지정한 인덱스 사용

3448737

In [13]:
#리스트를 활용한 인덱싱 방법
#순서, 횟수에 상관없이 출력됨
#리스트의 번호도 가능
population[['서울','부산','서울']]

도시
서울    9904312
부산    3448737
서울    9904312
Name: 인구, dtype: int64

In [14]:
population[[0,3,1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [15]:
# Boolean 인덱싱
# 인구수가 250만 이상인 도시의 정보 출력

population[population >= 2500000]

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [16]:
# 인구수가 500만 이하의 도시 정보 출력

population[population<=5000000]

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [17]:
#인구수가 250만 이상이고 500만 이하의 도시 정보 출력
population[(2500000<=population) & (population<=5000000)]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [18]:
#슬라이싱
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [19]:
#- 시리즈 슬라이싱
# 인덱스 번호로 슬라이싱[첫번째 수 : 끝 수 +1]
# 지정한 인덱스로 슬라이싱[첫번째 값 : 마지막 값] (+1하지 않음!)
population['부산':'인천']

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [20]:
#딕셔너리 객체로 Siries 생성
#인덱스 부여가 자동으로 완성
# Key = 인덱스
# Value = 값
data = {'서울': 9631482,'부산':3393191,'인천':2632035,'대전 ':1490158}
population2 = pd.Series(data)
population2

서울     9631482
부산     3393191
인천     2632035
대전     1490158
dtype: int64

In [21]:
# population2 : 2010년인구
# population1 : 2015년인구
ds = population - population2
ds

대구          NaN
대전          NaN
부산      55546.0
서울     272830.0
인천     258416.0
dtype: float64

In [22]:
print(population.index)
print(population2.index)

Index(['서울', '부산', '인천', '대구'], dtype='object', name='도시')
Index(['서울', '부산', '인천', '대전 '], dtype='object')


In [23]:
#- 딕셔너리 함수
# notnull() : null이 아니면 True, null이면 False
# isnull() : null이 아니면 False, null이면 True

In [24]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [25]:
ds[ds.isnull()]

대구    NaN
대전    NaN
dtype: float64

In [26]:
# 2015년도와 2010년도의 인구 증가율 계산
# 단, 없는 값은 출력 X
# (2015년 인구 - 2010년 인구) / 2010년인구 * 100

In [27]:
rs = (population - population2) / population2 * 100
rs

대구          NaN
대전          NaN
부산     1.636984
서울     2.832690
인천     9.818107
dtype: float64

In [28]:
rs[rs.notnull()]

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [29]:
# Series값 갱신 추가 삭제
#값 갱신 (기존의 Nan값에서 값을 넣어 갱신해주기)
rs['대구'] = 1.41
rs

대구     1.410000
대전          NaN
부산     1.636984
서울     2.832690
인천     9.818107
dtype: float64

In [30]:
#값 추가 (Key값을 추가하여 덧붙일 수 있음)
rs['광주'] = 2.08
rs

대구     1.410000
대전          NaN
부산     1.636984
서울     2.832690
인천     9.818107
광주     2.080000
dtype: float64

In [31]:
#값 삭제 (del키워드)

In [32]:
del rs['대전 ']
rs

대구    1.410000
부산    1.636984
서울    2.832690
인천    9.818107
광주    2.080000
dtype: float64

# DataFrame

In [33]:
# 딕셔너리를 통해서 DataFrame 만들기
data = {
    "2015" : [9904312,3448737,2890451,2466052],
    "2010" : [9631482,3393191,2632035,2431774]
}

df = pd.DataFrame(data)
df

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [34]:
# DataFrame 생성 후 index 설정
df.index=['서울','부산','인천','대구']
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [35]:
# DataFrame 생성시 index 설정, column 지정
data = [
    [9904312,3448737,2890451,2466052],
    [9631482,3393191,2632035,2431774]
]

ind = ['2015' , '2010']
col = ['서울','부산','인천','대구']

df2 = pd.DataFrame(data , index = ind, columns = col)
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [36]:
#전치 columns와 index를 뒤집어줌!
#값을 출력만 해주는 것!
df2.T #데이터 타입에서 사용할 수 있는 속성으로 판다스에서만 구동가능
df2.transpose() #전치를 할 수 있는 데이터면 어디서든 사용가능

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [37]:
data = {
    "2015" : [9904312,3448737,2890451,2466052],
    "2010" : [9631482,3393191,2632035,2431774]
}
ind = ['서울','부산','인천','대구']

df2 = pd.DataFrame(data , index = ind)
df2

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [38]:
#데이터프레임 정보 확인
#값 확인 : values
#인덱스 확인 : index
#컬럼 확인 : columns

In [39]:
df2.values

array([[9904312, 9631482],
       [3448737, 3393191],
       [2890451, 2632035],
       [2466052, 2431774]], dtype=int64)

In [40]:
df2.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [41]:
df2.columns

Index(['2015', '2010'], dtype='object')

In [42]:
#데이터프레임에 값 추가
#값 추가 : 컬럼을 기준으로 값 추가
#값 수정 : 기존에 가지고 있는 컬럼을 입력시 값의 수정이 이루어짐
#값 삭제 : 


#값 추가
df2['2005'] = [9762546,3512547,2517680,2456016]
df2


Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


In [43]:
# 인덱싱 슬라이싱
# 컬럼으로 인덱싱하기
df2["2010"] #하나의 컬럼 출력시 Series로 출력

서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

In [44]:
#리스트를 사용해서 인덱싱하면 DataFrame으로 출력된다.
df2[["2010"]]

Unnamed: 0,2010
서울,9631482
부산,3393191
인천,2632035
대구,2431774


In [45]:
#인덱스를 기준으로 하는 슬라이싱
df2[0:2]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547


In [46]:
df2['서울':'인천']

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680


In [47]:
# 인덱서
# iloc, loc

In [48]:
df2

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


In [49]:
# loc[index, columns]
df2.loc["서울":"부산", "2015":"2010"]

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [50]:
df2.iloc[0:2, 0:2]

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [51]:
#데이터프레임 불리언 인덱싱
# 2010년 인구가 250만 이상인 데이터 출력

In [52]:
bol = df2.loc[:,'2010'] >= 2500000
bol

서울     True
부산     True
인천     True
대구    False
Name: 2010, dtype: bool

In [53]:
df2.loc[bol,:]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680


In [57]:
# read_csv() 라는 함수사용해 파일 불러오기
pn = pd.read_csv('population_number.csv', encoding = 'euc-kr', index_col='도시')
pn

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [59]:
#값의 갯수 세기
# value_counts
pn.loc[:,'지역'].value_counts()

수도권    2
경상권    2
Name: 지역, dtype: int64

In [None]:
#정렬
