In [1]:
import pandas as pd

In [2]:
data = {'2020' : [9668465, 3391946, 2942828, 1450062],
        '2010' : [10312545, 3567910, 2758296, 1454636]}
df = pd.DataFrame(data)
df

Unnamed: 0,2020,2010
0,9668465,10312545
1,3391946,3567910
2,2942828,2758296
3,1450062,1454636


In [3]:
df.index = ['서울', '부산', '인천', '광주']
df

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


#### DataFrame 인덱스 지정해서 생성(Dictionary)

In [4]:
data = {'2020' : [9668465, 3391946, 2942828, 1450062],
        '2010' : [10312545, 3567910, 2758296, 1454636]}
df = pd.DataFrame(data, index = ['서울', '부산', '인천', '광주'])
df

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


#### DataFrame 인덱스 지정하여 생성(list 구조 활용)

In [5]:
data2 = [[9668465, 3391946, 2942828, 1450062],
         [10312545, 3567910, 2758296, 1454636]]
ind = ['2020', '2010']
col = ['서울', '부산', '인천', '광주']
df2 = pd.DataFrame(data2, index = ind, columns = col)
df2

Unnamed: 0,서울,부산,인천,광주
2020,9668465,3391946,2942828,1450062
2010,10312545,3567910,2758296,1454636


#### DataFrame 전치하기

In [6]:
df2.T

Unnamed: 0,2020,2010
서울,9668465,10312545
부산,3391946,3567910
인천,2942828,2758296
광주,1450062,1454636


#### DataFrame 값 확인

In [7]:
df.values

array([[ 9668465, 10312545],
       [ 3391946,  3567910],
       [ 2942828,  2758296],
       [ 1450062,  1454636]], dtype=int64)

#### DataFrame 인덱스 확인

In [8]:
df.index

Index(['서울', '부산', '인천', '광주'], dtype='object')

#### DatFrame 컬럼 확인

In [9]:
df.columns

Index(['2020', '2010'], dtype='object')

### DataFrame indexing, Slicing

##### DataFrame 열 인덱스 확인하기(열 인덱싱)

In [10]:
print(df['2020'])

서울    9668465
부산    3391946
인천    2942828
광주    1450062
Name: 2020, dtype: int64


In [11]:
print(df[['2020']])

       2020
서울  9668465
부산  3391946
인천  2942828
광주  1450062


In [12]:
print(df[['2020','2010']])

       2020      2010
서울  9668465  10312545
부산  3391946   3567910
인천  2942828   2758296
광주  1450062   1454636


#### DataFrame 새로운 Column 추가하기

In [13]:
df['2005'] = [9762546,3512547,2517680,1456016]
df

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680
광주,1450062,1454636,1456016


#### DataFrame 행 슬라이싱

In [14]:
df[0:2]

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547


In [15]:
df['서울':'부산']

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547


#### Pandas 라이브러리


##### loc[ ] 인덱서 - 실제 인덱스이름을 사용하여 행을 가지고 올 때 사용

In [16]:
df.loc['부산':'인천','2020':'2010']

Unnamed: 0,2020,2010
부산,3391946,3567910
인천,2942828,2758296


##### iloc[ ] 인덱서 - numpy의 array인덱싱 방식으로 행을 가지고 올 때 사용

In [17]:
df.iloc[3]

2020    1450062
2010    1454636
2005    1456016
Name: 광주, dtype: int64

##### Pandas Boolean 인덱싱

In [18]:
df['2010'] >= 2500000

서울     True
부산     True
인천     True
광주    False
Name: 2010, dtype: bool

In [19]:
df[df['2010'] >= 2500000]

Unnamed: 0,2020,2010,2005
서울,9668465,10312545,9762546
부산,3391946,3567910,3512547
인천,2942828,2758296,2517680


#### CSV 파일 불러오기

In [20]:
population = pd.read_csv('population.csv', encoding = 'cp949')
population

Unnamed: 0,도시,지역,2015,2010,2005,2000
0,서울,수도권,9904312,9631482.0,9762546.0,9853972
1,부산,경상권,3448737,,,3655437
2,인천,수도권,2890451,2632035.0,,2466338
3,대구,경상권,2466052,2431774.0,2456016.0,2473990


In [21]:
# 도시를 인덱스로 교체
population = pd.read_csv('population.csv',index_col='도시', encoding = 'cp949')
population

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


#### 정렬
##### sort_index함수 : 인덱스 값을 기준으로 정렬하는 방법

In [22]:
population.sort_index()

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
부산,경상권,3448737,,,3655437
서울,수도권,9904312,9631482.0,9762546.0,9853972
인천,수도권,2890451,2632035.0,,2466338


#### 정렬


##### sort_value함수 : 데이터 값을 기준으로 정렬하는 방법(내림차순)

In [24]:
population['2010'].sort_values(ascending = False)

도시
서울    9631482.0
인천    2632035.0
대구    2431774.0
부산          NaN
Name: 2010, dtype: float64

#### 1.DataFrame 을 2010년 인구수 기준으로 정렬해라

In [28]:
population.sort_values(by = '2010')

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437


#### 2.DataFrame 을 지역,2010년 인구수 기준으로 정렬해라

In [30]:
population.sort_values(by = ['지역','2015'])

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972
