## pandas 라이브러리 다루기

### 1. pandas 라이브러리란?
- 테이블형 데이터를 다룰 수 있는 다양한 기능을 가진 라이브러리
  - 파이썬 데이터 분석을 위해 기본적으로 사용하는 라이브러리임
- raw data를 데이터 분석 전과정을 위해 사용할 수 있도록 변환하는 데이터 전처리에도 많이 사용됨
  - raw data: 아직 데이터 분석을 위해 정제되지 않은 기본 데이터를 의미함
    - 보통 데이터 분석 목적에 맞지 않은 불필요한 데이터가 있거나, 데이터가 없는 열들이 포함됨

> pandas 라이브러리 기능이 너무 많고 다양한 기능이 있기 때문에, 문법만 익혀서는 와닿지가 않음. 따라서
> 본 강좌에서는 짧은 시간에 pandas 라이브러리를 익히기 위해 기본 기능을 탐색적 데이터 분석 (EDA) 개념과 실제 데이터를 가지고 익히도록 구성


#### pandas 라이브러리 임포트
- 보통 pd 로 많이 사용함

In [1]:
import pandas as pd # 라이브러리 임포트 (보통 이와 같이 사용함, 이후에는 pd.팬더스함수 형태로 팬더스 라이브러리 함수를 호출함)

### 2. 시리즈(Series) 이해하기
- 데이터를 다루기 위해 데이터 프레임(Dataframe)과 시리즈(Series) 제공
- 시리즈(Series)는 1차원 데이터이고, 데이터프레임(Dataframe)이 테이블형(2차원) 데이터임

#### Series 생성

In [2]:
seriesdata = pd.Series([70, 60, 90])
seriesdata

0    70
1    60
2    90
dtype: int64

- index는 행의 레이블을 의미함
- index를 지정하지 않으면 0부터 시작하는 인덱스 자동 생성
- 지정할 경우에는 지정된 index로 사용

In [4]:
seriesdata = pd.Series([70, 60, 90], index=['국어', '영어', '수학'])
seriesdata

국어    70
영어    60
수학    90
dtype: int64

#### Series 데이터 가져오기

- 인덱스와 데이터 가져오기

In [5]:
seriesdata.index

Index(['국어', '영어', '수학'], dtype='object')

In [6]:
seriesdata.values

array([70, 60, 90])

- 특정 데이터 지정 가능 (출력, 수정등 데이터 처리 가능)

In [12]:
print (seriesdata['국어'], seriesdata[0])

70 70


In [7]:
seriesdata['국어'] = 80
print (seriesdata['국어'], seriesdata[0])

80 80


### 3. 데이터프레임(Dataframe) 이해하기
- 데이터프레임은 테이블형(2차원) 데이터이며, 데이터 분석/머신 러닝에서 데이터 처리를 위해 주로 사용됨
- 2차원이기 때문에 엑셀/csv와 같이 데이터가 row, column로 구성되며, 인덱스도 두 개, row/column 각각 존재함
  - 행의 레이블은 인덱스로, 열의 레이블은 컬럼으로 부름

#### Dataframe 생성

In [8]:
df = pd.DataFrame({
    "미국": [2.1, 2.2, 2.3],
    "한국": [0.4, 0.5, 0.45],
    "중국": [10, 13, 15]    
})
df

Unnamed: 0,미국,한국,중국
0,2.1,0.4,10
1,2.2,0.5,13
2,2.3,0.45,15


#### 인덱스와 함께 생성하기

In [9]:
df = pd.DataFrame({
    "미국": [2.1, 2.2, 2.3],
    "한국": [0.4, 0.5, 0.45],
    "중국": [10, 13, 15]},
    index=[2000, 2010, 2020]
)
df

Unnamed: 0,미국,한국,중국
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


#### 인덱스로 특정 컬럼 선택하기

In [26]:
df = pd.DataFrame({
    "년도": [2000, 2010, 2020],    
    "미국": [2.1, 2.2, 2.3],
    "한국": [0.4, 0.5, 0.45],
    "중국": [10, 13, 15]    
})
df

Unnamed: 0,년도,미국,한국,중국
0,2000,2.1,0.4,10
1,2010,2.2,0.5,13
2,2020,2.3,0.45,15


In [27]:
df = df.set_index('년도')
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


#### 데이터프레임 데이터 접근하기

In [30]:
df.loc[2000]

미국     2.1
한국     0.4
중국    10.0
Name: 2000, dtype: float64

In [31]:
df['미국']

년도
2000    2.1
2010    2.2
2020    2.3
Name: 미국, dtype: float64

In [32]:
print (df['미국'][2000])
print (df.loc[2000]['미국'])

2.1
2.1


- 인덱스가 숫자로 입력됬는지, 문자로 입력됬는지에 따라, loc[] 에서 지정하는 방식도 동일하게 해야함

In [33]:
df = pd.DataFrame({
    "년도": ['2000', '2010', '2020'],    
    "미국": [2.1, 2.2, 2.3],
    "한국": [0.4, 0.5, 0.45],
    "중국": [10, 13, 15]    
})
df = df.set_index('년도')
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


In [34]:
df.loc['2000']

미국     2.1
한국     0.4
중국    10.0
Name: 2000, dtype: float64

#### 데이터프레임의 각 열은 시리즈(Series)

In [35]:
df['미국']

년도
2000    2.1
2010    2.2
2020    2.3
Name: 미국, dtype: float64

In [36]:
df['미국'].values

array([2.1, 2.2, 2.3])

In [37]:
df['미국'].index

Index(['2000', '2010', '2020'], dtype='object', name='년도')

In [28]:
print (type(df), type(df['미국']))

<class 'pandas.core.frame.DataFrame'> <class 'pandas.core.series.Series'>
