## pandas 라이브러리 다루기

### 1. pandas 라이브러리란?
- 테이블형 데이터를 다룰 수 있는 다양한 기능을 가진 라이브러리
  - 파이썬 데이터 분석을 위해 기본적으로 사용하는 라이브러리임
- raw data를 데이터 분석 전과정을 위해 사용할 수 있도록 변환하는 데이터 전처리에도 많이 사용됨
  - raw data: 아직 데이터 분석을 위해 정제되지 않은 기본 데이터를 의미함
    - 보통 데이터 분석 목적에 맞지 않은 불필요한 데이터가 있거나, 데이터가 없는 열들이 포함됨

### 진행 방법
- pandas 라이브러리 기능이 너무 많고 다양한 기능이 있기 때문에, 문법만 익혀서는 와닿지가 않음
- pandas 라이브러리의 기본적인 기능만 익힌 후,
- 추가 문법은 가볍게 탐색적 데이터 분석 (EDA) 개념을 익히고, 실제 예제를 통해 관련 문법을 익힘
  - 데이터 분석 예제까지 계속 사용하며 반복적으로, 그리고 다양한 문법 이해 및 활용
  - 전처리 예제는 전처리만 집중, 데이터 분석/시각화는 하지 않음
  - 데이터 분석 예제는 전처리부터 데이터 분석/시각화(여기에 집중)
    
> 전처리 예제와 데이터 분석 예제를 실습하고 나면, pandas 와 최신 시각화 라이브러리를 바로 활용할 수 있도록!

### pandas 라이브러리 임포트
- 보통 pd 로 많이 사용함

In [159]:
import pandas as pd # 라이브러리 임포트 (보통 이와 같이 사용함, 이후에는 pd.팬더스함수 형태로 팬더스 라이브러리 함수를 호출함)

### 2. 시리즈(Series) 이해하기
- 데이터를 다루기 위해 데이터 프레임(Dataframe)과 시리즈(Series) 제공
- 시리즈(Series)는 1차원 데이터이고, 데이터프레임(Dataframe)이 테이블형(2차원) 데이터임

### Series 생성 (CRUD - Create)

In [160]:
seriesdata = pd.Series([70, 60, 90])
seriesdata

0    70
1    60
2    90
dtype: int64

- index는 행의 레이블을 의미함
- index를 지정하지 않으면 0부터 시작하는 인덱스 자동 생성
- 지정할 경우에는 지정된 index로 사용

In [162]:
seriesdata = pd.Series([70, 60, 90], index=['국어', '영어', '수학'])
seriesdata

국어    70
영어    60
수학    90
dtype: int64

### Series 데이터 읽고 수정하기 (CRUD - Read & Update)

- Series 인덱스 수정

In [164]:
seriesdata.index

Index(['국어', '영어', '수학'], dtype='object')

In [165]:
seriesdata.index = ['미술', '음악', '체육']

In [166]:
seriesdata

미술    70
음악    60
체육    90
dtype: int64

In [167]:
seriesdata.values # values = [] 형태로는 직접 수정이 안됨

array([70, 60, 90])

- 특정 데이터 지정 가능 (출력, 수정등 데이터 처리 가능)

In [168]:
print (seriesdata['미술'], seriesdata[0])

70 70


In [169]:
seriesdata['미술'] = 80
print (seriesdata['미술'], seriesdata[0])

80 80


### Series 데이터 삭제하기 (CRUD - Delete)

In [170]:
seriesdata

미술    80
음악    60
체육    90
dtype: int64

In [171]:
del seriesdata['미술']

In [172]:
seriesdata

음악    60
체육    90
dtype: int64

### 3. pandas 데이터 타입
- pandas 데이터 타입은 파이썬과 다름
  - dtype 으로 불리우며, 주요 데이터 타입은 다음과 같음
    - object 는 파이썬의 str 또는 혼용 데이터 타입 (문자열)
    - int64 는 파이썬의 int (정수)
    - float64 는 파이썬의 float (부동소숫점)
    - bool 는 파이썬의 bool (True 또는 False 값을 가지는 boolean)
    - 이외에 datetime64 (날짜/시간), timedelta[ns] (두 datatime64 간의 차) 도 활용됨

> 가끔 data type 때문에 에러가 나는 경우가 있으므로, 데이터 타입에 대한 이해 및 데이터 타입 변경 기능을 알아둬야 함

In [173]:
seriesdata = pd.Series(['dave', 'alex', 'amir'])
seriesdata

0    dave
1    alex
2    amir
dtype: object

In [176]:
seriesdata = pd.Series([1, 1, 1])
seriesdata

0    1
1    1
2    1
dtype: int64

### 데이터 타입 변경: Series.astype(변경할 타입)

In [177]:
seriesdata.astype('float')

0    1.0
1    1.0
2    1.0
dtype: float64

In [188]:
seriesdata = pd.Series(['dave', 1.1, 1.2])
seriesdata

0    dave
1     1.1
2     1.2
dtype: object

In [185]:
seriesdata = pd.Series([True, True, False])
seriesdata

0     True
1     True
2    False
dtype: bool

### 3. 데이터프레임(Dataframe) 이해하기
- 데이터프레임은 테이블형(2차원) 데이터이며, 데이터 분석/머신 러닝에서 데이터 처리를 위해 주로 사용됨
- 2차원이기 때문에 엑셀/csv와 같이 데이터가 row, column로 구성되며, 인덱스도 두 개, row/column 각각 존재함
  - 행의 레이블은 인덱스로, 열의 레이블은 컬럼으로 부름

In [190]:
import pandas as pd # 라이브러리 임포트 (보통 이와 같이 사용함, 이후에는 pd.팬더스함수 형태로 팬더스 라이브러리 함수를 호출함)

### Dataframe 생성 (CRUD - Create)

In [191]:
df = pd.DataFrame({
    "미국": [2.1, 2.2, 2.3],
    "한국": [0.4, 0.5, 0.45],
    "중국": [10, 13, 15]    
})
df

Unnamed: 0,미국,한국,중국
0,2.1,0.4,10
1,2.2,0.5,13
2,2.3,0.45,15


### 인덱스와 함께 생성하기 (CRUD - Create)

In [192]:
df = pd.DataFrame({
    "미국": [2.1, 2.2, 2.3],
    "한국": [0.4, 0.5, 0.45],
    "중국": [10, 13, 15]},
    index=[2000, 2010, 2020]
)
df

Unnamed: 0,미국,한국,중국
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


### 데이터프레임은 index, columns, values (CRUD - Read & Update)
- Series 는 index 와 values

In [193]:
# 행(row) 방향 index
df.index

Int64Index([2000, 2010, 2020], dtype='int64')

In [194]:
df.index = [2001, 2002, 2003]

In [195]:
df

Unnamed: 0,미국,한국,중국
2001,2.1,0.4,10
2002,2.2,0.5,13
2003,2.3,0.45,15


In [196]:
# 열(column) 방향 index
df.columns

Index(['미국', '한국', '중국'], dtype='object')

In [197]:
df.columns = ['일본', '필리핀', '러시아']

In [198]:
df.values

array([[ 2.1 ,  0.4 , 10.  ],
       [ 2.2 ,  0.5 , 13.  ],
       [ 2.3 ,  0.45, 15.  ]])

### 인덱스로 특정 컬럼 선택하기

In [227]:
df = pd.DataFrame({
    "년도": [2000, 2010, 2020],    
    "미국": [2.1, 2.2, 2.3],
    "한국": [0.4, 0.5, 0.45],
    "중국": [10, 13, 15]    
})
df

Unnamed: 0,년도,미국,한국,중국
0,2000,2.1,0.4,10
1,2010,2.2,0.5,13
2,2020,2.3,0.45,15


In [228]:
df = df.set_index('년도')
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


### 참고:
- 인덱스 이름
  - 데이터프레임.index.name 으로 확인 가능
  - 데이터프레임.index.name = 변경할인덱스이름 으로 수정 가능

In [229]:
df.index.name

'년도'

In [230]:
df.index.name = '연도'

In [231]:
df

Unnamed: 0_level_0,미국,한국,중국
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


### 인덱스 reset
- 인덱스 데이터를 컬럼으로 변경하기

In [232]:
df = df.reset_index('연도')
df

Unnamed: 0,연도,미국,한국,중국
0,2000,2.1,0.4,10
1,2010,2.2,0.5,13
2,2020,2.3,0.45,15


In [239]:
df = df.set_index('연도')

In [240]:
df

Unnamed: 0_level_0,미국,한국,중국
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


### 데이터프레임 데이터 접근하기
- 데이터프레임.loc : index 를 통해서 값을 찾음
- 데이터프레임.iloc : 인덱스 번호를 통해서 값을 찾음 (0부터 시작)

### 특정 행 가져오기

In [243]:
df.loc[2000]

pandas.core.series.Series

In [242]:
df.iloc[0]

미국     2.1
한국     0.4
중국    10.0
Name: 2000, dtype: float64

### 특정 열(컬럼) 가져오기 
- 특정 열(컬럼)은 Series

In [244]:
type(df['미국'])

pandas.core.series.Series

In [245]:
df['미국']

연도
2000    2.1
2010    2.2
2020    2.3
Name: 미국, dtype: float64

In [246]:
df

Unnamed: 0_level_0,미국,한국,중국
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


In [63]:
print (df['미국'][2000])
print (df.loc[2000]['미국'])

2.1
2.1


- 인덱스가 숫자로 입력됬는지, 문자로 입력됬는지에 따라, loc[] 에서 지정하는 방식도 동일하게 해야함

In [250]:
df = pd.DataFrame({
    "년도": ['2000', '2010', '2020'],    
    "미국": [2.1, 2.2, 2.3],
    "한국": [0.4, 0.5, 0.45],
    "중국": [10, 13, 15]    
})
df = df.set_index('년도')
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


In [251]:
df.index

Index(['2000', '2010', '2020'], dtype='object', name='년도')

In [252]:
df.loc['2000']

미국     2.1
한국     0.4
중국    10.0
Name: 2000, dtype: float64

### dataframe 컬럼 추가 (CRUD - Update)

In [254]:
df['일본'] = [1, 2, 3]

In [263]:
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


### dataframe 컬럼 삭제 (CRUD - Delete)
- del 컬럼

In [256]:
del df['일본']
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


#### 참고: dataframe 행 추가 (CRUD - Update)
- 데이터프레임.loc[새로운인덱스] = 리스트

In [280]:
df = pd.DataFrame({
    "년도": ['2000', '2010', '2020'],    
    "미국": [2.1, 2.2, 2.3],
    "한국": [0.4, 0.5, 0.45],
    "중국": [10, 13, 15]    
})
df = df.set_index('년도')
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


In [281]:
df.loc[2021] = [1, 2, 3]

In [282]:
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15
2021,1.0,2.0,3


#### 참고: dataframe 행 삭제 (CRUD - Delete)
- 데이터프레임.drop([인덱스이름]) 

In [293]:
df = pd.DataFrame({
    "년도": ['2000', '2010', '2020'],    
    "미국": [2.1, 2.2, 2.3],
    "한국": [0.4, 0.5, 0.45],
    "중국": [10, 13, 15]    
})
df = df.set_index('년도')
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


In [294]:
df.drop(['2020'])

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13


### dataframe 컬럼 선택(복사)
- 새로운 데이터 저장소가 만들어짐

### copy()
> 원본 데이터는 놔두고, 복사해서 데이터 처리를 하는 경우가 많음, 컬럼 리스트를 넣는다고 생각 <br>
> 보통 원본 데이터는 온전히 보전하고, 필요한 데이터 분석시마다 필요한 컬럼만 가져올 때 많이 사용 (그 외의 경우는 안써도 됨)

In [305]:
df = pd.DataFrame({
    "년도": ['2000', '2010', '2020'],    
    "미국": [2.1, 2.2, 2.3],
    "한국": [0.4, 0.5, 0.45],
    "중국": [10, 13, 15]    
})
df = df.set_index('년도')
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


In [307]:
df2 = df[['중국', '한국']].copy()

In [308]:
df2

Unnamed: 0_level_0,중국,한국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,10,0.4
2010,13,0.5
2020,15,0.45


In [309]:
df2.columns = ['브라질', '아르헨티나']

In [310]:
df2

Unnamed: 0_level_0,브라질,아르헨티나
년도,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,10,0.4
2010,13,0.5
2020,15,0.45


In [311]:
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15
