### Pandas 라이브러리 다루기
---
-   테이블형 데이터를 다룰 수 있는 다양한 기능을 지닌 라이브러리
    -   파이썬에서 데이터분석을 위해 기본적으로 사용하는 라이브러리임
-   raw data를 데이터 분석 전과정을 위해 사용할 수 있도록 변환하는 데이터 전처리에도 많이 사용됨
    -   raw data: 데이터 분석 전 정제되지 않은 기본 데이터를 의미
        -   보통 데이터 분석 목적에 맞지 않는 불필요한 데이터나 데이터가 없는 열들을 의미함

In [65]:
import pandas as pd

### Series 이해하기
---
- 데이터를 다루기 위해 Dataframe과 Series 제공
- Series는 1차원 데이터이고, Dataframe은 테이블형(2차원) 데이터임

### Series 생성 (CRUD - Create)
---

In [66]:
seriesdata = pd.Series([70, 60, 90])
seriesdata

0    70
1    60
2    90
dtype: int64

- index는 행의 레이블을 의미
- index를 지정하지 않을 경우 0부터 시작하는 임의의 인덱스 자동 생성
- 지정할 경우 지정된 index로 사용

In [67]:
seriesdata = pd.Series([70, 60, 90], index=['국어', '영어', '수학'])
seriesdata

국어    70
영어    60
수학    90
dtype: int64

### Series 데이터 읽고 수정하기 (CRUD - Read & Update)
---

- Series 인덱스 수정

In [68]:
seriesdata.index

Index(['국어', '영어', '수학'], dtype='object')

In [69]:
seriesdata.index = ['미술', '음악', '체육']
seriesdata

미술    70
음악    60
체육    90
dtype: int64

In [70]:
seriesdata.values # values = [] 형태로는 직접 수정 불가

array([70, 60, 90])

---
- 특정 데이터를 지정하여 값 변경

In [71]:
print(seriesdata['미술'], seriesdata[0])

70 70


In [72]:
seriesdata['미술'] = 80
print(seriesdata['미술'], seriesdata[0])

80 80


### Series 데이터 삭제하기 (CRUD - Delete)
---

In [73]:
seriesdata

미술    80
음악    60
체육    90
dtype: int64

In [74]:
del seriesdata['미술']

In [75]:
seriesdata

음악    60
체육    90
dtype: int64

### Pandas 데이터 타입
---
- pandas 데이터 타입은 파이썬과 다르다.
    - object : 파이썬의 str 또는 혼용 데이터 타입(문자열)
    - int64 : 파이썬의 int(정수)
    - float64 : 파이썬의 float(부동소숫점)
    - bool : 파이썬의 bool (True 또는 False 값을 가지는 boolean)
    - 이외 datetime64(날짜/시간), timedelta[ns] (두 datetime64간의 차)도 활용됨
> 가끔 data type으로 에러가 나는 경우가 있으므로, 데이터 타입에 대한 이해 및 타입 변경 기능을 숙지해야 함

In [76]:
seriesdata = pd.Series(['dave', 'alex', 'amir'])
seriesdata

0    dave
1    alex
2    amir
dtype: object

In [77]:
seriesdata = pd.Series([1, 1, 1])
seriesdata

0    1
1    1
2    1
dtype: int64

### 데이터 타입 변경 : Series.astype(변경할 타입)
---

In [78]:
seriesdata.astype('float')

0    1.0
1    1.0
2    1.0
dtype: float64

In [79]:
# 타입이 복합적일 경우 object로 변경됨
seriesdata = pd.Series(['dave', 1.1, 1.2])
seriesdata

0    dave
1     1.1
2     1.2
dtype: object

In [80]:
seriesdata = pd.Series([True, True, False])
seriesdata

0     True
1     True
2    False
dtype: bool

In [81]:
import pandas as pd

### Dataframe 이해하기
---
- 데이터프레임은 테이블형(2차원) 데이터이며, 데이터분석/머신러닝에서 데이터 처리를 위해 주로 사용됨
- 2차원이기 때문에 엑셀/CSV와 같이 데이터가 row, column로 구성되며, 인덱스도 두개, row/column으로 각각 존재함
    - 행의 레이블은 인덱스, 열의 레이블은 컬럼으로 부름

### Dataframe 생성 (CRUD - Create)
---

In [82]:
df = pd.DataFrame({
    "미국": [2.1, 2.2, 2.3],
    "한국": [0.4, 0.5, 0.45],
    "중국": [10, 13, 15]
})
df

Unnamed: 0,미국,한국,중국
0,2.1,0.4,10
1,2.2,0.5,13
2,2.3,0.45,15


### 인덱스와 함께 생성하기 (CRUD - Create)
---

In [83]:
df = pd.DataFrame({
    "미국": [2.1, 2.2, 2.3],
    "한국": [0.4, 0.5, 0.45],
    "중국": [10, 13, 15]},
    index=[2000, 2010, 2020]
)
df

Unnamed: 0,미국,한국,중국
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


### 데이터프레임은 index, columns, values (CRUD - Read & Update)
---
- Series는 index와 values

In [84]:
df.index = [2001, 2002, 2003]
df

Unnamed: 0,미국,한국,중국
2001,2.1,0.4,10
2002,2.2,0.5,13
2003,2.3,0.45,15


In [85]:
# 열(column) 방향 index
df.columns

Index(['미국', '한국', '중국'], dtype='object')

In [86]:
df.columns = ['일본', '필리핀', '러시아']

In [87]:
df.values

array([[ 2.1 ,  0.4 , 10.  ],
       [ 2.2 ,  0.5 , 13.  ],
       [ 2.3 ,  0.45, 15.  ]])

#### 인덱스로 특정 컬럼 선택하기

In [93]:
df = pd.DataFrame({
    "년도": [2000, 2010, 2020],
    "미국": [2.1, 2.2, 2.3],
    "한국": [0.4, 0.5, 0.45],
    "중국": [10, 13, 15]
})
df

Unnamed: 0,년도,미국,한국,중국
0,2000,2.1,0.4,10
1,2010,2.2,0.5,13
2,2020,2.3,0.45,15


In [94]:
df = df.set_index('년도')
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


#### 참고
- 인덱스 이름
    - dataframe.index.name으로 확인 가능
    - dataframe.index.name = 변경할 인덱스 이름 으로 수정 가능

In [95]:
df.index.name

'년도'

In [96]:
df.index.name = '연도'

In [97]:
df

Unnamed: 0_level_0,미국,한국,중국
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


#### - 인덱스 reset

In [101]:
df = df.reset_index('연도')

KeyError: 'Requested level (연도) does not match index name (None)'

In [103]:
df = df.set_index('연도')
df

Unnamed: 0_level_0,미국,한국,중국
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


### 데이터프레임 데이터 접근하기
- df.loc : index를 통해 값을 찾음
- df.iloc : index 번호를 통해 값을 찾음(0부터)

#### 특정 행 가져오기

In [106]:
df.loc[2000]

미국     2.1
한국     0.4
중국    10.0
Name: 2000, dtype: float64

In [107]:
df.iloc[0]

미국     2.1
한국     0.4
중국    10.0
Name: 2000, dtype: float64

#### 특정 Column 가져오기
- 특정 Column은 Series

In [108]:
type(df['미국'])

pandas.core.series.Series

In [109]:
df['미국']

연도
2000    2.1
2010    2.2
2020    2.3
Name: 미국, dtype: float64

In [110]:
df

Unnamed: 0_level_0,미국,한국,중국
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


In [117]:
print(df['미국'][2000])
print(df.loc[2000]['미국'])

IndexError: index 2000 is out of bounds for axis 0 with size 3

- 인덱스가 숫자로 입력되었는지, 문자로 입력되었는지에 따라 loc[]에서 지정하는 방식도 동일하게 지정해야 함

In [118]:
df = pd.DataFrame({
    "년도": ['2000', '2010', '2020'],    
    "미국": [2.1, 2.2, 2.3],
    "한국": [0.4, 0.5, 0.45],
    "중국": [10, 13, 15]    
})
df = df.set_index('년도')
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


In [119]:
df.index

Index(['2000', '2010', '2020'], dtype='object', name='년도')

In [120]:
df.loc['2000']

미국     2.1
한국     0.4
중국    10.0
Name: 2000, dtype: float64

### dataframe columns 추가 (CRUD - Update)
---


In [121]:
df['일본'] = [1, 2, 3]

In [122]:
df

Unnamed: 0_level_0,미국,한국,중국,일본
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2000,2.1,0.4,10,1
2010,2.2,0.5,13,2
2020,2.3,0.45,15,3


#### dataframe 컬럼 삭제 (CRUD - Delete)
- del 컬럼

In [124]:
del df['일본']

KeyError: '일본'

In [125]:
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


##### 참고 - 데이터프레임 행 추가 (CRUD - Update)
- df.loc[새로운 인덱스] = 리스트

In [126]:
df = pd.DataFrame({
    "년도": ['2000', '2010', '2020'],    
    "미국": [2.1, 2.2, 2.3],
    "한국": [0.4, 0.5, 0.45],
    "중국": [10, 13, 15]    
})
df = df.set_index('년도')
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


In [127]:
df.loc[2021] = [1, 2, 3]

In [128]:
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15
2021,1.0,2.0,3


### Dataframe column 삭제 (CRUD - Delete)
- df.drop([인덱스명])

In [130]:
df.drop(['2020'])

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2021,1.0,2.0,3


### Dataframe Column 선택(복사)
- 새로운 데이터 저장소가 만들어짐

#### copy()
> 원본 데이터는 놔두고 해당 데이터를 복사해서 데이터를 처리해야하는 경우가 많다.
> 보통 원본 데이터는 온전하게 보전하고 필요한 데이터 분석시 필요 컬럼만 가져올 때 주로 사용됨

In [131]:
df = pd.DataFrame({
    "년도": ['2000', '2010', '2020'],    
    "미국": [2.1, 2.2, 2.3],
    "한국": [0.4, 0.5, 0.45],
    "중국": [10, 13, 15]    
})
df = df.set_index('년도')
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


In [132]:
copy_df = df[['중국', '한국']].copy()

In [134]:
copy_df

Unnamed: 0_level_0,중국,한국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,10,0.4
2010,13,0.5
2020,15,0.45


In [135]:
copy_df.columns = ['브라질', '아르헨티나']

In [136]:
copy_df

Unnamed: 0_level_0,브라질,아르헨티나
년도,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,10,0.4
2010,13,0.5
2020,15,0.45


In [137]:
df

Unnamed: 0_level_0,미국,한국,중국
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15
