### Pandas 라이브러리 다루기
- 테이블형 데이터를 다룰 수 있다.
- 데이터 전처리에서도 많이 사용
    - raw data : 아직 정제되지 않은 데이터

### Serise / Dataframe 알아보기
- Serise (시리즈)
    - 데이터 차원 : 1차원
    - ex) col 1개, row 여러개
<br><br>
- Dataframe (데이터프레임)
    - 데이터 차원 : 2차원
    - ex) col 2개 이상, row 여러개

### Serise (CRUD)
- 인덱스는 0부터 시작(자동으로 지정 생성시 직접 인덱지 지정 가능)

In [2]:
import pandas as pd

In [3]:
serise_data = pd.Series([1, 2, 3])
serise_data

0    1
1    2
2    3
dtype: int64

In [5]:
serise_data = pd.Series([1, 2, 3], index= ['하나', '둘', '셋'])
serise_data

하나    1
둘     2
셋     3
dtype: int64

#### serise 에서 왼쪽은 인덱스 오른쪽은 행

In [9]:
a = pd.Series([10,20,30], index=['국', '영', '수'])
a

국    10
영    20
수    30
dtype: int64

In [11]:
a['국']

10

#### 수정하기

In [14]:
a['국'] = 20
a

국    20
영    20
수    30
dtype: int64

#### 삭제하기

In [15]:
del a['수']
a

국    20
영    20
dtype: int64

### pandas 데이터 타입
- 데이터 타입
    - dtype : OOOO
        - object : str
        - int64 : int
        - float64 : float
        - bool : True or False
        - 이 외에 datetime64 (시간), 등

In [17]:
pd.Series(['가', '나', '다'])

0    가
1    나
2    다
dtype: object

#### 데이터 타입 변경하기
- Serise.astype(변경할 타입)

In [20]:
a = pd.Series([1, 2, 3])
a

0    1
1    2
2    3
dtype: int64

In [21]:
a.astype('float')

0    1.0
1    2.0
2    3.0
dtype: float64

### Dataframe (CRUD)

In [1]:
import pandas as pd

In [4]:
# test 데이터프레임
df = pd.DataFrame({
    '한' : ['2.1', '2.2', '2.3'],
    '미' : ['3.1', '3.2', '3.3'],
    '중' : ['1.1', '1.2', '1.3']},
    index=['2021', '2022', '2023']
)
df

Unnamed: 0,한,미,중
2021,2.1,3.1,1.1
2022,2.2,3.2,1.2
2023,2.3,3.3,1.3


In [5]:
df.index

Index(['2021', '2022', '2023'], dtype='object')

#### index 수정

In [8]:
df.index = ['2010', '2020', '2030']
df

Unnamed: 0,한,미,중
2010,2.1,3.1,1.1
2020,2.2,3.2,1.2
2030,2.3,3.3,1.3


#### col 수정

In [9]:
df.columns

Index(['한', '미', '중'], dtype='object')

In [11]:
df.columns = ['한', '일', '중']
df

Unnamed: 0,한,일,중
2010,2.1,3.1,1.1
2020,2.2,3.2,1.2
2030,2.3,3.3,1.3


#### 데이터 프레임에서 값만 가져오기

In [13]:
df.values

array([['2.1', '3.1', '1.1'],
       ['2.2', '3.2', '1.2'],
       ['2.3', '3.3', '1.3']], dtype=object)

#### 인덱스로 특정 값 선택

In [15]:
# test 데이터프레임
df = pd.DataFrame({
    '한' : ['2.1', '2.2', '2.3'],
    '미' : ['3.1', '3.2', '3.3'],
    '중' : ['1.1', '1.2', '1.3'],
    '연도' : ['2021', '2022', '2023']}
)
df

Unnamed: 0,한,미,중,연도
0,2.1,3.1,1.1,2021
1,2.2,3.2,1.2,2022
2,2.3,3.3,1.3,2023


In [16]:
df = df.set_index('연도')
df

Unnamed: 0_level_0,한,미,중
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021,2.1,3.1,1.1
2022,2.2,3.2,1.2
2023,2.3,3.3,1.3


↑ 이렇게 되면 연도는 뭐냐
<br>결론 인덱스 명이다.

In [17]:
df.index.name

'연도'

#### 인덱스 리셋 하는 방법
- reset_index()

In [19]:
df.reset_index('연도')

Unnamed: 0,연도,한,미,중
0,2021,2.1,3.1,1.1
1,2022,2.2,3.2,1.2
2,2023,2.3,3.3,1.3


#### 특정 행 가져오기
- loc : index 를 통해서 값을 찾음
<br><br>
- iloc : index 번호를 통해서 값을 찾음(※ index 시작은 0 부터이다.)

In [20]:
df

Unnamed: 0_level_0,한,미,중
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021,2.1,3.1,1.1
2022,2.2,3.2,1.2
2023,2.3,3.3,1.3


In [23]:
df.loc['2021']

한    2.1
미    3.1
중    1.1
Name: 2021, dtype: object

In [25]:
df.iloc[0]

한    2.1
미    3.1
중    1.1
Name: 2021, dtype: object

#### 특정 열 가져오기

In [27]:
df['미']

연도
2021    3.1
2022    3.2
2023    3.3
Name: 미, dtype: object

In [28]:
df

Unnamed: 0_level_0,한,미,중
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021,2.1,3.1,1.1
2022,2.2,3.2,1.2
2023,2.3,3.3,1.3


In [33]:
a = df['미'].loc['2021']

b = df.loc['2021']['미']
print('1번 방법 :',a ,'\n','2번 방법 : ',b)

1번 방법 : 3.1 
 2번 방법 :  3.1


#### Dataframe 컬럼 삭제

In [34]:
del df['미']
df

Unnamed: 0_level_0,한,중
연도,Unnamed: 1_level_1,Unnamed: 2_level_1
2021,2.1,1.1
2022,2.2,1.2
2023,2.3,1.3


#### Dataframe 수정하기

In [38]:
# test 데이터프레임
df = pd.DataFrame({
    '한' : ['2.1', '2.2', '2.3'],
    '미' : ['3.1', '3.2', '3.3'],
    '중' : ['1.1', '1.2', '1.3'],
    '연도' : ['2021', '2022', '2023']}
)
df = df.set_index('연도')
df

Unnamed: 0_level_0,한,미,중
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021,2.1,3.1,1.1
2022,2.2,3.2,1.2
2023,2.3,3.3,1.3


In [41]:
df.loc['2021'] = ['7', '7', '7']

In [42]:
df

Unnamed: 0_level_0,한,미,중
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021,7.0,7.0,7.0
2022,2.2,3.2,1.2
2023,2.3,3.3,1.3


In [44]:
df.drop(['2021'])

Unnamed: 0_level_0,한,미,중
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2022,2.2,3.2,1.2
2023,2.3,3.3,1.3


#### Dataframe 컬럼 선택 복사
- 원본 변경 위험있을시 사용

In [45]:
df

Unnamed: 0_level_0,한,미,중
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021,7.0,7.0,7.0
2022,2.2,3.2,1.2
2023,2.3,3.3,1.3


In [47]:
df1 = df[['한', '중']].copy()
df1

Unnamed: 0_level_0,한,중
연도,Unnamed: 1_level_1,Unnamed: 2_level_1
2021,7.0,7.0
2022,2.2,1.2
2023,2.3,1.3
