### 1. pandas 라이브러리

- 테이블형 데이터를 다룰 수 있는 다양한 기능을 가진 라이브러리
  (파이썬 데이터 분석을 위해 기본적으로 사용하는 라이브러리)

- raw data를 데이터 분석 전 과정을 위해 사용할 수 있도록 변환하는 데이터 전처리(CRUD)에도 많이 사용된다

In [2]:
import pandas as pd # pandas 라이브러리 호출 보통 pd로 짧게 사용하는 편

### 2.1 Series 생성 (CRUD - Create)

- pd.Series( value list, index = index list )

In [26]:
exam_df = pd.Series({'A':1, 'B':2, 'C':3})
print(f'기본 : {exam_df.index}')

exam_df.index = ['가', '나', '다']
print(f'인덱스 변경 : {exam_df.index}')

exam_df.values = [100, 200, 300]
print(f'데이터 값 변경 : {exam_df.values}')

기본 : Index(['A', 'B', 'C'], dtype='object')
인덱스 변경 : Index(['가', '나', '다'], dtype='object')


AttributeError: can't set attribute

In [2]:
series_data = pd.Series([70, 60, 90]) # Series의 대문자에 주의
series_data # print(series_data)라 써도 문제없지만, jupyter의 장점

0    70
1    60
2    90
dtype: int64

- 열에 속하는 0 1 2는 index에 해당한다. (index를 지정하지 않으면 0부터 자동생성)
- 70 60 90은 value에 해당한다.
- 또한, 아래와 같이 index를 지정할 수 있다.

In [3]:
series_data = pd.Series([70, 60, 90], index = ['국어', '영어', '수학'])
series_data

국어    70
영어    60
수학    90
dtype: int64

### 2.2 Series 데이터 읽고 수정하기 (CRUD - Read & Update)

In [4]:
series_data.index

Index(['국어', '영어', '수학'], dtype='object')

- 위에서 지정된 index는 다음과 같은 방법으로 수정이 가능하다.

In [5]:
series_data.index = ['사회', '과학', '한국사']
series_data.index

Index(['사회', '과학', '한국사'], dtype='object')

- 하지만, value의 경우는 위와같이 list의 형태로 직접 수정이 불가능하다.

In [6]:
series_data.values = [100, 100, 100] # 에러가 발생했음을 확인 할 수있다.

AttributeError: can't set attribute

- 하지만, 특정 데이터를 출력하여 value값을 수정할 수 있다.

In [None]:
print(series_data['사회'], series_data[0]) # 특정 index의 value 출력

In [None]:
series_data['사회'] = 100 # 특정 index의 value값 수정1
print(series_data['사회'], series_data[0])

print()

series_data[0] = 90       # 특정 index의 value값 수정2
print(series_data['사회'], series_data[0])

### 2.3 Series 데이터 삭제하기 (CRUD - Delete)

In [7]:
series_data # 비교데이터 출력

사회     70
과학     60
한국사    90
dtype: int64

In [8]:
del series_data['사회'] # 이를 한번 더 반복 할 경우 해당 데이터가 이미 제거된 상태 이므로 에러가 발생한다.
series_data # '사회' index와 그 value가 제거 된 것을 확인 할 수 있다.

과학     60
한국사    90
dtype: int64

- del의 경우 serie_data[index 번호] 이런식으로 사용하면 에러가 발생한다. (주의)

### 3.1 Pandas 데이터 타입
- pandas 데이터 타입은 파이썬과 다르다.
- dtype이라고 불리우며, 주요 데이터 타입은 다음과 같다.
- object 는 파이썬의 str 또는 혼용 데이터 타입 (문자열)
    - int64 는 파이썬의 int (정수)
    - float64 는 파이썬의 float (부동소숫점)
    - bool 는 파이썬의 bool (True 또는 False 값을 가지는 boolean)
    - 이외에 datetime64 (날짜/시간), timedelta[ns] (두 datatime64 간의 차) 도 활용됨


- 혼용하기 쉬운 object 타입은 다음과 같다.

In [13]:
series_data1 = pd.Series(['SeoulTech','MSDE','류지현'])
series_data1 # data type이 object(여기서는 문자열)임을 확인 할 수있다.

0    SeoulTech
1         MSDE
2          류지현
dtype: object

In [15]:
series_data1 = pd.Series(['SeoulTech','MSDE', 17102020])
series_data1 # Series value list에 숫자가 들어가도 object임을 확인 할 수 있다.
# 왜냐하면, object는 혼용 데이터 타입이기 때문이다.
# 따라서, 열의 value에 하나라도 문자열이 존재할 경우, 해당 열은 object 타입이다.

0    SeoulTech
1         MSDE
2     17102020
dtype: object

- bool 타입

In [22]:
series_data2 = pd.Series([True, True, True])
series_data2

0    True
1    True
2    True
dtype: bool

### 3.2 데이터 타입 변경 : Series객체.astype(변경타입) 

In [16]:
series_data3 = pd.Series([1, 1, 1])
series_data2

0    1
1    1
2    1
dtype: int64

In [20]:
series_data3.astype('float') # 변경타입도 반드시 str형식으로 써줘야한다.

0    1.0
1    1.0
2    1.0
dtype: float64

In [21]:
series_data3# 하지만 영구적으로 바뀌는 것은 아니다. 

0    1
1    1
2    1
dtype: int64

### 4.1.1 Dataframe 생성 (CRUD - Create)

In [6]:
import pandas as pd

In [7]:
df = pd.DataFrame({               # 대소문자 주의
    "미국" : [2.1, 2.2, 2.3],     # dictionary 형식으로 데이터를 삽입함
    "한국" : [0.4, 0.5, 0.45],    # key는 column에 해당한다.
    "중국" : [10, 13, 15]
})

df # 데이터 프레임 출력

Unnamed: 0,미국,한국,중국
0,2.1,0.4,10
1,2.2,0.5,13
2,2.3,0.45,15


### 4.1.2 Dataframe 생성 (CRUD-Create) with 인덱스

- pd.DataFrame( { key,value 딕셔너리 } , index = [인덱스리스트])

In [8]:
df = pd.DataFrame({
    "미국" : [2.1, 2.2, 2.3],     
    "한국" : [0.4, 0.5, 0.45],    
    "중국" : [10, 13, 15]},
    index = [2000, 2010, 2020]
)
df

Unnamed: 0,미국,한국,중국
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


### 4.2 Dataframe 읽고 수정하기 (CRUD - Read)

In [9]:
# dataframe의 index 읽어오기
df.index 

Int64Index([2000, 2010, 2020], dtype='int64')

In [11]:
# dataframe의 index 수정
df.index = [2001, 2011, 2021]
df

Unnamed: 0,미국,한국,중국
2001,2.1,0.4,10
2011,2.2,0.5,13
2021,2.3,0.45,15


In [12]:
# dataframe의 column(열) 방향 index 출력
df.columns

Index(['미국', '한국', '중국'], dtype='object')

In [13]:
# dataframe의 columb(열) 방향 index 수정
df.columns = ['일본', '필리핀', '러시아']

df.columns

Index(['일본', '필리핀', '러시아'], dtype='object')

In [14]:
# dataframe의 value 출력
df.values

array([[ 2.1 ,  0.4 , 10.  ],
       [ 2.2 ,  0.5 , 13.  ],
       [ 2.3 ,  0.45, 15.  ]])

### 4.3 인덱스를 특정 컬럼으로 바꾸는 법

In [15]:
df = pd.DataFrame({
    '연도' : [2000, 2010, 2020],
    '미국' : [2.1, 2.2, 2.3],
    '한국' : [0.4, 0.5, 0.45],
    '중국' : [10, 13, 15]
})

df

Unnamed: 0,연도,미국,한국,중국
0,2000,2.1,0.4,10
1,2010,2.2,0.5,13
2,2020,2.3,0.45,15


- '연도'를 index로 교체하는 방법은 다음과 같다.

In [16]:
df.set_index('연도')  # 하지만, 이는 지속적이지 않기 때문에
                      # 해당 데이터프레임 객체에 다시 재 입력해야 지속적이다.

Unnamed: 0_level_0,미국,한국,중국
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


In [17]:
df                      # set_index()가 적용안되어 있다.

Unnamed: 0,연도,미국,한국,중국
0,2000,2.1,0.4,10
1,2010,2.2,0.5,13
2,2020,2.3,0.45,15


In [18]:
df = df.set_index('연도') # 따라서 set_index()는 이렇게 사용되는 것이 권장된다.
df

Unnamed: 0_level_0,미국,한국,중국
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


- 또한, 아래의 방법을 이용하면, index의 이름을 바꿀 수있다.

In [19]:
# 현재 인덱스 name 출력
df.index.name 

'연도'

In [20]:
# 인덱스 name 변경
df.index.name = 'year'

df

Unnamed: 0_level_0,미국,한국,중국
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


- 인덱스 데이터를 다시 컬럼으로 바꾸는 방법은 다음과 같다

In [22]:
df = df.reset_index('year')
df

Unnamed: 0,year,미국,한국,중국
0,2000,2.1,0.4,10
1,2010,2.2,0.5,13
2,2020,2.3,0.45,15


### 4.4 Dataframe의 데이터 접근하기

In [23]:
df = df.set_index('year')
df

Unnamed: 0_level_0,미국,한국,중국
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,2.1,0.4,10
2010,2.2,0.5,13
2020,2.3,0.45,15


#### 특정 행 가져오기
- 데이터프레임.loc : index를 통해서 값을 찾음

In [24]:
df.loc[2000]

미국     2.1
한국     0.4
중국    10.0
Name: 2000, dtype: float64

- 데이터프레임.iloc : 인덱스 번호를 통해서 값을 찾음 (0부터 시작)

In [25]:
df.iloc[0]

미국     2.1
한국     0.4
중국    10.0
Name: 2000, dtype: float64

#### 특정 열 가져오기

In [26]:
type(df['미국'])

pandas.core.series.Series

In [27]:
df['미국']

year
2000    2.1
2010    2.2
2020    2.3
Name: 미국, dtype: float64

#### 특정 value 가져오기

In [33]:
print(df['미국'][2000])    # cf) print없이 써도 정상적으로 출력이 되나,
print(df.loc[2000]['미국'])#     둘다 같은 값이기 떄문에 동시확인이 불가능하므로
                           #      print를 이용하여 명시적으로 출력함.

2.1
2.1


- 인덱스가 숫자로 입력되었는지, 문자로 입력되었는지에 따라, loc[] 에서 지정하는 방식도 동일하게 해야한다.

In [39]:
df = pd.DataFrame({
    '연도' : ['2000', '2010', '2020'],   # 정수int가 아니라 문자열로 넣음
    '한국' : [1.5, 2.5, 3.5],
    '중국' : [1.25, 2.25, 3.25],
    '미국' : [10, 20, 30]
})

df = df.set_index('연도')
df.index.name ='year'
df

Unnamed: 0_level_0,한국,중국,미국
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,1.5,1.25,10
2010,2.5,2.25,20
2020,3.5,3.25,30


In [40]:
df.index  # type출력 결과 object임을 확인

Index(['2000', '2010', '2020'], dtype='object', name='year')

In [42]:
df.loc['2000'] # loc안에 문자열 2000을 넣어 출력

한국     1.50
중국     1.25
미국    10.00
Name: 2000, dtype: float64

### 5. Dataframe 컬럼 추가 (CRUD-Update)

In [43]:
df['일본'] = [1, 2, 3]

In [44]:
df

Unnamed: 0_level_0,한국,중국,미국,일본
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2000,1.5,1.25,10,1
2010,2.5,2.25,20,2
2020,3.5,3.25,30,3


### 6. Dataframe 컬럼 삭제 (CRUD - Delete)

In [46]:
del df['일본']

In [47]:
df

Unnamed: 0_level_0,한국,중국,미국
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,1.5,1.25,10
2010,2.5,2.25,20
2020,3.5,3.25,30


### 참조) Data 행 추가 (CRUD - Update)

In [50]:
df = pd.DataFrame({
    '연도' : [2000, 2010, 2020],
    '한국' : [1, 2, 3],
    '미국' : [4, 5, 6],
    '중국' : [7, 8, 9]
})
df = df.set_index('연도')
df.index.name = 'year'

df

Unnamed: 0_level_0,한국,미국,중국
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,1,4,7
2010,2,5,8
2020,3,6,9


In [60]:
df.loc[2030] = [10, 11, 12]
df

Unnamed: 0_level_0,한국,미국,중국
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,1,4,7
2010,2,5,8
2020,3,6,9
2030,10,11,12


### 참조) Data 행 삭제 (CRUD - Delete)

In [61]:
df.drop([2030])

Unnamed: 0_level_0,한국,미국,중국
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,1,4,7
2010,2,5,8
2020,3,6,9


In [63]:
df = df.drop([2030])     #  set_index 와 마찬가지
df

Unnamed: 0_level_0,한국,미국,중국
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,1,4,7
2010,2,5,8
2020,3,6,9


### 7. Dataframe 컬럼 선택(복사)

In [65]:
df = pd.DataFrame({
    '연도' : [2000, 2010, 2020],
    '한국' : [10, 20, 30],
    '미국' : [40, 50, 60],
    '중국' : [70, 80, 90]
})

df = df.set_index('연도')
df.index.name = 'year'

df

Unnamed: 0_level_0,한국,미국,중국
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,10,40,70
2010,20,50,80
2020,30,60,90


In [68]:
# 원본 데이터는 놔두고, 복사해서 새로운 데이터 저장소에 저장
df2 = df[['한국', '중국']].copy()  # 이중 list 주의
df2

Unnamed: 0_level_0,한국,중국
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,10,70
2010,20,80
2020,30,90


In [69]:
# 새로운 데이터 저장소에 있음을 확인하기 위해,
# df2의 column 이름을 수정한다.
df2.columns = ['브라질','아르헨티나']
df2

Unnamed: 0_level_0,브라질,아르헨티나
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,10,70
2010,20,80
2020,30,90


In [70]:
# 새로운 데이터 저장소에 저장되어있음을 위와 아래의 코드 결과를 비교함으로써
# 알 수 있다.
df

Unnamed: 0_level_0,한국,미국,중국
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,10,40,70
2010,20,50,80
2020,30,60,90
