# part 1 :판다스 입문

## 들어가며
- 데이터 과학자가 판다스를 배우는 이유는 클라우드 컴퓨팅이 확산됨에 따라 일반인들고 빅데이터를 저장하고 분석하는 데 필요한 컴퓨팅 자원을 저렴한 비용으로 사용하는 것이 가능해짐
- 대중화에 따라 데이터 과학자를 꿈꾸는 (나) 사람들에게 최적의 환경이다. 하지만 분석 대상이 되는 데이터가 없다면 컴퓨팅 파워는 무쓸모가 된다. 결국 데이터 자체가 가장 중요한 자원이다.
- 실제 분석 업무에서 8할이 데이터를 수집하고 정리하는 일이 차지한다. 나머지는 알고리즘을 선택하고, 모델링 결과를 분석하여 데이터로 부터 유용한 정보를 뽑아내는 분석의 프로세스 진행이다.
- **그러기에 판다스라이브러리는 데이터를 수집하고 정리하는 데 최적화된 도구라고 볼 수 있다**

## 판다스의 자료구조
- 분석을 위해 다양한 소스로 부터 수집하는 데이터는 형태나 속성이 매우 다양.
- 이를 위해 판다스는 시리즈(series)와 데이터프레임(DataFrame)이라는 구조화된 데이터 형식을 제공. 즉 서로다른 종류의 데이터를 한곳에 담는 그릇이다.
- 시리즈는 1차원 배열이고, 데이터프레임은 2차원 배열이다.
### 판다스의 사용 목적
1. 서로 다른 여러 가지 유형의 데이터를 공통의 포맷으로 정리하는 것이다.

## 시리즈
### 특징 
- 데이터가 순차적으로 나열된 1차원 배열의 형태를 갖는다. 인덱스는 데이터 값과 일대일 대응한다.
- 키와 값이 {k:v} 형태로 짝을 이루는 파이썬의 **딕셔너리**와 비슷한 구조를 갖는다(딕셔너리와 시리즈의 구조가 비슷하기 때문에 딕셔너리를 시리즈로 변환하는 방법을 많이 사용).
- 키->인덱스, 값->데이터값
- 판다스의 내장 함수인 Series() 이용.

In [4]:
import pandas as pd #판다스를 불러올 때는 별칭인 pd를 주로 사용

In [6]:
dict_data = {'a' : 1, 'b' : 2, 'c': 3} #딕셔너리 형태로 만듬

In [7]:
sr = pd.Series(dict_data) #판다스의 내장함수를 활용해서 series로 변환

In [9]:
print(sr), print(type(sr)) #인덱스와 그에 상응하는 데이터 값의 형태로 값이 출력, 데이터 형태는 series를 확인

a    1
b    2
c    3
dtype: int64
<class 'pandas.core.series.Series'>


(None, None)

### 인덱스 구조
- 인데스는 자기와 짝을 이루는 데이터값의 순서와 주소를 저장한다.
- 인덱스를 잘 활용하면 데이터 값의 탐색, 정렬, 선택등의 데이터 조작을 쉽게 할 수 있다.
- 인덱스는 크게 두 가지 종류로 정수형 위치 인덱스, 인덱스 이름또는 인덱스 라벨이 있다.

In [11]:
list_data = ['2022-10-26', 3.14, 'ABC', 100, True]

In [12]:
sr2 = pd.Series(list_data)

In [14]:
print(sr2)

0    2022-10-26
1          3.14
2           ABC
3           100
4          True
dtype: object


인덱스는 0부터 4까지 정수형 위치 인덱스가 자동을 지정된 것을 볼 수 있다.   
데이터 값 배열은 원래 데이터인 list_data의 리스트 원소 배열의 순서를 유지한 상태로 입력됨.

In [15]:
idx = sr2.index
val = sr2.values

In [18]:
print(idx) #RangeIdex객체로 표시되고 이때 범위의 마지막 값은 포함되지 않는다.

RangeIndex(start=0, stop=5, step=1)


In [17]:
print(val)

['2022-10-26' 3.14 'ABC' 100 True]


### 원소 선택
- 원소의 위치를 나타내는 주소 역할을 하는 인덱스를 이용하여 시리즈의 원소를 선택(하나 혹은 그 다수가 가능)
- 파이썬에서 슬라이싱 기법과 비슷하게 인덱스 범위를 지정하여 원소를 선택
- 정수형 위치 인덱스와 인덱스 이름에 대한 원소 선택은 대괄호 내부 '' 사용 여부로 구분한다.

In [20]:
tup_data = ('준혁', '2022-10-26', '남', True) # 튜플을 시리즈로 변환
sr = pd.Series(tup_data, index =['이름', '생년월일', '성별', '학생여부'])
print(sr)

이름              준혁
생년월일    2022-10-26
성별               남
학생여부          True
dtype: object


튜플의 형태의 데이터를 series로 변환하는 과정에서 인덱스 이름을 부여했다.

In [21]:
print(sr[0])

준혁


In [22]:
print(sr['이름'])

준혁


이렇게 정수형 위치 인덱스로 원소를 선택하거나 인덱스이름으로 원소를 선택한다.

In [24]:
print(sr[[1,2]])

생년월일    2022-10-26
성별               남
dtype: object


In [25]:
print(sr[['생년월일','성별']])

생년월일    2022-10-26
성별               남
dtype: object


여러 개의 인덱스를 리스트 형태로 입력하면 짝을 이루는 원소 데이터를 모두 반환한다. (대괄호 안에 대괄호가 더 들어가는 이유이다.)

In [27]:
print(sr[1:2])

생년월일    2022-10-26
dtype: object


In [28]:
print(sr['생년월일':'성별'])

생년월일    2022-10-26
성별               남
dtype: object


여기서 정수형 위치 인덱스와 인덱스 라벨에서 차이점이 있다. 인덱스 범위를 지정하는 과정에서 정수형 위치는 끝(2)를 포함하지 않기 때문에 하나의 값만 , 인덱스 라벨을 사용하면 '성별'이 포함이 됨

## 데이터프레임

- 데이터프레임 2차원 배열이다. 2차원 배열 구조는 엑셀 혹은 관계형 데이터베이스에서 주로 사용된다.
- 판다스의 데이터프레임 자료구조는 대표적인 통계 패키지인 R의 데이터 프레임에서 유래됐다고함.
- 여러개 시리즈들이 한데 모여서 데이터 프레임을 구조를 이룸.
- 시리즈를 열벡터라고 하면 데이터 프레임은 여러 열벡터들이 같은 행 인덱스를 기준으로 결합된 2차원 벡터,행렬이다.

### 데이터프레임 만들기
- 데이터프레임을 만들기 위해 같은 길이의 1차원 배열 여러 개가 필요하다.
- 시리즈와 마찬가지로 딕셔너리 형태로 키와 값형태로 값은 하나의 리스트 형태로 존재한다.
- 판다스에서 DataFrame() 함수를 사용

In [31]:
dict_data = {'c0': [1,2,3], 'c1': [4,5,6], 'c2':[7,8,9], 'c3': [10,11,12], 'c4':[13,14,15]}

In [32]:
df = pd.DataFrame(dict_data)

In [34]:
print(type(df)), print(df) # 타입은 데이터 프레임이고 , 데이터의 형태는 2차원 배열의 데이터이다.

<class 'pandas.core.frame.DataFrame'>
   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15


(None, None)

- 데이터프레임 행 인덱스, 열 이름 설정
```
pd.DataFrame(2차원배열, index=행인덱스 배열, columns=열이름 배열)
```

In [35]:
df = pd.DataFrame([[14,'남', '덕영중'],[17,'여', '수리중']],
                   index=['준서','예은'],
                   columns=['나이', '성별', '학교']) #데이터는 3개의 원소를 갖는 2개의 리스트이다.

In [36]:
print(df)

    나이 성별   학교
준서  14  남  덕영중
예은  17  여  수리중


In [37]:
print(df.index)

Index(['준서', '예은'], dtype='object')


In [38]:
print(df.columns)

Index(['나이', '성별', '학교'], dtype='object')


리스트가 행으로 변환된다는 것 유의해야한다. 데이터프레임에서 인덱스를 접근할때, df.index 컬럼을 접근할때, df.columns로 접근한다.

행 인덱스와 열이름 변경이 가능한대, 이건 df.index,df.columns 의 리스트를 새로운 것을 overwrite 해주면 된다.

또한 데이터프레임의 rename() 매서드를 사용하면 행인덱스 또는 열 이름의 일부를 선택하여 변경가능. 원본 객체를 변경하려면 inplace=True  옵션을 사용해야한다.

In [40]:
df.rename(index={'준서':'학생1','예은':'학생2'},inplace=True)

In [41]:
df.rename(columns={'나이':'연령','성별':'남녀', '학교':'소속'},inplace=True)

In [42]:
print(df)

     연령 남녀   소속
학생1  14  남  덕영중
학생2  17  여  수리중


- 행/열 삭제
    - 행 삭제를 할때 축(axis)옵션으로 axis=0을 입력하거나, 별도로 입력하지 않는다(default가 0)
    - 축 옵션으로 axis=1을 입력하면 열을 삭제한다.
    - 이름변경과 동일하게 원본 객체를 변경을 하려면 inplace=True 옵션을 설정해야한다. 

In [43]:
exam_data = {'수학' : [ 90, 80, 70], '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100], '체육' : [ 100, 90, 90]}

df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])

In [44]:
print(df)

    수학  영어   음악   체육
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90


In [46]:
# df를 복제하여 df2로 저장 후 행 삭제
df2= df.copy()
df2.drop('우현',inplace=True)

In [47]:
print(df2)

    수학  영어   음악   체육
서준  90  98   85  100
인아  70  95  100   90


In [50]:
# 위와 동일한 방법으로 복사 후 열삭제
df3 = df[:]
df3.drop('수학', inplace=True, axis=1)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df3.drop('수학', inplace=True, axis=1)


In [51]:
print(df3)

    영어   음악   체육
서준  98   85  100
우현  89   95   90
인아  95  100   90


여기서 복사를 할때, df[:] 와 df.copy를 했다는 것과 axis=0,1옵션으로 따라 행 열 삭제를 하는 것 그리고 그 옵션에 따라서 행인덱스혹은 열이름을 지정해줘야한다는 것 알고 있어야한다.

- 행선택(loc, iloc)
|구분 |loc|iloc  |
|--|--|--|
| 탐색 대상 | 인덱스 이름(index label)| 정수형 위치 인덱스(integer position) |
| 범위 지정 | 가능(범위의 끝 포함) | 가능(범위의 끝 제외) |

위의 df 데이터 프레임을 활용해서 행 선택을 해보자.

In [54]:
label1 = df.loc['서준']

In [55]:
position1 = df.iloc[0]

In [56]:
print(label1)

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64


In [57]:
print(position1)

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64


동일한 값이 나온다! loc와 iloc는 데이터 분리에 많이 쓰이니 차이점을 알고 있자.

- 열 선택
    - DataFrame['열이름'], DataFrame.열이름 형태로 열 데이터를 선택을 한다. ->반환 객체는 시리즈이다.
    - 열 n개를 선택을 할때는 DataFrame[[열1,열2,...]] 이중 대괄호를 사용한다. -> 반환 객체는 데이터 프레임이다.
    - 만약에 [[]] 이중 괄호로 사용해서 열 하나를 빼면 이건 어떻게 될까? 맞다 데이터 프레임으로 반환객체로 나온다.

In [60]:
english = df['영어']

In [61]:
math = df.수학

In [63]:
print(type(english)),print(english)

<class 'pandas.core.series.Series'>
서준    98
우현    89
인아    95
Name: 영어, dtype: int64


(None, None)

In [64]:
print(type(math)),print(math)

<class 'pandas.core.series.Series'>
서준    90
우현    80
인아    70
Name: 수학, dtype: int64


(None, None)

In [65]:
math2 = df[['수학']]
print(math2)

    수학
서준  90
우현  80
인아  70


In [66]:
print(type(math2))

<class 'pandas.core.frame.DataFrame'>


**범위 슬라이싱** 
- df.iloc[시작인덱스:끝인덱스:슬라이싱간격] -> 슬라이싱 간격을 정해주면 기본적으로 1식 증가하는 것을 간격에 맞게 행 인덱스를 선택한다.

- 원소선택
    - 데이터 프레임의 행 인덱스와 열이름을 [행,열] 형식의 2차원 자표로 입력해 원소 위치를 지정한다.
    - 1개의 행과 2개이상의 열을 선택하거나 그반대로 선택하는 경우 시리즈 객체가 반환됨.
    - 2개이상의 행과 2개이상의 열을 선택하면 데이터프레임객체로 반환

In [67]:
exam_data = {'이름' : [ '서준', '우현', '인아'],
             '수학' : [ 90, 80, 70],
             '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100],
             '체육' : [ 100, 90, 90]}
df = pd.DataFrame(exam_data)

In [68]:
df.set_index('이름',inplace=True) # '이름' 열을 새로운 인덱스로 지정하고, df객체에 변경 사항을 적용

In [69]:
print(df)

    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90


In [70]:
a = df.loc['서준','음악']

In [71]:
print(a)

85


In [72]:
b = df.iloc[0,2]
print(b)

85


In [74]:
c = df.loc['서준',['음악','체육']]
print(c)
print(type(c))

음악     85
체육    100
Name: 서준, dtype: int64
<class 'pandas.core.series.Series'>


In [77]:
d = df.iloc[0, [2, 3]]#정수 위치 인덱스 방법으로 추출 값을 선택
print(d)
e = df.loc['서준', '음악':'체육'] #범위 슬라이싱을 함
print(e)
f = df.iloc[0, 2:]#열2에서 마지막까지 하므로 3을 생략
print(f)

음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64
음악     85
체육    100
Name: 서준, dtype: int64


서준의 음악과 체육 점수를 찾는 4가지 방법을 다뤘고, 반환 객체는 다 시리즈이다.   
이제 반환 객체를 데이터 프레임으로 원소를 선택을 하는데 서준과 우현의 음악과 체육점수를 선택해서 값을 추출해보자.

In [79]:
g = df.loc[['서준','우현'],['음악','체육']]
print(g)

    음악   체육
이름         
서준  85  100
우현  95   90


In [81]:
h = df.iloc[[0,1],[2,3]]
print(h)

    음악   체육
이름         
서준  85  100
우현  95   90


In [83]:
f = df.iloc[0:2,2:]
print(f)

    음악   체육
이름         
서준  85  100
우현  95   90


In [84]:
j = df.loc['서준':'우현','음악':'체육']
print(j)

    음악   체육
이름         
서준  85  100
우현  95   90


- 열추가: 추가하려는 열이름과 데이터 값을 추가하면된다. 형태는 DataFrame['추가되는열이름']=데이터값 (만약 데이터 값이 하나인 상황이면 해당 데이터 프레임에 **행길이 만큼 동일한 데이터 값**이 들어간다.)

In [85]:
print(df)

    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90


In [86]:
df['국어'] = 80

In [87]:
print(df)

    수학  영어   음악   체육  국어
이름                      
서준  90  98   85  100  80
우현  80  89   95   90  80
인아  70  95  100   90  80


- 행 추가: 열추가와 동일하게 추가하지만 행이름과 데이터 값을 loc 인덱서를 사용하여 추가한다. DataFrame.loc['새로운 행이름']=데이터값 혹은 배열 형태로 넣으면된다.

In [94]:
# 새로운 행 추가 - 같은 원소 값 입력
df.loc['준혁'] = 90

In [89]:
print(df)

    수학  영어   음악   체육  국어
이름                      
서준  90  98   85  100  80
우현  80  89   95   90  80
인아  70  95  100   90  80
준혁  90  90   90   90  90


In [95]:
#원소 값 여러개의 배열 입력
df.loc['혁준'] = [60,70,80,90,90] #행길이에 맞게 행을 추가해야한다는 것 유의해야한다.
print(df)

    수학  영어   음악   체육  국어
이름                      
서준  90  98   85  100  80
우현  80  89   95   90  80
인아  70  95  100   90  80
준혁  90  90   90   90  90
혁준  60  70   80   90  90


데이터 프레임에 새로운 행을 추가할 때는 기존 행 인덱스와 겹치지 않는 새로운 인덱스를 사용한다.    
기존의 인덱스와 중복되는 경우 새로운 행을 추가하지 않고 기존의 행의 원소값을 변경한다.

In [99]:
#기존 행 복사
df.loc[3] = 0
df.loc['행6'] = df.loc[3]
print(df)

    수학  영어   음악   체육  국어
이름                      
서준  90  98   85  100  80
우현  80  89   95   90  80
인아  70  95  100   90  80
준혁  90  90   90   90  90
혁준  60  70   80   90  90
3    0   0    0    0   0
행6   0   0    0    0   0


 - 원소값 변경: 특정 원소의 좌표를 선택하고 바꾸려는 값을 변경하면된다. 이때 데이터프레임 인덱싱과 슬라이싱 기법을 사용한다.

In [100]:
exam_data = {'이름' : [ '서준', '우현', '인아'],
             '수학' : [ 90, 80, 70],
             '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100],
             '체육' : [ 100, 90, 90]}
df = pd.DataFrame(exam_data)

# '이름' 열을 새로운 인덱스로 지정하고, df 객체에 변경사항 반영
df.set_index('이름', inplace=True)
print(df)
print('\n')

# 데이터프레임 df의 특정 원소를 변경하는 방법: '서준'의 '체육' 점수
df.iloc[0][3] = 80
print(df)
print('\n')

df.loc['서준']['체육'] = 90
print(df)
print('\n')

df.loc['서준', '체육'] = 100
print(df)
print('\n')

    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90


    수학  영어   음악  체육
이름                 
서준  90  98   85  80
우현  80  89   95  90
인아  70  95  100  90


    수학  영어   음악  체육
이름                 
서준  90  98   85  90
우현  80  89   95  90
인아  70  95  100  90


    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90




- 행, 열의 위치 바꾸기   
    - 데이터 프레임의 행과 열을 서로 맞바꾸는 방법이다. 선형대수에서 전치행렬과 같은 개념이다.   
    - 전치 결과로 새로운 객체를 반환하므로, 기존의 객체를 변경하기 위해 df=df.transpose() 또는 df=df.T 와같이 기존 객체에 새로운 객체를 할당 해주는 과정이 필요.

In [101]:
exam_data = {'이름' : [ '서준', '우현', '인아'],
             '수학' : [ 90, 80, 70],
             '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100],
             '체육' : [ 100, 90, 90]}
df = pd.DataFrame(exam_data)

In [105]:
print(df)
print('\n')
df = df.transpose()
print(df)
print('\n')
df = df.T
print(df)

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  95  100   90


      0   1    2
이름   서준  우현   인아
수학   90  80   70
영어   98  89   95
음악   85  95  100
체육  100  90   90


   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  95  100   90


### 인덱스 활용
- set_index() 메소드를 사용하여 데이터프레임의 특정 열을 행 인덱스로 설정한다. inplace=True 옵션이 없다면 새로운 데이터프레임 객체를 반환하는 점 유의해야함.
```
DataFrame객체.set_index(['열이름'] 또는 '열이름')
```

In [107]:
exam_data = {'이름' : [ '서준', '우현', '인아'],
             '수학' : [ 90, 80, 70],
             '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100],
             '체육' : [ 100, 90, 90]}
df = pd.DataFrame(exam_data)
print(df)
print('\n')

# 특정 열(column)을 데이터프레임의 행 인덱스(index)로 설정 
ndf = df.set_index(['이름'])
print(ndf)
print('\n')
ndf2 = ndf.set_index('음악')
print(ndf2)
print('\n')
ndf3 = ndf.set_index(['수학', '음악']) #multindex이다. 
print(ndf3)

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  95  100   90


    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90


     수학  영어   체육
음악              
85   90  98  100
95   80  89   90
100  70  95   90


        영어   체육
수학 음악          
90 85   98  100
80 95   89   90
70 100  95   90


- 행 인덱스 재배열 : reindex() 메서드를 사용해서 데이터프레임의 행 인덱스를 새로운 배열로 재지정을 할 수 있다.(기존 객체를 변경하지 않고, 새로운 데이터프레임 객체를 반환)
    - 기존 데이터프레임에 존재하지 않는 행 인덱스가 새롭게 추가 되면 그 행의 데이터 값은 NaN의 값이 입력이 된다. => NaN대신 유효한 값을 넣으려면 fill_value()옵션에 원하는 값은 부여하면 된다.

In [109]:
# 딕셔서리를 정의
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

# 딕셔서리를 데이터프레임으로 변환. 인덱스를 [r0, r1, r2]로 지정
df = pd.DataFrame(dict_data, index=['r0', 'r1', 'r2'])
print(df)
print('\n')

# 인덱스를 [r0, r1, r2, r3, r4]로 재지정
new_index = ['r0', 'r1', 'r2', 'r3', 'r4']
ndf = df.reindex(new_index)
print(ndf)
print('\n')

# reindex로 발생한 NaN값을 숫자 0으로 채우기
new_index = ['r0', 'r1', 'r2', 'r3', 'r4']
ndf2 = df.reindex(new_index, fill_value=0)
print(ndf2)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


     c0   c1   c2    c3    c4
r0  1.0  4.0  7.0  10.0  13.0
r1  2.0  5.0  8.0  11.0  14.0
r2  3.0  6.0  9.0  12.0  15.0
r3  NaN  NaN  NaN   NaN   NaN
r4  NaN  NaN  NaN   NaN   NaN


    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15
r3   0   0   0   0   0
r4   0   0   0   0   0


- 행 인덱스 초기화: reset_index() 메소드를 활용하여 행 인덱스를 정수형 위치 인덱스로 초기화한다. 기존의 행 인덱스는 열로 이동한다.(새로운 객체 반환)

In [112]:
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

#딕셔너리를 데이터프레임으로 변환, 인덱스를 지정함.
df = pd.DataFrame(dict_data,index = ['r0','r1','r2'])
print(df)
print('\n')

#행 인덱스를 정수형으로 초기화
ndf = df.reset_index()
print(ndf)

    c0  c1  c2  c3  c4
r0   1   4   7  10  13
r1   2   5   8  11  14
r2   3   6   9  12  15


  index  c0  c1  c2  c3  c4
0    r0   1   4   7  10  13
1    r1   2   5   8  11  14
2    r2   3   6   9  12  15
