# Pandas

- 실질적으로 데이터 처리를 위해 사용하는 모듈
- 두 개의 자료구조를 제공 (ndarray 기반)
    1. Series: 1차원 ndarray를 기반으로 만든 자료구조
    2. DataFrame: Series를 세로로 이어 붙여 만든 2차원 자료 구조

사용 전 pandas 모듈 설치 필요

```sh
conda install pandas
```

In [1]:
import numpy as np # numpy를 필요로 함
import pandas as pd

print('pandas imported!')

pandas imported!


## Series

In [6]:
# Series

s = pd.Series([-1, 5, 10, 99], dtype="float64") # 값의 타입을 정수가 아닌 실수로 지정
print(s, end='\n\n')

# 0    -1.0
# 1     5.0
# 2    10.0
# 3    99.0
# dtype: float64

## 가로가 아닌 세로로 표현됨
## 인덱스 번호 및 데이터 타입까지 표시됨.
## 내부적으로는 ndarray에 값이 들어가있음.

print(s.values, end='\n\n') # Series 내부의 ndarray를 뽑아내기
# [-1.  5. 10. 99.]

print(s.index, end='\n\n') # 인덱스 정보 보기
# RangeIndex(start=0, stop=4, step=1)

0    -1.0
1     5.0
2    10.0
3    99.0
dtype: float64

[-1.  5. 10. 99.]

RangeIndex(start=0, stop=4, step=1)



In [14]:
s = pd.Series([1, 5, -10, 30],
              dtype=np.float64, # 데이터 타입 지정시 문자열을 지정할 수도 있고 Numpy의 속성을 지정할 수도 있음
              index=['c', 'b', 'a', 'k']) # 인덱스를 지정할 수 있음.

print(s, end='\n\n')


# c     1.0
# b     5.0
# a   -10.0
# k    30.0
# dtype: float64
## 지정한 인덱스와 그에 따른 값이 출력됨

print(s[1]) # 숫자 인덱스는 index 옵션으로 지정하지 않더라도 사용 가능
print(s['b']) # index 옵션으로 지정한 인덱스도 사용 가능

c     1.0
b     5.0
a   -10.0
k    30.0
dtype: float64

5.0
5.0


In [21]:
s = pd.Series([1, 5, -10, 30],
              dtype=np.float64,
              index=[0, 2, 100, 6]) # 숫자를 인덱스로 지정할 수도 있음.

print(s, end='\n\n')

print(s[100]) # 위에서 지정한 인덱스에 해당하는 값이 출력

try:
    print(s[1])
except KeyError as e:
    print('인덱스를 수로 지정하는 경우 기본적으로 부여되는 숫자 인덱스는 사용 불가')
    # 따라서 보통 사용자 지정 인덱스로 숫자를 지정하지는 않음.

0       1.0
2       5.0
100   -10.0
6      30.0
dtype: float64

-10.0
인덱스를 수로 지정하는 경우 기본적으로 부여되는 숫자 인덱스는 사용 불가


In [27]:
s = pd.Series([1, 5, -10, 30],
              dtype=np.float64,
              index=['c', 'b', 'a', 'k'])

print(s, end='\n\n')

print(s[0:3], end='\n\n') # Series를 슬라이스했으므로 슬라이스된 Series 반환
# c     1.0
# b     5.0
# a   -10.0
# dtype: float64

print(s['c':'k']) # 지정 인덱스로 슬라이스 하는 경우 뒤에 지정한 인덱스의 값도 포함되므로 주의

c     1.0
b     5.0
a   -10.0
k    30.0
dtype: float64

c     1.0
b     5.0
a   -10.0
dtype: float64

c     1.0
b     5.0
a   -10.0
k    30.0
dtype: float64


In [30]:
# 특수한 인덱싱 방법과 집계함수

print(s[s % 2 == 0]) # Boolean Mask 사용
# a   -10.0
# k    30.0
# dtype: float64
## => Boolean indexing 및 Fancy indexing 모두 사용 가능

print(s.shape) # np의 shape 사용 가능
print(s.sum()) # np의 sum 사용 가능



a   -10.0
k    30.0
dtype: float64
(4,)
26.0


In [43]:
# Series를 dictionary를 이용해 생성

my_dict = {
    '서울': '2000원',
    '부산': '3000원',
    '인천': '500원'
}

print(type(my_dict)) # <class 'dict'>

s = pd.Series(my_dict)
print(s)

# 서울    2000원
# 부산    3000원
# 인천     500원
# dtype: object

<class 'dict'>


서울    2000원
부산    3000원
인천     500원
dtype: object

⇒ 정리하자면 Series는 1차원 ndarray에 사용자 지정 index를 추가한 자료 구조라고 할 수 있다.  
일반적으로 Series를 직접 만들어 사용하지는 않고, DataFrame을 만들어 사용하게 된다.
다만 DataFrame도 Series의 집합이므로 Series도 숙지하고 있어야 한다.

## DataFrame

DataFrame은 엑셀과 유사한 2차원 배열 구조이다. Series를 합친 형태이다.

In [53]:
my_dict = {
             # 행0       # 행1      # 행2
    'names': ['홍길동', '신사임당', '강감찬'], # 열0
    'year': [2020, 2021, 2022], # 열1
    'point': [3.0, 4.0, 5.0] # 열2
}

df = pd.DataFrame(my_dict)
display(df) # print 대신 display를 사용하면 이쁘게 출력됨

# names	year	point
# 0	홍길동	2020	3.0
# 1	신사임당	2021	4.0
# 2	강감찬	2022	5.0
## 컬럼명, 행번호(인덱스), 각 데이터가 출력되었다.


try:
    my_dict2 = {
        'names': ['홍길동', '신사임당', '강감찬'],
        'year': [2020, 2021, 2022],
        'point': [3.0, 4.0] # 값이 한 개가 부족하다
    }

    df2 = pd.DataFrame(my_dict2)
    display(df2)
except ValueError as e:
    print('각 열의 길이가 다르면 오류가 발생')
    print(e)

# 특정 값을 알 수 없는 경우, np.nan을 넣어준다.
my_dict3 = {
    'names': ['홍길동', '신사임당', '강감찬', '이순신'],
    'year': [2020, 2021, 2022, '2023'],
    'point': [3.0, 4.0, np.nan, 5.0]
}

df3 = pd.DataFrame(my_dict3)
display(df3)
print(df3.shape) # (4, 3)
print(df3.size) # 12
print(df3.index) # RangeIndex(start=0, stop=4, step=1)

Unnamed: 0,names,year,point
0,홍길동,2020,3.0
1,신사임당,2021,4.0
2,강감찬,2022,5.0


각 열의 길이가 다르면 오류가 발생
All arrays must be of the same length


Unnamed: 0,names,year,point
0,홍길동,2020,3.0
1,신사임당,2021,4.0
2,강감찬,2022,
3,이순신,2023,5.0


(4, 3)
12
RangeIndex(start=0, stop=4, step=1)
