# Pandas

- 실질적으로 데이터 처리를 위해 사용하는 모듈
- 두 개의 자료구조를 제공 (ndarray 기반)
    1. Series: 1차원 ndarray를 기반으로 만든 자료구조
    2. DataFrame: Series를 세로로 이어 붙여 만든 2차원 자료 구조

사용 전 pandas 모듈 설치 필요

```sh
conda install pandas
```

In [1]:
import numpy as np # numpy를 필요로 함
import pandas as pd

print('pandas imported!')

pandas imported!


## Series

In [6]:
# Series

s = pd.Series([-1, 5, 10, 99], dtype="float64") # 값의 타입을 정수가 아닌 실수로 지정
print(s, end='\n\n')

# 0    -1.0
# 1     5.0
# 2    10.0
# 3    99.0
# dtype: float64

## 가로가 아닌 세로로 표현됨
## 인덱스 번호 및 데이터 타입까지 표시됨.
## 내부적으로는 ndarray에 값이 들어가있음.

print(s.values, end='\n\n') # Series 내부의 ndarray를 뽑아내기
# [-1.  5. 10. 99.]

print(s.index, end='\n\n') # 인덱스 정보 보기
# RangeIndex(start=0, stop=4, step=1)

0    -1.0
1     5.0
2    10.0
3    99.0
dtype: float64

[-1.  5. 10. 99.]

RangeIndex(start=0, stop=4, step=1)



In [14]:
s = pd.Series([1, 5, -10, 30],
              dtype=np.float64, # 데이터 타입 지정시 문자열을 지정할 수도 있고 Numpy의 속성을 지정할 수도 있음
              index=['c', 'b', 'a', 'k']) # 인덱스를 지정할 수 있음.

print(s, end='\n\n')


# c     1.0
# b     5.0
# a   -10.0
# k    30.0
# dtype: float64
## 지정한 인덱스와 그에 따른 값이 출력됨

print(s[1]) # 숫자 인덱스는 index 옵션으로 지정하지 않더라도 사용 가능
print(s['b']) # index 옵션으로 지정한 인덱스도 사용 가능

c     1.0
b     5.0
a   -10.0
k    30.0
dtype: float64

5.0
5.0


In [21]:
s = pd.Series([1, 5, -10, 30],
              dtype=np.float64,
              index=[0, 2, 100, 6]) # 숫자를 인덱스로 지정할 수도 있음.

print(s, end='\n\n')

print(s[100]) # 위에서 지정한 인덱스에 해당하는 값이 출력

try:
    print(s[1])
except KeyError as e:
    print('인덱스를 수로 지정하는 경우 기본적으로 부여되는 숫자 인덱스는 사용 불가')
    # 따라서 보통 사용자 지정 인덱스로 숫자를 지정하지는 않음.

0       1.0
2       5.0
100   -10.0
6      30.0
dtype: float64

-10.0
인덱스를 수로 지정하는 경우 기본적으로 부여되는 숫자 인덱스는 사용 불가


In [27]:
s = pd.Series([1, 5, -10, 30],
              dtype=np.float64,
              index=['c', 'b', 'a', 'k'])

print(s, end='\n\n')

print(s[0:3], end='\n\n') # Series를 슬라이스했으므로 슬라이스된 Series 반환
# c     1.0
# b     5.0
# a   -10.0
# dtype: float64

print(s['c':'k']) # 지정 인덱스로 슬라이스 하는 경우 뒤에 지정한 인덱스의 값도 포함되므로 주의

c     1.0
b     5.0
a   -10.0
k    30.0
dtype: float64

c     1.0
b     5.0
a   -10.0
dtype: float64

c     1.0
b     5.0
a   -10.0
k    30.0
dtype: float64


In [30]:
# 특수한 인덱싱 방법과 집계함수

print(s[s % 2 == 0]) # Boolean Mask 사용
# a   -10.0
# k    30.0
# dtype: float64
## => Boolean indexing 및 Fancy indexing 모두 사용 가능

print(s.shape) # np의 shape 사용 가능
print(s.sum()) # np의 sum 사용 가능



a   -10.0
k    30.0
dtype: float64
(4,)
26.0


In [43]:
# Series를 dictionary를 이용해 생성

my_dict = {
    '서울': '2000원',
    '부산': '3000원',
    '인천': '500원'
}

print(type(my_dict)) # <class 'dict'>

s = pd.Series(my_dict)
print(s)

# 서울    2000원
# 부산    3000원
# 인천     500원
# dtype: object

<class 'dict'>


서울    2000원
부산    3000원
인천     500원
dtype: object

⇒ 정리하자면 Series는 1차원 ndarray에 사용자 지정 index를 추가한 자료 구조라고 할 수 있다.  
일반적으로 Series를 직접 만들어 사용하지는 않고, DataFrame을 만들어 사용하게 된다.
다만 DataFrame도 Series의 집합이므로 Series도 숙지하고 있어야 한다.

## DataFrame

DataFrame은 엑셀과 유사한 2차원 배열 구조이다. Series를 합친 형태이다.

In [54]:
my_dict = {
             # 행0       # 행1      # 행2
    'names': ['홍길동', '신사임당', '강감찬'], # 열0
    'year': [2020, 2021, 2022], # 열1
    'point': [3.0, 4.0, 5.0] # 열2
}

df = pd.DataFrame(my_dict)
display(df) # print 대신 display를 사용하면 이쁘게 출력됨

# names	year	point
# 0	홍길동	2020	3.0
# 1	신사임당	2021	4.0
# 2	강감찬	2022	5.0
## 컬럼명, 행번호(인덱스), 각 데이터가 출력되었다.


try:
    my_dict2 = {
        'names': ['홍길동', '신사임당', '강감찬'],
        'year': [2020, 2021, 2022],
        'point': [3.0, 4.0] # 값이 한 개가 부족하다
    }

    df2 = pd.DataFrame(my_dict2)
    display(df2)
except ValueError as e:
    print('각 열의 길이가 다르면 오류가 발생')
    print(e)

# 특정 값을 알 수 없는 경우, np.nan을 넣어준다.
my_dict3 = {
    'names': ['홍길동', '신사임당', '강감찬', '이순신'],
    'year': [2020, 2021, 2022, '2023'],
    'point': [3.0, 4.0, np.nan, 5.0]
}

df3 = pd.DataFrame(my_dict3)
display(df3)
print(df3.shape) # (4, 3)
print(df3.size) # 12
print(df3.index) # RangeIndex(start=0, stop=4, step=1)
print(df3.columns) # Index(['names', 'year', 'point'], dtype='object')

Unnamed: 0,names,year,point
0,홍길동,2020,3.0
1,신사임당,2021,4.0
2,강감찬,2022,5.0


각 열의 길이가 다르면 오류가 발생
All arrays must be of the same length


Unnamed: 0,names,year,point
0,홍길동,2020,3.0
1,신사임당,2021,4.0
2,강감찬,2022,
3,이순신,2023,5.0


(4, 3)
12
RangeIndex(start=0, stop=4, step=1)
Index(['names', 'year', 'point'], dtype='object')


In [58]:
my_dict = {
    'names': ['홍길동', '신사임당', '강감찬', '이순신'],
    'year': [2020, 2021, 2022, '2023'],
    'point': [3.0, 4.0, np.nan, 5.0]
}

df = pd.DataFrame(my_dict)
display(df)

new_df = df.set_index('names', inplace=False) # names 컬럼을 인덱스로 지정
                                             # inplace가 True이면, 원본이 변하게 됨.
                                             # False이면, 복사본을 만들어 변형을 만들게 됨. 일반적으로 False 지정
display(new_df) # name이 인덱스로 잡히게 됨

Unnamed: 0,names,year,point
0,홍길동,2020,3.0
1,신사임당,2021,4.0
2,강감찬,2022,
3,이순신,2023,5.0


Unnamed: 0_level_0,year,point
names,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,2020,3.0
신사임당,2021,4.0
강감찬,2022,
이순신,2023,5.0


In [65]:
# 외부 CSV 파일 Import

df = pd.read_csv('./data/movies.csv')
display(df.head())
print(df.shape) # (9742, 3)

# 이 방법 외에도 Open API나 Database로부터 데이터를 받아
# DataFrame을 생성할 수 있다.

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


(9742, 3)


In [70]:
# 데이터 프레임의 조작

my_dict = {
    '이름': ['홍길동', '신사임당', '강감찬', '이순신', '연개소문'],
    '학과': ['컴퓨터과학', '철학', '기계공학', '영어영문', '예술학'],
    '학년': [1, 2, 2, 4, 3],
    '학점': [1.5, 2.0, 3.1, 1.1, 4.2]
}

df = pd.DataFrame(my_dict,
                 columns=['학과', '이름', '학점', '학년', '등급'], # 출력 순서를 바꿀 수 있음
                 index=['one', 'two','three', 'four', 'five']) # 인덱스를 지정

display(df)

# 학과	이름	학점	학년	등급
# one	컴퓨터과학	홍길동	1.5	1	NaN
# two	철학	신사임당	2.0	2	NaN
# three	기계공학	강감찬	3.1	2	NaN
# four	영어영문	이순신	1.1	4	NaN
# five	예술학	연개소문	4.2	3	NaN
## 없는 값은 NaN으로 채워줌

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터과학,홍길동,1.5,1,
two,철학,신사임당,2.0,2,
three,기계공학,강감찬,3.1,2,
four,영어영문,이순신,1.1,4,
five,예술학,연개소문,4.2,3,


In [72]:
display(df.describe()) # 계산이 가능한 컬럼에 대해 기본 통계 정보를 알려줌

# count  값의 개수
# mean   평균
# std   표준 편차 (평균으로부터 얼마나 떨어져 있는가, 데이터의 분산 정도)
# min   최소
# 25%   사분위 값
# 50%   사분위 값 (중위)
# 75%   사분위 값
# max   최대

Unnamed: 0,학점,학년
count,5.0,5.0
mean,2.38,2.4
std,1.263725,1.140175
min,1.1,1.0
25%,1.5,2.0
50%,2.0,2.0
75%,3.1,3.0
max,4.2,4.0


In [82]:
# 원하는 컬럼 1개 추출
print(df['이름'])

# one       홍길동
# two      신사임당
# three     강감찬
# four      이순신
# five     연개소문
# Name: 이름, dtype: object
## 인덱스와 지정한 컬럼(->시리즈) 반환됨

one      박혁거세
two      신사임당
three     강감찬
four      이순신
five     연개소문
Name: 이름, dtype: object


In [86]:
s = df['이름'] # 뷰 반환
s['one'] = '임영택' # 뷰의 값을 수정하려고 시도하면, 원본 데이터가 변하게 됨
print(s)

display(df) # 원본까지 바뀌게 됨. 즉, df['컬럼']은 시리즈에 대한 뷰를 반환.

print('\n\n')

s2 = df['이름'].copy() # 새로운 시리즈로 복사
s2['one'] = '임영택아닙니다' # 복사된 시리즈의 값 변경
print(s2)

display(df) # 원본이 바뀌지 않음.

one       임영택
two      신사임당
three     강감찬
four      이순신
five     연개소문
Name: 이름, dtype: object


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  s['one'] = '임영택' # 뷰의 값을 수정하려고 시도하면, 원본 데이터가 변하게 됨


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터과학,임영택,1.5,1,
two,철학,신사임당,2.0,2,
three,기계공학,강감찬,3.1,2,
four,영어영문,이순신,1.1,4,
five,예술학,연개소문,4.2,3,





one      임영택아닙니다
two         신사임당
three        강감찬
four         이순신
five        연개소문
Name: 이름, dtype: object


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터과학,임영택,1.5,1,
two,철학,신사임당,2.0,2,
three,기계공학,강감찬,3.1,2,
four,영어영문,이순신,1.1,4,
five,예술학,연개소문,4.2,3,


In [87]:
# 원하는 컬럼 여러 개 추출
## Fancy Indexing 사용

display(df[['학과', '이름']])

Unnamed: 0,학과,이름
one,컴퓨터과학,임영택
two,철학,신사임당
three,기계공학,강감찬
four,영어영문,이순신
five,예술학,연개소문


In [89]:
# 컬럼 추가

df['나이'] = [20, 21, 22, 21, 19] # 리스트 -> ndarray -> Series [내부적으로 변환 과정을 거쳐 DataFrame에 삽입됨]
display(df)

Unnamed: 0,학과,이름,학점,학년,등급,나이
one,컴퓨터과학,임영택,1.5,1,,20
two,철학,신사임당,2.0,2,,21
three,기계공학,강감찬,3.1,2,,22
four,영어영문,이순신,1.1,4,,21
five,예술학,연개소문,4.2,3,,19


In [91]:
# 특정 조건 부여
# 학점 3.0 이상의 학생을 장학생으로 선정

df['장학여부'] = df['학점'] > 3.0
# 스칼라(3.0)가 브로드캐스팅되어 벡터로 변환
#   -> 동일 위치의 값이 각각 비교되어 비교 결과(Bool)로 이루어진 ndarray 생성, Series로 변환
#   -> DataFrame에 추가 

display(df)

Unnamed: 0,학과,이름,학점,학년,등급,나이,장학여부
one,컴퓨터과학,임영택,1.5,1,,20,False
two,철학,신사임당,2.0,2,,21,False
three,기계공학,강감찬,3.1,2,,22,True
four,영어영문,이순신,1.1,4,,21,False
five,예술학,연개소문,4.2,3,,19,True


In [96]:
# 컬럼 삭제

new_df = df.drop('이름', axis=1, inplace=False) # 열 방향에서 지워야 하므로, 0이 아닌 1
display(new_df)

Unnamed: 0,학과,학점,학년,등급,나이,장학여부
one,컴퓨터과학,1.5,1,,20,False
two,철학,2.0,2,,21,False
three,기계공학,3.1,2,,22,True
four,영어영문,1.1,4,,21,False
five,예술학,4.2,3,,19,True


In [98]:
# 컬럼에 대한 slicing -> 불가능

display(df['학과':'학점']) # 오류 발생. 불가능함.

KeyError: '학과'

In [123]:
# Row Indexing

display(df[0:2]) # 슬라이싱은 가능

try:
    display(df[0]) # 한 개는 불러오려고 하면 오류 발생
except:
    print('에러 발생\n\n')
# 이렇게 일관성 없는 방법은 좋지 않음


# 행 가져오기 (Row Indexing)는 DataFrame.loc를 사용
# loc에는 반드시 지정 인덱스를 사용해야함
print(df.loc['one'], end='\n\n')

# 순번으로 가져오기
# iloc에는 반드시 숫자 인덱스를 사용해야함
print(df.iloc[0], end='\n\n')

# loc를 이용한 슬라이싱 & 인덱싱 고급
display(df.loc['one' : 'three']) # 가능
display(df.loc['one':]) # 가능
# display(df.loc['one' : -1])  # 불가능
display(df.loc[['one', 'four']]) # Fancy Indexing 가능
df.loc[['two', 'four'], ['이름', '학년']] # Fancy Index

Unnamed: 0,학과,이름,학점,학년,등급,나이,장학여부
one,컴퓨터과학,임영택,1.5,1,,20,False
two,철학,신사임당,2.0,2,,21,False


에러 발생


학과      컴퓨터과학
이름        임영택
학점        1.5
학년          1
등급        NaN
나이         20
장학여부    False
Name: one, dtype: object

학과      컴퓨터과학
이름        임영택
학점        1.5
학년          1
등급        NaN
나이         20
장학여부    False
Name: one, dtype: object



Unnamed: 0,학과,이름,학점,학년,등급,나이,장학여부
one,컴퓨터과학,임영택,1.5,1,,20,False
two,철학,신사임당,2.0,2,,21,False
three,기계공학,강감찬,3.1,2,,22,True


Unnamed: 0,학과,이름,학점,학년,등급,나이,장학여부
one,컴퓨터과학,임영택,1.5,1,,20,False
two,철학,신사임당,2.0,2,,21,False
three,기계공학,강감찬,3.1,2,,22,True
four,영어영문,이순신,1.1,4,,21,False
five,예술학,연개소문,4.2,3,,19,True


Unnamed: 0,학과,이름,학점,학년,등급,나이,장학여부
one,컴퓨터과학,임영택,1.5,1,,20,False
four,영어영문,이순신,1.1,4,,21,False


Unnamed: 0,이름,학년
two,신사임당,2
four,이순신,4
