# Pandas

- 실질적으로 데이터 처리를 위해 사용하는 모듈
- 두 개의 자료구조를 제공 (ndarray 기반)
    1. Series: 1차원 ndarray를 기반으로 만든 자료구조
    2. DataFrame: Series를 세로로 이어 붙여 만든 2차원 자료 구조

사용 전 pandas 모듈 설치 필요

```sh
conda install pandas
```

In [1]:
import numpy as np # numpy를 필요로 함
import pandas as pd

print('pandas imported!')

pandas imported!


## Series

In [6]:
# Series

s = pd.Series([-1, 5, 10, 99], dtype="float64") # 값의 타입을 정수가 아닌 실수로 지정
print(s, end='\n\n')

# 0    -1.0
# 1     5.0
# 2    10.0
# 3    99.0
# dtype: float64

## 가로가 아닌 세로로 표현됨
## 인덱스 번호 및 데이터 타입까지 표시됨.
## 내부적으로는 ndarray에 값이 들어가있음.

print(s.values, end='\n\n') # Series 내부의 ndarray를 뽑아내기
# [-1.  5. 10. 99.]

print(s.index, end='\n\n') # 인덱스 정보 보기
# RangeIndex(start=0, stop=4, step=1)

0    -1.0
1     5.0
2    10.0
3    99.0
dtype: float64

[-1.  5. 10. 99.]

RangeIndex(start=0, stop=4, step=1)



In [14]:
s = pd.Series([1, 5, -10, 30],
              dtype=np.float64, # 데이터 타입 지정시 문자열을 지정할 수도 있고 Numpy의 속성을 지정할 수도 있음
              index=['c', 'b', 'a', 'k']) # 인덱스를 지정할 수 있음.

print(s, end='\n\n')


# c     1.0
# b     5.0
# a   -10.0
# k    30.0
# dtype: float64
## 지정한 인덱스와 그에 따른 값이 출력됨

print(s[1]) # 숫자 인덱스는 index 옵션으로 지정하지 않더라도 사용 가능
print(s['b']) # index 옵션으로 지정한 인덱스도 사용 가능

c     1.0
b     5.0
a   -10.0
k    30.0
dtype: float64

5.0
5.0


In [21]:
s = pd.Series([1, 5, -10, 30],
              dtype=np.float64,
              index=[0, 2, 100, 6]) # 숫자를 인덱스로 지정할 수도 있음.

print(s, end='\n\n')

print(s[100]) # 위에서 지정한 인덱스에 해당하는 값이 출력

try:
    print(s[1])
except KeyError as e:
    print('인덱스를 수로 지정하는 경우 기본적으로 부여되는 숫자 인덱스는 사용 불가')
    # 따라서 보통 사용자 지정 인덱스로 숫자를 지정하지는 않음.

0       1.0
2       5.0
100   -10.0
6      30.0
dtype: float64

-10.0
인덱스를 수로 지정하는 경우 기본적으로 부여되는 숫자 인덱스는 사용 불가


In [27]:
s = pd.Series([1, 5, -10, 30],
              dtype=np.float64,
              index=['c', 'b', 'a', 'k'])

print(s, end='\n\n')

print(s[0:3], end='\n\n') # Series를 슬라이스했으므로 슬라이스된 Series 반환
# c     1.0
# b     5.0
# a   -10.0
# dtype: float64

print(s['c':'k']) # 지정 인덱스로 슬라이스 하는 경우 뒤에 지정한 인덱스의 값도 포함되므로 주의

c     1.0
b     5.0
a   -10.0
k    30.0
dtype: float64

c     1.0
b     5.0
a   -10.0
dtype: float64

c     1.0
b     5.0
a   -10.0
k    30.0
dtype: float64


In [30]:
# 특수한 인덱싱 방법과 집계함수

print(s[s % 2 == 0]) # Boolean Mask 사용
# a   -10.0
# k    30.0
# dtype: float64
## => Boolean indexing 및 Fancy indexing 모두 사용 가능

print(s.shape) # np의 shape 사용 가능
print(s.sum()) # np의 sum 사용 가능



a   -10.0
k    30.0
dtype: float64
(4,)
26.0


In [43]:
# Series를 dictionary를 이용해 생성

my_dict = {
    '서울': '2000원',
    '부산': '3000원',
    '인천': '500원'
}

print(type(my_dict)) # <class 'dict'>

s = pd.Series(my_dict)
print(s)

# 서울    2000원
# 부산    3000원
# 인천     500원
# dtype: object

<class 'dict'>


서울    2000원
부산    3000원
인천     500원
dtype: object

⇒ 정리하자면 Series는 1차원 ndarray에 사용자 지정 index를 추가한 자료 구조라고 할 수 있다.  
일반적으로 Series를 직접 만들어 사용하지는 않고, DataFrame을 만들어 사용하게 된다.
다만 DataFrame도 Series의 집합이므로 Series도 숙지하고 있어야 한다.

## DataFrame

DataFrame은 엑셀과 유사한 2차원 배열 구조이다. Series를 합친 형태이다.

In [54]:
my_dict = {
             # 행0       # 행1      # 행2
    'names': ['홍길동', '신사임당', '강감찬'], # 열0
    'year': [2020, 2021, 2022], # 열1
    'point': [3.0, 4.0, 5.0] # 열2
}

df = pd.DataFrame(my_dict)
display(df) # print 대신 display를 사용하면 이쁘게 출력됨

# names	year	point
# 0	홍길동	2020	3.0
# 1	신사임당	2021	4.0
# 2	강감찬	2022	5.0
## 컬럼명, 행번호(인덱스), 각 데이터가 출력되었다.


try:
    my_dict2 = {
        'names': ['홍길동', '신사임당', '강감찬'],
        'year': [2020, 2021, 2022],
        'point': [3.0, 4.0] # 값이 한 개가 부족하다
    }

    df2 = pd.DataFrame(my_dict2)
    display(df2)
except ValueError as e:
    print('각 열의 길이가 다르면 오류가 발생')
    print(e)

# 특정 값을 알 수 없는 경우, np.nan을 넣어준다.
my_dict3 = {
    'names': ['홍길동', '신사임당', '강감찬', '이순신'],
    'year': [2020, 2021, 2022, '2023'],
    'point': [3.0, 4.0, np.nan, 5.0]
}

df3 = pd.DataFrame(my_dict3)
display(df3)
print(df3.shape) # (4, 3)
print(df3.size) # 12
print(df3.index) # RangeIndex(start=0, stop=4, step=1)
print(df3.columns) # Index(['names', 'year', 'point'], dtype='object')

Unnamed: 0,names,year,point
0,홍길동,2020,3.0
1,신사임당,2021,4.0
2,강감찬,2022,5.0


각 열의 길이가 다르면 오류가 발생
All arrays must be of the same length


Unnamed: 0,names,year,point
0,홍길동,2020,3.0
1,신사임당,2021,4.0
2,강감찬,2022,
3,이순신,2023,5.0


(4, 3)
12
RangeIndex(start=0, stop=4, step=1)
Index(['names', 'year', 'point'], dtype='object')


In [58]:
my_dict = {
    'names': ['홍길동', '신사임당', '강감찬', '이순신'],
    'year': [2020, 2021, 2022, '2023'],
    'point': [3.0, 4.0, np.nan, 5.0]
}

df = pd.DataFrame(my_dict)
display(df)

new_df = df.set_index('names', inplace=False) # names 컬럼을 인덱스로 지정
                                             # inplace가 True이면, 원본이 변하게 됨.
                                             # False이면, 복사본을 만들어 변형을 만들게 됨. 일반적으로 False 지정
display(new_df) # name이 인덱스로 잡히게 됨

Unnamed: 0,names,year,point
0,홍길동,2020,3.0
1,신사임당,2021,4.0
2,강감찬,2022,
3,이순신,2023,5.0


Unnamed: 0_level_0,year,point
names,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,2020,3.0
신사임당,2021,4.0
강감찬,2022,
이순신,2023,5.0


In [65]:
# 외부 CSV 파일 Import

df = pd.read_csv('./data/movies.csv')
display(df.head())
print(df.shape) # (9742, 3)

# 이 방법 외에도 Open API나 Database로부터 데이터를 받아
# DataFrame을 생성할 수 있다.

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


(9742, 3)


In [70]:
# 데이터 프레임의 조작

my_dict = {
    '이름': ['홍길동', '신사임당', '강감찬', '이순신', '연개소문'],
    '학과': ['컴퓨터과학', '철학', '기계공학', '영어영문', '예술학'],
    '학년': [1, 2, 2, 4, 3],
    '학점': [1.5, 2.0, 3.1, 1.1, 4.2]
}

df = pd.DataFrame(my_dict,
                 columns=['학과', '이름', '학점', '학년', '등급'], # 출력 순서를 바꿀 수 있음
                 index=['one', 'two','three', 'four', 'five']) # 인덱스를 지정

display(df)

# 학과	이름	학점	학년	등급
# one	컴퓨터과학	홍길동	1.5	1	NaN
# two	철학	신사임당	2.0	2	NaN
# three	기계공학	강감찬	3.1	2	NaN
# four	영어영문	이순신	1.1	4	NaN
# five	예술학	연개소문	4.2	3	NaN
## 없는 값은 NaN으로 채워줌

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터과학,홍길동,1.5,1,
two,철학,신사임당,2.0,2,
three,기계공학,강감찬,3.1,2,
four,영어영문,이순신,1.1,4,
five,예술학,연개소문,4.2,3,


In [72]:
display(df.describe()) # 계산이 가능한 컬럼에 대해 기본 통계 정보를 알려줌

# count  값의 개수
# mean   평균
# std   표준 편차 (평균으로부터 얼마나 떨어져 있는가, 데이터의 분산 정도)
# min   최소
# 25%   사분위 값
# 50%   사분위 값 (중위)
# 75%   사분위 값
# max   최대

Unnamed: 0,학점,학년
count,5.0,5.0
mean,2.38,2.4
std,1.263725,1.140175
min,1.1,1.0
25%,1.5,2.0
50%,2.0,2.0
75%,3.1,3.0
max,4.2,4.0


In [82]:
# 원하는 컬럼 1개 추출
print(df['이름'])

# one       홍길동
# two      신사임당
# three     강감찬
# four      이순신
# five     연개소문
# Name: 이름, dtype: object
## 인덱스와 지정한 컬럼(->시리즈) 반환됨

one      박혁거세
two      신사임당
three     강감찬
four      이순신
five     연개소문
Name: 이름, dtype: object


In [86]:
s = df['이름'] # 뷰 반환
s['one'] = '임영택' # 뷰의 값을 수정하려고 시도하면, 원본 데이터가 변하게 됨
print(s)

display(df) # 원본까지 바뀌게 됨. 즉, df['컬럼']은 시리즈에 대한 뷰를 반환.

print('\n\n')

s2 = df['이름'].copy() # 새로운 시리즈로 복사
s2['one'] = '임영택아닙니다' # 복사된 시리즈의 값 변경
print(s2)

display(df) # 원본이 바뀌지 않음.

one       임영택
two      신사임당
three     강감찬
four      이순신
five     연개소문
Name: 이름, dtype: object


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  s['one'] = '임영택' # 뷰의 값을 수정하려고 시도하면, 원본 데이터가 변하게 됨


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터과학,임영택,1.5,1,
two,철학,신사임당,2.0,2,
three,기계공학,강감찬,3.1,2,
four,영어영문,이순신,1.1,4,
five,예술학,연개소문,4.2,3,





one      임영택아닙니다
two         신사임당
three        강감찬
four         이순신
five        연개소문
Name: 이름, dtype: object


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터과학,임영택,1.5,1,
two,철학,신사임당,2.0,2,
three,기계공학,강감찬,3.1,2,
four,영어영문,이순신,1.1,4,
five,예술학,연개소문,4.2,3,


In [87]:
# 원하는 컬럼 여러 개 추출
## Fancy Indexing 사용

display(df[['학과', '이름']])

Unnamed: 0,학과,이름
one,컴퓨터과학,임영택
two,철학,신사임당
three,기계공학,강감찬
four,영어영문,이순신
five,예술학,연개소문


In [89]:
# 컬럼 추가

df['나이'] = [20, 21, 22, 21, 19] # 리스트 -> ndarray -> Series [내부적으로 변환 과정을 거쳐 DataFrame에 삽입됨]
display(df)

Unnamed: 0,학과,이름,학점,학년,등급,나이
one,컴퓨터과학,임영택,1.5,1,,20
two,철학,신사임당,2.0,2,,21
three,기계공학,강감찬,3.1,2,,22
four,영어영문,이순신,1.1,4,,21
five,예술학,연개소문,4.2,3,,19


In [91]:
# 특정 조건 부여
# 학점 3.0 이상의 학생을 장학생으로 선정

df['장학여부'] = df['학점'] > 3.0
# 스칼라(3.0)가 브로드캐스팅되어 벡터로 변환
#   -> 동일 위치의 값이 각각 비교되어 비교 결과(Bool)로 이루어진 ndarray 생성, Series로 변환
#   -> DataFrame에 추가 

display(df)

Unnamed: 0,학과,이름,학점,학년,등급,나이,장학여부
one,컴퓨터과학,임영택,1.5,1,,20,False
two,철학,신사임당,2.0,2,,21,False
three,기계공학,강감찬,3.1,2,,22,True
four,영어영문,이순신,1.1,4,,21,False
five,예술학,연개소문,4.2,3,,19,True


In [96]:
# 컬럼 삭제

new_df = df.drop('이름', axis=1, inplace=False) # 열 방향에서 지워야 하므로, 0이 아닌 1
display(new_df)

Unnamed: 0,학과,학점,학년,등급,나이,장학여부
one,컴퓨터과학,1.5,1,,20,False
two,철학,2.0,2,,21,False
three,기계공학,3.1,2,,22,True
four,영어영문,1.1,4,,21,False
five,예술학,4.2,3,,19,True


In [98]:
# 컬럼에 대한 slicing -> 불가능

display(df['학과':'학점']) # 오류 발생. 불가능함.

KeyError: '학과'

In [123]:
# Row Indexing

display(df[0:2]) # 슬라이싱은 가능

try:
    display(df[0]) # 한 개는 불러오려고 하면 오류 발생
except:
    print('에러 발생\n\n')
# 이렇게 일관성 없는 방법은 좋지 않음


# 행 가져오기 (Row Indexing)는 DataFrame.loc를 사용
# loc에는 반드시 지정 인덱스를 사용해야함
print(df.loc['one'], end='\n\n')

# 순번으로 가져오기
# iloc에는 반드시 숫자 인덱스를 사용해야함
print(df.iloc[0], end='\n\n')

# loc를 이용한 슬라이싱 & 인덱싱 고급
display(df.loc['one' : 'three']) # 가능
display(df.loc['one':]) # 가능
# display(df.loc['one' : -1])  # 불가능
display(df.loc[['one', 'four']]) # Fancy Indexing 가능
df.loc[['two', 'four'], ['이름', '학년']] # Fancy Indexing에서 행, 열의 인덱스를 모두 사용 가능

Unnamed: 0,학과,이름,학점,학년,등급,나이,장학여부
one,컴퓨터과학,임영택,1.5,1,,20,False
two,철학,신사임당,2.0,2,,21,False


에러 발생


학과      컴퓨터과학
이름        임영택
학점        1.5
학년          1
등급        NaN
나이         20
장학여부    False
Name: one, dtype: object

학과      컴퓨터과학
이름        임영택
학점        1.5
학년          1
등급        NaN
나이         20
장학여부    False
Name: one, dtype: object



Unnamed: 0,학과,이름,학점,학년,등급,나이,장학여부
one,컴퓨터과학,임영택,1.5,1,,20,False
two,철학,신사임당,2.0,2,,21,False
three,기계공학,강감찬,3.1,2,,22,True


Unnamed: 0,학과,이름,학점,학년,등급,나이,장학여부
one,컴퓨터과학,임영택,1.5,1,,20,False
two,철학,신사임당,2.0,2,,21,False
three,기계공학,강감찬,3.1,2,,22,True
four,영어영문,이순신,1.1,4,,21,False
five,예술학,연개소문,4.2,3,,19,True


Unnamed: 0,학과,이름,학점,학년,등급,나이,장학여부
one,컴퓨터과학,임영택,1.5,1,,20,False
four,영어영문,이순신,1.1,4,,21,False


Unnamed: 0,이름,학년
two,신사임당,2
four,이순신,4


In [47]:
# 예제

my_dict = {
    '이름': ['홍길동', '신사임당', '강감찬', '이순신', '연개소문'],
    '학과': ['컴퓨터과학', '철학', '기계공학', '영어영문', '예술학'],
    '학년': [1, 2, 2, 4, 3],
    '학점': [1.5, 2.0, 3.1, 1.1, 4.2]
}

df = pd.DataFrame(my_dict,
                 columns=['학과', '이름', '학점', '학년', '등급'],
                 index=['one', 'two','three', 'four', 'five'])

# 예제 1
# 학점이 2.0을 초과하는 학생의 이름과 학점을 DataFrame으로 출력하라
display(df.loc[df['학점'] > 2.0, ['이름', '학점']]) # 행에는 Boolean Mask를, 열에는 Row Index를 넣어줌

# 예제 2
# 학점이 3.0 이상인 학생의 등급을 A로 만들고 DataFrame으로 출력하라
df.loc[df['학점'] >= 3.0, '등급'] = 'A' # 원본의 데이터가 바뀜
display(df) # 원본 출력

# 예제 3
# 학점이 1.5 이상 2.5 이하인 학생의 학과, 이름, 학점을 출력하라
display(df.loc[(df['학점'] >= 1.5) & (df['학점'] <= 2.5), '학과' : '학점'])

# 예제 4
# 신사임당의 학과와 학년 정보를 출력하라
display(df.loc[df['이름'] == '신사임당', ['이름', '학과', '학년']])

Unnamed: 0,이름,학점
three,강감찬,3.1
five,연개소문,4.2


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터과학,홍길동,1.5,1,
two,철학,신사임당,2.0,2,
three,기계공학,강감찬,3.1,2,A
four,영어영문,이순신,1.1,4,
five,예술학,연개소문,4.2,3,A


Unnamed: 0,학과,이름,학점
one,컴퓨터과학,홍길동,1.5
two,철학,신사임당,2.0


Unnamed: 0,이름,학과,학년
two,신사임당,철학,2


In [54]:
# 새로운 행 추가

my_dict = {
    '이름': ['홍길동', '신사임당', '강감찬', '이순신', '연개소문'],
    '학과': ['컴퓨터과학', '철학', '기계공학', '영어영문', '예술학'],
    '학년': [1, 2, 2, 4, 3],
    '학점': [1.5, 2.0, 3.1, 1.1, 4.2]
}

df = pd.DataFrame(my_dict,
                 columns=['학과', '이름', '학점', '학년', '등급'],
                 index=['one', 'two','three', 'four', 'five'])

# 새로운 학생 추가
df.loc['six', :] = ['유아교육학', '김연아', '3.6', 4, np.nan] # loc[새로운 인덱스, :]
                                                              # ':' 전체 열을 의미
display(df)

# 강감찬 학생 삭제
df.drop('three', axis=0, inplace=True) # 행을 지우므로 2차원 배열의 행 방향 축인 axis=0 지정
                                       # 원본에서 제거하기 위해 inplace=True 지정 
display(df)

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터과학,홍길동,1.5,1.0,
two,철학,신사임당,2.0,2.0,
three,기계공학,강감찬,3.1,2.0,
four,영어영문,이순신,1.1,4.0,
five,예술학,연개소문,4.2,3.0,
six,유아교육학,김연아,3.6,4.0,


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터과학,홍길동,1.5,1.0,
two,철학,신사임당,2.0,2.0,
four,영어영문,이순신,1.1,4.0,
five,예술학,연개소문,4.2,3.0,
six,유아교육학,김연아,3.6,4.0,


In [59]:
# DataFrame 제공 함수
# 데이터 시트 불러오기

df = pd.read_csv('./data/auto-mpg.csv')
display(df) # 헤더가 없으므로 첫 행의 값이 헤더로 잡히게 됨

df = pd.read_csv('./data/auto-mpg.csv', header=None) # 숫자 인덱스로 컬럼명을 잡아줌
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower',
              'weight', 'acceleration', 'model year', 'origin', 'name']
display(df)

Unnamed: 0,18.0,8,307.0,130.0,3504.,12.0,70,1,chevrolet chevelle malibu
0,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
1,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
2,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
3,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
4,15.0,8,429.0,198.0,4341.0,10.0,70,1,ford galaxie 500
...,...,...,...,...,...,...,...,...,...
392,27.0,4,140.0,86.00,2790.0,15.6,82,1,ford mustang gl
393,44.0,4,97.0,52.00,2130.0,24.6,82,2,vw pickup
394,32.0,4,135.0,84.00,2295.0,11.6,82,1,dodge rampage
395,28.0,4,120.0,79.00,2625.0,18.6,82,1,ford ranger


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.00,2790.0,15.6,82,1,ford mustang gl
394,44.0,4,97.0,52.00,2130.0,24.6,82,2,vw pickup
395,32.0,4,135.0,84.00,2295.0,11.6,82,1,dodge rampage
396,28.0,4,120.0,79.00,2625.0,18.6,82,1,ford ranger


In [77]:
# head(), tail()
# 위에서, 아래에서 N개 출력

display(df.head(3))
display(df.tail(3))

# shape
# 데이터 개수 / 행과 열의 개수
print(df.shape, end='\n\n')
# numpy부터 나오는 프로퍼티

# count()
# 각 컬럼이 가지는 값의 개수 반환. 이때 유효한 값만 반환 (잘못된 값이나 빈 경우는 제외)
print(df.count(), end='\n\n')
# mpg             398
# cylinders       398
# displacement    398
# horsepower      398
# weight          398
# acceleration    398
# model year      398
# origin          398
# name            398
# dtype: int64
## 출력 값이 모두 같으므로, 모든 컬럼이 유효함을 알 수 있음.

# value_counts()
# DataFrame 자체가 아니라 Series에 적용
# 고유한 값의 개수를 셀 때 사용
print(df['origin'].value_counts())
# 1    249
# 3     79
# 2     70
# Name: origin, dtype: int64
## 미국 생산, EU 생산, 일본 생산별 개수를 알 수 있음.

# unique()
# DataFrame 자체가 아니라 Series에 적용
# 중복 제거
print(df['model year'].unique())
# array([70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82], dtype=int64)
# 몇 년부터 몇 년까지 생산된 차량의 정보인지를 알 수 있음.

# isin()
# 컬럼의 특정 값이 인자로 주어진 리스트 안에 있는 값인지 판단
# Boolean Mask가 반환됨
df['origin'].isin([1, 2])
# 0      True
# 1      True
# 2      True
# 3      True
# 4      True
#        ... 
display(df.loc[df['origin'].isin([1, 2]), :]) # 미국과 유럽에서 제조한 자동차

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name
395,32.0,4,135.0,84.0,2295.0,11.6,82,1,dodge rampage
396,28.0,4,120.0,79.0,2625.0,18.6,82,1,ford ranger
397,31.0,4,119.0,82.0,2720.0,19.4,82,1,chevy s-10


(398, 9)

mpg             398
cylinders       398
displacement    398
horsepower      398
weight          398
acceleration    398
model year      398
origin          398
name            398
dtype: int64

1    249
3     79
2     70
Name: origin, dtype: int64
[70 71 72 73 74 75 76 77 78 79 80 81 82]


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.00,2790.0,15.6,82,1,ford mustang gl
394,44.0,4,97.0,52.00,2130.0,24.6,82,2,vw pickup
395,32.0,4,135.0,84.00,2295.0,11.6,82,1,dodge rampage
396,28.0,4,120.0,79.00,2625.0,18.6,82,1,ford ranger


In [151]:
# ndarray 만들기
# np.array([1, 2, 3, 4])
# np.arange(10)

# 난수를 이용해서 ndarray 생성하기
print(np.random.randint(0, 10)) # 정수 난수 생성. randint(최소값<포함>, 최대값<제외>)
print(np.random.randint(0, 10, (6, 4))) # 마지막 인자로 shape 튜플을 넣으면 해당하는 shape의 난수 행렬 생성

np.random.seed(100) # 난수 생성 알고리즘의 seed 부여 가능
print(np.random.randint(0, 10, (5, 6))) # 여러 번 실행해도 값이 불변

7
[[7 0 2 9]
 [9 3 2 5]
 [8 1 0 7]
 [6 2 0 8]
 [2 5 1 8]
 [1 5 4 2]]
[[8 8 3 7 7 0]
 [4 2 5 2 2 2]
 [1 0 8 4 0 9]
 [6 2 4 1 5 3]
 [4 4 3 7 1 1]]


In [178]:
# sort()
# 정렬. 가장 많이 사용되는 함수 중 하나.

df = pd.DataFrame(np.random.randint(0, 10, (6, 4))) # 2차원 ndarray를 통해 DataFrame 생성 가능
df.columns = ['A', 'B', 'C', 'D']
df.index = pd.date_range('20230101', periods=6) # '20230101'로부터 시작하여 6일간의 범위를 인덱스로 지정
display(df)

# index를 랜덤하게 배치
random_date = np.random.permutation(df.index) # 인덱스의 위치를 랜덤하게 바꿈
print(random_date)
display(df)

df2 = df.reindex(index=random_date, columns=['B', 'A', 'D', 'C']) # 인덱스를 다시 만듦 (index는 로우 인덱스, columns는 컬럼 인덱스)
print('\n\n랜덤 값으로 이루어진 DataFrame:')
display(df2)

# index를 기준으로 정렬
print('\n\n열 방향으로 정렬된 DataFrame:')
display(df2.sort_index(axis=1, ascending=True)) # 열 방향으로 정렬
print('\n\n행 방향으로 정렬된 DataFrame:')
display(df2.sort_index(axis=0, ascending=True)) # 행 방향으로 정렬

# 값에 대해 정렬
print('\n\nB열의 값을 기준으로 정렬된 DataFrame:')
display(df2.sort_values(by='B')) # 대상 컬럼을 지정. 기본값 오름차순

print('\n\nB열의 값 기준 -> A열의 값 기준')
display(df2.sort_values(by=['B', 'A'])) # 동률 시 A열의 값을 기준으로 정렬

Unnamed: 0,A,B,C,D
2023-01-01,3,4,7,4
2023-01-02,7,9,4,2
2023-01-03,0,7,3,9
2023-01-04,0,7,9,3
2023-01-05,6,7,0,6
2023-01-06,8,4,9,7


['2023-01-05T00:00:00.000000000' '2023-01-01T00:00:00.000000000'
 '2023-01-03T00:00:00.000000000' '2023-01-06T00:00:00.000000000'
 '2023-01-04T00:00:00.000000000' '2023-01-02T00:00:00.000000000']


Unnamed: 0,A,B,C,D
2023-01-01,3,4,7,4
2023-01-02,7,9,4,2
2023-01-03,0,7,3,9
2023-01-04,0,7,9,3
2023-01-05,6,7,0,6
2023-01-06,8,4,9,7




랜덤 값으로 이루어진 DataFrame:


Unnamed: 0,B,A,D,C
2023-01-05,7,6,6,0
2023-01-01,4,3,4,7
2023-01-03,7,0,9,3
2023-01-06,4,8,7,9
2023-01-04,7,0,3,9
2023-01-02,9,7,2,4




열 방향으로 정렬된 DataFrame:


Unnamed: 0,A,B,C,D
2023-01-05,6,7,0,6
2023-01-01,3,4,7,4
2023-01-03,0,7,3,9
2023-01-06,8,4,9,7
2023-01-04,0,7,9,3
2023-01-02,7,9,4,2




행 방향으로 정렬된 DataFrame:


Unnamed: 0,B,A,D,C
2023-01-01,4,3,4,7
2023-01-02,9,7,2,4
2023-01-03,7,0,9,3
2023-01-04,7,0,3,9
2023-01-05,7,6,6,0
2023-01-06,4,8,7,9




B열의 값을 기준으로 정렬된 DataFrame:


Unnamed: 0,B,A,D,C
2023-01-01,4,3,4,7
2023-01-06,4,8,7,9
2023-01-05,7,6,6,0
2023-01-03,7,0,9,3
2023-01-04,7,0,3,9
2023-01-02,9,7,2,4




B열의 값 기준 -> A열의 값 기준


Unnamed: 0,B,A,D,C
2023-01-01,4,3,4,7
2023-01-06,4,8,7,9
2023-01-03,7,0,9,3
2023-01-04,7,0,3,9
2023-01-05,7,6,6,0
2023-01-02,9,7,2,4


In [194]:
# 기술통계(Descriptive Statistics)
# 분포를 다루지 않는 통계를 말함
# 평균, 합, 편차, 분산, 표준편차, 사분위, 공분산, 상관관계 등의 값을 취급

# 테스트용 DataFrame 생성
# 2차원 배열로 변환할 수 있는 중첩된 list 생성
data = [
    [2, np.nan], # 결측치 등 없는 값은 np.nan이라는 상수로 표현
    [7, -3],
    [np.nan, np.nan],
    [1, -2]
]
# DataFrame으로 변환
# (내부적으로 list -> ndarray -> Series 변환)
df = pd.DataFrame(data,
                  columns=['one', 'two'],
                  index=['a', 'b', 'c', 'd']) # 생성시 바로 인덱스 지정 가능
display(df)

# sum()
# ndarray와 DataFrame에는 차이가 있음
print(df.sum())
# one    10.0
# two    -5.0
# dtype: float64
## 2차원 ndarray에 대해 sum() 호출시 모든 데이터의 합계가 반환되었으나,
## 컬럼별 합계 반환됨
## DataFrame.sum()은 기본값으로 axis=0(행방향 = 위에서 아래로)이기 때문
print('\n')
print(df.sum(axis=1))

# mean()
print('\n')
print(df.mean()) # 평균 계산시 기본값으로 NaN은 무시
print('\n')
print(df.mean(axis=0, skipna=False)) # NaN을 포함 (계산할 수 없으므로 결과는 NaN)

# fillna()
# 그렇다면 NaN은 NaN으로 남겨두기 보다 어떠한 방식이든 처리하는 것이 좋다.
# 1. 삭제: 불확실한 데이터라면 소거하는 것이 가장 바람직하다.
#          그러나 데이터가 충분하지 않다면 삭제했을 때 문제가 발생할 수 있다.
#          통계적으로 데이터는 많을수록 분석 결과가 정확하다.
#          충분한 데이터 수의 기준? -> 그때 그때 다르다. 다만 일반적으로 10만건이 기준
# 2. 보간(Interpolation): NaN을 적당한 값으로 수정해서 사용
#          (1) 해당 열의 평균 값으로 대체
#          (2) 해당 열의 최대/최소 값으로 대체
#          (3) 가까운 위치의 다른 값으로 대체 등.

mean_one = df['one'].mean() # 3.3333333333333335
mean_two = df['two'].mean() # -2.5

df['one'] = df['one'].fillna(value=mean_one) # fillna를 통해 NaN을 다른 값으로 대체한 새로운 Series 원본에 할당
display(df)

Unnamed: 0,one,two
a,2.0,
b,7.0,-3.0
c,,
d,1.0,-2.0


one    10.0
two    -5.0
dtype: float64


a    2.0
b    4.0
c    0.0
d   -1.0
dtype: float64


one    3.333333
two   -2.500000
dtype: float64


one   NaN
two   NaN
dtype: float64


Unnamed: 0,one,two
a,2.0,
b,7.0,-3.0
c,3.333333,
d,1.0,-2.0


In [204]:
# DataFrame 연결

df1 = pd.DataFrame({
    'a': ['a0', 'a1', 'a2', 'a3'],
    'b': [1, 2, 3, 4],
    'c': ['c0', 'c1', 'c2', 'c3']
})

display(df1)

df2 = pd.DataFrame({
    'b': ['b0', 'b1', 'b2', 'b3'],
    'c': ['c0', 'c1', 'c2', 'c3'],
    'd': ['d0', 'd1', 'd2', 'd3'],
    'e': ['e0', 'e1', 'e2', 'e3']
})

display(df2)

# 1. 위, 아래 방향으로 이어 붙이기
display(pd.concat([df1, df2], axis=0)) # 연결할 DataFrame을 갖는 리스트를 넘겨줌
                                       # 컬럼명을 기준으로 붙임
                                       # Index도 그대로 붙임
display(pd.concat([df1, df2], axis=0, ignore_index=True)) # 기존 인덱스를 무시하고 새로운 인덱스
## 인덱스가 날짜, 고유번호 등 의미가 있다면 그대로 붙일 떄도 있음.

Unnamed: 0,a,b,c
0,a0,1,c0
1,a1,2,c1
2,a2,3,c2
3,a3,4,c3


Unnamed: 0,b,c,d,e
0,b0,c0,d0,e0
1,b1,c1,d1,e1
2,b2,c2,d2,e2
3,b3,c3,d3,e3


Unnamed: 0,a,b,c,d,e
0,a0,1,c0,,
1,a1,2,c1,,
2,a2,3,c2,,
3,a3,4,c3,,
0,,b0,c0,d0,e0
1,,b1,c1,d1,e1
2,,b2,c2,d2,e2
3,,b3,c3,d3,e3


Unnamed: 0,a,b,c,d,e
0,a0,1,c0,,
1,a1,2,c1,,
2,a2,3,c2,,
3,a3,4,c3,,
4,,b0,c0,d0,e0
5,,b1,c1,d1,e1
6,,b2,c2,d2,e2
7,,b3,c3,d3,e3


In [206]:
df1 = pd.DataFrame({
    'a': ['a0', 'a1', 'a2', 'a3'],
    'b': [1, 2, 3, 4],
    'c': ['c0', 'c1', 'c2', 'c3']
})

display(df1)

df2 = pd.DataFrame({
    'b': ['b0', 'b1', 'b2', 'b3'],
    'c': ['c0', 'c1', 'c2', 'c3'],
    'd': ['d0', 'd1', 'd2', 'd3'],
    'e': ['e0', 'e1', 'e2', 'e3']
}, index=[2, 3, 4, 5]) # 인덱스를 따로 지정함

display(df2)

# 2. 가로 방향으로 이어 붙이기
display(pd.concat([df1, df2], axis=1)) # 연결할 DataFrame을 갖는 리스트를 넘겨줌
                                       # 인덱스를 기준으로 붙임
                                       # Index도 그대로 붙임

Unnamed: 0,a,b,c
0,a0,1,c0
1,a1,2,c1
2,a2,3,c2
3,a3,4,c3


Unnamed: 0,b,c,d,e
2,b0,c0,d0,e0
3,b1,c1,d1,e1
4,b2,c2,d2,e2
5,b3,c3,d3,e3


Unnamed: 0,a,b,c,b.1,c.1,d,e
0,a0,1.0,c0,,,,
1,a1,2.0,c1,,,,
2,a2,3.0,c2,b0,c0,d0,e0
3,a3,4.0,c3,b1,c1,d1,e1
4,,,,b2,c2,d2,e2
5,,,,b3,c3,d3,e3


In [215]:
# 특정 열을 기준으로 옆으로 이어붙이기
data1 = {"학번" : [1,2,3,4],
         "이름" : ["홍길동","신사임당","강감찬","이순신"],
         "학년" : [2,4,1,3]}

data2 = {"학번" : [1,2,4,5],
         "학과" : ["CS","MATH","MATH","CS"],
         "학점" : [3.4,2.9,4.5,1.2]}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

display(pd.merge(df1, df2, on='학번', how='inner')) # INNER JOIN
display(pd.merge(df1, df2, on='학번', how='outer')) # OUTER JOIN

# 기준열의 컬럼 인덱스가 다른 경우
data1 = {"학번" : [1,2,3,4],
         "이름" : ["홍길동","신사임당","강감찬","이순신"],
         "학년" : [2,4,1,3]}

data2 = {"학생학번" : [1,2,4,5],
         "학과" : ["CS","MATH","MATH","CS"],
         "학점" : [3.4,2.9,4.5,1.2]}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

display(pd.merge(df1, df2, left_on='학번', right_on='학생학번', how='inner')) # INNER JOIN

Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2,CS,3.4
1,2,신사임당,4,MATH,2.9
2,4,이순신,3,MATH,4.5


Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2.0,CS,3.4
1,2,신사임당,4.0,MATH,2.9
2,3,강감찬,1.0,,
3,4,이순신,3.0,MATH,4.5
4,5,,,CS,1.2


Unnamed: 0,학번,이름,학년,학생학번,학과,학점
0,1,홍길동,2,1,CS,3.4
1,2,신사임당,4,2,MATH,2.9
2,4,이순신,3,4,MATH,4.5


In [241]:
# 그룹핑

# apply() 함수 매핑
import numpy as np
import pandas as pd
import seaborn as sns # seaborn

titanic = sns.load_dataset('titanic') # seaborn의 데이터 셋 로드
display(titanic)

# 모든 행에 대해 age와 fare 열만 추출
df = titanic.loc[:, ['age', 'fare']]
display(df) # (891, 2)

# 사용자 정의 함수
def add_10(n):
    return n + 10

def myFunc(a, b): # Series 내의 요소가 첫번째 인자로 들어감. 다음 인자는 지정 필요.
    return a + b

# age 열의 모든 행에 대해
# 위에서 정의한 함수를 적용하고 싶은 경우
# <=> 특정 Series에 대해 함수 적용 -> 이를 함수 매핑이라고 함
# apply() 함수 사용
# 처리 완료 Series 반환
result1 = df['age'].apply(add_10)
print(result1.head()) # 기존 나이 데이터가 10씩 증가되어 출력됨
print()

result2 = df['age'].apply(myFunc, b=20)
print(result2.head()) # 기존 나이 데이터가 20씩 증가되어 출력됨
print()

# 람다 함수 이용
result3 = df['age'].apply(lambda x: x + 30)
print(result3.head()) # 기존 나이 데이터가 30씩 증가되어 출력됨

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


Unnamed: 0,age,fare
0,22.0,7.2500
1,38.0,71.2833
2,26.0,7.9250
3,35.0,53.1000
4,35.0,8.0500
...,...,...
886,27.0,13.0000
887,19.0,30.0000
888,,23.4500
889,26.0,30.0000


0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64

0    42.0
1    58.0
2    46.0
3    55.0
4    55.0
Name: age, dtype: float64

0    52.0
1    68.0
2    56.0
3    65.0
4    65.0
Name: age, dtype: float64


In [243]:
# DataFrame에 함수를 적용하려면
# applymap() 사용

df = titanic.loc[:, ['age', 'fare']]
display(df)

def add_10(n):
    return n + 10

result = df.applymap(add_10)
display(result.head())

Unnamed: 0,age,fare
0,22.0,7.2500
1,38.0,71.2833
2,26.0,7.9250
3,35.0,53.1000
4,35.0,8.0500
...,...,...
886,27.0,13.0000
887,19.0,30.0000
888,,23.4500
889,26.0,30.0000


Unnamed: 0,age,fare
0,32.0,17.25
1,48.0,81.2833
2,36.0,17.925
3,45.0,63.1
4,45.0,18.05


In [270]:
# Grouping
# groupby() 사용

df = titanic.loc[:, ['age', 'sex', 'class', 'fare', 'survived']]
display(df.head())

# Group 단위로 묶기
grouped = df.groupby(['class'])
print(grouped) # 바로 볼 수는 없음.

for key, group in grouped: # group에 그룹된 DataFrame이 할당됨
    print('KEY: {}'.format(key))
    print('ROWS: {}'.format(len(group)))
    display(group.head())
    print('\n')

avg = grouped.mean() # 각 그룹별로, 평균을 낼 수 있는 컬럼 별 평균이 출력됨
display(avg)

# 개별 그룹 뽑기
third_group = grouped.get_group('Third')
display(third_group)

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000024041E69520>
KEY: First
ROWS: 216


  for key, group in grouped: # group에 그룹된 DataFrame이 할당됨


Unnamed: 0,age,sex,class,fare,survived
1,38.0,female,First,71.2833,1
3,35.0,female,First,53.1,1
6,54.0,male,First,51.8625,0
11,58.0,female,First,26.55,1
23,28.0,male,First,35.5,1




KEY: Second
ROWS: 184


Unnamed: 0,age,sex,class,fare,survived
9,14.0,female,Second,30.0708,1
15,55.0,female,Second,16.0,1
17,,male,Second,13.0,1
20,35.0,male,Second,26.0,0
21,34.0,male,Second,13.0,1




KEY: Third
ROWS: 491


Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
2,26.0,female,Third,7.925,1
4,35.0,male,Third,8.05,0
5,,male,Third,8.4583,0
7,2.0,male,Third,21.075,0






  avg = grouped.mean() # 각 그룹별로, 평균을 낼 수 있는 컬럼 별 평균이 출력됨


Unnamed: 0_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
First,38.233441,84.154687,0.62963
Second,29.87763,20.662183,0.472826
Third,25.14062,13.67555,0.242363


Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.2500,0
2,26.0,female,Third,7.9250,1
4,35.0,male,Third,8.0500,0
5,,male,Third,8.4583,0
7,2.0,male,Third,21.0750,0
...,...,...,...,...,...
882,22.0,female,Third,10.5167,0
884,25.0,male,Third,7.0500,0
885,39.0,female,Third,29.1250,0
888,,female,Third,23.4500,0


In [277]:
# 그루핑 고급: 2차 그룹핑

df = titanic.loc[:, ['age', 'sex', 'class', 'fare', 'survived']]
display(df.head())

grouped = df.groupby(['class', 'sex']) # 여러 개 줄 수 있음. 2차 그룹핑.
                                       # class별로 그룹핑된 상태에서 각 그룹을 다시 sex별로 그룹핑

display(grouped.mean())

group4 = grouped.get_group(('Third', 'female')).head() # 개별 그룹을 뽑을 때에는 인자로 튜플을 줘야 함
display(group4)

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


Unnamed: 0_level_0,Unnamed: 1_level_0,age,fare,survived
class,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
First,female,34.611765,106.125798,0.968085
First,male,41.281386,67.226127,0.368852
Second,female,28.722973,21.970121,0.921053
Second,male,30.740707,19.741782,0.157407
Third,female,21.75,16.11881,0.5
Third,male,26.507589,12.661633,0.135447


Unnamed: 0,age,sex,class,fare,survived
2,26.0,female,Third,7.925,1
8,27.0,female,Third,11.1333,1
10,4.0,female,Third,16.7,1
14,14.0,female,Third,7.8542,0
18,31.0,female,Third,18.0,0
