In [1]:
import pandas as pd
# 시리즈 생성
s = pd.Series(["홍길동", 28])
s

0    홍길동
1     28
dtype: object

In [3]:
# 인덱스 지정, index 인자로 전달
s = pd.Series(["홍길동", 28], index = ["Name", "Age"])
s

Name    홍길동
Age      28
dtype: object

In [4]:
# 인덱스의 확인
s.index # index 리스트

Index(['Name', 'Age'], dtype='object')

In [6]:
# range를 활용한 Series 생성
s2 = pd.Series(range(0, 100, 2))
s2

0      0
1      2
2      4
3      6
4      8
5     10
6     12
7     14
8     16
9     18
10    20
11    22
12    24
13    26
14    28
15    30
16    32
17    34
18    36
19    38
20    40
21    42
22    44
23    46
24    48
25    50
26    52
27    54
28    56
29    58
30    60
31    62
32    64
33    66
34    68
35    70
36    72
37    74
38    76
39    78
40    80
41    82
42    84
43    86
44    88
45    90
46    92
47    94
48    96
49    98
dtype: int64

In [7]:
kor = [80, 75, 90, 100, 65] # 데이터 리스트
kor_s = pd.Series(kor) # 데이터 전달
kor_s.describe() # 통계 요약

count      5.000000
mean      82.000000
std       13.509256
min       65.000000
25%       75.000000
50%       80.000000
75%       90.000000
max      100.000000
dtype: float64

In [10]:
# 기초 통계 메서드들
print(kor_s.min(), kor_s.max()) # 최솟값, 최댓값
print(kor_s.mean(), kor_s.median()) # 산술평균, 중앙값
print(kor_s.std()) #표준편차
print(kor_s.isin([100])) # 포함 여부

65 100
82.0 80.0
13.509256086106296
0    False
1    False
2    False
3     True
4    False
dtype: bool


In [11]:
# 시리즈의 연산
s3 = pd.Series([1, 5, 8, 4, 6, 1, 10])
s3

0     1
1     5
2     8
3     4
4     6
5     1
6    10
dtype: int64

In [12]:
# 시리즈와 스칼라의 연산 -> 브로드캐스팅
print(s3 * 2)

0     2
1    10
2    16
3     8
4    12
5     2
6    20
dtype: int64


In [15]:
# 시리즈와 시리즈의 연산
s4 = pd.Series([1, 2, 3, 4, 5, 6, 7])
s3 + s4

0     2
1     7
2    11
3     8
4    11
5     7
6    17
dtype: int64

In [16]:
# 데이터 프레임 : 여러개의 시리즈가 모여서 구성된 데이터
# 데이터는 dict로 전달
scores_df = pd.DataFrame({
    "KOR": [80, 90, 75], "ENG": [90, 80, 70], "MATH" : [90, 95, 85]
}, index = ["홍길동", "김철수", "이명희"])
scores_df

Unnamed: 0,KOR,ENG,MATH
홍길동,80,90,90
김철수,90,80,95
이명희,75,70,85


In [17]:
# 현재 데이터 프레임의 인덱스
scores_df.index

Index(['홍길동', '김철수', '이명희'], dtype='object')

In [19]:
# 관측치의 확인
# loc : 인덱스 기준
# iloc : 행번호 기준
print(scores_df.loc["김철수"])
print(type(scores_df.loc["김철수"]))

KOR     90
ENG     80
MATH    95
Name: 김철수, dtype: int64
<class 'pandas.core.series.Series'>


In [20]:
# 변수의 파생
scores_df["TOTAL"] = scores_df["KOR"] + scores_df["ENG"] + scores_df["MATH"]
scores_df

Unnamed: 0,KOR,ENG,MATH,TOTAL
홍길동,80,90,90,260
김철수,90,80,95,265
이명희,75,70,85,230


In [21]:
# Average 컬럼 추가하기
scores_df["AVERAGE"] = scores_df["TOTAL"] / 3
scores_df

Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERAGE
홍길동,80,90,90,260,86.666667
김철수,90,80,95,265,88.333333
이명희,75,70,85,230,76.666667


In [22]:
# 불린 연산
scores_df["AVERAGE"] >= 80

홍길동     True
김철수     True
이명희    False
Name: AVERAGE, dtype: bool

In [23]:
scores_df[[True, True, False]]

Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERAGE
홍길동,80,90,90,260,86.666667
김철수,90,80,95,265,88.333333


In [24]:
filtered_df = scores_df[scores_df["AVERAGE"] >= 80]
filtered_df

Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERAGE
홍길동,80,90,90,260,86.666667
김철수,90,80,95,265,88.333333


In [27]:
# 데이터 파일 불러오기 read_
# thieves.txt 파일로부터 데이터를 불러들여 DataFrame으로 변환
thieves_df = pd.read_csv("./thieves.txt", sep = "\t")
thieves_df

Unnamed: 0,홍길동,175.8,73.2
0,전우치,170.2,66.3
1,임꺽정,186.7,88.2
2,장길산,188.3,90.0


In [28]:
# read_csv 메서드는 기본적으로 첫번째 행을 컬럼명으로 인식함
# 첫번째 행이 컬럼 정보가 아닐때, 배제해 주어야한다
thieves_df2 = pd.read_csv("./thieves.txt", sep = "\t", header = None)
# 첫번째 행을 컬럼으로 사용하지않는다는 선언
thieves_df2

Unnamed: 0,0,1,2
0,홍길동,175.8,73.2
1,전우치,170.2,66.3
2,임꺽정,186.7,88.2
3,장길산,188.3,90.0


In [29]:
# 특정 컬럼을 인덱스로 활용하고자 할때 
# index_col 옵션
thieves_df3 = pd.read_csv("./thieves.txt", sep = "\t",
                          index_col = 0, header = None)
thieves_df3

Unnamed: 0_level_0,1,2
0,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,175.8,73.2
전우치,170.2,66.3
임꺽정,186.7,88.2
장길산,188.3,90.0


In [31]:
# 컬럼 정보의 확인
print(thieves_df3.columns) # 컬럼 정보 속성
# 컬럼 정보를 변경하고자 할때
thieves_df3.columns = ["Height", "Weight"]
thieves_df3

Int64Index([1, 2], dtype='int64')


Unnamed: 0_level_0,Height,Weight
0,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,175.8,73.2
전우치,170.2,66.3
임꺽정,186.7,88.2
장길산,188.3,90.0


In [32]:
# 인덱스 이름 바꾸기
thieves_df3.index.name = "Name"
thieves_df3

Unnamed: 0_level_0,Height,Weight
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,175.8,73.2
전우치,170.2,66.3
임꺽정,186.7,88.2
장길산,188.3,90.0


In [34]:
# csv로 저장하기
thieves_df3.to_csv("./thieves_final.csv", encoding = "UTF-8")

In [39]:
# 결측치
# 비어있는 값
from numpy import nan, NaN, NAN

exam_scores = pd.Series([90, 80, 120, nan, 95, 88, -10])
# 결측치 nan
# 이상치 120, -10

print("결측치인 것:\n", pd.isnull(exam_scores))
print("결측치가 아닌것 :\n", pd.notnull(exam_scores))

결측치인 것:
 0    False
1    False
2    False
3     True
4    False
5    False
6    False
dtype: bool
결측치가 아닌것 :
 0     True
1     True
2     True
3    False
4     True
5     True
6     True
dtype: bool


In [36]:
# 결측 갯수 확인
import numpy as np
print("결측치의 수:", np.count_nonzero(exam_scores.isnull()))

결측치의 수: 1


In [37]:
# 결측 빈도 확인
num_rows = exam_scores.shape[0] # 전체 레코드 갯수
num_missing = num_rows - exam_scores.count()
print("결측치의 수 :",num_missing)

결측치의 수 : 1


In [40]:
exam_scores

0     90.0
1     80.0
2    120.0
3      NaN
4     95.0
5     88.0
6    -10.0
dtype: float64

In [43]:
# 이상치 -> 결측치로 대체
# 0 ~ 100 사이의 범위를 벗어나는 데이터를 인덱싱
exam_scores.isin(range(0, 101)) # 0 ~ 100 범위를 벗어난 불린값
exam_scores[~exam_scores.isin(range(0, 101))] = nan
exam_scores

0    90.0
1    80.0
2     NaN
3     NaN
4    95.0
5    88.0
6     NaN
dtype: float64

In [47]:
# 이상치를 결측치로 대체한 데이터 셋의 통계
# 이상치와 결측치는 통계에서 배제된다
print("평균:", exam_scores.mean())
exam_scores.describe()

평균: 88.25


count     4.000000
mean     88.250000
std       6.238322
min      80.000000
25%      86.000000
50%      89.000000
75%      91.250000
max      95.000000
dtype: float64

In [48]:
# 이상치, 결측치가 많으면 통계 결과가 왜곡
# 결측치 -> 대푯값으로 일괄 대체
med_score = exam_scores[exam_scores.notnull()].median()
print("결측치 제외한 중앙값:", med_score)

결측치 제외한 중앙값: 89.0


In [49]:
# 결측치를 인덱싱, 대푯값으로 대체
exam_scores[exam_scores.isnull()] = med_score
print("평균:", exam_scores.mean())

평균: 88.57142857142857


In [50]:
# concat과 merger
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=[0, 1, 2, 3])

df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [51]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[4, 5, 6, 7])

df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [52]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[8, 9, 10, 11])
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [53]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                   index=[2, 3, 6, 7])
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [54]:
# 데이터를 열 방향으로 합치기: concat
result = pd.concat([df1, df2, df3])
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [56]:
# 다중 인덱스 생성
result = pd.concat([df1, df2, df3], keys = ["x", "y", "z"])
result

Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,4,A4,B4,C4,D4
y,5,A5,B5,C5,D5
y,6,A6,B6,C6,D6
y,7,A7,B7,C7,D7
z,8,A8,B8,C8,D8
z,9,A9,B9,C9,D9


In [57]:
# 인덱스 확인
result.index

MultiIndex([('x',  0),
            ('x',  1),
            ('x',  2),
            ('x',  3),
            ('y',  4),
            ('y',  5),
            ('y',  6),
            ('y',  7),
            ('z',  8),
            ('z',  9),
            ('z', 10),
            ('z', 11)],
           )

In [58]:
# 레벨 인덱스의 확인
# 첫번째 레벨의 인덱스
result.index.get_level_values(0)

Index(['x', 'x', 'x', 'x', 'y', 'y', 'y', 'y', 'z', 'z', 'z', 'z'], dtype='object')

In [59]:
# 두번째 레벨의 인덱스
result.index.get_level_values(1)

Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11], dtype='int64')

In [61]:
# 행방향으로 합치기: axis = 1
# -> 인덱스를 기준으로 합쳐진다
# -> 상응하는 값이 없을때는 결측치(NaN))
result = pd.concat([df1, df4], axis = 1) # 행방향 연결
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [63]:
# join옵션
# inner join : 인덱스가 같은 레코드 끼리 합쳐지고 짝이 없는 데이터 셋은 무시
result = pd.concat ([df1, df4], axis =1, join = "inner") # SQL의 inner join과 비슷함
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [64]:
result = pd.concat([df1, df4], axis=1).reindex(df1.index)
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [65]:
# 열방향을 합친 후에 기존 인덱스를 무시하고 다시 인덱스 부여
result = pd.concat([df1, df4], ignore_index=True)
result

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [66]:
# 데이터 프레임 머지(병합)
# 특정 기준 컬럼으로 합친다
left = pd.DataFrame({"key": ["K0", "K4", "K2", "K3"],
                     "A": ["A0", "A1", "A2", "A3"],
                     "B": ["B0", "B1", "B2", "B3"]})
left

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K4,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [67]:
right = pd.DataFrame({"key": ["K0", "K1", "K2", "K3"],
                      "C": ["C0", "C1", "C2", "C3"],
                      "D": ["D0", "D1", "D2", "D3"]})
right

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


In [69]:
# on 옵션 -> 병합 기준 컬럼 설정
pd.merge(left, right, on ="key")
# 공통된 key를 기준으로 병합 수행

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3


In [70]:
pd.merge(left, right, on="key", how="left")
# how에 명시된 데이터셋의 내용은 모두 출력
# SQL의 left outer join

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K4,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [71]:
pd.merge(left, right, on="key", how="right")
# SQL의 right outer join

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,,,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [73]:
# how = "outer"
# SQL = full outer join
# 양쪽 다 출력 -> 매칭되는 짝이 없는 경우 결측치로 표시
pd.merge(left, right, on = "key", how = "outer")

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K4,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3
4,K1,,,C1,D1


In [74]:
# inner
# 매칭되는 쌍만 출력, 나머지는 무시
pd.merge(left, right, on="key", how="inner")

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3
