In [1]:
import pandas as pd

# Series 생성시 데이터는 list로 만든다
s = pd.Series(["홍길동", 28])
s

0    홍길동
1     28
dtype: object

In [2]:
# 인덱스를 가진 Series 만들기
s2 = pd.Series(['홍길동', 28], index = ["Name", "Age"])
s2

Name    홍길동
Age      28
dtype: object

In [3]:
# 이미 있는 Series에 ㄴ중에 index부여시
# index속성에 접근(list)
print("index of s:", s.index)
# index의 변경
s.index = ["이름", "나이"]
s

index of s: RangeIndex(start=0, stop=2, step=1)


이름    홍길동
나이     28
dtype: object

In [4]:
# 범위를 이용한 Series 생성
s3 = pd.Series(range(0, 100, 2))
print(s3)

0      0
1      2
2      4
3      6
4      8
5     10
6     12
7     14
8     16
9     18
10    20
11    22
12    24
13    26
14    28
15    30
16    32
17    34
18    36
19    38
20    40
21    42
22    44
23    46
24    48
25    50
26    52
27    54
28    56
29    58
30    60
31    62
32    64
33    66
34    68
35    70
36    72
37    74
38    76
39    78
40    80
41    82
42    84
43    86
44    88
45    90
46    92
47    94
48    96
49    98
dtype: int64


In [5]:
# Series는 단일 데이터 타입을 다루는 객체
# 문자열이 셖여 있을 경우 모두 object로 변환
# 데이터가 산술연산 가능한 데이터 타입이면 기초 통계 메서드를 사용할 수 있다
kor = [80, 75, 90, 100, 65] # 데이터 리스트
kor_s = pd.Series(kor) # 시리즈 생성
# 기초 통계량의 확인: describe
kor_s.describe()

count      5.000000
mean      82.000000
std       13.509256
min       65.000000
25%       75.000000
50%       80.000000
75%       90.000000
max      100.000000
dtype: float64

In [6]:
# 통계함수
print("min, max", kor_s.min(), kor_s.max()) # 최대 최소값
print("mean, median", kor_s.mean(), kor_s.median()) # 산술평균,  중앙값
print("표준편차:", kor_s.std())
# 포함 여부 확인
kor_s.isin([100])

min, max 65 100
mean, median 82.0 80.0
표준편차: 13.509256086106296


0    False
1    False
2    False
3     True
4    False
dtype: bool

In [7]:
# 시리즈의 연산
# 시리즈: 1차원 데이터
val = pd.Series([1, 5, 8, 4, 6, 1, 10])
print("val:", val)
# Series와 Scalar의 데이터 연산
print(val * 2) # 각 인덱스 내으 값과 개별 연산
# Broadcasting

# Series와 Series의 연산
# 같은 인덱스에 위치한 각 값들을 연산
val2 = pd.Series([1, 2, 3, 4, 5, 6, 7])
print(val + val2)

val: 0     1
1     5
2     8
3     4
4     6
5     1
6    10
dtype: int64
0     2
1    10
2    16
3     8
4    12
5     2
6    20
dtype: int64
0     2
1     7
2    11
3     8
4    11
5     7
6    17
dtype: int64


In [8]:
# 데이터프레임의 생성
# 변수명을 키로 가진 사전을 DataFrame으로 전달
scores = pd.DataFrame({
    "KOR": [80, 90, 75],
    "ENG": [90, 80, 70],
    "MATH": [80, 90, 85]},
    index = ["홍길동", "김철수", "이영희"]
)
scores

Unnamed: 0,KOR,ENG,MATH
홍길동,80,90,80
김철수,90,80,90
이영희,75,70,85


In [9]:
# loc를 이용한 관측치의 확인
# 김철수의 점수를 추출
print(scores.loc['김철수'])
# 김철수의 국어점수 추출
print(scores.loc['김철수', 'KOR'])
print(type(scores.loc['김철수']))

KOR     90
ENG     80
MATH    90
Name: 김철수, dtype: int64
90
<class 'pandas.core.series.Series'>


In [10]:
# 이미 있는 변수를 연산하여 파생변수를 만들 수 있다
scores['TOTAL'] = scores['KOR'] + scores['ENG'] + scores['MATH']
# 평균점수 변수 파생
scores['AVERAGE'] = scores['TOTAL'] / 3
scores.head()

Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERAGE
홍길동,80,90,80,250,83.333333
김철수,90,80,90,260,86.666667
이영희,75,70,85,230,76.666667


In [11]:
# BOOLEAN 추출
# loc에 논리값 리스트 전달
scores[[False, False, True]]

Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERAGE
이영희,75,70,85,230,76.666667


In [12]:
# scores의 평균이 80이상인 관측치의 불린추출
filter = scores['AVERAGE'] >= 80
print(filter)
# 획득한 불린 리스트를 인덱스로 부여
filtered_scores = scores[filter]
filtered_scores

홍길동     True
김철수     True
이영희    False
Name: AVERAGE, dtype: bool


Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERAGE
홍길동,80,90,80,250,83.333333
김철수,90,80,90,260,86.666667


In [13]:
# 파일을 불러와서 DataFrame으로 변환
# read_ 계열의 메서드: 다앙한 파일 타입을 DataFrame으로 불러들일 수 있다
thieves_df = pd.read_csv("./data/thieves.txt")
thieves_df

Unnamed: 0,홍길동\t175.8\t73.2
0,전우치\t170.2\t66.3
1,임꺽정\t186.7\t88.2
2,장길산\t188.3\t90


In [14]:
thieves_df = pd.read_csv("./data/thieves.txt",sep="\t") # 구분자는 탭
thieves_df

Unnamed: 0,홍길동,175.8,73.2
0,전우치,170.2,66.3
1,임꺽정,186.7,88.2
2,장길산,188.3,90.0


In [15]:
# read_csv는 기본적으로 첫 행을 컬럼 헤더일 것이라고 추측
# 첫 행이 헤더가 아닌 데이터임을 알려주기 위해 
# header = False
thieves_df = pd.read_csv("./data/thieves.txt",sep="\t", header=None) # 구분자는 탭
thieves_df

Unnamed: 0,0,1,2
0,홍길동,175.8,73.2
1,전우치,170.2,66.3
2,임꺽정,186.7,88.2
3,장길산,188.3,90.0


In [16]:
# read시 특정 컬럼을 인덱스로 사용하고자 하면 index_col인자값으로 컬럼 인덱스를 주면됨
thieves_df = pd.read_csv("./data/thieves.txt",sep="\t", header=None, index_col=0) # 구분자는 탭
thieves_df

Unnamed: 0_level_0,1,2
0,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,175.8,73.2
전우치,170.2,66.3
임꺽정,186.7,88.2
장길산,188.3,90.0


In [17]:
# 컬럼 헤더를 변경하고 인덱스 이름을 변경하고 다른 이름으로 저장 to_
print("컬럼 이름의 목록:", thieves_df.columns)
thieves_df.columns = ["Height", "Weight"] # 컬럼명의 변경
thieves_df.index.name = "Name" # 인덱스 이름의 변경
thieves_df

컬럼 이름의 목록: Int64Index([1, 2], dtype='int64')


Unnamed: 0_level_0,Height,Weight
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,175.8,73.2
전우치,170.2,66.3
임꺽정,186.7,88.2
장길산,188.3,90.0


In [18]:
# 정제된 데이터프레임을 csv 저장
#thieves_df.to_csv("./data/thieves.csv")
# 저장된 파일의 인코딩이 깨질 경우
# encoding 인자로 문자코드를 부여
thieves_df.to_csv("./data/thieves.csv", encoding="utf-8")

In [19]:
# 결측치
# 측정되지 않았거나 데이터 처리과정에서 누락된 값
# 파이썬엣는 numpy 모듈내의 nan, NaN, NAN등으로 표기
from numpy import nan, NaN, NAN

exam_scores = pd.Series(
[90, 80, 120, nan, 95, 80, -10])
# 정상 범주 0~100
# 이상치 120, -10, 결측치 1개
print("점수:", exam_scores)

점수: 0     90.0
1     80.0
2    120.0
3      NaN
4     95.0
5     80.0
6    -10.0
dtype: float64


In [20]:
# 결측치 확인 numpy으 isnull로 확인
# 결측치가 아닌 것 notnull로 확인
import numpy as np
# 결측치 확인
#print(pd.isnull(exam_scores))

# 결측 빈도의 확인
# 총 레코드의 수
num_rows = exam_scores.shape[0] # 행 수
# 결측치의 수
# 통계 메서드는 결측치는 제외하고 계산
num_missing = num_rows - exam_scores.count()
print("총 레코드 수 {}, 결측치  수 {}".format(num_rows, num_missing))

총 레코드 수 7, 결측치  수 1


In [21]:
# 이상치
# exam_scores가 0 ~ 100 사이에 있는지 확인
print(~exam_scores.isin(range(0, 101))) # 정상범주 벗어난 것

# 정상 범주 밖의 것을 결측치로 대체
exam_scores[~exam_scores.isin(range(0, 101))] = nan # 결측치로 대체
exam_scores

0    False
1    False
2     True
3     True
4    False
5    False
6     True
dtype: bool


0    90.0
1    80.0
2     NaN
3     NaN
4    95.0
5    80.0
6     NaN
dtype: float64

In [22]:
# 이상치를 결측치로 대체한 데이터 셋의 통계
exam_scores.describe()
mean1 = exam_scores.mean() # 결측치를 제외한 데이터 셋의 평균
print("결측치 제외 데이터 셋의 평균:", mean1)

결측치 제외 데이터 셋의 평균: 86.25


In [23]:
# 결측치가 많으면 통계를 왜곡할 수 있으므로
# 결측치를 다른 대푯값으로 대체하는 것이 일반적
# 결측치를 중앙값으로 대체
med_score = exam_scores[exam_scores.notnull()].median()
print("중앙값:", med_score)
exam_scores[exam_scores.isnull()] = med_score
print("이상치를 대푯값으로 대체한 데이터 셋 평균:", exam_scores.mean())

중앙값: 85.0
이상치를 대푯값으로 대체한 데이터 셋 평균: 85.71428571428571
