In [3]:
import pandas as pd

# Series 생성시 데이터는 list로 만든다
s = pd.Series(["홍길동", 28])
s

0    홍길동
1     28
dtype: object

In [6]:
# 인덱스를 가진 Series 만들기
s2 = pd.Series(['홍길동', 28], index=["Name", "Age"])
s2

Name    홍길동
Age      28
dtype: object

In [9]:
# 이미 있는 Series에 나중에 index 부여시
# index 속성에 접근(list)
print("index of s:", s.index)
# 인덱스의 변경
s.index = ["이름", "나이"]
s

index of s: Index(['이름', '나이'], dtype='object')


이름    홍길동
나이     28
dtype: object

In [11]:
# 범위를 이용한 Series 생성
s3 = pd.Series(range(0, 100, 2))
print(s3)


0      0
1      2
2      4
3      6
4      8
5     10
6     12
7     14
8     16
9     18
10    20
11    22
12    24
13    26
14    28
15    30
16    32
17    34
18    36
19    38
20    40
21    42
22    44
23    46
24    48
25    50
26    52
27    54
28    56
29    58
30    60
31    62
32    64
33    66
34    68
35    70
36    72
37    74
38    76
39    78
40    80
41    82
42    84
43    86
44    88
45    90
46    92
47    94
48    96
49    98
dtype: int64


In [13]:
# Series는 단일 데이터 타입을 다루는 객체
# 문자열이 섞여 있을 경우는 모두 ibject로 변환
# 데이터가 산술 연산 가능한 데이터타입
# 기초 통계 메서드를 사용할 수 있다
kor = [80,75, 90, 100, 65] # 데이터 리스트
kor_s = pd.Series(kor) # 시리즈 생성
# 기초 통계량의 확인 : describe
kor_s.describe()

count      5.000000
mean      82.000000
std       13.509256
min       65.000000
25%       75.000000
50%       80.000000
75%       90.000000
max      100.000000
dtype: float64

In [17]:
# 통계함수
print("min, max:", kor_s.min(), kor_s.max()) # 최대값, 최소값
print("mean, median:", kor_s.mean(), kor_s.median()) # 산술평균, 중앙값
print("표준편차:", kor_s.std())
# 포함 여부 확인
kor_s.isin([100])

min, max 65 100
mean, median: 82.0 80.0
표준편차: 13.509256086106296


0    False
1    False
2    False
3     True
4    False
dtype: bool

In [24]:
# 시리즈의 연산
# 시리즈 : 1차원 데이터
val = pd.Series([1, 5, 8, 4, 6, 1, 10])
print("val:",val)
# Series과 Scala의 데이터 연산
print(val * 2) # 각 인덱스 내의 값과 개별연산
# Broadcasting

# Series와 Series의 연산
# 같은 인덱스에 위치한 각 값들을 연산
val2 = pd.Series([1, 2, 3, 4, 5, 6, 7])
print("val")
print(val)
print("val2")
print(val2)
print("val1 +val2")
print(val + val2)

val: 0     1
1     5
2     8
3     4
4     6
5     1
6    10
dtype: int64
0     2
1    10
2    16
3     8
4    12
5     2
6    20
dtype: int64
val
0     1
1     5
2     8
3     4
4     6
5     1
6    10
dtype: int64
val2
0    1
1    2
2    3
3    4
4    5
5    6
6    7
dtype: int64
val1 +val2
0     2
1     7
2    11
3     8
4    11
5     7
6    17
dtype: int64


In [27]:
# 데이터 프레임의 생성
# 변수명을 키로 가진 순차자료형을 dataframe으로 전달
scores = pd.DataFrame({
    "KOR": [80, 90, 75],
    "ENG":[90,80,70],
    "MATH":[80, 90, 85]},
    index = ["홍길동", "김철수", "임꺽정"]
)
scores

Unnamed: 0,KOR,ENG,MATH
홍길동,80,90,80
김철수,90,80,90
임꺽정,75,70,85


In [31]:
# loc를 이용한 관측치의 확인
# 김철수의 점수를 추출
print(scores.loc['김철수'])
# 김철수의 국어점수 추출
print(scores.loc['김철수', 'KOR'])
print(scores.loc['김철수'])
print(type(scores.loc['김철수']))

KOR     90
ENG     80
MATH    90
Name: 김철수, dtype: int64
90
KOR     90
ENG     80
MATH    90
Name: 김철수, dtype: int64
<class 'pandas.core.series.Series'>


In [36]:
# 이미 가지고 있는 변수를 연산하여
# 파생 변수를 만들 수 있다
scores['TOTAL'] = scores['KOR'] + scores['ENG'] + scores['MATH']
# 평균 점수 변수 파생
scores['AVERAGE'] = scores['TOTAL']/ 3
scores.head()

Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERAGE
홍길동,80,90,80,250,83.333333
김철수,90,80,90,260,86.666667
임꺽정,75,70,85,230,76.666667


In [39]:
# 불린 추출
# 데이터 프레임에 논리값 리스트 전달
scores[[True, False, True]]

Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERAGE
홍길동,80,90,80,250,83.333333
임꺽정,75,70,85,230,76.666667


In [43]:
# scores의 평균이 80이상인 관측치의 불린 추출
filter = scores['AVERAGE'] >= 80
print(filter)
# 획득한 불린 리스트를 인덱스로 부여
filtered_scores = scores[filter]
filtered_scores

홍길동     True
김철수     True
임꺽정    False
Name: AVERAGE, dtype: bool


Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERAGE
홍길동,80,90,80,250,83.333333
김철수,90,80,90,260,86.666667


In [47]:
# 파일을 불러와서 DataFrame으로 변환
# read_ 계열의 메서드: 다양한 파일 타입을 DaraFrame으로 불러들일 수 있다
thieves_df = pd.read_csv("./data/thieves.txt", sep="\t") # 구분자는 탭
thieves_df

Unnamed: 0,홍길동,175.8,73.2
0,전우치,170.2,66.3
1,임꺽정,186.7,88.2
2,장길산,188.3,90.0


In [52]:
# read_csv는 기본적으로 첫 행을 컬럼 헤더일 것이라고 추측
# 첫 행이 헤더가 아닌 데이터임을 알려주기 위해
# header = False
# read시 특정 컬럼을 인덱스로 사용하고자 하면 index ????
thieves_df = pd.read_csv("./data/thieves.txt", sep="\t", header=None, index_col=0)
thieves_df

Unnamed: 0_level_0,1,2
0,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,175.8,73.2
전우치,170.2,66.3
임꺽정,186.7,88.2
장길산,188.3,90.0


In [55]:
# 컬럼 헤더를 변경하고
# 인덱스 이름을 변경하고
# 다른 이름으로 저장 to_
# print("컬럼 이름의 목록:", thieves_df.columns)
thieves_df.columns = ["Height", "Weight"] #컬럼명의 변경
thieves_df.index.name = "Name" # 인덱스의 이름의 변경
thieves_df

Unnamed: 0_level_0,Height,Weight
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,175.8,73.2
전우치,170.2,66.3
임꺽정,186.7,88.2
장길산,188.3,90.0


In [62]:
# 정제된 데이터 프레임을 csv로 저장
# thieves_df.to_csv("./data/thieves.csv")
# 저장된 파일의 인코딩이 깨질 경우
# encoding 인자로 문자 코드를 부여
thieves_df.to_csv("./data/thieves.csv", encoding="UTF-8")

In [65]:
# 결측치
# 측정되지 않았거나 데이터 처리 과정에서 누락된 값
# 파이썬에서는 numpy 모듈 내의 nan, NaN, NAN 등으로 표기
from numpy import nan, NaN, NAN

exam_scores = pd.Series(
    [90, 80, 120, nan, 95, 80, -10])
# 정상 범주 0 ~ 100 값으로 한다
# 이상치 120, -10, 결측치 1개
print("점수:", exam_scores)

점수: 0     90.0
1     80.0
2    120.0
3      NaN
4     95.0
5     80.0
6    -10.0
dtype: float64


In [68]:
# 결측치 확인 numpy의 isnull로 확인
# 결측치가 아닌것 notnull로 확인
import numpy as np
# 결측치 확인
print(pd.isnull(exam_scores))

# 결측 빈도의 확인
# 총 레코드의 수
num_rows = exam_scores.shape[0] # 행수
# 결측치의 수
# 통계 메서드는 결측치는 제외하고 계산
num_missing = num_rows - exam_scores.count()
print("총 레코드 수 {}, 결측치 수:{}".format(num_rows, num_missing))

0    False
1    False
2    False
3     True
4    False
5    False
6    False
dtype: bool
총 레코드 수 7, 결측치 수:1


In [None]:
# 이상치
# exam_scores가 0 ~ 100사이에 있는지 확인
print(exam_scores.isin(range(0, 101)))