In [1]:
# Series 데이터 티입: 동일 자료형을 가지는 1차원 데이터
# Series 가 모여서 DateFrame 을 구성함

# 리스트 자료를 Series 클래스에 전달해서 생성한다
import pandas as pd
s = pd.Series(['홍길동', 35])
s
# 인덱스를 별도로 부여하지 않으면 0부터 자동으로 부여

0    홍길동
1     35
dtype: object

In [2]:
# 인덱스를 부여하고자 한다면 index 매개변수에 인덱스 목록을 제공
s = pd.Series(['홍길동', 28], index=['name', 'age'])
s

name    홍길동
age      28
dtype: object

In [3]:
# 시리즈에서 데이터를 추출할때, 인덱스 접근
s['name'], s['age']

('홍길동', 28)

In [4]:
s.index

Index(['name', 'age'], dtype='object')

In [5]:
# range 를 이용한 Series 생성
# 0`~ 100 까지의 짝수의 Series
s2= pd.Series(range(0, 101, 2))
s2

0       0
1       2
2       4
3       6
4       8
5      10
6      12
7      14
8      16
9      18
10     20
11     22
12     24
13     26
14     28
15     30
16     32
17     34
18     36
19     38
20     40
21     42
22     44
23     46
24     48
25     50
26     52
27     54
28     56
29     58
30     60
31     62
32     64
33     66
34     68
35     70
36     72
37     74
38     76
39     78
40     80
41     82
42     84
43     86
44     88
45     90
46     92
47     94
48     96
49     98
50    100
dtype: int64

In [6]:
# 숫자 데이터로 이루어진 Series 라면 기초 통계량을 얻을 수 있음
kor_s = pd.Series([80, 75, 90, 100, 65]) # 시리즈 생성
print(kor_s)
kor_s.describe() # 기초 통계량

0     80
1     75
2     90
3    100
4     65
dtype: int64


count      5.000000
mean      82.000000
std       13.509256
min       65.000000
25%       75.000000
50%       80.000000
75%       90.000000
max      100.000000
dtype: float64

In [7]:
# 통계량 함수
print(kor_s.min(), kor_s.max())# c최솟값, 최댓값
print(kor_s.mean(), kor_s.median()) # 산술 평균, 중앙값
print(kor_s.std()) # 표준편차

65 100
82.0 80.0
13.509256086106296


In [8]:
# isin: Series 에 값이 포함되어 있는지 여부를 판별
kor_s.isin([100])

0    False
1    False
2    False
3     True
4    False
dtype: bool

In [9]:
# 시리즈의 연산
s2 = pd.Series([1, 5, 8, 4, 6, 1, 10])
print(s2)

# 시리즈와 스칼라 데이터의 연산
print('s2 * 2:\n', s2 * 2)

0     1
1     5
2     8
3     4
4     6
5     1
6    10
dtype: int64
s2 * 2:
 0     2
1    10
2    16
3     8
4    12
5     2
6    20
dtype: int64


In [10]:
# 시리즈와 시리즈의 연산
s3 = pd.Series([1, 2, 3, 4, 5, 6, 7])
print(s2 + s3)

0     2
1     7
2    11
3     8
4    11
5     7
6    17
dtype: int64


In [11]:
# DateFrame
# 각 데이터가 Series로 구성된 2차원 테이블 데이터

# 데이터 프레임 생성
# 각 컬럼을 시리즈로 가지고 있는 딕셔너리를 부여하여 데이터 프레임 생성
scores_df = pd.DataFrame({
    'kor' : [80, 90, 75],
    'eng' : [45, 75, 60],
    'math' : [70, 90, 85]
}, index=['시온', '미코', '마린'])
scores_df

Unnamed: 0,kor,eng,math
시온,80,45,70
미코,90,75,90
마린,75,60,85


In [12]:
# 나중에 인덱스 부여하고자 할 때
scores_df.index

Index(['시온', '미코', '마린'], dtype='object')

In [13]:
# 파생 변수의 추가
scores_df['TOTAL'] = scores_df['kor'] + scores_df['eng'] + scores_df['math'] 
scores_df

Unnamed: 0,kor,eng,math,TOTAL
시온,80,45,70,195
미코,90,75,90,255
마린,75,60,85,220


In [14]:
scores_df['avg'] = scores_df['TOTAL'] / 3 # 시리즈와 스칼라의 연산 -> 브로드캐스팅
scores_df

Unnamed: 0,kor,eng,math,TOTAL,avg
시온,80,45,70,195,65.0
미코,90,75,90,255,85.0
마린,75,60,85,220,73.333333


In [15]:
# 불린 추출
scores_df['avg'] > 80

시온    False
미코     True
마린    False
Name: avg, dtype: bool

In [16]:
scores_df[[False, True, False]]

Unnamed: 0,kor,eng,math,TOTAL,avg
미코,90,75,90,255,85.0


In [17]:
# 불린 추축
# scores_df 에서 avg가 80점 초과 데이터만 추출
filtered_df = scores_df[scores_df['avg'] > 80]
filtered_df

Unnamed: 0,kor,eng,math,TOTAL,avg
미코,90,75,90,255,85.0


In [18]:
# ./data/thieves.txt 를 불러서 정제 과정 -> thieves.csv로 저장
import pandas as pd
thieves_df = pd.read_csv("./data/thieves.txt", header=None, sep="\t") # 헤더가 없는거 확인, 데이터 구분 확인

thieves_df

Unnamed: 0,0,1,2
0,홍길동,175.8,73.2
1,전우치,170.2,66.3
2,임꺽정,186.7,88.2
3,장길산,188.3,90.0


In [19]:
# 첫 번째 컬럼은 인덱스로 활용
thieves_df2 = pd.read_csv("./data/thieves.txt", header=None, sep="\t", index_col=0) # 첫번째 컬럼을 인덱스로

thieves_df2

Unnamed: 0_level_0,1,2
0,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,175.8,73.2
전우치,170.2,66.3
임꺽정,186.7,88.2
장길산,188.3,90.0


In [20]:
thieves_df2.loc['홍길동']

1    175.8
2     73.2
Name: 홍길동, dtype: float64

In [21]:
# 컬럼 정보 확인
print('Columns:', thieves_df2.columns)

Columns: Int64Index([1, 2], dtype='int64')


In [22]:
thieves_df2.columns= ['height', 'weight']
thieves_df2

Unnamed: 0_level_0,height,weight
0,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,175.8,73.2
전우치,170.2,66.3
임꺽정,186.7,88.2
장길산,188.3,90.0


In [23]:
# 인덱스의 컬럼 명 변경하기
thieves_df2.index.name = 'Name'
thieves_df2

Unnamed: 0_level_0,height,weight
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,175.8,73.2
전우치,170.2,66.3
임꺽정,186.7,88.2
장길산,188.3,90.0


In [24]:
# 완성된 데이터를 /data/thieves_modify.csv 로 저장해보자
thieves_df2.to_csv("./data/thieves_modify.csv", encoding="UTF-8")


In [25]:
# 결측치: 비어있는 데이터
import pandas as pd
from numpy import nan, NaN, NAN

exam_scores = pd.Series([90, 80, 120, nan, 95, 80, -10])
exam_scores

0     90.0
1     80.0
2    120.0
3      NaN
4     95.0
5     80.0
6    -10.0
dtype: float64

In [26]:
# 결측치 확인
print(pd.isnull(exam_scores))
# 결측치가 아닌 것 확인
pd.notnull(exam_scores)

0    False
1    False
2    False
3     True
4    False
5    False
6    False
dtype: bool


0     True
1     True
2     True
3    False
4     True
5     True
6     True
dtype: bool

In [27]:
# 결측 빈도 확인: count_nonzero
import numpy as np
print('결측 빈도: ', np.count_nonzero(exam_scores.isnull()))

결측 빈도:  1


In [28]:
# 이상치를 결측치로 대체
# 결측치 -> 중앙값으로 대체
# 최종 평균값

# 1. 이상치를 결측치로
exam_scores.isin(range(0, 101)) # 0 ~ 100 사이인지
~exam_scores.isin(range(0, 101)) # 0~100 범주를 벗어난 데이터 판별

0    False
1    False
2     True
3     True
4    False
5    False
6     True
dtype: bool

In [29]:
exam_scores[~exam_scores.isin(range(0, 101))] = nan
exam_scores

0    90.0
1    80.0
2     NaN
3     NaN
4    95.0
5    80.0
6     NaN
dtype: float64

In [32]:
# 이상치를 결측치로 대체한 데이터셋의 통계
print("기초통계량: ", exam_scores.describe())
print("산술평균:", exam_scores.mean())

기초통계량:  count     4.00
mean     86.25
std       7.50
min      80.00
25%      80.00
50%      85.00
75%      91.25
max      95.00
dtype: float64
산술평균: 86.25


In [36]:
#r결측치를 중앙값으로 대체
# exam_scores[exam_scores.isnull()]
exam_scores[exam_scores.isnull()] = exam_scores.median()
exam_scores

0    90.0
1    80.0
2    85.0
3    85.0
4    95.0
5    80.0
6    85.0
dtype: float64

In [37]:
# 결측치를 중앙값ㄱ으로 대체한 데이터셋의 v평균
print("평균:", exam_scores.mean())

평균: 85.71428571428571
