In [1]:
# Series 데이터 타입 : 동일 자료형을 가지는 1차원 데이터
# Series가 모여서 DataFrame을 구성

# 리스트 자료를 Series 클래스에 전달해서 생성
import pandas as pd
s = pd.Series(["피카츄", 5])
s

# 인덱스를 별도로 부여하지 않으면 0부터 자동으로 부여

0    피카츄
1      5
dtype: object

In [3]:
# 인덱스를 부여하고자 한다면 index 매개변수에 인덱스 목록을 제공
s = pd.Series(["피카츄", 5], index=["Name", "Age"])
s

Name    피카츄
Age       5
dtype: object

In [4]:
# 시리즈에서 데이터 추출할 때, 인덱스 접근 가능
s['Name'], s['Age']

('피카츄', 5)

In [5]:
s.index

Index(['Name', 'Age'], dtype='object')

In [8]:
# range를 이용한 Series 생성
# 0 ~ 100 까지 짝수의 Series
s2 = pd.Series(range(0, 101, 2))
s2

0       0
1       2
2       4
3       6
4       8
5      10
6      12
7      14
8      16
9      18
10     20
11     22
12     24
13     26
14     28
15     30
16     32
17     34
18     36
19     38
20     40
21     42
22     44
23     46
24     48
25     50
26     52
27     54
28     56
29     58
30     60
31     62
32     64
33     66
34     68
35     70
36     72
37     74
38     76
39     78
40     80
41     82
42     84
43     86
44     88
45     90
46     92
47     94
48     96
49     98
50    100
dtype: int64

In [9]:
# 숫자 데이터로 이루어진 Series라면 기초 통계량을 얻을 수 있음
kor_s = pd.Series([80, 75, 90, 100, 65])        # 시리즈 생성
print(kor_s)
kor_s.describe()                                # 기초 통계량

0     80
1     75
2     90
3    100
4     65
dtype: int64


count      5.000000
mean      82.000000
std       13.509256
min       65.000000
25%       75.000000
50%       80.000000
75%       90.000000
max      100.000000
dtype: float64

In [10]:
# 통계량 함수
print(kor_s.min(), kor_s.max())            # 최소값, 최대값
print(kor_s.mean(), kor_s.median())        # 산술평균, 중앙값
print(kor_s.std)                           # 표준편차

65 100
82.0 80.0
<bound method NDFrame._add_numeric_operations.<locals>.std of 0     80
1     75
2     90
3    100
4     65
dtype: int64>


In [11]:
# isin : 시리즈에 값이 포함되어있는지 여부를 판별하는 함수
kor_s.isin([100])                  # 시리즈에 포함된 값이 있는지

0    False
1    False
2    False
3     True
4    False
dtype: bool

In [13]:
# 시리즈의 연산 
s2 = pd.Series([1, 5, 8, 4, 6, 1, 10])
print(s2)

# 시리즈와 스칼라 데이터의 연산(스칼라 데이터 : 더 이상 쪼갤 수 없는)
print("s2 * 2")

0     1
1     5
2     8
3     4
4     6
5     1
6    10
dtype: int64
s2 * 2


In [14]:
# 시리즈와 시리즈의 연산
s3 = pd.Series([1, 2, 3, 4, 5, 6, 7])
s2 + s3

0     2
1     7
2    11
3     8
4    11
5     7
6    17
dtype: int64

In [16]:
# DataFrame
# 각 컬럼 데이터가 Series로 구성된 2차원 테이블 데이터

# 데이터 프레임 생성
# 각 컬럼을 시리즈로 가지고 있는 딕셔너리를 부여하여 데이터 프레임 생성
scores_df = pd.DataFrame({
    "KOR": [80, 90, 75], 
    "ENG" : [60, 80, 70],
    "MATH" : [80, 90, 85]
}, index=["신짱구", "김철수", "신유리" ])
scores_df

Unnamed: 0,KOR,ENG,MATH
신짱구,80,60,80
김철수,90,80,90
신유리,75,70,85


In [17]:
# 나중에 index를 부여하고자 할 때
scores_df.index

Index(['신짱구', '김철수', '신유리'], dtype='object')

In [18]:
# 파생 변수의 추가
scores_df['TOTAL'] = scores_df['KOR'] + scores_df['ENG'] + scores_df['MATH']
scores_df

Unnamed: 0,KOR,ENG,MATH,TOTAL
신짱구,80,60,80,220
김철수,90,80,90,260
신유리,75,70,85,230


In [19]:
scores_df['AVERAGE'] = scores_df['TOTAL'] / 3       # 시리즈와 스칼라의 연산 -> 브로드캐스팅
scores_df

Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERAGE
신짱구,80,60,80,220,73.333333
김철수,90,80,90,260,86.666667
신유리,75,70,85,230,76.666667


In [20]:
# boolean 추출
scores_df['AVERAGE'] > 80

신짱구    False
김철수     True
신유리    False
Name: AVERAGE, dtype: bool

In [21]:
scores_df[[True, True, False]]

Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERAGE
신짱구,80,60,80,220,73.333333
김철수,90,80,90,260,86.666667


In [22]:
# boolean 추출
# scores_df 에서 AVERAGE가 80점 초과 데이터들만 추출
filtered_df = scores_df[scores_df['AVERAGE'] > 80]
filtered_df

Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERAGE
김철수,90,80,90,260,86.666667


In [3]:
# .data/thieves.txt 를 불러서 정제과정 -> thieves.cvs 저장
import pandas as pd
thieves_df = pd.read_csv("./data/thieves.txt", header=None,        # 데이터에 header가 없음
                                               sep="\t")           # 데이터가 탭으로 구분되어 있음을 알림
thieves_df

Unnamed: 0,0,1,2
0,홍길동,175.8,73.2
1,전우치,170.2,66.3
2,임꺽정,186.7,88.2
3,장길산,188.3,90.0


In [3]:
# 첫번째 컬럼은 인덱스로 활용
import pandas as pd
thieves_df2 = pd.read_csv("./data/thieves.txt", header = None, sep="\t", index_col=0)    # 첫번째 컬럼을 인덱스 컬럼으로 활용
thieves_df2

Unnamed: 0_level_0,1,2
0,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,175.8,73.2
전우치,170.2,66.3
임꺽정,186.7,88.2
장길산,188.3,90.0


In [4]:
thieves_df2.loc['홍길동']

1    175.8
2     73.2
Name: 홍길동, dtype: float64

In [5]:
# 컬럼 정보 확인
print("Columns:", thieves_df2.columns)

Columns: Int64Index([1, 2], dtype='int64')


In [6]:
thieves_df2.columns = ["height", "weight"]
thieves_df2

Unnamed: 0_level_0,height,weight
0,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,175.8,73.2
전우치,170.2,66.3
임꺽정,186.7,88.2
장길산,188.3,90.0


In [7]:
# 인덱스의 컬럼명 변경
thieves_df2.index.name = "Name"
thieves_df2

Unnamed: 0_level_0,height,weight
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,175.8,73.2
전우치,170.2,66.3
임꺽정,186.7,88.2
장길산,188.3,90.0


In [8]:
# 완성된 데이터를 /data/thieves_modify.csv
thieves_df2.to_csv("./data/thieves_modify.csv", encoding="utf-8")

In [9]:
# 결측치 : 비어있는 데이터
import pandas as pd
from numpy import nan, NaN, NAN

exam_scores = pd.Series([90, 80, 120, nan, 95, 80, -10])
exam_scores

0     90.0
1     80.0
2    120.0
3      NaN
4     95.0
5     80.0
6    -10.0
dtype: float64

In [12]:
# 결측치 확인
print(pd.isnull(exam_scores))      # 각 값이 비어있나? -> 비교했을 때 3은 비어있기 때문에 true로 출력
# 결측치가 아닌거 확인
pd.notnull(exam_scores)            # 값이 비어있지 않다

0    False
1    False
2    False
3     True
4    False
5    False
6    False
dtype: bool


0     True
1     True
2     True
3    False
4     True
5     True
6     True
dtype: bool

In [14]:
# 결측 빈도 확인 : count_nonzero
import numpy as np
print("결측 빈도:", np.count_nonzero(exam_scores.isnull()))

결측 빈도: 1


In [16]:
# 이상치를 결측치로 대체 하고
# 결측치를 중앙값으로 대체해서
# 최종평균값 출력

# 이상치 -> 결측치
exam_scores.isin(range(0, 101))          # 0 ~ 100 사이에 있는지 확인하기
~ exam_scores.isin(range(0, 101))        # 0 ~ 100 사이 범주를 벗어난 데이트 판별

0    False
1    False
2     True
3     True
4    False
5    False
6     True
dtype: bool

In [17]:
# 이상치 -> 결측치
exam_scores[~exam_scores.isin(range(0, 101))] = nan
exam_scores

0    90.0
1    80.0
2     NaN
3     NaN
4    95.0
5    80.0
6     NaN
dtype: float64

In [20]:
# 이상치를 결측치로 대채한 데이터셋의 통계
print("기초통계량:\n", exam_scores.describe())
print("산술평균:", exam_scores.mean())

기초통계량:
 count     4.00
mean     86.25
std       7.50
min      80.00
25%      80.00
50%      85.00
75%      91.25
max      95.00
dtype: float64
산술평균: 86.25


In [23]:
# 결측치 -> 중앙값
exam_scores[exam_scores.isnull()] = exam_scores.median()
exam_scores

0    90.0
1    80.0
2    85.0
3    85.0
4    95.0
5    80.0
6    85.0
dtype: float64

In [25]:
# 결측치를 중앙값으로 대체한 데이터셋의 평균
print("평균:", exam_scores.mean())

평균: 85.71428571428571
