In [1]:
# Series
# 단일 형식의 1차원 데이터
import pandas as pd
s = pd.Series(["홍길동", 28]) # object, int64 -> 데이터 타입이 다를 경우 하나로 통일
# object가 섞여 있으면 object로 변환
print(s, s.dtype)

0    홍길동
1     28
dtype: object object


In [2]:
s2 = pd.Series(['홍길동', 28], index=['Name', 'Age']) # 명시적으로 인덱스를 부여할 때
print(s2)

Name    홍길동
Age      28
dtype: object


In [3]:
# 이미 만들어진 Series에 Index 부여하고자 할 때 .index의 리스트를 변경
print(s)
print("s의 인덱스:", s.index)
s.index = ['이름', '나이']
print(s)

0    홍길동
1     28
dtype: object
s의 인덱스: RangeIndex(start=0, stop=2, step=1)
이름    홍길동
나이     28
dtype: object


In [4]:
# 인덱스에 접근하기
print(s['이름'], s['나이']) # 인덱스 접근
print(s[0], s[1]) # 순서 정보를 이용한 접근
print(s[-2], s[-1]) # 역인덱싱 가능

홍길동 28
홍길동 28
홍길동 28


In [5]:
scores = [80, 75, 90, 100, 65] # 데이터 리스트 
scores_s = pd.Series(scores) # 시리즈를 생성(인자로 데이터의 리스트 전달)
# 기초 통계량의 확인
scores_s.describe()

count      5.000000
mean      82.000000
std       13.509256
min       65.000000
25%       75.000000
50%       80.000000
75%       90.000000
max      100.000000
dtype: float64

In [6]:
# 기초 통계량 함수
print("최솟값, 최댓값:", scores_s.min(), scores_s.max())
print("산술평균, 중앙값:", scores_s.mean(), scores_s.median())
print("표준편차:", scores_s.std())
print("포함 여부:", scores_s.isin([100]))

최솟값, 최댓값: 65 100
산술평균, 중앙값: 82.0 80.0
표준편차: 13.509256086106296
포함 여부: 0    False
1    False
2    False
3     True
4    False
dtype: bool


In [7]:
# 시리즈의 연산 
s3 = pd.Series([1, 5, 8, 4, 6, 1, 10])
print("s3:\n", s3)
# 시리즈와 스칼라의 연산
# print("s3 * 2\n", s3 * 2)
# 시리즈와 시리즈의 연산
s4 = pd.Series([1, 2, 3, 4, 5, 6, 7])
print("s3 + s4\n", s3 + s4)

s3:
 0     1
1     5
2     8
3     4
4     6
5     1
6    10
dtype: int64
s3 + s4
 0     2
1     7
2    11
3     8
4    11
5     7
6    17
dtype: int64


In [8]:
# 시리즈의 각 요소(항목)에 같은 함수를 일괄 적용: apply
print("s4\n", s4)
s5 = s4.apply(lambda x: x ** 2)
print("s5\n", s5)

s4
 0    1
1    2
2    3
3    4
4    5
5    6
6    7
dtype: int64
s5
 0     1
1     4
2     9
3    16
4    25
5    36
6    49
dtype: int64


In [9]:
# 데이터 프레임
# 여러 개의 Series(컬럼)가 연결된 2차원 테이블 형태의 데이터
# 생성 : dict로 데이터를 입력
scores_df = pd.DataFrame({
    "KOR": [80, 90, 75],
    "ENG": [90, 80, 70],
    "MATH": [80, 90, 85]
}, index = ['A', 'B', 'C'])
scores_df

Unnamed: 0,KOR,ENG,MATH
A,80,90,80
B,90,80,90
C,75,70,85


In [10]:
# 이미 생성된 데이터 프레임에 index 부여
scores_df.index = ['홍길동', '임꺽정', '장길산']
scores_df

Unnamed: 0,KOR,ENG,MATH
홍길동,80,90,80
임꺽정,90,80,90
장길산,75,70,85


In [11]:
# 변수의 파생 : 이미 있는 변수(컬럼)을 기반으로 새 변수(컬럼)를 생성
# 모든 학생의 국어, 영어, 수학 점수 총점을 변수로 생성
scores_df['TOTAL'] = scores_df['KOR'] + scores_df['ENG'] + scores_df['MATH']
scores_df

Unnamed: 0,KOR,ENG,MATH,TOTAL
홍길동,80,90,80,250
임꺽정,90,80,90,260
장길산,75,70,85,230


In [12]:
# AVERAGE 변수 파생
scores_df['AVERAGE'] = scores_df['TOTAL'] / 3
scores_df

Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERAGE
홍길동,80,90,80,250,83.333333
임꺽정,90,80,90,260,86.666667
장길산,75,70,85,230,76.666667


In [13]:
scores_df[[True, False, True]]

Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERAGE
홍길동,80,90,80,250,83.333333
장길산,75,70,85,230,76.666667


In [14]:
cond = scores_df['AVERAGE'] >= 80
cond

홍길동     True
임꺽정     True
장길산    False
Name: AVERAGE, dtype: bool

In [15]:
# 불린 연산 결과를 인덱스에 부여
scores_df[cond]

Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERAGE
홍길동,80,90,80,250,83.333333
임꺽정,90,80,90,260,86.666667


In [16]:
scores_df[scores_df['AVERAGE'] >= 80] # 위의 코드와 동일

Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERAGE
홍길동,80,90,80,250,83.333333
임꺽정,90,80,90,260,86.666667


In [17]:
# 데이터 임포트와 익스포트
thieves_df = pd.read_csv("./data/thieves.txt", sep="\t") # 구분자는 탭
thieves_df

Unnamed: 0,홍길동,175.8,73.2
0,전우치,170.2,66.3
1,임꺽정,186.7,88.2
2,장길산,188.3,90.0


In [18]:
# read_csv는 기본으로 첫번째 행을 컬럼명으로 활용
# 첫 번째 행이 컬럼이 아닐 경우 배제 해 줘야 한다
thieves_df2 = pd.read_csv("./data/thieves.txt", sep="\t", header=None) 
# 첫 행을 헤더로 사용하지 않음
thieves_df2

Unnamed: 0,0,1,2
0,홍길동,175.8,73.2
1,전우치,170.2,66.3
2,임꺽정,186.7,88.2
3,장길산,188.3,90.0


In [19]:
# 특정 열을 인덱스로 사용하고자 할 경우 : index_col
thieves_df3 = pd.read_csv("./data/thieves.txt", sep="\t", 
                         header=None, index_col=0)
thieves_df3

Unnamed: 0_level_0,1,2
0,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,175.8,73.2
전우치,170.2,66.3
임꺽정,186.7,88.2
장길산,188.3,90.0


In [20]:
# 컬럼의 확인
print(thieves_df3.columns)
# 컬럼 명의 변경
thieves_df3.columns = ['Height', 'Weight']
thieves_df3

Int64Index([1, 2], dtype='int64')


Unnamed: 0_level_0,Height,Weight
0,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,175.8,73.2
전우치,170.2,66.3
임꺽정,186.7,88.2
장길산,188.3,90.0


In [21]:
# 인덱스 이름의 확인
print(thieves_df3.index.name)
# 인덱스 이름의 변경
thieves_df3.index.name = "Name"
thieves_df3

0


Unnamed: 0_level_0,Height,Weight
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,175.8,73.2
전우치,170.2,66.3
임꺽정,186.7,88.2
장길산,188.3,90.0


In [22]:
# DataFrame을 csv로 변환 저장 : to_csv
thieves_df3.to_csv("./data/thieves.csv")

In [24]:
# 결측치(Missing Value)
from numpy import nan, NaN, NAN

scores = pd.Series([90, 80, 120, nan, 95, 80, -10])
scores

0     90.0
1     80.0
2    120.0
3      NaN
4     95.0
5     80.0
6    -10.0
dtype: float64

In [26]:
# 결측치 확인
pd.isnull(scores) # 결측 여부 확인
pd.notnull(scores) # 결측 아님을 확인

0     True
1     True
2     True
3    False
4     True
5     True
6     True
dtype: bool

In [27]:
# 결측의 빈도 확인
import numpy as np
print("결측치의 수:", np.count_nonzero(scores.isnull()))

결측치의 수: 1


In [32]:
# 이상치(Outlier)
# 정상 범위에서 벗어난 극단적으로 크거나 작은 값
scores.isin(range(0, 101)) # scores 시리즈의 요소 범위 0 ~ 100인가?
~scores.isin(range(0, 101)) # scores 시리즈의 요서 범위가 0 ~ 100 이외의 값인가?(이상치)

# 이상치와 결측치가 포함된 데이터의 평균
"이상치와 결측치가 포함된 평균: {}".format(scores.mean()) # 75.8333333

'이상치와 결측치가 포함된 평균: 75.83333333333333'

In [34]:
# 이상치 -> 결측치로 치환
scores[~scores.isin(range(0, 100))] = nan
# scores
"이상치->결측치로 치환한 데이터의 평균:{}".format(scores.mean())

'이상치->결측치로 치환한 데이터의 평균:86.25'

In [36]:
# 이상치가 많이 포함된 데이터는 통계의 왜곡
# 결측치가 많아도 데이터 통계 왜곡
# 결측치 처리 방안 필요
# 일반적으로는 다른 데이터의 대푯값(평균, 중앙값)으로 결측치를 대체
# 중앙값 
med = scores[scores.notnull()].median() # 결측치가 아닌 것의 중앙값
med

85.0

In [37]:
# 중앙값으로 결측치 대체
scores[scores.isnull()] = med
scores

0    90.0
1    80.0
2    85.0
3    85.0
4    95.0
5    80.0
6    85.0
dtype: float64

In [38]:
# 결측치와 이상치를 대푯값으로 대체한 데이터 평균
scores.mean()

85.71428571428571