In [1]:
# Series -> 여러개의 단일 타입의 데이터
# 1차원 데이터
import pandas as pd
s = pd.Series(["홍길동", 25])
print(s, type(s))

0    홍길동
1     25
dtype: object <class 'pandas.core.series.Series'>


In [4]:
# 인덱스 확인
print(s.index)
# 생성할 때 index를 임의로 부여할 수 있다.
s2 = pd.Series(["홍길동", 25], index=["Name", "Age"])
print(s2)

# 이미 만들어진 시리즈의 인덱스를 추가 부여할 수 있다
s.index = ["Name", "Age"]
print(s)

RangeIndex(start=0, stop=2, step=1)
Name    홍길동
Age      25
dtype: object
Name    홍길동
Age      25
dtype: object


In [5]:
kor = [80, 90, 75, 100, 65]
kor_s = pd.Series(kor)   # 시리즈 생성
print(kor_s.describe())  # 기초 통계량 확인

count      5.000000
mean      82.000000
std       13.509256
min       65.000000
25%       75.000000
50%       80.000000
75%       90.000000
max      100.000000
dtype: float64


In [9]:
# 기초 통계 함수
print(kor_s.min())     # 최솟값
print(kor_s.max())     # 최댓값
print(kor_s.mean())    # 산술평균, 
print(kor_s.median())  # 중앙감
print(kor_s.std())     # 표준편차

65
100
82.0
80.0
13.509256086106296


In [22]:
# 시리즈 연산
s3 = pd.Series([1, 5, 8, 4, 6, 1, 10])
print("s3")
print(s3)

# 시리즈(1차원)와 스칼라(0차원)의 연산 -> Broadcasting
print("--------------\s3 * 2")
print(s3 * 2)

# 시리즈(1차원)와 시리즈(1차원)의 연산 -> 동일 인덱스에 연산이 수행
s4 = pd.Series([1, 2, 3, 4, 5, 6, 7])
print("--------------\ns3 + s4")
print(s3 + s4)

# 사용자 정의 함수의 브로드캐스팅
s5 = s3.apply(lambda x: 2 * x + 1)
print("--------------\ns5")
print(s5)

s3
0     1
1     5
2     8
3     4
4     6
5     1
6    10
dtype: int64
--------------\s3 * 2
0     2
1    10
2    16
3     8
4    12
5     2
6    20
dtype: int64
--------------
s3 + s4
0     2
1     7
2    11
3     8
4    11
5     7
6    17
dtype: int64
--------------
s5
0     3
1    11
2    17
3     9
4    13
5     3
6    21
dtype: int64


In [80]:
# DataFrame: 행과 열(변수)로 이루어진 테이블 데이터
score_df = pd.DataFrame({
    "KOR": [80, 90, 75],
    "ENG": [90, 80, 70],
    "MATH": [80, 90, 85]
}, index = ["홍길동", "김철수", "이영희"])
display(score_df)

Unnamed: 0,KOR,ENG,MATH
홍길동,80,90,80
김철수,90,80,90
이영희,75,70,85


In [81]:
# 변수의 파생: 기존 변수를 기반으로 새로운 변수 생성
score_df['TOTAL'] = score_df["KOR"] + score_df["ENG"] + score_df["MATH"] 

# TOTAL 변수를 기반으로 2차 파생
score_df["AVERAGE"] = score_df["TOTAL"] / 3
display(score_df)

row_df = pd.DataFrame({
    "KOR": [73],
    "ENG": [88],
    "MATH": [91],
    "TOTAL": [0],
    "AVERAGE": [0]
}, index=["고길동"])
score_df = pd.concat([score_df, row_df])
display(score_df)



Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERAGE
홍길동,80,90,80,250,83.333333
김철수,90,80,90,260,86.666667
이영희,75,70,85,230,76.666667


Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERAGE
홍길동,80,90,80,250,83.333333
김철수,90,80,90,260,86.666667
이영희,75,70,85,230,76.666667
고길동,73,88,91,0,0.0


In [82]:
# 새로 추가된 데이터 값의 정제를 위해 재실행
score_df['TOTAL'] = score_df["KOR"] + score_df["ENG"] + score_df["MATH"] 
score_df["AVERAGE"] = score_df["TOTAL"] / 3
display(score_df)

Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERAGE
홍길동,80,90,80,250,83.333333
김철수,90,80,90,260,86.666667
이영희,75,70,85,230,76.666667
고길동,73,88,91,252,84.0


In [83]:
# 인덱스에 boolean 값을 전달하면 True인 행만 필터링 할 수 있다.
# 불린 연산
score_df[[True, False, True, True]]

Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERAGE
홍길동,80,90,80,250,83.333333
이영희,75,70,85,230,76.666667
고길동,73,88,91,252,84.0


In [84]:
# score_df['AVERAGE'] >= 80 의 논리값
print(score_df['AVERAGE'] >= 80)  # >= 80 -> 연산이 브로드캐스팅 -> 논리 추출

홍길동     True
김철수     True
이영희    False
고길동     True
Name: AVERAGE, dtype: bool


In [85]:
# 데이터 프레임에서 평균이 80점 이상인 학생만 추출
filtered_df = score_df[score_df['AVERAGE'] >= 80]
display(filtered_df)

Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERAGE
홍길동,80,90,80,250,83.333333
김철수,90,80,90,260,86.666667
고길동,73,88,91,252,84.0


In [31]:
# read_ 계열의 메소드: 다양한 데이터를 입력
thieves_df = pd.read_csv("./data/thieves.txt", sep="\t")  # 탭으로 구분된 csv
display(thieves_df)

Unnamed: 0,홍길동,175.8,73.2
0,전우치,170.2,66.3
1,임꺽정,186.7,88.2
2,장길산,188.3,90.0


In [32]:
# read_csv 매소드는 첫 번째 행을 컬럼명으로 활용
# 첫 번째 행이 컬럼 명이 아닐 경우, 컬럼명에서 배제해 줘야 한다
thieves_df2 = pd.read_csv("./data/thieves.txt", sep='\t', header=None)
display(thieves_df2)

Unnamed: 0,0,1,2
0,홍길동,175.8,73.2
1,전우치,170.2,66.3
2,임꺽정,186.7,88.2
3,장길산,188.3,90.0


In [33]:
# 특정 컬럼을 인덱스로 활용하려는 경우
thieves_df3 = pd.read_csv("./data/thieves.txt", sep='\t', header=None, index_col=0)   # 0번 컬럼을 인덱스로 사용
display(thieves_df3)

Unnamed: 0_level_0,1,2
0,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,175.8,73.2
전우치,170.2,66.3
임꺽정,186.7,88.2
장길산,188.3,90.0


In [36]:
# 컬럼 명의 확인
print(thieves_df3.columns)
# 컬럼 명의 변경
thieves_df3.columns = ["Height", "Weight"]
# 인덱스의 이름 변경
thieves_df3.index.name = "Name"

display(thieves_df3)

Index(['Height', 'Weight'], dtype='object')


Unnamed: 0_level_0,Height,Weight
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,175.8,73.2
전우치,170.2,66.3
임꺽정,186.7,88.2
장길산,188.3,90.0


In [43]:
# 정제된 데이터의 저장
# thieves_df3.to_csv("./data/thieves.csv")
# 인코딩에 문제가 있을 경우
thieves_df3.to_csv("./data/thieves.csv", encoding="euc-kr")

In [100]:
# 결측치: 측정되지 않았거나 데이터 정제 과정에서 비어버린 값
# 결측치가 포함된 데이터셋의 통계 함수 결과는 결측치가 된다
from numpy import nan, NaN, NAN

exam_scores = pd.Series([90, 80, 120, nan, 95, 80, -10])
print(exam_scores)

0     90.0
1     80.0
2    120.0
3      NaN
4     95.0
5     80.0
6    -10.0
dtype: float64


In [101]:
# 결측치의 확인
print(pd.isnull(exam_scores))
# 결측 빈도의 확인
import numpy as np
print("결측치의 갯수: ", np.count_nonzero(exam_scores.isnull()))

0    False
1    False
2    False
3     True
4    False
5    False
6    False
dtype: bool
결측치의 갯수:  1


In [102]:
# 이상치의 확인
print(~exam_scores.isin(range(0, 101)))   # not in range(0, 101)
print("")
# 이상치를 결측치로 대체
exam_scores[~exam_scores.isin(range(0, 101))] = nan
print(exam_scores)
# 이상치를 결측치로 대체한 데이터셋의 통계
print("평균: ", exam_scores.mean())
print("[통계량]")
print(exam_scores.describe())

0    False
1    False
2     True
3     True
4    False
5    False
6     True
dtype: bool

0    90.0
1    80.0
2     NaN
3     NaN
4    95.0
5    80.0
6     NaN
dtype: float64
평균:  86.25
[통계량]
count     4.00
mean     86.25
std       7.50
min      80.00
25%      80.00
50%      85.00
75%      91.25
max      95.00
dtype: float64


In [104]:
# 결측치가 많으면 통계 결과에 왜곡
# 결측치를 대푯값으로 대체 (결측치를 제외한 대푯값)
med_score = exam_scores[exam_scores.notnull()].median()
print("결측치 제외 중앙값: ", med_score)
exam_scores[exam_scores.isnull()] = med_score
print(exam_scores)

print("정제된 데이터의 최종 평균: ", exam_scores.mean())

결측치 제외 중앙값:  85.0
0    90.0
1    80.0
2    85.0
3    85.0
4    95.0
5    80.0
6    85.0
dtype: float64
정제된 데이터의 최종 평균:  85.71428571428571
