In [None]:
# Series -> 여러 개의 단일 타입의 데이터
# 1차원 데이터
import pandas as pd
s = pd.Series(["홍길동", 25])
print(s, type(s))

In [None]:
# 인덱스의 확인
print(s.index)
# 생성할 때 index를 임의로 부여할 수 있다.
s2 = pd.Series(["홍길동", 25], index=["Name", "Age"])
print(s2)

# 이미 만들어진 시리즈의 인덱스를 추가 부여할 수 있다.
s.index = ["Name", "Age"]
print(s)

In [None]:
kor = [80, 90, 75, 100, 65] # 시리즈 데이터로 활용할 리스트
kor_s = pd.Series(kor)      # 시리즈 생성
print(kor_s.describe())     # 기초 통계량 확인

In [None]:
# 기초 통계 함수
print(kor_s.min(), kor_s.max())          # 최솟값, 최댓값
print(kor_s.mean(), kor_s.median())      # 산술평균, 중앙값(50%)
print(kor_s.std())                       # 표준편차
print(kor_s.isin([100]))                 # 시리즈에 포함된 값이 있는지 확인

In [None]:
# 시리즈 연산
s3 = pd.Series([1, 5, 8, 4, 6, 1, 10])
print("s3:", s3)

# 시리즈(1차원)와 스칼라(0차원)의 연산 -> Broadcasting
print(s3 * 2)

# 시리즈(1차원)와 시리즈(1차원)의 연산 -> 동일 인덱스에 연산이 수행
s4 = pd.Series([1, 2, 3, 4, 5, 6, 7])
print(s3 + s4)

# 사용자 정의 함수의 Broadcasting
s5 = s3.apply(lambda x: 2 * x + 1)

In [None]:
# DataFrame : 해오가 열(변수)로 이루어진 테이블 데이터
score_df = pd.DataFrame({
    "KOR": [80, 90, 75],
    "ENG": [90, 80, 70],
    "MATH": [80, 90, 85]
}, index = ["홍길동", "김철수", "이영희"])
display(score_df)

In [None]:
# 변수의 파생 : 기존 변수를 기반으로 새로운 변수 생성
score_df["TOTAL"] = score_df["KOR"] + score_df["ENG"] +score_df["MATH"]
# TOTAL 변수를 기반으로 2차 파생
score_df["AVERAGE"] = score_df["TOTAL"] / 3
display(score_df)

In [None]:
# 인덱스에 boolean 값을 전달하면
# True인 행만 필터링할 수 있다.
# boolean 연산
score_df[[True, False, True]]

In [None]:
# score_df['AVERAGE'] >= 80 이라는 조건의 논리값
print(score_df['AVERAGE'] >= 80)
# 출력값 : 홍길동     True
#          김철수     True
#          이영희    False
#          Name: AVERAGE, dtype: bool

# >= 80 ->  연산이 broadcasting -> 논리 추출

In [None]:
# 데이터 프레임에서 평균이 80점 이상인 학생만 추출
filtered_df = score_df[score_df['AVERAGE'] >= 80]
display(filtered_df)

In [None]:
# read_ 계열의 메서드 : 다양한 데이터를 입력
thieves_df = pd.read_csv("./data/thieves.txt", sep="\t")   # 구분자 : 탭(tab)
display(thieves_df)

In [None]:
# read_csv 메서드는 첫번째 행을 컬럼명으로 활용
# 첫번째 행이 컬럼 명이 아닐 경우, 컬럼명에서 배제해줘야 한다.
thieves_df2 = pd.read_csv("./data/thieves.txt", sep="\t", header=None)  # 첫 행이 컬럼명이 아님을 명시
display(thieves_df2)

In [None]:
# 특정 컬럼을 인덱스로 활용하려는 경우
thieves_df3 = pd.read_csv("./data/thieves.txt", 
                          sep="\t", 
                          header=None, 
                          index_col=0)  # 0번 컬럼을 인덱스로 사용
display(thieves_df3)

In [None]:
# 컬럼 명의 확인
print(thieves_df3.columns)
# 컬럼 명의 변경
thieves_df3.columns = ["Height", "Weight"]
# 인덱스의 이름도 바꿔 보자.
thieves_df3.index.name = "Name"

display(thieves_df3)

In [None]:
# 정제된 데이터의 저장
thieves_df3.to_csv("./data/thieves.csv")
# 인코딩 문제가 있으면
thieves_df3.to_csv("./data/thieves.csv", encoding="utf-8")

In [None]:
# 결측치 : 측정되지 않았거나 데이터 정제 과정에서 비어버린 값
# 결측치 포함된 데이터셋의 통계 함수 결과는 결측치
from numpy import nan, NaN, NAN

exam_scores = pd.Series([90, 80, 120, nan, 95, 80, -10])
print(exam_scores)

In [None]:
# 결측치의 확인
print(pd.isnull(exam_scores))
# 결측 빈도의 확인

In [None]:
# 이상치의 확인
print(exam_scores.isin(range(0, 101)))   # in range(0, 101)
print(~exam_scores.isin(range(0, 101)))  # not in range(0, 101)
                                         # False가 나온 값을 결측치로 바꿔주자.

# 이상치를 결측치로 대체
exam_scores[~exam_scores.isin(range(0, 101))] = nan
print(exam_scores)

# 이상치를 결측치로 대체한 데이터셋의 통계
print("평균")
print(exam_scores.mean())
print("통계량")
print(exam_scores.describe())

In [None]:
# 결측치가 많으면 통계 결과에 왜곡
# 결측치를 대푯값(중앙값)으로 대체 (결측치를 제외한 대푯값)
med_score = exam_scores[exam_scores.notnull()].median()
print("결측치 제외 중앙값:", med_score)
exam_scores[exam_scores.isnull()] = med_score
print(exam_scores)

print("정제된 데이터의 최종 평균:", exam_scores.mean())