In [1]:
# Series 데이터 타입 : 동일 자료형을 가지는 1차원 데이터
# Series가 모여서 DataFrame을 구성

# 리스트 자료를 Series 클래스에 전달해서 생성
import pandas as pd
s = pd.Series(["피카츄", 5])
s

# 인덱스를 별도로 부여하지 않으면 0부터 자동으로 부여

0    피카츄
1      5
dtype: object

In [2]:
# 인덱스를 부여하고자 한다면 index 매개변수에 인덱스 목록을 제공
s = pd.Series(["피카츄", 5], index=["Name", "Age"])
s

Name    피카츄
Age       5
dtype: object

In [None]:
# 시리즈에서 데이터 추출할 때, 인덱스 접근 가능
s['Name'], s['Age']

In [None]:
s.index

In [None]:
# range를 이용한 Series 생성
# 0 ~ 100 까지 짝수의 Series
s2 = pd.Series(range(0, 101, 2))
s2

In [None]:
# 숫자 데이터로 이루어진 Series라면 기초 통계량을 얻을 수 있음
kor_s = pd.Series([80, 75, 90, 100, 65])        # 시리즈 생성
print(kor_s)
kor_s.describe()                                # 기초 통계량

In [None]:
# 통계량 함수
print(kor_s.min(), kor_s.max())            # 최소값, 최대값
print(kor_s.mean(), kor_s.median())        # 산술평균, 중앙값
print(kor_s.std)                           # 표준편차

In [None]:
# isin : 시리즈에 값이 포함되어있는지 여부를 판별하는 함수
kor_s.isin([100])                  # 시리즈에 포함된 값이 있는지

In [None]:
# 시리즈의 연산 
s2 = pd.Series([1, 5, 8, 4, 6, 1, 10])
print(s2)

# 시리즈와 스칼라 데이터의 연산(스칼라 데이터 : 더 이상 쪼갤 수 없는)
print("s2 * 2")

In [None]:
# 시리즈와 시리즈의 연산
s3 = pd.Series([1, 2, 3, 4, 5, 6, 7])
s2 + s3

In [None]:
# DataFrame
# 각 컬럼 데이터가 Series로 구성된 2차원 테이블 데이터

# 데이터 프레임 생성
# 각 컬럼을 시리즈로 가지고 있는 딕셔너리를 부여하여 데이터 프레임 생성
scores_df = pd.DataFrame({
    "KOR": [80, 90, 75], 
    "ENG" : [60, 80, 70],
    "MATH" : [80, 90, 85]
}, index=["신짱구", "김철수", "신유리" ])
scores_df

In [None]:
# 나중에 index를 부여하고자 할 때
scores_df.index

In [None]:
# 파생 변수의 추가
scores_df['TOTAL'] = scores_df['KOR'] + scores_df['ENG'] + scores_df['MATH']
scores_df

In [None]:
scores_df['AVERAGE'] = scores_df['TOTAL'] / 3       # 시리즈와 스칼라의 연산 -> 브로드캐스팅
scores_df

In [None]:
# boolean 추출
scores_df['AVERAGE'] > 80

In [None]:
scores_df[[True, True, False]]

In [None]:
# boolean 추출
# scores_df 에서 AVERAGE가 80점 초과 데이터들만 추출
filtered_df = scores_df[scores_df['AVERAGE'] > 80]
filtered_df

In [None]:
# .data/thieves.txt 를 불러서 정제과정 -> thieves.cvs 저장
import pandas as pd
thieves_df = pd.read_csv("./data/thieves.txt", header=None,        # 데이터에 header가 없음
                                               sep="\t")           # 데이터가 탭으로 구분되어 있음을 알림
thieves_df

In [None]:
# 첫번째 컬럼은 인덱스로 활용
import pandas as pd
thieves_df2 = pd.read_csv("./data/thieves.txt", header = None, sep="\t", index_col=0)    # 첫번째 컬럼을 인덱스 컬럼으로 활용
thieves_df2

In [None]:
thieves_df2.loc['홍길동']

In [None]:
# 컬럼 정보 확인
print("Columns:", thieves_df2.columns)

In [None]:
thieves_df2.columns = ["height", "weight"]
thieves_df2

In [None]:
# 인덱스의 컬럼명 변경
thieves_df2.index.name = "Name"
thieves_df2

In [None]:
# 완성된 데이터를 /data/thieves_modify.csv
thieves_df2.to_csv("./data/thieves_modify.csv", encoding="utf-8")

In [None]:
# 결측치 : 비어있는 데이터
import pandas as pd
from numpy import nan, NaN, NAN

exam_scores = pd.Series([90, 80, 120, nan, 95, 80, -10])
exam_scores

In [None]:
# 결측치 확인
print(pd.isnull(exam_scores))      # 각 값이 비어있나? -> 비교했을 때 3은 비어있기 때문에 true로 출력
# 결측치가 아닌거 확인
pd.notnull(exam_scores)            # 값이 비어있지 않다

In [None]:
# 결측 빈도 확인 : count_nonzero
import numpy as np
print("결측 빈도:", np.count_nonzero(exam_scores.isnull()))

In [None]:
# 이상치를 결측치로 대체 하고
# 결측치를 중앙값으로 대체해서
# 최종평균값 출력

# 이상치 -> 결측치
exam_scores.isin(range(0, 101))          # 0 ~ 100 사이에 있는지 확인하기
~ exam_scores.isin(range(0, 101))        # 0 ~ 100 사이 범주를 벗어난 데이트 판별

In [None]:
# 이상치 -> 결측치
exam_scores[~exam_scores.isin(range(0, 101))] = nan
exam_scores

In [None]:
# 이상치를 결측치로 대채한 데이터셋의 통계
print("기초통계량:\n", exam_scores.describe())
print("산술평균:", exam_scores.mean())

In [None]:
# 결측치 -> 중앙값
exam_scores[exam_scores.isnull()] = exam_scores.median()
exam_scores

In [None]:
# 결측치를 중앙값으로 대체한 데이터셋의 평균
print("평균:", exam_scores.mean())