In [2]:
# series
# 단일 형식의 1차원 데이터
import pandas as pd
s = pd.Series(["홍길동",28]) #object, int64 -> 데이터 타입이 다를 경우 하나로 통일
# object가 섞여 있으면 object로 변환
print(s,s.dtype)

0    홍길동
1     28
dtype: object object


In [4]:
s2 = pd.Series(['홍길동',28], index = ['Name', "Age"]) # 명시적으로 인덱스를 부여할 때
print(s2)

Name    홍길동
Age      28
dtype: object


In [7]:
# 이미 만들어진 Series에 index 부여하고자 할 때 .index의 리스트를 변경
print(s)
print("s의 인덱스:",s.index)
s.index = ['이름','나이']
print(s)

0    홍길동
1     28
dtype: object
s의 인덱스: RangeIndex(start=0, stop=2, step=1)
이름    홍길동
나이     28
dtype: object


In [8]:
# 인덱스의 접근하기
print(s['이름'],s['나이']) # 인덱스 접슨
print(s[0],s[1]) # 순서 정보를 이용한 접근
print(s[-2],s[-1]) # 역인덱싱 가능

홍길동 28
홍길동 28
홍길동 28


In [9]:
scores = [80,75,90,100,65] # 데이터 리스트
scores_s = pd.Series(scores) # 시리즈를 생성(인자로 데이터의 리스트 전달)
# 기초 통계량 확인
scores_s.describe()

count      5.000000
mean      82.000000
std       13.509256
min       65.000000
25%       75.000000
50%       80.000000
75%       90.000000
max      100.000000
dtype: float64

In [11]:
# 기초 통게랭 함수
print("최솟값,최댓값:", scores_s.min(),scores_s.max())
print("산술평균, 중앙값:", scores_s.mean(),scores_s.median())
print("표준편차:", scores_s.std())
print("포함 여부:", scores_s.isin([100]))

최솟값,최댓값: 65 100
산술평균, 중앙값: 82.0 80.0
표준편차: 13.509256086106296
포함 여부: 0    False
1    False
2    False
3     True
4    False
dtype: bool


In [14]:
# 시리즈의 연산
s3 = pd.Series([1,5,8,4,6,1,10])
print("s3:\n",s3)
# 시리즈와 스칼라의 연산
print("s3 * 2\n",s3 * 2)
# 시리즈와 시리즈의 연산
s4 = pd.Series([1,2,3,4,5,6,7])
print("s3+s4\n",s3 + s4)

s3:
 0     1
1     5
2     8
3     4
4     6
5     1
6    10
dtype: int64
s3 * 2
 0     2
1    10
2    16
3     8
4    12
5     2
6    20
dtype: int64
s3+s4
 0     2
1     7
2    11
3     8
4    11
5     7
6    17
dtype: int64


In [17]:
# 시리즈의 각 요소(항목)에 같은 함수를 일괄 적용: apply
print("s4\n",s4)
s5 = s4.apply(lambda x: x ** 2)
print("s5\n", s5)

s4
 0    1
1    2
2    3
3    4
4    5
5    6
6    7
dtype: int64
s5
 0     1
1     4
2     9
3    16
4    25
5    36
6    49
dtype: int64


In [18]:
# 데이터 프레임
# 여러 개의 Serires(컬럼)가 연결된 2차원 테이블 형태의 데이터
# 생성: dict로 데이터를 입력
scores_df = pd.DataFrame({
    "KOR": [80,90,75],
    "ENG": [90,80,70],
    "MATH":[80,90,85]
    
}, index = ['A','B','C'])
scores_df

Unnamed: 0,KOR,ENG,MATH
A,80,90,80
B,90,80,90
C,75,70,85


In [19]:
# 이미 생성된 데이터 프레임에 index 부여
scores_df.index = ['홍길동','임꺽정','장길산']
scores_df

Unnamed: 0,KOR,ENG,MATH
홍길동,80,90,80
임꺽정,90,80,90
장길산,75,70,85


In [20]:
# 변수의 파생 : 이미 있는 변수(컬럼)을 기반으로 새 변수(컬럼)을 생성
# 모든 학생의 국어, 영어, 수학 점수 총점을 변수로 생성
scores_df['TOTAL'] = scores_df['KOR'] + scores_df['ENG'] + scores_df['MATH']
scores_df

Unnamed: 0,KOR,ENG,MATH,TOTAL
홍길동,80,90,80,250
임꺽정,90,80,90,260
장길산,75,70,85,230


In [21]:
# AVERAGE 변수 파생
scores_df['AVERGE'] = scores_df['TOTAL'] / 3
scores_df

Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERGE
홍길동,80,90,80,250,83.333333
임꺽정,90,80,90,260,86.666667
장길산,75,70,85,230,76.666667


In [25]:
scores_df[[True,False,True]]
scores_df

Unnamed: 0,KOR,ENG,MATH,TOTAL,AVERGE
홍길동,80,90,80,250,83.333333
임꺽정,90,80,90,260,86.666667
장길산,75,70,85,230,76.666667


In [27]:
cond = scores_df['AVERAGE'] >= 80
cond

KeyError: 'AVERAGE'

In [29]:
# 데이터 임포트와 익스포트
thieces_df = pd.read_csv("./data/thieves.txt", sep="\t")

In [30]:
# read_csv는 기본으로 첫번째 행을 컬럼명으로 활용
# 첫뻔째 행이 컬럼이 아닐 경우 베제 해 줘야 한다
thieves_df2 = pd.read_csv("./data/thieves.txt", sep="\t", header=None)
# 첫행을 헤더로 사용하지 않음
thieves_df2

Unnamed: 0,0,1,2
0,홍길동,175.8,73.2
1,전우치,170.2,66.3
2,임꺽정,186.7,88.2
3,장길산,188.3,90.0


In [31]:
# 특정 열을 인덱스로 사용하고자 할 경우: index_col
thieves_df3 = pd.read_csv("./data/thieves.txt", sep="\t",
                         header= None, index_col=0)
thieves_df3

Unnamed: 0_level_0,1,2
0,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,175.8,73.2
전우치,170.2,66.3
임꺽정,186.7,88.2
장길산,188.3,90.0


In [32]:
# 컬럼의 확인
print(thieves_df3.columns)
# 컬럼 명의 변경
thieves_df3.columns = ['Height','weight']
thieves_df3

Int64Index([1, 2], dtype='int64')


Unnamed: 0_level_0,Height,weight
0,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,175.8,73.2
전우치,170.2,66.3
임꺽정,186.7,88.2
장길산,188.3,90.0


In [33]:
# 인덱스 이름의 확인
print(thieves_df3.index.name)
# 인덱스 이름의 변경
thieves_df3.index.name = "Name"
thieves_df3

0


Unnamed: 0_level_0,Height,weight
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,175.8,73.2
전우치,170.2,66.3
임꺽정,186.7,88.2
장길산,188.3,90.0


In [36]:
# DataFrame 을 csv로 변환 저장 : to_csv
thieves_df3.to_csv("./data/thieves.csv")