## Pandas를 활용한 데이터 다루기
### Series와 DataFrame
#### Series

In [1]:
# 패키지 불러오기
import pandas as pd
import numpy as np

In [2]:
# 1. object 에 리스트 객체 이용
obj=['이유리','최민준','김민지']
series_1=pd.Series(obj)
print(series_1)

0    이유리
1    최민준
2    김민지
dtype: object


In [3]:
# 원하는 인덱스 지정
idx=['A','B','C'] # 인덱스 리스트
series_2=pd.Series(obj,index=idx)   # 시리즈 생성
print(series_2)

A    이유리
B    최민준
C    김민지
dtype: object


In [5]:
# 2. object에 딕셔너리 객체 이용
obj={'A':'이유리','B':'최민준','C':'김민지'}    # 딕셔너리
series_3=pd.Series(obj)
print(series_3)

A    이유리
B    최민준
C    김민지
dtype: object


In [6]:
# 시리즈 정보 확인 메소드
# .values
# 시리즈 객체 내 값을 배열 형태로 반환
print(series_1.values)

['이유리' '최민준' '김민지']


In [9]:
# .index
# 시리즈객체 내 인덱스를 레이블 형태로 반환
print(series_1.index)

RangeIndex(start=0, stop=3, step=1)


In [10]:
# .dtypes
# 시리즈객체의 데이터 타입 확인
print(series_1.dtype)

object


In [11]:
# .size
# 시리즈객체의 총 객체수
print(series_1.size)

3


In [12]:
# 시리즈객체의 인덱스 변경
print(series_1.index)   # 변경전

RangeIndex(start=0, stop=3, step=1)


In [14]:
series_1.index=['A','B','C']    # 변경
print(series_1.index)   # 변경후

Index(['A', 'B', 'C'], dtype='object')


In [17]:
# 인덱싱, 슬라이싱
obj=[22,33,27,18,38,19] # 값리스트
idx=list('abcdef')
sr=pd.Series(obj,index=idx)
sr

a    22
b    33
c    27
d    18
e    38
f    19
dtype: int64

In [18]:
# 인덱싱
print(sr[4])    # 위치기반
print(sr['e'])  # 레이블기반

38
38


In [19]:
# 슬라이싱
print(sr[1:5])  # 위치기반
print(sr['b':'e'])  # 레이블기반

b    33
c    27
d    18
e    38
dtype: int64
b    33
c    27
d    18
e    38
dtype: int64


In [20]:
# 연속하지 않은 위치
idx=[0,3,4] # 위치의 번호를 담은 리스트
sr[idx]

a    22
d    18
e    38
dtype: int64

In [21]:
# 연속하지 않은 레이블
lbl=['a','d','e']   # 레이블을 담은 리스트
sr[lbl]

a    22
d    18
e    38
dtype: int64

In [22]:
sr_1=pd.Series(range(100))  # 시리즈생성

# describe()
# 시리즈객체의 요약 통계량에 대한 정보
# 총 객체수, 평균, 표준편차, 최솟값, 제1사분위수, 중앙값, 제3사분위수, 최댓값, 데이터타입
sr_1.describe()


count    100.000000
mean      49.500000
std       29.011492
min        0.000000
25%       24.750000
50%       49.500000
75%       74.250000
max       99.000000
dtype: float64

In [23]:
# .count()
# 시리즈의 총 객체수
print(sr_1.count())

100


In [24]:
# .mean()
# 시리즈객체의 평균
print(sr_1.mean())

49.5


In [25]:
# .var()
# 시리즈객체의 분산
print(sr_1.var())

841.6666666666666


In [26]:
# .std()
# 시리즈객체의 표준편차
print(sr_1.std())

29.011491975882016


In [27]:
# .min()
# 시리즈객체의 최솟값
print(sr_1.min())

0


In [28]:
# .max()
# 시리즈객체의 최댓값
print(sr_1.max())

99


In [29]:
# .median()
# 시리즈객체의 중앙값
print(sr_1.median())

49.5


In [30]:
# .quantile()
# 시리즈객체의 q*100% 백분위수
print(sr_1.quantile(q=0.25))    # 제 1사분위수

24.75


In [33]:
print(sr_1.quantile())  # default 중앙값

49.5


In [34]:
print(sr_1.quantile(q=0.75))    # 제 3사분위수

74.25


In [37]:
sr_2=pd.Series(['a','b','b','b','c','c','d'])   # 시리즈생성
sr_2.describe() # 총객채수, 유일값,최댓값,최빈값의 빈도

count     7
unique    4
top       b
freq      3
dtype: object

In [38]:
# .unique()
# 시리즈객체의 유일값을 1d-array 로 반환
print(sr_2.unique())

['a' 'b' 'c' 'd']


In [39]:
# .value_count()
# 시리즈 객체의 유일값별 빈도수를 시리즈로 반환
print(sr_2.value_counts())

b    3
c    2
a    1
d    1
Name: count, dtype: int64


In [40]:
# .mode()
# 시리즈객체의 최빈값을 시리즈로 반환
print(sr_2.mode())

0    b
dtype: object
