## pandas

* NumPy 기반에서 개발
* DataFrame을 주로 다루기 위한 라이브러리
* Column, Row, Index 3개가 기본요소

Series, Dataframe 두 가지 자료구조를 사용함

##### Series

* 1차원 배열과 같은 자료구조
* values, index 속성을 가지고있음

In [5]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

Exam=Series([2,3,5,8,5,3,2,1,9,4],index=["A","B","C","D","E","F","G","H","I","J"])
b_Result=(Exam>=4) & (Exam<3)
print(b_Result)

A    False
B    False
C    False
D    False
E    False
F    False
G    False
H    False
I    False
J    False
dtype: bool


In [8]:
# 색인 값에 데이터값을 매핑하고 있음. dictionary 와 유사

dic={"kim":25, "lee":45, "cho":13}
Exam1=Series(dic)
Exam2=Series([58,65,22,75],index=["lee", "kang", "cho", "kim"])
print(Exam1, "\n\n", Exam2)

kim    25
lee    45
cho    13
dtype: int64 

 lee     58
kang    65
cho     22
kim     75
dtype: int64


##### pandas 자료구조

* isnull() : 결축값(NA) 여부 체크
* notnull() : 결축값이 아닌 값인지 여부 체크    

In [9]:
print("obj\n{0}\n".format(Exam1))
print("isnull(obj)\n{0}\n".format(pd.isnull(Exam1)))

obj
kim    25
lee    45
cho    13
dtype: int64

isnull(obj)
kim    False
lee    False
cho    False
dtype: bool



##### DataFrame

* 표와 같은 스프레드시트 형식의 자료구조
* 행(case), 열(variable) 에 대한 색인이 존재

In [13]:
data={"mid":[30,32,28,20,19], "hw":[10,9,8,7,10], "fin":[29,27,31,18,21], "gender":["M","F","M","F","M"]}

df=DataFrame(data,columns=["gender","hw","mid","fin"]) # 원하는 순서대로 열 배치
print("DataFrame\n{0}".format(df))
df=DataFrame(data,columns=["gender","hw","att","mid","fin"]) # 없는 열은 결축
print("DataFrame\n{0}".format(df))

DataFrame
  gender  hw  mid  fin
0      M  10   30   29
1      F   9   32   27
2      M   8   28   31
3      F   7   20   18
4      M  10   19   21
DataFrame
  gender  hw  att  mid  fin
0      M  10  NaN   30   29
1      F   9  NaN   32   27
2      M   8  NaN   28   31
3      F   7  NaN   20   18
4      M  10  NaN   19   21


In [16]:
arr=np.array([[3,5,7,2],[25,56,35,34],[45,76,86,79]])
Exam=DataFrame(arr.T,columns=["V1","V2","V3"],index=["A","B","C","D"])
Exam.ix["B"]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  This is separate from the ipykernel package so we can avoid doing imports until


V1     5
V2    56
V3    76
Name: B, dtype: int32

pandas 에서 행은 메소드를 이용하여 indexing, slicing

* ix[] : 행 색인으로 indexing, slicing (사라질 가능성 있음)
* loc[] : 행 색인으로 ...
* iloc[] : 행 인덱스로 ...

In [22]:
data={"mid":[30,32,28,20,19], "hw":[10,9,8,7,10], "fin":[29,27,31,18,21], "gender":["M","F","M","F","M"]}
df=DataFrame(data,index=[2017103,2018102,2017204,2019137,2018217])

print("행 색인 2017204\n{0}".format(df.ix[2017204]))
print("열 색인 2017204\n{0}".format(df.loc[2017204]))
print("행 인덱스 2017204\n{0}".format(df.iloc[2]))

행 색인 2017204
mid       28
hw         8
fin       31
gender     M
Name: 2017204, dtype: object
열 색인 2017204
mid       28
hw         8
fin       31
gender     M
Name: 2017204, dtype: object
행 인덱스 2017204
mid       28
hw         8
fin       31
gender     M
Name: 2017204, dtype: object


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  after removing the cwd from sys.path.


In [30]:
# DataFrame 과 Series 의 결합
# 색인을 기준으로 결합됨

data={"mid":[30,32,28,20,19], "hw":[10,9,8,7,10], "fin":[29,27,31,18,21], "gender":["M","F","M","F","M"]}
df=DataFrame(data,columns=["gender","hw","mid","fin"]) # 원하는 순서대로 열 배치
arr=np.array([[3,5,7,2],[25,56,35,34],[45,76,86,79]])

Exam=DataFrame(arr.T,columns=["V1","V2","V3"],index=["A","B","C","D"])
Gender=Series(["남","여","남","여"],index=["D","A","E","B"])
Exam["Gender"]=Gender # 색인 추가
Exam.T

Unnamed: 0,A,B,C,D
V1,3,5,7.0,2
V2,25,56,35.0,34
V3,45,76,86.0,79
Gender,여,여,,남


##### 재색인

새로운 색인에 맞도록 객체 새로 생성

* reindex() : 새로운 색인에 맞게 재배열, 없는 색인값은 진 값으로 추가
    
    * 순차적인 자료를 재색인할땐 메소드에서 
    
      "ffill" / "pad" : 앞의 값 채우기
      
      "bfill" / "packfill" : 뒤의 값 채우기

In [31]:
# 재색인

data={"mid":[30,32,28,20,19], "hw":[10,9,8,7,10], "fin":[29,27,31,18,21], "gender":["M","F","M","F","M"]}
df=DataFrame(data,columns=["gender","hw","mid","fin"]) # 원하는 순서대로 열 배치
arr=np.array([[3,5,7,2],[25,56,35,34],[45,76,86,79]])

Exam=DataFrame(arr.T,columns=["V1","V2","V3"],index=["A","B","C","D"])
Gender=Series(["남","여","남","여"],index=["D","A","E","B"])
Exam["Gender"]=Gender # 색인 추가
Exam.reindex(["C","A","B","F","D"])

Unnamed: 0,V1,V2,V3,Gender
C,7.0,35.0,86.0,
A,3.0,25.0,45.0,여
B,5.0,56.0,76.0,여
F,,,,
D,2.0,34.0,79.0,남


In [32]:
# ffill

data={"mid":[30,32,28,20,19], "hw":[10,9,8,7,10], "fin":[29,27,31,18,21], "gender":["M","F","M","F","M"]}
df=DataFrame(data,columns=["gender","hw","mid","fin"]) # 원하는 순서대로 열 배치
arr=np.array([[3,5,7,2],[25,56,35,34],[45,76,86,79]])

Exam=DataFrame(arr.T,columns=["V1","V2","V3"],index=["A","B","C","D"])
print(Exam)
Exam.reindex(["C","A","B","F","D"], method="ffill")

   V1  V2  V3
A   3  25  45
B   5  56  76
C   7  35  86
D   2  34  79


Unnamed: 0,V1,V2,V3
C,7,35,86
A,3,25,45
B,5,56,76
F,2,34,79
D,2,34,79


In [33]:
# bfill

data={"mid":[30,32,28,20,19], "hw":[10,9,8,7,10], "fin":[29,27,31,18,21], "gender":["M","F","M","F","M"]}
df=DataFrame(data,columns=["gender","hw","mid","fin"]) # 원하는 순서대로 열 배치
arr=np.array([[3,5,7,2],[25,56,35,34],[45,76,86,79]])

Exam=DataFrame(arr.T,columns=["V1","V2","V3"],index=["A","B","C","D"])
print(Exam)
Exam.reindex(["C","A","B","F","D"], method="bfill")

   V1  V2  V3
A   3  25  45
B   5  56  76
C   7  35  86
D   2  34  79


Unnamed: 0,V1,V2,V3
C,7.0,35.0,86.0
A,3.0,25.0,45.0
B,5.0,56.0,76.0
F,,,
D,2.0,34.0,79.0


In [46]:
x=np.random.rand(100)
gender=np.where(x>0.5,"M","F")
height=np.rint(np.random.normal(loc=175, scale=6, size=100))
weight=np.rint(np.random.normal(loc=68, scale=3, size=100))
DF=DataFrame(np.array([gender, height, weight]).T,columns=["gender","height","weight"])
DF
# 이렇게 하면, 100명의 랜덤한 신체정보 형성

Unnamed: 0,gender,height,weight
0,F,178.0,71.0
1,F,170.0,64.0
2,M,169.0,73.0
3,M,174.0,66.0
4,F,173.0,71.0
5,F,170.0,67.0
6,F,176.0,62.0
7,M,182.0,66.0
8,F,173.0,63.0
9,M,171.0,69.0


In [50]:
# 이중에서 10%는 학습용으로 쓰겠다

np.random.seed(12298)
rand_num=np.random.rand(100)
select=rand_num<0.9
np.sum(select)
trainDF=DF[select]
testDF=DF[~select]
print("train : \n{0}".format(trainDF))
print("test : \n{0}".format(testDF))

# 이렇게 하면 학습용 데이터 85개가 추출됨
# 나머지 15개는 테스트용 데이터로 쪼갤 수 있음

train : 
   gender height weight
1       F  170.0   64.0
2       M  169.0   73.0
3       M  174.0   66.0
4       F  173.0   71.0
6       F  176.0   62.0
8       F  173.0   63.0
9       M  171.0   69.0
10      M  174.0   73.0
11      F  174.0   66.0
12      M  178.0   70.0
13      M  182.0   69.0
15      F  179.0   61.0
16      F  173.0   67.0
17      M  173.0   70.0
18      F  170.0   65.0
19      M  174.0   68.0
20      M  185.0   71.0
21      M  184.0   73.0
22      F  166.0   65.0
23      F  177.0   66.0
24      F  170.0   68.0
25      F  183.0   63.0
26      F  175.0   67.0
27      F  179.0   65.0
28      F  177.0   69.0
29      F  191.0   71.0
30      F  180.0   77.0
31      F  172.0   65.0
32      F  175.0   69.0
33      F  178.0   62.0
..    ...    ...    ...
62      M  179.0   63.0
64      M  180.0   65.0
65      F  177.0   63.0
66      M  186.0   72.0
67      M  177.0   65.0
68      M  171.0   74.0
69      F  179.0   67.0
70      F  171.0   74.0
72      M  169.0   66.0
73     

In [109]:
np.random.seed(12298)
rand_num=np.random.rand(100)
select=rand_num<0.9
np.sum(select)
trainDF=DF[select]
testDF=DF[~select]
print("train : \n{0}".format(trainDF))
print("test : \n{0}".format(testDF))

# gender 값과 height 값을 비교하고 싶을 때
# DataFrame 새로운거 안에 담아두고 비교연산자를 쓰면 비교가능

NewData=DF[(DF.gender=="M") & (DF.height>=180)]

train : 
   gender  height  weight
1       M   176.0    66.0
2       M   173.0    70.0
3       F   184.0    73.0
4       F   183.0    67.0
6       F   180.0    68.0
8       M   176.0    69.0
9       M   172.0    66.0
10      F   168.0    65.0
11      F   180.0    68.0
12      M   163.0    63.0
13      M   195.0    66.0
15      F   171.0    71.0
16      F   173.0    65.0
17      F   173.0    63.0
18      F   185.0    64.0
19      F   174.0    70.0
20      F   174.0    66.0
21      M   180.0    68.0
22      F   170.0    64.0
23      F   177.0    68.0
24      F   171.0    68.0
25      F   183.0    68.0
26      F   175.0    64.0
27      F   186.0    71.0
28      F   181.0    71.0
29      F   172.0    70.0
30      M   168.0    70.0
31      M   181.0    65.0
32      F   169.0    71.0
33      F   178.0    68.0
..    ...     ...     ...
62      F   176.0    64.0
64      F   179.0    68.0
65      M   181.0    67.0
66      M   172.0    67.0
67      M   183.0    69.0
68      F   170.0    69.0
69 

In [54]:
# 위 예제에서 DataFrame 값을 array 로 만들어버리면 숫자를 문자로 인식함
# dictionary 형으로 만들면 숫자형이 value 로 들어가서 숫자 비교,연산 가능

x=np.random.rand(100)
gender=np.where(x>0.5,"M","F")
height=np.rint(np.random.normal(loc=175, scale=6, size=100))
weight=np.rint(np.random.normal(loc=68, scale=3, size=100))
DF=DataFrame({"gender":gender,"height":height,"weight":weight})
DF

Unnamed: 0,gender,height,weight
0,M,177.0,63.0
1,M,176.0,66.0
2,M,173.0,70.0
3,F,184.0,73.0
4,F,183.0,67.0
5,M,168.0,64.0
6,F,180.0,68.0
7,F,166.0,64.0
8,M,176.0,69.0
9,M,172.0,66.0


##### 산술연산과 데이터 정렬

* Series, DataFrame의 산술연산은 같은 색인을 기준으로 연산함
* 색인이 같은게 없으면 NaN

In [61]:
# 산술연산

Ex1=Series(np.random.binomial(n=100,p=0.6,size=6),index=["A","B","C","D","E","F"])
Ex2=Series(np.random.binomial(n=50,p=0.4,size=6),index=["B","C","A","D","F","E"])
print(Ex1,"\n", Ex2,"\n", Ex1+Ex2, "\n\n")

# 결축이 발생되면 0으로 채워넣기
print(Ex1.add(Ex2, fill_value=0))

A    60
B    62
C    58
D    62
E    67
F    56
dtype: int32 
 B    27
C    23
A    22
D    24
F    30
E    14
dtype: int32 
 A    82
B    89
C    81
D    86
E    81
F    86
dtype: int32 


A    82
B    89
C    81
D    86
E    81
F    86
dtype: int32


In [63]:
# DataFrame 과 Series 연산

data1={"att":[3,4,1],"mid":[15,10,12],"fin":[12,15,9]}
data2={"att":[2,5,3,2,1],"hw":[10,7,6,4,2],"mid":[15,12,9,10,7],"fin":[12,10,13,15,9]}
df1=DataFrame(data1, index=["st1", "st2", "st4"])
df2=DataFrame(data2, index=["st1", "st2", "st3", "st4", "st5"])
print("DataFrame 1\n{0}".format(df1))
print("DataFrame 2\n{0}".format(df2))

DataFrame 1
     att  mid  fin
st1    3   15   12
st2    4   10   15
st4    1   12    9
DataFrame 2
     att  hw  mid  fin
st1    2  10   15   12
st2    5   7   12   10
st3    3   6    9   13
st4    2   4   10   15
st5    1   2    7    9


In [67]:
s1=Series([5,3,10], index=["att", "hw", "etc"])
s2=Series([5,3,10], index=["st1", "st4", "st2"])
data1=DataFrame({"att":[3,4,1,2],"hw":[5,3,4,1],"mid":[15,10,12,16],"fin":[12,15,9,10]})
# print("Series 1\n{0}\n\nSeries 2\n{1}\n\nDataFrame\n{2}".format(s1,s2,df))
print(data1, "\n\n", s1, "\n\n", data1+s1)

   att  hw  mid  fin
0    3   5   15   12
1    4   3   10   15
2    1   4   12    9
3    2   1   16   10 

 att     5
hw      3
etc    10
dtype: int64 

    att  etc  fin   hw  mid
0  8.0  NaN  NaN  8.0  NaN
1  9.0  NaN  NaN  6.0  NaN
2  6.0  NaN  NaN  7.0  NaN
3  7.0  NaN  NaN  4.0  NaN


DataFrame 에서 행이나 열의 1차원 배열에 함수 적용할땐 apply 메소드 사용

In [73]:
# apply

s1=Series([5,3,10], index=["att", "hw", "etc"])
s2=Series([5,3,10], index=["st1", "st4", "st2"])
data1=DataFrame({"att":[3,4,1,2],"hw":[5,3,4,1],"mid":[15,10,12,16],"fin":[12,15,9,10]})
print(data1, "\n", data1.apply(np.sum,axis=1))
# axis 1 : 행별 합계, axis 0 :  열별 합계

   att  hw  mid  fin
0    3   5   15   12
1    4   3   10   15
2    1   4   12    9
3    2   1   16   10 
 0    35
1    32
2    26
3    29
dtype: int64


In [81]:
# 각각 행,열별 메소드 연산이 가능함

def f(x) :
    return Series([x.min(), x.max(), x.max()-x.min()], index=["최소","최대","범위"])
print("apply 메소드 각 열별 연산\n{0}\n".format(data1.apply(f)))

def f2(x) : # 팩토리얼값 계산
    fa=1
    for i in range(1,(x+1)) :
        fa*=i
    return fa
print("applymap 메소드 각 원소별 연산\n{0}".format(data1.applymap(f2)))

# 예를들어 제곱상수 구하고 싶을때, exp 메소드 쓰는데
# applymap(np.exp(f2) 이렇게 써도 되지만, 아래처럼 데이터프레임에 바로 써줘도 상관 없다.
np.exp(data1)

apply 메소드 각 열별 연산
    att  hw  mid  fin
최소    1   1   10    9
최대    4   5   16   15
범위    3   4    6    6

applymap 메소드 각 원소별 연산
   att   hw             mid            fin
0    6  120   1307674368000      479001600
1   24    6         3628800  1307674368000
2    1   24       479001600         362880
3    2    1  20922789888000        3628800


Unnamed: 0,att,hw,mid,fin
0,20.085537,148.413159,3269017.0,162754.8
1,54.59815,20.085537,22026.47,3269017.0
2,2.718282,54.59815,162754.8,8103.084
3,7.389056,2.718282,8886111.0,22026.47


##### 정렬과 순위

* sort_index() : 색인을 기준으로 자료 정렬 / axis 옵션으로 행,열 색인 선택
* sort_values() : 값을 기준으로 자료 정렬 / by 옵션으로 행,열 변수 선택
* rank() : 값을 기준으로 순위(오름차순)
    * ascending 옵션으로 오름/내림차순 선택
    
    * method 옵션으로 동률 처리 (average, min, max, first)
    * DataFrame은 axis 옵션으로 순위를 작성할 행/열 기준선택

In [85]:
# Series 에서의 정렬

s=Series([2.5, np.inf, 3.1, np.nan, 7.5], index=["case5","case3","case2","case3","case1"])
data={"att":[3,4,1,2],"hw":[5,3,4,1],"mid":[15,10,12,16],"fin":[12,15,9,10]}
df=DataFrame(data, index=["st3","st2","st4","st1"])
print("Series\n{0}\n\nDataFrame\n{1}".format(s,df))
# 결축, 무한수도 섞어서 series 를 만들었음

# 이걸 이용해서 색인정렬을 해보자
print("Series 색인 정렬\n{0}\n\n".format(s.sort_index(ascending=False))) # 내림차순
print("Series 값 정렬\n{0}\n\n".format(s.sort_values())) # 오름차순
print("Series 값 정렬\n{0}\n\n".format(s.sort_values(ascending=False))) # 내림차순

# 색인정렬 : Series 에서는 index 와 대응되는 value 가 같이 정렬됨
# 값정렬을 해도 연결된 index가 같이 정렬됨

Series
case5    2.5
case3    inf
case2    3.1
case3    NaN
case1    7.5
dtype: float64

DataFrame
     att  hw  mid  fin
st3    3   5   15   12
st2    4   3   10   15
st4    1   4   12    9
st1    2   1   16   10
Series 색인 정렬
case5    2.5
case3    inf
case3    NaN
case2    3.1
case1    7.5
dtype: float64


Series 값 정렬
case5    2.5
case2    3.1
case1    7.5
case3    inf
case3    NaN
dtype: float64


Series 값 정렬
case3    inf
case1    7.5
case2    3.1
case5    2.5
case3    NaN
dtype: float64




In [92]:
# DataFrame 에서의 정렬

print(df,"\n\n")
print("DataFrame 행 색인 정렬\n{0}\n\n".format(df.sort_index(ascending=False)))
print("DataFrame 열 색인 정렬\n{0}\n\n".format(df.sort_index(axis=1)))

# DataFrame 의 경우 전체 행/열이 같이 움직임

print("DataFrame fin 값 기준 정렬\n{0}\n\n".format(df.sort_values(by="fin")))
print("DataFrame fin, mid값 기준 정렬\n{0}\n\n".format(df.sort_values(by=["fin","mid"])))
# 정렬 기준변수가 두개 있는 경우, 첫번째 기준변수로 정렬 후 두번째 기준변수로 재정렬

     att  hw  mid  fin
st3    3   5   15   12
st2    4   3   10   15
st4    1   4   12    9
st1    2   1   16   10 


DataFrame 행 색인 정렬
     att  hw  mid  fin
st4    1   4   12    9
st3    3   5   15   12
st2    4   3   10   15
st1    2   1   16   10


DataFrame 열 색인 정렬
     att  fin  hw  mid
st3    3   12   5   15
st2    4   15   3   10
st4    1    9   4   12
st1    2   10   1   16


DataFrame fin 값 기준 정렬
     att  hw  mid  fin
st4    1   4   12    9
st1    2   1   16   10
st3    3   5   15   12
st2    4   3   10   15


DataFrame fin, mid값 기준 정렬
     att  hw  mid  fin
st4    1   4   12    9
st1    2   1   16   10
st3    3   5   15   12
st2    4   3   10   15




In [93]:
# rank 메소드 : 순위를 구해줌

print("Series 순위\n{0}\n\n".format(s.rank(ascending=False)))
print("DataFrame 열별 순위\n{0}\n\n".format(df.rank(method="max")))
print("DataFrame 행별 순위\n{0}\n\n".format(df.rank(axis=1, method="average")))

Series 순위
case5    4.0
case3    1.0
case2    3.0
case3    NaN
case1    2.0
dtype: float64


DataFrame 열별 순위
     att   hw  mid  fin
st3  3.0  4.0  3.0  3.0
st2  4.0  2.0  1.0  4.0
st4  1.0  3.0  2.0  1.0
st1  2.0  1.0  4.0  2.0


DataFrame 행별 순위
     att   hw  mid  fin
st3  1.0  2.0  4.0  3.0
st2  2.0  1.0  3.0  4.0
st4  1.0  2.0  4.0  3.0
st1  2.0  1.0  4.0  3.0




##### 중복색인

index.is_unique 속성 : 중복색인이 있는지 체크해줌

In [94]:
s=Series([2.5, np.inf, 3.1, np.nan, 7.5], index=["case5","case3","case2","case3","case1"])
data={"att":[3,4,1,2],"hw":[5,3,4,1],"mid":[15,10,12,16],"fin":[12,15,9,10]}
df=DataFrame(data, index=["st3","st2","st4","st1"])
print("Series\n{0}\n\nDataFrame\n{1}".format(s,df))

# 중복색인 체크
print("Series 같은 색인\n{0}\n\n".format(s.index.is_unique))
print("DataFrame 같은 색인\n{0}\n\n".format(df.index.is_unique))

Series
case5    2.5
case3    inf
case2    3.1
case3    NaN
case1    7.5
dtype: float64

DataFrame
     att  hw  mid  fin
st3    3   5   15   12
st2    4   3   10   15
st4    1   4   12    9
st1    2   1   16   10
Series 같은 색인
False


DataFrame 같은 색인
True




##### 기술통계 계산과 요약

* count() : NA를 제외한 값의 갯수
* describe() : Series나 DataFrame의 각 열별 요약통계량
* min(), max()
* argmin(), argmax() : 최소최대의 index 반환
* idxmin(), idxmax() : 최소최대가 있는 index의 색인 반환
* quantile() : 분위수 반환
    * 분위수 : 0-1사이 값에 대해 100p%, 0.5p면 50%
    * 4분위수 : 25%, 50%, 75%, 100%
* sum()
* mean() : 평균
* median() : 중앙값 
    * 평균과 달리, 큰 순서대로 정렬후 가장 가운데 값 1개를 추출하는것
* mad() : 절대 평균편차
    * 평균과 개별 데이터간의 차이의 평균
* var() : 표본분산


* std() : 표본표준편차
* skew() : 비대칭도 왜도
    * 실수값 확률변수의 확률분포 비대칭성을 나타냄. 평균=중앙값이면, 왜도는 0
* kurt() : 첨도
    * 분포 꼬리부분길이랑 중앙부분 뾰족한데에 대한거임. 정규분포는 그럼 0
* cumsum() : 누적합
* cummin(), cummax() : 누적최대최소
* cumprod() : 누적곱
* diff() : 1차 차분
    * 차분 : 현시점 자료에서 이전시점 자료를 빼는 것
    * 보통 유가, 주가, 시차 뭐 이런데서 씀
* pct_change() : 퍼센트 변화율

> 해당 메소드의 공통 옵션

* axis
* skipna : 누락값 제외할건지 선택
* level : 계산하려는 축이 다중색인이면 레벨에 따라 묶어서 계산


In [106]:
s=Series([2.5, np.inf, 3.1, np.nan, 7.5], index=["case5","case3","case2","case3","case1"])

print("Series 평균(결축제외) : {0}\n\n".format(s.mean()))
print("Series 평균(결축포함) : {0}\n\n".format(s.mean(skipna=False)))
print("DataFrame 평균(결축제외) : \n{0}\n\n".format(df.mean()))
print("DataFrame 평균(결축포함) : \n{0}\n\n".format(df.mean(skipna=False)))

Series 평균(결축제외) : inf


Series 평균(결축포함) : nan


DataFrame 평균(결축제외) : 
att     2.50
hw      3.25
mid    13.25
fin    11.50
dtype: float64


DataFrame 평균(결축포함) : 
att     2.50
hw      3.25
mid    13.25
fin    11.50
dtype: float64




In [101]:
print("DataFrame 열별 분위수(결축제외) : \n{0}\n\n".format(df.quantile(q=[0.1, 0.5])))
print("DataFrame 열별 표본표준편차(결축제외) : \n{0}\n\n".format(df.std()))
print("DataFrame 열별 누적최소값(결축제외) : \n{0}\n\n".format(df.cummin()))
print("DataFrame 열별 1차차분(결축제외) : \n{0}\n\n".format(df.diff()))

DataFrame 열별 분위수(결축제외) : 
     att   hw   mid   fin
0.1  1.3  1.6  10.6   9.3
0.5  2.5  3.5  13.5  11.0


DataFrame 열별 표본표준편차(결축제외) : 
att    1.290994
hw     1.707825
mid    2.753785
fin    2.645751
dtype: float64


DataFrame 열별 누적최소값(결축제외) : 
     att  hw  mid  fin
st3    3   5   15   12
st2    3   3   10   12
st4    1   3   10    9
st1    1   1   10    9


DataFrame 열별 1차차분(결축제외) : 
     att   hw  mid  fin
st3  NaN  NaN  NaN  NaN
st2  1.0 -2.0 -5.0  3.0
st4 -3.0  1.0  2.0 -6.0
st1  1.0 -3.0  4.0  1.0




In [99]:
# 일괄적으로 전부 다 구하고 싶을때는 describe() 사용

s=Series(["A","B","A","C","B","B",np.nan], index=["case1","case2","case3","case4","case5","case6","case7"])

print("Series 열별 기술통계(결축제외) : \n{0}\n\n".format(s.describe()))
print("DataFrame 열별 기술통계(결축제외) : \n{0}\n\n".format(df.describe()))

Series 열별 기술통계(결축제외) : 
count     6
unique    3
top       B
freq      3
dtype: object


DataFrame 열별 기술통계(결축제외) : 
            att        hw        mid        fin
count  4.000000  4.000000   4.000000   4.000000
mean   2.500000  3.250000  13.250000  11.500000
std    1.290994  1.707825   2.753785   2.645751
min    1.000000  1.000000  10.000000   9.000000
25%    1.750000  2.500000  11.500000   9.750000
50%    2.500000  3.500000  13.500000  11.000000
75%    3.250000  4.250000  15.250000  12.750000
max    4.000000  5.000000  16.000000  15.000000




In [108]:
np.random.seed(12298)
rand_num=np.random.rand(100)
select=rand_num<0.9
np.sum(select)
trainDF=DF[select]
testDF=DF[~select]
print("train : \n{0}".format(trainDF))
print("test : \n{0}".format(testDF))
NewData=DF[(DF.gender=="M") & (DF.height>=180)]

# 위에 테스트 했던 데이터프레임의 기술 통계량을 구해보자
DF.gender.describe()

train : 
   gender  height  weight
1       M   176.0    66.0
2       M   173.0    70.0
3       F   184.0    73.0
4       F   183.0    67.0
6       F   180.0    68.0
8       M   176.0    69.0
9       M   172.0    66.0
10      F   168.0    65.0
11      F   180.0    68.0
12      M   163.0    63.0
13      M   195.0    66.0
15      F   171.0    71.0
16      F   173.0    65.0
17      F   173.0    63.0
18      F   185.0    64.0
19      F   174.0    70.0
20      F   174.0    66.0
21      M   180.0    68.0
22      F   170.0    64.0
23      F   177.0    68.0
24      F   171.0    68.0
25      F   183.0    68.0
26      F   175.0    64.0
27      F   186.0    71.0
28      F   181.0    71.0
29      F   172.0    70.0
30      M   168.0    70.0
31      M   181.0    65.0
32      F   169.0    71.0
33      F   178.0    68.0
..    ...     ...     ...
62      F   176.0    64.0
64      F   179.0    68.0
65      M   181.0    67.0
66      M   172.0    67.0
67      M   183.0    69.0
68      F   170.0    69.0
69 

count     100
unique      2
top         F
freq       56
Name: gender, dtype: object