#### padas

https://pandas.pydata.org/

**빅데이터 시대** 
- 데이터로 부터 유용한 정보를 뽑아내는 분석프로세스를 위해
- 데이터를 수집하고 정리하는 데 최적화된 도구

#### 판다스 자료 구조

- 분석을 위해 다양한 소스로 부터 수집하는 데이터는 형태나 속성이 매우 다양함
- 서로 다른 형식을 갖는 여러 종류의 데이터를 컴퓨터가 이해 할 수 있도록 동일한 형식을 갖는 구조로 통합 해야함
- **Series 와 Dataframe** 이라는 구조화된 데이터 형식을 제공
- 서로다른 여러가지 유형의 데이터를 공통의 포맷으로 정리하는 목적
- Dataframe : 행과 열로 이루어진 2차원 구조의 형태로 데이터 분석 실무에 자주 사용됨

### dictionary(딕셔너리)

- 딕셔너리 타입은 immutable한 키(key)와 mutable한 값(value)으로 맵핑되어 있는 순서가 없는 집합입니다.
- 값은 중복될 수 있지만, 키가 중복되면 마지막 값으로 덮어씌워집니다.
- 순서가 없기 때문에 인덱스로는 접근할수 없고, 키로 접근 할 수 있습니다.

###  시리즈(Series)

- 데이터가 순차적으로 나열된 1차우너 배열의 형태
- 인덱스(index)는 데이터값(value)와 일대일 대응
- 파이썬의 딕셔너리와 비슷한 구조



In [34]:
# 딕셔너리 => 시리즈 // pandas.Serises(딕셔너리)
import pandas as pd 
dict_data = {'a': 1, 'b': 2, 'c': 3}    # 딕셔너리
print(dict_data)
print()

sr = pd.Series(dict_data)   # 시리즈
print(sr)

{'a': 1, 'b': 2, 'c': 3}

a    1
b    2
c    3
dtype: int64


In [2]:
obj = pd.Series([4, 7, -5, 3])
print(obj)                      # 인덱스 지정안하면 0,1,2,3....으로 자동 지정

0    4
1    7
2   -5
3    3
dtype: int64


#### Series의 index / values
- Series객체.index : 인덱스 배열
- Series객체.values : 데이터값 배열

In [3]:
print(obj.values)
print(obj.index)

[ 4  7 -5  3]
RangeIndex(start=0, stop=4, step=1)


In [4]:
import pandas as pd
obj2 = pd.Series([4, 7, -5, 3], index= ['d', 'b', 'a', 'c'])        # 시리즈로 바꾸기
print(obj2)
print(obj2.index)

d    4
b    7
a   -5
c    3
dtype: int64
Index(['d', 'b', 'a', 'c'], dtype='object')


In [19]:
import pandas as pd
import numpy as np
list_A = np.array(list("abcdef"))
list_B = np.arange(10, 70, 10)
dict_data = {key: value for key, value in zip(list_A, list_B)}      # 리스트를 딕셔너리에 넣기
print(dict_data)
sr = pd.Series(dict_data)               # 시리즈로
print(sr)


{'a': 10, 'b': 20, 'c': 30, 'd': 40, 'e': 50, 'f': 60}
a    10
b    20
c    30
d    40
e    50
f    60
dtype: int64


In [13]:
import pandas as pd
import numpy as np
list_A = np.array(list("abcdef"))
list_B = np.arange(10, 70, 10)
sr = pd.Series(list_B, index= list_A)       # 시리즈 구성 요렇게 사용

for i in range(sr.size):
    key = sr.index[i]
    print("sr['{}'] : {} or sr[{}] : {}".format(key, sr[key], i, sr.values[i]))

print(sr.index[0], sr['a'], sr[0], sr.values[0])        # 접근방법

sr['a'] : 10 or sr[0] : 10
sr['b'] : 20 or sr[1] : 20
sr['c'] : 30 or sr[2] : 30
sr['d'] : 40 or sr[3] : 40
sr['e'] : 50 or sr[4] : 50
sr['f'] : 60 or sr[5] : 60
a 10 10 10


In [21]:
print(obj2)
print() 

print(obj2[obj2 > 0])
print()

print(np.exp(obj2))     # 지수함수
print()

print('b' in obj2)
print('e' in obj2)

d    4
b    7
a   -5
c    3
dtype: int64

d    4
b    7
c    3
dtype: int64

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64
True
False


In [219]:
sdata = {"Ohio": 35000, "Texas" : 71000, "Oregon" : 16000, "Utah" : 5000}   # {} : 딕셔너리
obj3 = pd.Series(sdata)
print(obj3)
print()

sdata = [35000, 71000, 16000, 5000]
states = ["Califormia", "Ohio", "Texas", "Oregon"]  # [] : 리스트
obj4 = pd.Series(sdata, index= states)              # 인덱스에 따라 value 추가
print(obj4)

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

Califormia    35000
Ohio          71000
Texas         16000
Oregon         5000
dtype: int64


In [35]:
import pandas as pd
print(pd.isnull(obj4))      # value 값이 비어있는지
print(pd.notnull(obj4))

Califormia     True
Ohio          False
Texas         False
Oregon        False
dtype: bool
Califormia    False
Ohio           True
Texas          True
Oregon         True
dtype: bool


In [39]:
print(obj3)
print()
print(obj4)
print()
print(obj3 + obj4)

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

Califormia        NaN
Ohio          35000.0
Texas         71000.0
Oregon        16000.0
dtype: float64

Califormia         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64


In [40]:
obj4.name = "population"
obj4.index.name = "state"
print(obj4)

state
Califormia        NaN
Ohio          35000.0
Texas         71000.0
Oregon        16000.0
Name: population, dtype: float64


#### 2. 데이터프레임(DataFrame)

- 2차원 배열
- R의 데이터 프레임에서 유래
- 엑셀, 관계형 DB등에서 사용됨
- 하나의 열이 각각의 Series객체임

In [221]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 'year': [2000, 2001, 2002, 2001, 2002, 2003], 'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}         
print(data)
print()

frame = pd.DataFrame(data)                    # 데이터 프레임
print(frame)

{'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 'year': [2000, 2001, 2002, 2001, 2002, 2003], 'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2


In [45]:
frame.head()        # 프레임 최초의 5개가 나와

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [51]:
pd.DataFrame(data, columns=["year", "state", "pop"])        # column 순서 변경

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [56]:
# row, column rename 
import pandas as pd
frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"], index=["one", "two", "three", "four", "five", "six"])
frame2


Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [82]:
frame2.rename(columns={"year": "YEA", "state":"STA", "pop":"POP","debt":"DEB"}, inplace=True)
frame2.rename(index={"one":"01", "two":"02"}, inplace=True)
frame2.head()

Unnamed: 0,YEA,STA,POP,DEB
01,2000,Ohio,1.5,
02,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [74]:
frame2["STA"]       # 데이터 프레임 열 접근

01         Ohio
02         Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: STA, dtype: object

In [83]:
frame2.YEA      # 데이터 프레임 열 접근

01       2000
02       2001
three    2002
four     2001
five     2002
six      2003
Name: YEA, dtype: int64

In [92]:
frame2.loc["three"] # 데이터 프레임 행 접근, loc(인덱스 이름)

YEA    2002
STA    Ohio
POP     3.6
DEB     NaN
Name: three, dtype: object

In [93]:
frame2.iloc[2]  # 데이터 프레임 행 접근, iloc(정수형 위치 인덱스)

YEA    2002
STA    Ohio
POP     3.6
DEB     NaN
Name: three, dtype: object

In [95]:
frame2["DEB"] = np.arange(6.)
frame2

Unnamed: 0,YEA,STA,POP,DEB
01,2000,Ohio,1.5,0.0
02,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


In [96]:
frame2["DEB"] = np.arange(1, 13, 2)
frame2

Unnamed: 0,YEA,STA,POP,DEB
01,2000,Ohio,1.5,1
02,2001,Ohio,1.7,3
three,2002,Ohio,3.6,5
four,2001,Nevada,2.4,7
five,2002,Nevada,2.9,9
six,2003,Nevada,3.2,11


In [98]:
val = pd.Series([-1.2, -1.5, -1.7], index=["02", "four", "six"])
frame2["DEB"] = val
frame2

Unnamed: 0,YEA,STA,POP,DEB
01,2000,Ohio,1.5,
02,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,-1.7


In [117]:
frame2["eastern"] = frame2.STA == "Ohio"
frame2

Unnamed: 0,YEA,STA,POP,DEB,bigStage,eastern
01,2000,Ohio,1.5,,False,True
02,2001,Ohio,1.7,-1.2,False,True
three,2002,Ohio,3.6,,True,True
four,2001,Nevada,2.4,-1.5,False,False
five,2002,Nevada,2.9,,False,False
six,2003,Nevada,3.2,-1.7,False,False


In [118]:
frame2["bigStage"] = (frame2.STA == "Ohio") & (frame2.POP > 3.0)
frame2

Unnamed: 0,YEA,STA,POP,DEB,bigStage,eastern
01,2000,Ohio,1.5,,False,True
02,2001,Ohio,1.7,-1.2,False,True
three,2002,Ohio,3.6,,True,True
four,2001,Nevada,2.4,-1.5,False,False
five,2002,Nevada,2.9,,False,False
six,2003,Nevada,3.2,-1.7,False,False


In [119]:
del frame2["eastern"]
frame2

Unnamed: 0,YEA,STA,POP,DEB,bigStage
01,2000,Ohio,1.5,,False
02,2001,Ohio,1.7,-1.2,False
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,,False
six,2003,Nevada,3.2,-1.7,False


In [120]:
del frame2["bigStage"]
frame2

Unnamed: 0,YEA,STA,POP,DEB
01,2000,Ohio,1.5,
02,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,-1.7


### 중첩된 딕셔너리

In [125]:

pop = {"Nevada": {2001: 2.4, 2002: 2.9},
       "Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6}}
pop

{'Nevada': {2001: 2.4, 2002: 2.9}, 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [124]:
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [126]:
frame3.T        # 데이터 프레임 전치

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


In [130]:
frame3 = pd.DataFrame(pop, index=[2001,2002,2003])
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [160]:
print(frame3.iloc[0,0])
print(frame3.iloc[0][0])
print()
print(frame3.iloc[0])
print() 

for i in range(frame3.index.size): 
    for j in range(frame3.iloc[i].size):
        print(frame3.iloc[i][j])

frame3["Ohio"][:-1]

2.4
2.4

Nevada    2.4
Ohio      1.7
Name: 2001, dtype: float64

2.4
1.7
2.9
3.6
nan
nan


2001    1.7
2002    3.6
Name: Ohio, dtype: float64

In [148]:
import pandas as pd
import seaborn as sns

titanic = sns.load_dataset('titanic')

In [161]:
titanic     # head(), tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [166]:
df = titanic.loc[:,["age","fare"]]
df

Unnamed: 0,age,fare
0,22.0,7.2500
1,38.0,71.2833
2,26.0,7.9250
3,35.0,53.1000
4,35.0,8.0500
...,...,...
886,27.0,13.0000
887,19.0,30.0000
888,,23.4500
889,26.0,30.0000


In [168]:
df_add10 = df+10
df_add10

Unnamed: 0,age,fare
0,32.0,17.2500
1,48.0,81.2833
2,36.0,17.9250
3,45.0,63.1000
4,45.0,18.0500
...,...,...
886,37.0,23.0000
887,29.0,40.0000
888,,33.4500
889,36.0,40.0000


In [169]:
print(type(df_add10))

<class 'pandas.core.frame.DataFrame'>


In [172]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
print(index)
value = obj.values
print(value)

Index(['a', 'b', 'c'], dtype='object')
[0 1 2]


In [180]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj2 = obj.reindex(['a', 'b', 'c', 'd'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
dtype: float64

In [182]:
obj3 = pd.Series(["blue", "purple", "yello"], index=[0,2,4])
obj3

0      blue
2    purple
4     yello
dtype: object

In [183]:
obj3.reindex(range(6), method="ffill")  # method="ffill" : 값을 채우다

0      blue
1      blue
2    purple
3    purple
4     yello
5     yello
dtype: object

In [4]:
import numpy as np 
import pandas as pd
frame = pd.DataFrame(np.arange(9).reshape((3,3)), index=['a', 'c', 'd'], columns=["Ohio", "Texas", "California"])
frame.reindex(['a', 'b', 'c', 'd'])
# 데이터 값이 다 NaN이면 값을 그 행을 없애는 듯

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [193]:
states = ["Texas", "Utah", "California"]
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [194]:
frame.loc[['a','c','d']]

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [200]:
obj = pd.Series(np.arange(5.), index=['a','b','c','d','e'])
new_obj = obj.drop(['c', 'e'])
new_obj

a    0.0
b    1.0
d    3.0
dtype: float64

In [225]:
data = pd.DataFrame(np.arange(16).reshape((4,4)), index= ["Ohio", "Colorado", "Utah", "New York"], columns= ["one", "two", "three", "four"])
data.drop(["Colorado", "Ohio"])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [226]:
data.drop("two", axis = 1)          # 열을 드랍 axis = 1  , 생략하면 axis = 0 으로 행 드랍
# data.drop("Ohio", axis="rows")

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [227]:
data3 = data.copy()
data3.drop("Ohio", inplace=True)            # 삭제 후 업데이트가 됨

In [224]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [230]:
print(obj['b'], obj[1]); print()
print(obj[2:4]); print()
print(obj[['b', 'c', 'd']]); print()

1.0 1.0

c    2.0
d    3.0
dtype: float64

b    1.0
c    2.0
d    3.0
dtype: float64



In [5]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)), index=['Ohio', 'Colorado', 'Utah', 'New York'], columns=['one', 'two', 'three', 'four'])
print(data); print()
data[:2]

one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
Utah        8    9     10    11
New York   12   13     14    15



Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [7]:
data[data["three"] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [287]:
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [288]:
data.loc["Colorado", ["two", "three"]]

two      5
three    6
Name: Colorado, dtype: int32

In [290]:
data.iloc[[1,2],[3,0,1]]    # 행:1,2  열: 3,0,1 추출

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


In [35]:
#data.iloc[:,:3][data.three >5]  # [data.three >5] : 범위를 지정 해놓고 조건 지정, 추가로 지정하고 싶을 경우 and나 or이용해
data.iloc[:][:3][data.three >5]  # iloc : 무조건 열 기준으로 생각  // 행관점으로 3번


Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11


In [248]:
ser = pd.Series(np.arange(3.))
ser[:1]; print()
print(ser.loc[:1]); print()
print(ser.iloc[:1])


0    0.0
1    1.0
dtype: float64

0    0.0
dtype: float64


In [256]:

frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
print(frame)
np.abs(frame)                           # 절대값            # np.random.randn : 평균 0 표준편차가 1인 가우시안 정규분포 난수 매트릭스 생성

b         d         e
Utah    1.142001  2.009045  0.509736
Ohio    0.405898 -0.566292  1.277798
Texas  -0.321906  2.274503 -0.728293
Oregon  0.419457  0.665028  1.140700


Unnamed: 0,b,d,e
Utah,1.142001,2.009045,0.509736
Ohio,0.405898,0.566292,1.277798
Texas,0.321906,2.274503,0.728293
Oregon,0.419457,0.665028,1.1407


In [257]:
f = lambda x:x.max()-x.min()       # apply() : 함수를 데이터 프레임에 적용
frame.apply(f)

b    1.463906
d    2.840796
e    2.006091
dtype: float64

In [260]:
frame.apply(f, axis= "columns")

Utah      1.499309
Ohio      1.844090
Texas     3.002797
Oregon    0.721243
dtype: float64

In [261]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])
frame.apply(f)

Unnamed: 0,b,d,e
min,-0.321906,-0.566292,-0.728293
max,1.142001,2.274503,1.277798


In [262]:
# sort
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj

d    0
a    1
b    2
c    3
dtype: int64

In [263]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [264]:
obj.sort_values()

d    0
a    1
b    2
c    3
dtype: int64

In [266]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'], columns=['d', 'a', 'b', 'c'])
frame.sort_index()              # 행을 정렬

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [267]:
frame.sort_index(axis=1)    # 열을 정렬 frame.sort_index(axis="columns") 

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [269]:
frame.sort_index(axis="columns", ascending=False)   # ascending = False : 역순으로  // default 는 ascending = True

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [270]:
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

In [272]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [273]:
frame.sort_values(by='b')   # b값을 기준으로 정렬

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [274]:
frame.sort_values(by=['a','b'])   # a, b값을 기준으로 정렬 // a, b 순서로

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


In [277]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()          # 값이 작은 순서로 순위(값이 같은 값이 n개 있다면 순위+0.5)

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [278]:
obj.rank(ascending=False, method="max")     # 큰거부터 랭크 (역순으로)

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [279]:
frame = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1], 'c': [-2, 5, 8, -2.5]})
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [280]:
frame.rank(axis="columns")      # 한 행에 있는 열 값을 기준으로 순서 매김

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


In [282]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])  # 인덱스 중복가능
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [283]:
obj.index.is_unique         # 인덱스가 고유한지

False

In [284]:
obj['a']

a    0
a    1
dtype: int64

In [285]:
df = pd.DataFrame(np.random.randn(4,3), index= ['a', 'a', 'b', 'b'])
df

Unnamed: 0,0,1,2
a,-0.666268,0.604181,-0.826547
a,0.394947,0.13515,-0.046029
b,-0.702782,0.603047,-0.772352
b,-0.962658,-0.46853,0.572211


In [286]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]], index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [291]:
df.sum()

one    9.25
two   -5.80
dtype: float64

In [292]:
df.sum(axis="columns")

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [293]:
df.mean()

one    3.083333
two   -2.900000
dtype: float64

In [294]:
df.mean(axis="columns", skipna=False)       # 값이 NaN이 아니라도 제외시키자 않을 수 있음 default는 TRUe

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [296]:
df.idxmax()

one    b
two    d
dtype: object

In [295]:
df.describe()   # nan을 제외한 최대 최소 등의 값 

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [297]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [300]:
### Unique Values, Value Counts, and Membership
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [301]:
obj.value_counts()

c    3
a    3
b    2
d    1
dtype: int64

In [303]:
mask = obj.isin(['b', 'b'])     # obj is in values
mask

0    False
1    False
2    False
3    False
4    False
5     True
6     True
7    False
8    False
dtype: bool

In [304]:
obj[mask]

5    b
6    b
dtype: object

In [305]:
to_match = pd.Series(['c', 'a', 'b', 'b', 'c', 'a'])
unique_vals = pd.Series(['c', 'b', 'a'])
pd.Index(unique_vals).get_indexer(to_match)         # unique_vals의 인덱스로부터 to_match와 값과 일치하는 인덱스 얻어라

array([0, 2, 1, 1, 0, 2], dtype=int64)

In [307]:
data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4],
                     'Qu2': [2, 3, 1, 2, 3],
                     'Qu3': [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [308]:
result = data.apply(pd.value_counts).fillna(0)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [309]:
'''
isin : Series의 각 원소가 넘겨받은 연속된 값에 속하는 지 나타내는 bool배열을 반환
match : 각 값에 대해 유일한 값을 담고 있는 배열에서의 정수 색인을 계산.
unique : Series에서 중복되는 값을 제거하고 유일한 값만 포함하는 배열을 반환
value_count : Series에서 유일값에 대한 색인과 두수를 계산 (도수는 내림차순)
'''

'\nisin : Series의 각 원소가 넘겨받은 연속된 값에 속하는 지 나타내는 bool배열을 반환\nmatch : 각 값에 대해 유일한 값을 담고 있는 배열에서의 정수 색인을 계산.\nunique : Series에서 중복되는 값을 제거하고 유일한 값만 포함하는 배열을 반환\nvalue_count : Series에서 유일값에 대한 색인과 두수를 계산 (도수는 내림차순)\n'