# [Pandas](https://pandas.pydata.org/docs/user_guide/index.html)

    - 데이터 처리와 분석을 위한 라이브러리

### 데이터구조

### Series

    - 1차원 데이터 객체
    키 값에 대응하는 Value(값)이 1개인 딕셔너리와 비슷하다

### DataFrame

    - 2차원 배열 형태의 데이터 구조
    행은 인덱스 열은 컬럼

In [1]:
import numpy as np
import pandas as pd

In [12]:
data = {'a':1 ,'b':2, 'c':2} # 딕셔너리

pd.Series(data=data, dtype=np.int16, name='dict')

a    1
b    2
c    2
Name: dict, dtype: int16

In [13]:
#스칼라 값인 경우 인덱스를 제공해야함
pd.Series(5.0, index = ['a','b','c','d','e'])

a    5.0
b    5.0
c    5.0
d    5.0
e    5.0
dtype: float64

In [2]:
data = {
    "one": pd.Series([1.0,2.0,3.0], index = ["a","b","c"]),
    "two": pd.Series([1.0,2.0,3.0,4.0], index=["a","b","c","d"]),
}

df = pd.DataFrame(data = data)
df

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


In [3]:
df.index, df.columns

(Index(['a', 'b', 'c', 'd'], dtype='object'),
 Index(['one', 'two'], dtype='object'))

In [5]:
data2 = [{"a":1, "b":3},{"a": 5, "b":7, "c":9}]
pd.DataFrame(data=data2)

Unnamed: 0,a,b,c
0,1,3,
1,5,7,9.0


In [6]:
pd.DataFrame(data=data2, index=["first", "second"]) 
#인덱스는 행이니까 행의 값이 바뀐걸 볼 수 있다. 

Unnamed: 0,a,b,c
first,1,3,
second,5,7,9.0


In [7]:
list("abc")

['a', 'b', 'c']

In [8]:
list(range(3))

[0, 1, 2]

In [11]:
ser = pd.Series(range(3), index=list("abc"), name="ser")
pd.DataFrame(ser)

Unnamed: 0,ser
a,0
b,1
c,2


In [16]:
#np.random.randn : 가우시안 정규분포 난수
s = pd.Series(data=np.random.randn(5), index = ['a','b','c','d','e'])
s

a    0.152866
b    0.322996
c    1.321412
d   -0.909416
e    0.783623
dtype: float64

In [17]:
s[s>s.median()], s.median() # 조건을 걸수 있다.

(c    1.321412
 e    0.783623
 dtype: float64,
 0.3229955812179177)

In [18]:
'a' in s #인덱스 안에 'a'가 있다면 True 아니면 False

True

In [19]:
s.get('t',np.nan) #값이 있으면 가져오고 없다면 값을 할당할 수 있음

nan

In [20]:
np.abs(s) #절대값

a    0.152866
b    0.322996
c    1.321412
d    0.909416
e    0.783623
dtype: float64

In [21]:
np.exp(s) #밑이 자연상수 e인 지수함수로 변환해 준다

a    1.165169
b    1.381259
c    3.748712
d    0.402760
e    2.189391
dtype: float64

In [22]:
s.to_numpy()

array([ 0.15286578,  0.32299558,  1.32141221, -0.9094156 ,  0.78362323])

### DataFrame.from_dict

    - 기본적으로 DataFrame함수와 동일하게 작동하지만 일부 차이가 있다
    orient라는 입력 변수를 가지며 columns을 기본값으로 둔다


In [23]:
data = {'col_1': [3,2,1,5], 'col_2' : ['a','b','c','d']}
pd.DataFrame.from_dict(data) #dict 개체로 부터 DataFrame 객체로 변환하는 매서드

Unnamed: 0,col_1,col_2
0,3,a
1,2,b
2,1,c
3,5,d


In [26]:
data = {'row_1': [3,2,1,0], 'row_2': ['a','b','c','d']}
df =pd.DataFrame.from_dict(data, orient = 'index', columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
row_1,3,2,1,0
row_2,a,b,c,d


In [27]:
df.to_dict()

{'A': {'row_1': 3, 'row_2': 'a'},
 'B': {'row_1': 2, 'row_2': 'b'},
 'C': {'row_1': 1, 'row_2': 'c'},
 'D': {'row_1': 0, 'row_2': 'd'}}

In [29]:
df.to_dict('series') #1차원 데이터 객체로 변한걸 알 수 있다

{'A': row_1    3
 row_2    a
 Name: A, dtype: object,
 'B': row_1    2
 row_2    b
 Name: B, dtype: object,
 'C': row_1    1
 row_2    c
 Name: C, dtype: object,
 'D': row_1    0
 row_2    d
 Name: D, dtype: object}

### 데이터 변환

### pd.DataFrame.to_parquet()

### pd.DataFrame.to_csv()

### pd.DataFrame.to_excel()
    -  그대로의 의미 엑셀로 변형

### pd.DataFrame.to_json()

In [31]:
df.to_dict('records') #json list 형식으로 반환하기 때문에 실무에서 자주 쓴다

[{'A': 3, 'B': 2, 'C': 1, 'D': 0}, {'A': 'a', 'B': 'b', 'C': 'c', 'D': 'd'}]

In [33]:
df.to_json() # 위의 코드와 동일한 역활을 하며 결과값에 세미 콜론이 있으니 문자열을 의미한다

'{"A":{"row_1":3,"row_2":"a"},"B":{"row_1":2,"row_2":"b"},"C":{"row_1":1,"row_2":"c"},"D":{"row_1":0,"row_2":"d"}}'

### 컬럼 선택, 추가, 삭제

In [42]:
data = {
    "one": pd.Series([1.0,2.0,3.0], index = ["a","b","c"]),
    "two": pd.Series([1.0,2.0,3.0,4.0], index=["a","b","c","d"]),
}

df = pd.DataFrame(data = data)
df

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


In [43]:
df['one']

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

In [44]:
df['three'] =df['one'] + df['two'] # Numpy 처럼 vector 끼리의 합이 가능하다
df

Unnamed: 0,one,two,three
a,1.0,1.0,2.0
b,2.0,2.0,4.0
c,3.0,3.0,6.0
d,,4.0,


In [45]:
df['flag'] =df['one'] >2
df

Unnamed: 0,one,two,three,flag
a,1.0,1.0,2.0,False
b,2.0,2.0,4.0,False
c,3.0,3.0,6.0,True
d,,4.0,,False


In [46]:
del df['two'] #columns의 삭제 가능, 단점이 데이터를 삭제하고 끝남 리턴이 없음
df

Unnamed: 0,one,three,flag
a,1.0,2.0,False
b,2.0,4.0,False
c,3.0,6.0,True
d,,,False


In [47]:
three = df.pop('three') #삭제하는 데이터를 리턴해서 따로 저장 할 수 도 있다
three

a    2.0
b    4.0
c    6.0
d    NaN
Name: three, dtype: float64

In [48]:
df['foo'] = 'bar' #문자열도 추가가능
df

Unnamed: 0,one,flag,foo
a,1.0,False,bar
b,2.0,False,bar
c,3.0,True,bar
d,,False,bar


In [50]:
df['one_truck'] = df['one'][:2]
df

Unnamed: 0,one,flag,foo,one_truck
a,1.0,False,bar,1.0
b,2.0,False,bar,2.0
c,3.0,True,bar,
d,,False,bar,


In [51]:
# insert를 사용하여 특정 위치의 열 추가
df.insert(1,'bar', df['one'])
df

Unnamed: 0,one,bar,flag,foo,one_truck
a,1.0,1.0,False,bar,1.0
b,2.0,2.0,False,bar,2.0
c,3.0,3.0,True,bar,
d,,,False,bar,


In [52]:
df['insert'] = df['one']
df.columns = ['one','insert','bar', 'flag', 'foo', 'one_trunc']

df
# insert를 가장 뒤에 추가하고 중간에 컬럼을 불러와서 바꿔주는 것도 가능하다

Unnamed: 0,one,insert,bar,flag,foo,one_trunc
a,1.0,1.0,False,bar,1.0,1.0
b,2.0,2.0,False,bar,2.0,2.0
c,3.0,3.0,True,bar,,3.0
d,,,False,bar,,


In [53]:
df.index, df.columns

(Index(['a', 'b', 'c', 'd'], dtype='object'),
 Index(['one', 'insert', 'bar', 'flag', 'foo', 'one_trunc'], dtype='object'))

### 데이터 선택

In [55]:
import seaborn as sns #데이터 시각화 라이브러리

iris =sns.load_dataset('iris')
iris.head()


#iris.tail()

# 말그대로 머리를 보여준다


#구글링 팁 'irir dataset' 이렇게 쳐보면 됨

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


### isin()

    - DataFrame 조건에 맞는 행을 가져올 수 있다

In [56]:
cond = iris['petal_length'].isin([1,4,1,3]) # isin -> 조건을 대는 것은 대부분 마스킹
iris[cond]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
22,4.6,3.6,1.0,0.2,setosa
53,5.5,2.3,4.0,1.3,versicolor
62,6.0,2.2,4.0,1.0,versicolor
71,6.1,2.8,4.0,1.3,versicolor
89,5.5,2.5,4.0,1.3,versicolor
92,5.8,2.6,4.0,1.2,versicolor
98,5.1,2.5,3.0,1.1,versicolor


In [57]:
cond = iris['petal_length'].isin([1.4,1.5,1.6])
iris[~cond] # -> ~ : not을 적용시킨것

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
2,4.7,3.2,1.3,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
13,4.3,3.0,1.1,0.1,setosa
14,5.8,4.0,1.2,0.2,setosa
16,5.4,3.9,1.3,0.4,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


### iloc

    - 데이터 프레임의 행이나 컬럼에 index(행)값으로 접근

    - interger location의 약어로, 컴퓨터가 읽을 수 있는 indexing 값으로 데이터를 접근한다

In [59]:
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [58]:
iris.iloc[0]

sepal_length       5.1
sepal_width        3.5
petal_length       1.4
petal_width        0.2
species         setosa
Name: 0, dtype: object

In [60]:
iris.iloc[[1,2,-1]] # -1은 마지막 행번호를 나타냄(loc에서는 사용할 수 없음)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
149,5.9,3.0,5.1,1.8,virginica


In [61]:
iris.iloc[[1,4],[1,2]]

Unnamed: 0,sepal_width,petal_length
1,3.0,1.4
4,3.6,1.4


### 행과 열 조회

### loc

    - 데이터 프레임의 행이나 컬럼에 label이나 boolean array로 접근한다

    - location의 약어로, 사람이 읽을 수 있는 label 값으로 데이터에 접근한다

In [62]:
iris.loc[:,['sepal_length', 'sepal_width']]

Unnamed: 0,sepal_length,sepal_width
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1
4,5.0,3.6
...,...,...
145,6.7,3.0
146,6.3,2.5
147,6.5,3.0
148,6.2,3.4


In [63]:
iris.loc[[1,2,3]]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa


### 마스킹을 이용한 다중조건

- &
    - 두개 모두 참이라면 True
- \
    - 하나라도 참이라면 True
- ~
    - 거짓이라면 True

In [64]:
mask1 = iris['sepal_length'] < 5.0
mask2 = iris['sepal_width'] > 3.0
mask = mask1 & mask2

iris.loc[mask].head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
6,4.6,3.4,1.4,0.3,setosa
9,4.9,3.1,1.5,0.1,setosa
11,4.8,3.4,1.6,0.2,setosa


In [65]:
mask1 = iris['sepal_length'] < 5.0
mask2 = iris['sepal_width'] > 3.0
mask = mask1 | mask2

iris.loc[mask].head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [66]:
mask1 = iris['sepal_length'] < 5.0
mask2 = iris['sepal_width'] > 3.0
mask = mask1 | mask2

iris.loc[~mask].head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
25,5.0,3.0,1.6,0.2,setosa
53,5.5,2.3,4.0,1.3,versicolor
54,6.5,2.8,4.6,1.5,versicolor
55,5.7,2.8,4.5,1.3,versicolor
58,6.6,2.9,4.6,1.3,versicolor


### 데이터 형식에 기반한 열 선택

In [67]:
iris.select_dtypes(include=np.number) #숫자만 

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [68]:
iris.select_dtypes(include='float64') #실수만

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [70]:
iris.select_dtypes(exclude=np.number) #빼고

Unnamed: 0,species
0,setosa
1,setosa
2,setosa
3,setosa
4,setosa
...,...
145,virginica
146,virginica
147,virginica
148,virginica
