![pandas](https://www.hanbit.co.kr/data/books/B6417848794_l.jpg)

https://wikidocs.net/32829

### 0. 판다스 시작하기

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### 1. pandas 데이터 구조 소개

#### Series

In [None]:
obj = pd.Series([4, 7, -5, 3])
obj

In [None]:
# obj.values
obj.index  #  range(4) 랑 같다. range가 들어가 있었구나!

In [None]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2
# obj2.index 를 유심히 보라. 1. 문자열도 들어갈 수가 있다. 2. 리스트로 되어 있다.


In [None]:
obj2[['c', 'a', 'd', 'd']] # 리스트가 인덱스 선택에 활용됐음을 확인해라

#### DataFrame

In [None]:
# 같은 길이의 리스트로 만들어진 딕셔너리를 이용하면 Series와 DataFrame을 생성할 수 있다.
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'Year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
frame

In [None]:
frame.tail(3)

In [None]:
# 만약 원하는 순서대로 columns를 지정하고 싶다면 columns를 지정해주면 된다.
pd.DataFrame(data, columns=['Year', 'state', 'pop'])

In [None]:
# index 값을 숫자로만 넣을 수 있다는 편견을 버리자.
# 없는 Key 값이 있으면 새로 만들고 값이 없으면 NaN으로 채운다.

frame2 = pd.DataFrame(data, columns=['Year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four',
                             'five', 'six'])
frame2

In [None]:
frame2.columns

In [None]:
frame2['state']
# frame2.Year  # 주석 없애고 이 코드도 실행시켜 보자.

In [None]:
# loc 의 사용 방법을 주목해라. 메소드를 사용하는 것이 아니라 속성처럼 사용한다.
# loc 는 index를 기준으로 값을 찾는다. 그래서 index가 없으면 에러가 난다.
frame2.loc['three']


In [None]:
# 냅다 값을 넣으면 해당 컬럼에 모든 값이 그 값으로 채워진다.
frame2['debt'] = 16.5
frame2

In [None]:
# 리스트나 배열을 넣으면 전체에 대입한다. 
frame2['debt'] = np.arange(6.)
frame2

In [None]:
# Series를 넣으면 index에 맞춰서 대입한다. 없는 index는 NaN으로 채운다.
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

In [None]:
# 조건 연산을 통해서 값을 집어 넣는 경우
frame2['eastern'] = frame2.state == 'Ohio'
frame2

In [None]:
del frame2['eastern']
frame2.columns

In [None]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [None]:
frame3 = pd.DataFrame(pop)
frame3

In [None]:
# transpose 로 행과 열을 바꿀 수 있다.
frame3.T

In [None]:
# index가 없는 값으로 만들면, NaN으로 채워진다. 
# 데이터에 다른 길이를 추가 했을 때와는 다른 상황이다.
pd.DataFrame(pop, index=[2001, 2002, 2003])

In [None]:
# 리스트 슬라이싱 하듯이 
pdata = {'Ohio': frame3['Ohio'][:-1],
         'Nevada': frame3['Nevada'][:2]}
pd.DataFrame(pdata)

In [None]:
# index와 columns에 이름을 붙일 수 있다.

frame3.index.name = 'year'
frame3.columns.name = 'state'
frame3

In [None]:
frame3.values

In [None]:
frame2.values

#### 인덱스(Index)

In [None]:
# 사실 index도 객체이다.
obj = pd.Series(range(3), index=['a', 'b', 'c'])
idx = obj.index
idx
# index 이름을 중복해서 쓸 수 있을까?

In [None]:
idx[1:]

In [None]:
idx[1] = 'd' 
# TypeError 발생. 에러 메시지에 주목하자.

In [None]:
# pd.Index를 이용하면 바로 index를 만들 수 있다.
labels = pd.Index(np.arange(3))
# labels = pd.Index(list(range(3)))
labels

In [None]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2

In [None]:
obj2.index is labels

### 2. 필수 기능들

In [None]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])
frame


In [None]:
# index는 mutable 하지 않았기 때문에, reindex 메소드를 사용해 줘야 한다.
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

In [None]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states) # 사실 columns과 index는 같은 건데, 위치에 따라 이름만 다르다.

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

In [None]:
# drop은 index를 기준으로 값을 지운다.
data.drop(['Colorado', 'Ohio'])

In [None]:
# column을 지우는 경우에는 axis=1을 넣어준다. 또는 columns를 넣어준다.
data.drop('two', axis=1)
data.drop(['two', 'four'], axis='columns')

In [None]:
# inplace=True를 넣어주면 원본이 바뀐다. 다시 할당 말자!!
data.drop('three',axis=1,inplace=True)
data

In [None]:
obj.drop('c', inplace=True)
obj

#### 선택, 필터링

In [None]:
obj = pd.Series(np.arange(4.), index=['a', 'c', 'b', 'd'])
obj

In [None]:
# index를 기준으로 정렬한다. 
obj['a':'b']

In [None]:
obj['a':'d'] = 5 
obj
# obj = pd.Series(np.arange(4.), index=['a', 'c', 'b', 'd'])

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

In [None]:
# column을 기준으로 선택할 때 리스트로 전달해줌 주의. (index는 겹괄호를 안해줬다. 데이터프레임이라 이렇다.)
data[['two', 'one']]

In [None]:
# row 기준으로 하는 조건 선택
data[data['two'] > 5]

In [None]:
data < 5

#### 산술 연산과 데이터 정렬

In [None]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=['a', 'c', 'e', 'f', 'g'])
print(s1)
print(s2)

In [None]:
# index가 같은 것끼리 연산을 수행한다. 
s1 + s2

In [None]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                   index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])
print(df1)
print(df2)

In [None]:
df1 + df2 # 1. index를 맞춰서 연산을 진행했다. 2. 정렬은 알파벳 순으로 다시 했다.

#### Apply, Map

In [None]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

In [None]:
# 드디어 나왔다. apply. 
# axis를 지정해주지 않으면 index를 기준으로 판단한다. 
# column이 같으면서 index가 다른 것들의 max, min 값. 즉, 열방향
frame.apply(lambda x: x.max() - x.min())

In [None]:
# index가 같으면서 column이 다른 것들의 max, min 값. 즉, 행방향
def f(x):
    return x.max() - x.min()
frame.apply(f, axis='columns')

In [None]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])
frame.apply(f)

#### 정렬과 랭킹 매기기

In [None]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj.sort_index()

In [None]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=['three', 'one'],
                     columns=['d', 'a', 'b', 'c'])
frame.sort_index()
frame.sort_index(axis=1)

In [None]:
frame.sort_index(axis=1, ascending=False)

In [None]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame


In [None]:
# 2개도 된다.
frame.sort_values(by=['a', 'b'])

#### 유니크, 빈도 세기

In [None]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [None]:
uniques = obj.unique()
uniques

In [None]:
obj.value_counts()

In [None]:
pd.value_counts(obj.values, sort=False)