# pandas 입문
  * 판다스에서 특히 기본 자료구조인 Series와 Data Frame에 대해서 다룹니다.
  * 빅 데이터 분석에 필요한 기본적인 부분에 대해서만 다루겠습니다.

In [1]:
# numpy와 pandas 둘 다 import해줍니다.
import numpy as np
import pandas as pd

In [2]:
# Series 정의하기
a = pd.Series([1,2,3,4])
a

0    1
1    2
2    3
3    4
dtype: int64

In [3]:
a.values

array([1, 2, 3, 4])

In [4]:
a.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
a.dtypes

dtype('int64')

In [6]:
# Series를 정의할 때, index를 설정해 줄 수 있습니다.
# array의 기본 인덱스인 0~(n-1)와 함께 사용이 가능합니다.
b = pd.Series([1,2,3,4], index=['a','b','c','d'])
b

a    1
b    2
c    3
d    4
dtype: int64

In [7]:
b[1] == b['b']

True

In [8]:
# 다만 아래와 같이 숫자로 index를 설정하게되면, 기존의 0~(n-1)까지의 index번호를 덮어씌우게 됩니다.
c = pd.Series([1,2,3,4], index=[2,3,4,5])

In [9]:
# c[0]등을 호출하면, 애러가 발생합니다.
c[3]

2

### 파이썬의 Dictionary자료형을 Series로 만들기

In [10]:
# dict의 key가 index가되고, 값들이 array에 들어갑니다.
dic1 = {'one':1,'Two':2,'Thr':3}
Ser1 = pd.Series(dic1)
Ser1

one    1
Two    2
Thr    3
dtype: int64

In [11]:
type(Ser1)

pandas.core.series.Series

In [12]:
# 이미 설정된 Series의 index를 변경할 수 있습니다.
Ser1.index = ['a','b','c']
Ser1

a    1
b    2
c    3
dtype: int64

## DataFrame
 * DataFrame은 직접 정의하는 방법과, 'Python의 dict' 또는 'Numpy의 array'로 정의된 값으로부터 정의하는 방법이 있습니다.

In [13]:
# 직접 값 정의
data = {'name': ['Beomwoo', 'Beomwoo', 'Beomwoo', 'Kim', 'Park'],
        'year': [2013, 2014, 2015, 2016, 2015],
        'points': [1.5, 1.7, 3.6, 2.4, 2.9]}

df = pd.DataFrame(data, columns=['year', 'name', 'points', 'penalty'],
                  index=['one', 'two', 'three', 'four', 'five'])
df

Unnamed: 0,year,name,points,penalty
one,2013,Beomwoo,1.5,
two,2014,Beomwoo,1.7,
three,2015,Beomwoo,3.6,
four,2016,Kim,2.4,
five,2015,Park,2.9,


In [14]:
# dict로 정의된 경우 DataFrame
data = {'name' : ['Young', 'Lee', 'Kim', 'Mike', 'Park'],
        'grade' : [4.5, 4.4, 3.8, 3, 2.5],
        'like' : [100, 98, 60, 70, 50]
       }   # key = name,grade,like    value = list()
df = pd.DataFrame(data)
df

Unnamed: 0,name,grade,like
0,Young,4.5,100
1,Lee,4.4,98
2,Kim,3.8,60
3,Mike,3.0,70
4,Park,2.5,50


In [15]:
# 행의 index
df.index

RangeIndex(start=0, stop=5, step=1)

In [16]:
# 열의 index(값)
df.columns

Index(['name', 'grade', 'like'], dtype='object')

In [17]:
# 값 출력하기
df.values

array([['Young', 4.5, 100],
       ['Lee', 4.4, 98],
       ['Kim', 3.8, 60],
       ['Mike', 3.0, 70],
       ['Park', 2.5, 50]], dtype=object)

In [18]:
# 인덱스 이름 설정하기
df.index.name = "Num"
df.columns.name = "User"
df

User,name,grade,like
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Young,4.5,100
1,Lee,4.4,98
2,Kim,3.8,60
3,Mike,3.0,70
4,Park,2.5,50


In [19]:
# DataFrame의 기본적인 계산값 출력
df.describe()

User,grade,like
count,5.0,5.0
mean,3.64,75.6
std,0.873499,22.512219
min,2.5,50.0
25%,3.0,60.0
50%,3.8,70.0
75%,4.4,98.0
max,4.5,100.0


In [20]:
# DataFrame에 새로운 열 추가하기
df['new'] = [1,2,3,4,5]
df

User,name,grade,like,new
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Young,4.5,100,1
1,Lee,4.4,98,2
2,Kim,3.8,60,3
3,Mike,3.0,70,4
4,Park,2.5,50,5


In [21]:
# DataFrame에 새로운 행 추가하기
df.loc['six'] = ["Kim", 2018, 3, 6]
df

User,name,grade,like,new
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Young,4.5,100,1
1,Lee,4.4,98,2
2,Kim,3.8,60,3
3,Mike,3.0,70,4
4,Park,2.5,50,5
six,Kim,2018.0,3,6


In [22]:
# 새로운 값으로 대입
df.loc[df['grade']>=3, "new"] = 10
df

User,name,grade,like,new
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Young,4.5,100,10
1,Lee,4.4,98,10
2,Kim,3.8,60,10
3,Mike,3.0,70,10
4,Park,2.5,50,5
six,Kim,2018.0,3,10


In [23]:
# Series 결합하기
# index값이 같은 경우, 해당 index에 맞게 들어갑니다. 
# index값이 없는 경우 애러가 발생합니다.
df['join'] = pd.Series([5,10,15], index=[0,2,4])
df

User,name,grade,like,new,join
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,Young,4.5,100,10,5.0
1,Lee,4.4,98,10,
2,Kim,3.8,60,10,10.0
3,Mike,3.0,70,10,
4,Park,2.5,50,5,15.0
six,Kim,2018.0,3,10,


In [24]:
# DataFrame의 열 삭제하기
del df['new']
del df['join']
df

User,name,grade,like
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Young,4.5,100
1,Lee,4.4,98
2,Kim,3.8,60
3,Mike,3.0,70
4,Park,2.5,50
six,Kim,2018.0,3


In [25]:
# Indexing
# numpy의 indexing과 거의 동일합니다.
data = {"names": ["Kilho", "Kilho", "Kilho", "Charles", "Charles"],
           "year": [2014, 2015, 2016, 2015, 2016],
           "points": [1.5, 1.7, 3.6, 2.4, 2.9]}
df = pd.DataFrame(data, index=["one", "two", "three", "four", "five"])
df

Unnamed: 0,names,year,points
one,Kilho,2014,1.5
two,Kilho,2015,1.7
three,Kilho,2016,3.6
four,Charles,2015,2.4
five,Charles,2016,2.9


In [26]:
df[2:4]

Unnamed: 0,names,year,points
three,Kilho,2016,3.6
four,Charles,2015,2.4


In [27]:
df["two":"four"]    # 숫자 인덱스를 사용하지 않을 경우, 지정한 값까지 출력합니다.

Unnamed: 0,names,year,points
two,Kilho,2015,1.7
three,Kilho,2016,3.6
four,Charles,2015,2.4


In [28]:
df.loc["two":"four"]    # 정해준 index값으로 호출할 경우

Unnamed: 0,names,year,points
two,Kilho,2015,1.7
three,Kilho,2016,3.6
four,Charles,2015,2.4


In [29]:
df.iloc[1:4]    # 정해준 index가 아닌 기존 DataFrame의 index에 의존

Unnamed: 0,names,year,points
two,Kilho,2015,1.7
three,Kilho,2016,3.6
four,Charles,2015,2.4


## 논리 계산

In [30]:
# 각종 논리식을 이용한 계산이 가능합니다.
df.loc[(df["year"]>2015) & (df['points']>3)]

Unnamed: 0,names,year,points
three,Kilho,2016,3.6


## NaN 제거하기
 * 크게 3가지 방법이 있습니다.<br>
   * NaN이 있는 행을 삭제
 
   * 행이 모두 NaN인 경우 삭제
 
   * NaN을 다른 값으로 대체

In [68]:
# 먼저 NaN이 있는지 확인하기
df = pd.DataFrame(np.random.randn(6,4))
df[2][2] = None
df[3][3] = None
df.isnull()   # 결과가 True인 곳이 NaN임을 알수있음

Unnamed: 0,0,1,2,3
0,False,False,False,False
1,False,False,False,False
2,False,False,True,False
3,False,False,False,True
4,False,False,False,False
5,False,False,False,False


In [50]:
# NaN이 있는 행 제거
df = pd.DataFrame(np.random.randn(6,4))
df[2][2] = None
df

Unnamed: 0,0,1,2,3
0,-0.902316,-1.502358,0.163633,1.453262
1,0.708025,-0.356025,-0.53672,-0.375609
2,0.694629,-0.898782,,0.024288
3,-0.830878,-0.715765,-1.608872,-0.651332
4,2.240212,1.582539,-0.138056,0.002765
5,0.072444,0.185076,0.998687,1.408332


In [51]:
df.dropna(how='any')

Unnamed: 0,0,1,2,3
0,-0.902316,-1.502358,0.163633,1.453262
1,0.708025,-0.356025,-0.53672,-0.375609
3,-0.830878,-0.715765,-1.608872,-0.651332
4,2.240212,1.582539,-0.138056,0.002765
5,0.072444,0.185076,0.998687,1.408332


In [64]:
# 모든 값이 NaN인 경우 제거
df = pd.DataFrame(np.random.randn(6,4))
df[3:4] = None
df[2][2] = None
df

Unnamed: 0,0,1,2,3
0,0.835581,1.211809,-0.956216,-0.521993
1,-2.588497,1.124982,-1.196107,1.696688
2,-0.515223,-0.522284,,-0.013683
3,,,,
4,-0.944356,0.512284,-1.109185,1.03768
5,-0.569436,0.22983,0.15398,1.705731


In [65]:
df.dropna(how="all")

Unnamed: 0,0,1,2,3
0,0.835581,1.211809,-0.956216,-0.521993
1,-2.588497,1.124982,-1.196107,1.696688
2,-0.515223,-0.522284,,-0.013683
4,-0.944356,0.512284,-1.109185,1.03768
5,-0.569436,0.22983,0.15398,1.705731


In [66]:
# 다른 값으로 대체
df = pd.DataFrame(np.random.randn(6,4))
df[2][2] = None
df

Unnamed: 0,0,1,2,3
0,-0.40753,-1.324697,-0.727746,0.011154
1,1.323121,1.030994,0.375149,0.277919
2,-0.365191,1.439038,,-0.744809
3,2.072184,0.757597,0.677053,0.034177
4,0.489308,-0.121135,-0.804408,1.101567
5,1.05092,1.92578,-0.037516,-0.926275


In [67]:
df.fillna(value=5)

Unnamed: 0,0,1,2,3
0,-0.40753,-1.324697,-0.727746,0.011154
1,1.323121,1.030994,0.375149,0.277919
2,-0.365191,1.439038,5.0,-0.744809
3,2.072184,0.757597,0.677053,0.034177
4,0.489308,-0.121135,-0.804408,1.101567
5,1.05092,1.92578,-0.037516,-0.926275
