** Pandas
- Handle data in a way suited to analysis
- Similar to R

can learn pandas from here
https://bitbucket.org/hrojas/learn-pandas


In [33]:
import pandas

### 1. Pandas - Series

Series는 array, list, column과 비슷한 1차원 오브젝트이다. 
디폴트 값으로서 0~N까지의 인덱스를 각 항목에 부여한다.

In [34]:
# Series 선언

series = pandas.Series(['Dave', 'Cheng-Han', 'Udacity', 42, -1789710578])
print(series)

0           Dave
1      Cheng-Han
2        Udacity
3             42
4    -1789710578
dtype: object


In [35]:
# Index를 다음과 같이 선언할 수도 있다.

series = pandas.Series(['Dave', 'Cheng-Han', 359, 9001], 
                       index=['Instructor', 'Curriculum Manager',
                              'Course Number', 'Power Level'])
print(series)

Instructor                 Dave
Curriculum Manager    Cheng-Han
Course Number               359
Power Level                9001
dtype: object


In [36]:
# Index로 특정 항목 뽑아내기 (1개인 경우, 여러 개인 경우)

series = pandas.Series(['Dave', 'Cheng-Han', 359, 9001],
                      index=['Instructor', 'Curriculum Manager',
                            'Course Number', 'Power Level'])
print(series['Instructor'])
print("")
print(series[['Instructor', 'Curriculum Manager', 'Course Number']])

Dave

Instructor                 Dave
Curriculum Manager    Cheng-Han
Course Number               359
dtype: object


In [37]:
# boolean operator로 Indexing하기

cuteness = pandas.Series([1,2,3,4,5], 
                        index=['Cockroach', 'Fish', 'Mini Pig', 'Puppy', 'Kitten'])

print(cuteness > 3)
print("")
print( cuteness[cuteness>3])


Cockroach    False
Fish         False
Mini Pig     False
Puppy         True
Kitten        True
dtype: bool

Puppy     4
Kitten    5
dtype: int64








### 2. Pandas - Dataframe

Dataframe을 만들기 위해서, '리스트로 구성된 딕셔너리'를 인자로 넣어준다.

그렇게 하면,
1. 딕셔너리의 키는 열 이름이 된다.
2. 키에 해당하는 리스트는 그 열의 값들이 된다.



In [38]:
data = {'year' : [2010, 2011, 2012, 2011, 2012, 2010, 2011, 2012],
       'team' : ['Bears', 'Bears', 'Bears', 'Packers', 'Packers', 'Lions', 'Lions', 'Lions'],
       'wins' : [11,8,10,15,11,6,10,4],
       'losses': [5,8,6,1,5,10,6,12]}

football = pandas.DataFrame(data)
print(football)

   losses     team  wins  year
0       5    Bears    11  2010
1       8    Bears     8  2011
2       6    Bears    10  2012
3       1  Packers    15  2011
4       5  Packers    11  2012
5      10    Lions     6  2010
6       6    Lions    10  2011
7      12    Lions     4  2012


In [44]:
print(football.dtypes)     # 각 열의 데이터 타입을 출력
print("")
print(football.describe()) # 수치형 열의 기초 통계량 출력
print("")
print(football.head())     # 데이터셋의 처음 N행 출력, 디폴트는 5행
print("")
print(football.tail())     # 데이터셋의 마지막 N행 출력


losses     int64
team      object
wins       int64
year       int64
dtype: object

          losses       wins         year
count   8.000000   8.000000     8.000000
mean    6.625000   9.375000  2011.125000
std     3.377975   3.377975     0.834523
min     1.000000   4.000000  2010.000000
25%     5.000000   7.500000  2010.750000
50%     6.000000  10.000000  2011.000000
75%     8.500000  11.000000  2012.000000
max    12.000000  15.000000  2012.000000

   losses     team  wins  year
0       5    Bears    11  2010
1       8    Bears     8  2011
2       6    Bears    10  2012
3       1  Packers    15  2011
4       5  Packers    11  2012

   losses     team  wins  year
3       1  Packers    15  2011
4       5  Packers    11  2012
5      10    Lions     6  2010
6       6    Lions    10  2011
7      12    Lions     4  2012


### 3. Series & Dfs

You can think of DataFrame as a group of Series that share an index.

Also,
1. Selecting a single column returns a Series
2. Selecting multiple columns returns a DataFrame

Series와 DataFrame은 아래와 같이 사용할 수 있다.

In [49]:
people = ['Sarah', 'Mike', 'Chrisna']
ages = [28, 32, 25]

# 1. Series와 DF 함께 사용
df = pandas.DataFrame({'name' : pandas.Series(people),
               'age' : pandas.Series(ages)})
print(df)


# 2. 그냥 DF만 사용
df = pandas.DataFrame({'name' : people,
               'age' : ages})
print(df)

   age     name
0   28    Sarah
1   32     Mike
2   25  Chrisna
   age     name
0   28    Sarah
1   32     Mike
2   25  Chrisna


In [111]:
## 주의, DataFrame은 Index를 자동으로 정렬하기 때문에 그 위치를 수동으로 바꿔줄 수 있다.

df = df[['name', 'age']]
df

Unnamed: 0,name,age
a,Braund,22
b,Cummings,38
c,Heikkinen,26
d,Allen,35


### 4. Indexing DFs

파이썬의 딕셔너리와 같은 원리로 호출할 수 있다.

In [72]:
d = {'name' : pandas.Series(['Braund', 'Cummings', 'Heikkinen', 'Allen'],
                    index = ['a', 'b', 'c', 'd']),
    'age' : pandas.Series([22,38,26,35], index = ['a', 'b', 'c', 'd']),
    'fare' : pandas.Series([7.25, 71.83, 8.05], index=['a', 'b', 'd']),
    'survived?': pandas.Series([False, True, True, False], index=['a','b','c','d'])}

df = pandas.DataFrame(d)

In [86]:
#1. Column Indexing

df['name'] 
    # Same as df.name

a       Braund
b     Cummings
c    Heikkinen
d        Allen
Name: name, dtype: object

In [77]:
df[['name', 'age']]

Unnamed: 0,name,age
a,Braund,22
b,Cummings,38
c,Heikkinen,26
d,Allen,35


In [101]:
#2. Row Indexing

print(df[1:4])     # Through Indices
print("")
print(df.loc['a']) # Through named indices


   age   fare       name  survived?
b   38  71.83   Cummings       True
c   26    NaN  Heikkinen       True
d   35   8.05      Allen      False

age              22
fare           7.25
name         Braund
survived?     False
Name: a, dtype: object


In [107]:
# Column의 조건에 따라 모든 Column 출력

df[df['age'] >= 30]

Unnamed: 0,age,fare,name,survived?
b,38,71.83,Cummings,True
d,35,8.05,Allen,False


In [108]:
# Column의 여러 조건에 따라 모든 Column 출력

df[ (df.age >=30) & (df['survived?'] == True) ]

Unnamed: 0,age,fare,name,survived?
b,38,71.83,Cummings,True


In [109]:
# Column의 조건에 맞는, 특정 Column만 출력

df['survived?'][df['age'] >= 30]

b     True
d    False
Name: survived?, dtype: bool

In [1]:
# numpy.roll(numpyarray, number)  
# DataFrame.shift(number)