# Pandas Series

In [1]:
import pandas as pd

a = pd.Series([1, 2, 3, 4, 5])
print(a.values)
print(a.index)
'''
Series : index만 존재하는 자료구조
DataFrame : index와 column 둘 다 존재하는 자료구조
'''

[1 2 3 4 5]
RangeIndex(start=0, stop=5, step=1)


'\nSeries : index만 존재하는 자료구조\nDataFrame : index와 column 둘 다 존재하는 자료구조\n'

In [None]:
pd.Series({'a' : 1, 'b' : 2})
#사전형 자료에서 key는 index로, value는 실제 자료로 넘겨줌

a    1
b    2
dtype: int64

In [None]:
pd.Series('123')

0    123
dtype: object

In [None]:
import numpy as np
pd.Series({'a' : 'abc', 'b': np.arange(1, 5)})


a             abc
b    [1, 2, 3, 4]
dtype: object

In [None]:
a = pd.Series([1, 2, 3], index = range(3))
print(a)
print(a[1]) #값 출력
print('-'*20)
print(a[0:1]) #한 행을 출력

0    1
1    2
2    3
dtype: int64
2
--------------------
0    1
dtype: int64


In [None]:
a[1] = None
a

0    1.0
1    NaN
2    3.0
dtype: float64

In [None]:
print(type(np.nan))
print(type(None))
#np.nan은 float, None은 따로 자료형이 있음
#그러나 Series로 출력할 때엔 똑같은 nan

<class 'float'>
<class 'NoneType'>


In [None]:
print(a)
a.astype('int') #Series에서는 astype를 쓸 수 없음!
print(a)

0    1.0
1    NaN
2    3.0
dtype: float64


IntCastingNaNError: ignored

In [None]:
a = a.fillna(0)
a.astype('int')

0    1
1    0
2    3
dtype: int64

In [None]:
b = pd.Series([11, 28, 72], index = range(1, 6, 2))
print(b)
print(b[1:3])

1    11
3    28
5    72
dtype: int64
3    28
5    72
dtype: int64


### ndarray vs series

In [None]:
a1 = np.array([np.nan, 2, 1])
a2 = np.array([None, 2, 1])
print(a1)
print(a2)

[nan  2.  1.]
[None 2 1]


### 문자열 indexing, slicing

In [None]:
a1 = pd.Series([11, 28, 72], index = list('abc'))
print(a1)
print(a1[0])   #index number로도 값 출력 가능
print(a1['a']) #index value로 값 출력 가능 
print(a1[0:1]) #index number로 슬라이싱하면 end-1까지
print(a1['a':'b']) #index value로 슬라이싱하면 end까지

a    11
b    28
c    72
dtype: int64
11
11
a    11
dtype: int64
a    11
b    28
dtype: int64


In [None]:
a1.index = ['c', 'b', 'a']
print(a1)
print(a1['c':'b'])
print(a1[1::-1])

c    11
b    28
a    72
dtype: int64
c    11
b    28
dtype: int64
b    28
c    11
dtype: int64


### Fancy Indexing

In [None]:
a2 = pd.Series([11, 28, 72], index = ['a', 'b', 'b'])
print(a2)
print(a2['b'])

a    11
b    28
b    72
dtype: int64
b    28
b    72
dtype: int64


# Pandas DataFrame
## Lecture 1

In [None]:
import pandas as pd
data = pd.DataFrame( {'state' : ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
                      'year' : [2000, 2001, 2002, 2001, 2002],
                      'pop' : [1.5, 1.7, 3.6, 2.4, 2.9]}, 
                    index = range(1, 6))
data

Unnamed: 0,state,year,pop
1,Ohio,2000,1.5
2,Ohio,2001,1.7
3,Ohio,2002,3.6
4,Nevada,2001,2.4
5,Nevada,2002,2.9


In [None]:
a = pd.DataFrame(data, columns = ['state', 'year', 'pop', 'd'],
                 index = [1, 2, 3, 4, 5])
a['d'] = [5, 4, 3, 2, 1]
a

Unnamed: 0,state,year,pop,d
1,Ohio,2000,1.5,5
2,Ohio,2001,1.7,4
3,Ohio,2002,3.6,3
4,Nevada,2001,2.4,2
5,Nevada,2002,2.9,1


In [None]:
#column의 값 전체를 바꾸고 싶을 경우
a.d = 7
a

Unnamed: 0,state,year,pop,d
1,Ohio,2000,1.5,7
2,Ohio,2001,1.7,7
3,Ohio,2002,3.6,7
4,Nevada,2001,2.4,7
5,Nevada,2002,2.9,7


In [None]:
a['d'] = range(5)
a

Unnamed: 0,state,year,pop,d
1,Ohio,2000,1.5,0
2,Ohio,2001,1.7,1
3,Ohio,2002,3.6,2
4,Nevada,2001,2.4,3
5,Nevada,2002,2.9,4


### ** 선택적으로 column의 value를 바꾸는 방법

In [None]:
a['d'] = pd.Series([-1.2, -3, -2], index = [3, 4, 1])
a

Unnamed: 0,state,year,pop,d
1,Ohio,2000,1.5,-2.0
2,Ohio,2001,1.7,
3,Ohio,2002,3.6,-1.2
4,Nevada,2001,2.4,-3.0
5,Nevada,2002,2.9,


### column의 값을 복사해서 쓰는 방법

In [None]:
a['east'] = a.d
a

Unnamed: 0,state,year,pop,d,east
1,Ohio,2000,1.5,-2.0,-2.0
2,Ohio,2001,1.7,,
3,Ohio,2002,3.6,-1.2,-1.2
4,Nevada,2001,2.4,-3.0,-3.0
5,Nevada,2002,2.9,,


In [None]:
#column을 바꾸는 방법

del a['east']
a

Unnamed: 0,state,year,pop,d
1,Ohio,2000,1.5,-2.0
2,Ohio,2001,1.7,
3,Ohio,2002,3.6,-1.2
4,Nevada,2001,2.4,-3.0
5,Nevada,2002,2.9,


### Exercise 1

In [None]:
k = pd.DataFrame({'Nevada' : [2.4, 2.9, None], 'Ohio' : [3.2, 2.1, 1.9]}, 
                 index = [2001, 2003, 2002])
k

Unnamed: 0,Nevada,Ohio
2001,2.4,3.2
2003,2.9,2.1
2002,,1.9


In [None]:
k['Utah'] = [3.3, 3.1, 3.2]
k

Unnamed: 0,Nevada,Ohio,Utah
2001,2.4,3.2,3.3
2003,2.9,2.1,3.1
2002,,1.9,3.2


### 사전을 이용한 인덱스 설정

In [None]:
import pandas as pd
v = pd.DataFrame({'Nevada' : {2001 : 2.4, 2003 : 2.9}, 
              'Ohio' : {2003 : 2.1, 2002 : 1.9, 2001 : 3.2}})
print(v)
'''
{column 이름 : {인덱스 이름 : Value}} 순으로 붙여지게 됨
이때 index의 순서는 맨 처음 선언한 사전의 순서를 따라감
'''

      Nevada  Ohio
2001     2.4   3.2
2003     2.9   2.1
2002     NaN   1.9


'\n{column 이름 : {인덱스 이름 : Value}} 순으로 붙여지게 됨\n이때 index의 순서는 맨 처음 선언한 사전의 순서를 따라감\n'

In [None]:
#생성된 DataFrame Slicing
pd.DataFrame(k, columns = ['Utah', 'Nevada'])

Unnamed: 0,Utah,Nevada
2001,3.3,2.4
2003,3.1,2.9
2002,3.2,


In [None]:
pd.DataFrame(k, index = [2003, 2002])

Unnamed: 0,Nevada,Ohio,Utah
2003,2.9,2.1,3.1
2002,,1.9,3.2


In [None]:
#Transpose of DataFrame
k.T

Unnamed: 0,2001,2003,2002
Nevada,2.4,2.9,
Ohio,3.2,2.1,1.9
Utah,3.3,3.1,3.2


In [None]:
k.index

Int64Index([2001, 2003, 2002], dtype='int64')

In [None]:
k.columns

Index(['Nevada', 'Ohio', 'Utah'], dtype='object')

In [None]:
k.values

array([[2.4, 3.2, 3.3],
       [2.9, 2.1, 3.1],
       [nan, 1.9, 3.2]])

In [None]:
# column들에 대한 이름 생성
k.columns.name = 'state'
k

state,Nevada,Ohio,Utah
2001,2.4,3.2,3.3
2003,2.9,2.1,3.1
2002,,1.9,3.2


In [None]:
# index들에 대한 이름 생성
k.index.name = 'year'
k

state,Nevada,Ohio,Utah
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2001,2.4,3.2,3.3
2003,2.9,2.1,3.1
2002,,1.9,3.2


## Lecture 2

In [None]:
a = [1, 2, 3]; b = [4, 5.0, 6]
c = [True, False, True]; d = ['A', 'AB', 'AC']
DF = pd.DataFrame([a, b, c, d])
print(DF)

#리스트를 DataFrame에 넣을 때엔 원소들 형태가 변하지 않음!! 

      0      1     2
0     1      2     3
1     4    5.0     6
2  True  False  True
3     A     AB    AC


In [None]:
#indexing을 하면 column 기준으로 출력이 됨
DF[1]

0        2
1      5.0
2    False
3       AB
Name: 1, dtype: object

In [None]:
#start:end 형태로 indexing을 하면 end-1까지 출력됨
DF[0:1]

Unnamed: 0,0,1,2
0,1,2,3


In [None]:
DF.columns = ['A', 'B', 'C']
DF.index = ['a', 'b', 'c', 'd']
DF

Unnamed: 0,A,B,C
a,1,2,3
b,4,5.0,6
c,True,False,True
d,A,AB,AC


In [None]:
DF['a':'b']

Unnamed: 0,A,B,C
a,1,2.0,3
b,4,5.0,6


In [None]:
DF = DF.T
DF

Unnamed: 0,A,B,C,D
a,1,4.0,True,A
b,2,5.0,False,AB
c,3,6.0,True,AC


In [None]:
DF = pd.DataFrame({'A' : a, 'B' : b, 'C' : c, 'D' : d}, index = list('abc'))
DF

Unnamed: 0,A,B,C,D
a,1,4.0,True,A
b,2,5.0,False,AB
c,3,6.0,True,AC


In [None]:
DF.A.dtype

dtype('int64')

In [None]:
#.loc : [index, column] 순으로 설정
DF.loc['b', 'A']

2

In [None]:
#.loc [s:e, s:e] -> start부터 end까지 설정 (end-1 아님!)
DF.loc['b':'c', 'A':'C']

Unnamed: 0,A,B,C
b,2,5.0,False
c,3,6.0,True


In [None]:
# .iloc -> [index 번호, column 번호]
DF.iloc[2, 3]

'AC'

In [None]:
# .iloc -> [start:end, start:end] -> end-1까지로 출력
DF.iloc[1:2, 1:3]

Unnamed: 0,B,C
b,5.0,False


In [None]:
DF.A

a    1
b    2
c    3
Name: A, dtype: int64

In [None]:
#DF.columnname[번호] -> 해당 번호의 값 출력
DF.A[0]

1

In [None]:
DF.A[0:2]

a    1
b    2
Name: A, dtype: int64

In [None]:
DF.A['a':'b']

a    1
b    2
Name: A, dtype: int64

### Exercise 1

In [None]:
import numpy as np

a = [1, 2, 1, 2]
b = ['apple', 'apple', 'orange', 'orange']
c = [13, 15, 21, 12]

k = pd.DataFrame({'Month' : a, 'Fruits' : b, 'Ratio' : c}, 
                 index = np.arange(1, 5))
print(k)
k2 = k[['Ratio','Fruits']]
print(k2)

k3 = k.loc[:, ['Ratio', 'Fruits']]
print(k3)

k4 = k.iloc[:, -1:-3:-1]
print(k4)

   Month  Fruits  Ratio
1      1   apple     13
2      2   apple     15
3      1  orange     21
4      2  orange     12
   Ratio  Fruits
1     13   apple
2     15   apple
3     21  orange
4     12  orange
   Ratio  Fruits
1     13   apple
2     15   apple
3     21  orange
4     12  orange
   Ratio  Fruits
1     13   apple
2     15   apple
3     21  orange
4     12  orange


In [None]:
# 리스트를 이용한 DataFrame 만들기

a = [1, 'apple', 13]
b = [2, 'apple', 15]
c = [1, 'orange', 21]
d = [2, 'orange', 12]

df = pd.DataFrame([a, b, c, d], columns = ['Month', 'Fruits', 'Ratio'], 
                  index = range(1, 5))
df

Unnamed: 0,Month,Fruits,Ratio
1,1,apple,13
2,2,apple,15
3,1,orange,21
4,2,orange,12


### Exercise 2

In [None]:
df2 = df
df2.index = ['one', 'two', 'three', 'four']
df2.loc[ :, ['Ratio', 'Fruits']]
#.loc[index, columns] -> columns는 뽑고자 하는 부분 리스트 형태로 지정

Unnamed: 0,Ratio,Fruits
one,13,apple
two,15,apple
three,21,orange
four,12,orange


### Lecture 3

In [None]:
a = pd.Series(np.arange(5), index = list('abcde'))
print(a)
del a['a']
print(a)
print(a.drop('c'))
print(a.drop(['d', 'e']))

a    0
b    1
c    2
d    3
e    4
dtype: int64
b    1
c    2
d    3
e    4
dtype: int64
b    1
d    3
e    4
dtype: int64
b    1
c    2
dtype: int64


In [None]:
b = pd.DataFrame(np.arange(16).reshape(4, 4),
                 index = list('abcd'),
                 columns = list('abcd'.upper()))
print(b)
print(b.drop(['A', 'C'], axis = 1))
print(b.drop(['a', 'c']))

    A   B   C   D
a   0   1   2   3
b   4   5   6   7
c   8   9  10  11
d  12  13  14  15
    B   D
a   1   3
b   5   7
c   9  11
d  13  15
    A   B   C   D
b   4   5   6   7
d  12  13  14  15


In [None]:
a = [3., 1, 8, 12]
b = [2., 0, 9, 13]
c = [7, 5, 3, 1]
d = [6, 4, 2, 0]

k = pd.DataFrame({'A' : a, 'B' : b, 'C' : c, 'D' : d}, 
                 index = list('abcd'))
k = pd.concat([k[:2], k[:2]], axis = 0)
print(k)

     A    B  C  D
a  3.0  2.0  7  6
b  1.0  0.0  5  4
a  3.0  2.0  7  6
b  1.0  0.0  5  4


In [None]:
k.A.sort_values()

b    1.0
b    1.0
a    3.0
a    3.0
Name: A, dtype: float64

In [None]:
k.sort_index()

Unnamed: 0,A,B,C,D
a,3.0,2.0,7,6
a,3.0,2.0,7,6
b,1.0,0.0,5,4
b,1.0,0.0,5,4
