In [2]:
# pandas : 데이터 분석 조작에 유용한 파이썬 라이브러리 장점: 빠른 다차원 배열 계산
# Numpy : 수치연산 장점: 데이터 조작의 편리성
import pandas as pd 
import numpy as np

In [5]:
pd.__version__

'1.2.4'

In [28]:
# Serise : 인덱싱된 1차원 배열 

# 인덱스값을 따로 지정하지않으면 numpy와 같이 정수로 나타난다
ser = pd.Series([0.25, 0.5, 0.75, 1.0])
print(ser)

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64


In [29]:
# values : pandas 객체의 값들을 NumPy 배열로 변환
arr = ser.values
print(arr)
# index : 인덱스 값들을 반환 
ind = ser.index
print(ind)

[0.25 0.5  0.75 1.  ]
RangeIndex(start=0, stop=4, step=1)


In [39]:
ser = pd.Series([0.25, 0.5, 0.75, 1.0], index = ['a', 'b', 'c', 'd'])
print(ser)

print(ser['a'])

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64
0.25


In [40]:
# Dictionary : <Key : Value> 'word' : 설명
# Series : Key 역할을 하는 레이블 기반 인덱스를 사용 ser = pd.Series(dict)
population_dict = {'California': 38332521,  # 주를 Key 인구수를 Value
                  'Texas': 26448193,
                  "New York": 19651127,
                  'Florida': 19552860,
                  'Illinois': 12882135}

population = pd.Series(population_dict)
print(population)
# Series 슬라이스 가능
print(population['California':'New York'])

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64
California    38332521
Texas         26448193
New York      19651127
dtype: int64


In [42]:
area_dict = {'California': 423967, # Value 면적
                'Texas': 695662,
                 "New York": 141297,
                 'Florida': 170312,
                 'Illinois': 149995}
area = pd.Series(area_dict)
print(area)

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64


In [46]:
#DataFrame : 인덱싱된 2차원 배열
# colum 속성 : DataFrame 열 레이블 접근

states = pd.DataFrame({'population':population,'area': area}) # columns
print(states)

print(states.index,'\n')
print(states.columns)

            population    area
California    38332521  423967
Texas         26448193  695662
New York      19651127  141297
Florida       19552860  170312
Illinois      12882135  149995
Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object') 

Index(['population', 'area'], dtype='object')


In [47]:
# column 명을 이용한 Series 선택

print(states['area'])

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64


In [13]:
arr = np.random.rand(3,2)
print(arr, '\n')

df = pd.DataFrame(arr, columns=['foo','bar'],index=['a','b','c'])
print(df)

[[0.26139502 0.24442597]
 [0.09183375 0.36096243]
 [0.76745082 0.97986988]] 

        foo       bar
a  0.261395  0.244426
b  0.091834  0.360962
c  0.767451  0.979870


In [48]:
ser = pd.Series([0.25, 0.5, 0.75, 1.0], index = ['a', 'b', 'c', 'd'])

print(ser,'\n')
print(ser[0])
print('a' in ser) # 특정 Key를 찾는다 
print(0.25 in ser)

print(ser.keys())
print(ser.index)

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64 

0.25
True
False
Index(['a', 'b', 'c', 'd'], dtype='object')
Index(['a', 'b', 'c', 'd'], dtype='object')


In [50]:
print(ser.keys())
ser['e'] = 1.25 # e를 추가
ser['a'] = 0.125 # 기존의 a값을 변경

print(ser)

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
a    0.125
b    0.500
c    0.750
d    1.000
e    1.250
dtype: float64


In [53]:
print(states['area']) # 똑같은 값이 출력된다 
print(states.area)

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64
California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64


In [54]:
# 슬라이싱 ser['a','c'] stop값 'c' 포함한다
# 정수 기반 인덱싱을 할떄에는 stop값이 포함되지 않는다 ser[0:2] stop값인 2가 포함되지않는다
# 마스킹 ser[(ser > 0.3) & (ser < 0.8)]
# 팬시 인덱싱 ser[['a','e']] 찾고자 하는 인덱스 데이터를 뽑아준다

# 명시적 인덱싱 : 마지막 인덱스 값이 포함됨 ser['a':'c']
# 암묵적 인덱싱 : 마지막 인덱스 값이 포함되지 않음 ser[0:2]
# 명시적/암묵적 인덱싱 방법에 따라 슬라이싱 결과가 다름

# 기존에 DataFrame 을 가지고 계산하여 객체를 추가해준다

states['density'] = states['population'] / states['area']
print(states)

            population    area     density
California    38332521  423967   90.413926
Texas         26448193  695662   38.018740
New York      19651127  141297  139.076746
Florida       19552860  170312  114.806121
Illinois      12882135  149995   85.883763


In [55]:
# 인덱서 : Pandas 객체의 명확한 인덱싱/슬라이싱을 지원하는 속성
# 주요 속성 : loc, iloc 

# loc : 명시적 인덱스를 참조하는 인덱싱/슬라이싱 수행

states.loc['California':'New York']

Unnamed: 0,population,area,density
California,38332521,423967,90.413926
Texas,26448193,695662,38.01874
New York,19651127,141297,139.076746


In [56]:
# iloc : 암묵적 인덱스(정수)를 참조하는 인덱싱/슬라이싱 수행

states.iloc[:3]

Unnamed: 0,population,area,density
California,38332521,423967,90.413926
Texas,26448193,695662,38.01874
New York,19651127,141297,139.076746


In [58]:
# loc 인덱서 : 마스킹 + 팬시 인덱싱 지원

print(states.loc[states.density > 100, ['population', 'density']], '\n')

          population     density
New York    19651127  139.076746
Florida     19552860  114.806121 



In [6]:
# concat() : 서로 다른 두 데이터를 단순 연결 np.concatenate() 보다 다양한 옵션 제공
# merge() , join() : 다양한 데이터 조인, 병합 옵션 제공

x = [1, 2, 3]
y = [4, 5, 6]
z = [7, 8, 9]

# concatenate : 연결
np.concatenate([x, y, z])

# vstack() : 수직방향
# hstack() : 수평방향

print(np.vstack([x, y, z]))

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [22]:
ser1 = pd.Series(['A', 'B', 'C'], index = [1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index = [4, 5, 6])

print(pd.concat([ser1, ser2]))

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object


In [7]:
def make_df(cols,ind):
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)

print(make_df('ABC', [1, 2]))

    A   B   C
1  A1  B1  C1
2  A2  B2  C2


In [9]:
df1 = make_df('AB', [1, 2])  # column : A,B index : 1,2 
df2 = make_df('AB', [3, 4])

print(df1, '\n')
print(df2, '\n')

print(pd.concat([df1, df2]))

    A   B
1  A1  B1
2  A2  B2 

    A   B
3  A3  B3
4  A4  B4 

    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4


In [14]:
# axis = 1 가로 방향으로 연결

df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])

print(df3, '\n')
print(df4, '\n')

print(pd.concat([df3, df4], axis =1)) # 수평 방향으로 연결시켜준다
print(pd.concat([df3, df4], axis =0)) # 중복된 인덱스가 있어도 오류가 발생하지는 않는다

    A   B
0  A0  B0
1  A1  B1 

    C   D
0  C0  D0
1  C1  D1 

    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
     A    B    C    D
0   A0   B0  NaN  NaN
1   A1   B1  NaN  NaN
0  NaN  NaN   C0   D0
1  NaN  NaN   C1   D1


In [18]:
"""
concatenate() 보다 concat() 이 더 편한 이유
- 인덱스 중복 허용
- 인덱스 중복 에러 처리 verify_integrity=True
- 인덱스 무시 ignore_index = True
- 계층적 인덱싱 지원
"""

x = make_df('AB', [0, 1])
y = make_df('AB', [2, 3])

y.index = x.index # x의 인덱스를 y에 넣어준다

print(x, '\n')
print(y, '\n')
# 인덱스 중복 허용
print(pd.concat([x,y]))

    A   B
0  A0  B0
1  A1  B1 

    A   B
0  A2  B2
1  A3  B3 

    A   B
0  A0  B0
1  A1  B1
0  A2  B2
1  A3  B3


In [21]:
# 인덱스 중복 에러 처리 verify_integrity=True

try:
    pd.concat([x, y], verify_integrity=True)
    
except ValueError as e:
    print("ValueError:", e)

ValueError: Indexes have overlapping values: Int64Index([0, 1], dtype='int64')


In [25]:
# 인덱스 무시 ignore_index = True 순서에 맞게 합치고 깔금하게 정리해준다

print(pd.concat([x,y], ignore_index = True))

    A   B
0  A0  B0
1  A1  B1
2  A2  B2
3  A3  B3


In [35]:
# concat() 조인 옵션 : 서로 다른 열 집합을 가지는 객체를 연결
# join = outer 외부조인 = 합집합 pd.concat([x, y], join = 'outer')
# join = inner 내부조인 = 교집합 pd.concat([x, y], join = 'innner')

x = make_df('ABC', [1,2])
y = make_df('BCD', [3,4])

print(x, '\n')
print(y, '\n')

print(pd.concat([x, y], join = 'outer'))
print(pd.concat([x, y], join = 'inner'))

    A   B   C
1  A1  B1  C1
2  A2  B2  C2 

    B   C   D
3  B3  C3  D3
4  B4  C4  D4 

     A   B   C    D
1   A1  B1  C1  NaN
2   A2  B2  C2  NaN
3  NaN  B3  C3   D3
4  NaN  B4  C4   D4
    B   C
1  B1  C1
2  B2  C2
3  B3  C3
4  B4  C4


In [37]:
# 조인 연산, join() : 인덱스를 기준으로 두 DateFrame을 결합
# 병합 연산, merge() : 데이터셋 조인/ 병합 관련 다양한 옵션 제공
# 일대일 조인 : 공통 열의 중복 항목 없음(공통 열 = 병합키, 조인키, 공통키)

df1 = pd.DataFrame({'employee' : ['Bob', 'Jake', 'Lisa', 'Sue'],
                   'group' : ['Accounting', 'Engineering', 'Engineering', 'HR']})

df2 = pd.DataFrame({'employee' : ['Lisa', 'Bob', 'Jake', 'Sue'],
                   'hire_data' : [2004, 2008, 2012, 2014]}) 

print(df1, '\n')
print(df2)

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR 

  employee  hire_data
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014


In [39]:
df3 = pd.merge(df1, df2)
print(df3)

  employee        group  hire_data
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014


In [42]:
# 다대일 조인 : 두 DataFrame 의 키 중에 하나가 중복된 항복을 포함
# Engineering 중복값이 2개 존재

df4 = pd.DataFrame({'group' : ['Accounting', 'Engineering', 'HR'],
                   'supervisor' : ['Carly', 'Guido', 'Steve']})

print(df3, '\n')
print(df4, '\n')

print(pd.merge(df3, df4)) # df3 = left, df4 = right 

  employee        group  hire_data
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014 

         group supervisor
0   Accounting      Carly
1  Engineering      Guido
2           HR      Steve 

  employee        group  hire_data supervisor
0      Bob   Accounting       2008      Carly
1     Jake  Engineering       2012      Guido
2     Lisa  Engineering       2004      Guido
3      Sue           HR       2014      Steve


In [45]:
# 다대다 조인 : 두 DataFrame 의 키가 모두 중복된 항목을 포함

df5 = pd.DataFrame({'group' : ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'],
                   'skills' : ['math', 'spreadsheet', 'coding', 'linux', 'spreadsheet', 'organization']})

print(df1, '\n')
print(df5, '\n')

print(pd.merge(df1,df5))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR 

         group        skills
0   Accounting          math
1   Accounting   spreadsheet
2  Engineering        coding
3  Engineering         linux
4           HR   spreadsheet
5           HR  organization 

  employee        group        skills
0      Bob   Accounting          math
1      Bob   Accounting   spreadsheet
2     Jake  Engineering        coding
3     Jake  Engineering         linux
4     Lisa  Engineering        coding
5     Lisa  Engineering         linux
6      Sue           HR   spreadsheet
7      Sue           HR  organization


In [49]:
# on : 병합에 사용할 공통 키

print(df1, '\n')
print(df2, '\n')

df1['age'] = pd.Series([20, 42, 37, 25])
df2['age'] = pd.Series([37, 20, 42, 25])

print(df1, '\n')
print(df2, '\n')

print(pd.merge(df1,df2, on = 'employee'))

  employee        group  age
0      Bob   Accounting   20
1     Jake  Engineering   42
2     Lisa  Engineering   37
3      Sue           HR   25 

  employee  hire_data  age
0     Lisa       2004   37
1      Bob       2008   20
2     Jake       2012   42
3      Sue       2014   25 

  employee        group  age
0      Bob   Accounting   20
1     Jake  Engineering   42
2     Lisa  Engineering   37
3      Sue           HR   25 

  employee  hire_data  age
0     Lisa       2004   37
1      Bob       2008   20
2     Jake       2012   42
3      Sue       2014   25 

  employee        group  age_x  hire_data  age_y
0      Bob   Accounting     20       2008     20
1     Jake  Engineering     42       2012     42
2     Lisa  Engineering     37       2004     37
3      Sue           HR     25       2014     25


In [54]:
# left_on, right_on : 공통 키 역할을 하는 두 DataFrame의 열

df3 = pd.DataFrame({'name' : ['Bob', 'Jake', 'Lisa', 'Sue'],
                   'salary' : [70000, 80000, 120000, 90000]})

print(df1, '\n')
print(df3, '\n')

print(pd.merge(df1,df3, left_on = 'employee', right_on = 'name'))

  employee        group  age
0      Bob   Accounting   20
1     Jake  Engineering   42
2     Lisa  Engineering   37
3      Sue           HR   25 

   name  salary
0   Bob   70000
1  Jake   80000
2  Lisa  120000
3   Sue   90000 

  employee        group  age  name  salary
0      Bob   Accounting   20   Bob   70000
1     Jake  Engineering   42  Jake   80000
2     Lisa  Engineering   37  Lisa  120000
3      Sue           HR   25   Sue   90000


In [61]:
print(df1, '\n')
print(df2, '\n')

df1a = df1.set_index('employee')
df2a = df2.set_index('employee')

print(df1a, '\n')
print(df2a, '\n')

print(pd.merge(df1a, df2a, left_index = True, right_index= True))

  employee        group  age
0      Bob   Accounting   20
1     Jake  Engineering   42
2     Lisa  Engineering   37
3      Sue           HR   25 

  employee  hire_data  age
0     Lisa       2004   37
1      Bob       2008   20
2     Jake       2012   42
3      Sue       2014   25 

                group  age
employee                  
Bob        Accounting   20
Jake      Engineering   42
Lisa      Engineering   37
Sue                HR   25 

          hire_data  age
employee                
Lisa           2004   37
Bob            2008   20
Jake           2012   42
Sue            2014   25 

                group  age_x  hire_data  age_y
employee                                      
Bob        Accounting     20       2008     20
Jake      Engineering     42       2012     42
Lisa      Engineering     37       2004     37
Sue                HR     25       2014     25


In [4]:
"""
Specifying the Join method(merge() 조인 옵션)
"""

df6 = pd.DataFrame({'name': ['Peter', 'Paul', 'Mary'],
                   'food': ['fish', 'beans', 'bread']},
                  columns=['name', 'food'])

df7 = pd.DataFrame({'name': ['Mary', 'Joseph'],
                   'drink': ['wine', 'beer']},
                  columns=['name', 'drink'])

print(df6, '\n')
print(df7)

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread 

     name drink
0    Mary  wine
1  Joseph  beer


In [6]:
# inner join (default)

print(df6, '\n')
print(df7, '\n')

pd.merge(df6, df7, how='inner')

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread 

     name drink
0    Mary  wine
1  Joseph  beer 



Unnamed: 0,name,food,drink
0,Mary,bread,wine


In [7]:
# outer join

print(df6, '\n')
print(df7, '\n')

pd.merge(df6, df7, how='outer')

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread 

     name drink
0    Mary  wine
1  Joseph  beer 



Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine
3,Joseph,,beer


In [8]:
# left join

print(df6, '\n')
print(df7, '\n')

pd.merge(df6, df7, how='left')

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread 

     name drink
0    Mary  wine
1  Joseph  beer 



Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine


In [9]:
# right join

print(df6, '\n')
print(df7, '\n')

pd.merge(df6, df7, how='right')

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread 

     name drink
0    Mary  wine
1  Joseph  beer 



Unnamed: 0,name,food,drink
0,Mary,bread,wine
1,Joseph,,beer
