In [57]:
# Series (시리즈)

import pandas as pd
import numpy as np

pd.Series([1,2,3,4])
# 시리즈는 index를 포함해서 가져온다

0    1
1    2
2    3
3    4
dtype: int64

In [58]:
# 인덱스명을 변경
pd.Series([1,2,3,4], index=['a','b','c','d'])

a    1
b    2
c    3
d    4
dtype: int64

In [59]:
data = pd.Series([1,2,3,4], index=['a','b','c','d'])

print(data['b'])

2


In [60]:
data = pd.Series([1,2,3,4], index=['a','b','c','d'], name = 'Title')

print(data) # 이름이 결과값에 출력됨
print()
print(data['c'])

a    1
b    2
c    3
d    4
Name: Title, dtype: int64

3


In [61]:
# Series >> dict() 로 변환

population = {
    'korea' : 5180,
    'japan' : 12718,
    'china' : 141500,
    'usa' : 35676
}

print(population)

{'korea': 5180, 'japan': 12718, 'china': 141500, 'usa': 35676}


In [62]:
# dict를 Series로 변환
# dict의 key : value 가 Series의 (idx, value)로 바뀐다.

df_pop = pd.Series(population)
print(df_pop)

korea      5180
japan     12718
china    141500
usa       35676
dtype: int64


In [63]:
# 데이터 프레임 (DataFrame)

gdp = {
    'korea' : 169320000,
    'japan' : 516700000,
    'china' : 1409250000,
    'usa' : 2041280000
}

print(gdp)

{'korea': 169320000, 'japan': 516700000, 'china': 1409250000, 'usa': 2041280000}


In [64]:
gdp = pd.Series(gdp)

print(gdp)

country = pd.DataFrame(
    {
        'population' : population,
        'gdp' : gdp
        }
)

korea     169320000
japan     516700000
china    1409250000
usa      2041280000
dtype: int64


In [65]:
country

Unnamed: 0,population,gdp
korea,5180,169320000
japan,12718,516700000
china,141500,1409250000
usa,35676,2041280000


In [66]:
country.index

Index(['korea', 'japan', 'china', 'usa'], dtype='object')

In [67]:
country.columns

Index(['population', 'gdp'], dtype='object')

In [68]:
country['gdp']
# Series 형식으로 출력

korea     169320000
japan     516700000
china    1409250000
usa      2041280000
Name: gdp, dtype: int64

In [69]:
type(country['gdp'])

pandas.core.series.Series

In [70]:
# 연산자 활용

print(country['gdp'])
print(country['population'])

korea     169320000
japan     516700000
china    1409250000
usa      2041280000
Name: gdp, dtype: int64
korea      5180
japan     12718
china    141500
usa       35676
Name: population, dtype: int64


In [71]:
gdp_per_capita = country['gdp'] / country['population']

print(gdp_per_capita)

korea    32687.258687
japan    40627.457147
china     9959.363958
usa      57217.176814
dtype: float64


In [72]:
# 새로 생성된 gdp_per_capita (1인당 국민 총생산량)
# 새로운 열로 데이터 프레임에 삽입하기

print(country)
print()

country['gdp_per_capita'] = gdp_per_capita

# 추가된 모습
print(country)

       population         gdp
korea        5180   169320000
japan       12718   516700000
china      141500  1409250000
usa         35676  2041280000

       population         gdp  gdp_per_capita
korea        5180   169320000    32687.258687
japan       12718   516700000    40627.457147
china      141500  1409250000     9959.363958
usa         35676  2041280000    57217.176814


In [73]:
# 저장하기

country.to_csv("./country.csv")
# csv (comma separated value)

In [74]:
country.to_csv("./country.xlsx")

In [75]:
# 불러오기

pd.read_csv("country.csv")

Unnamed: 0.1,Unnamed: 0,population,gdp,gdp_per_capita
0,korea,5180,169320000,32687.258687
1,japan,12718,516700000,40627.457147
2,china,141500,1409250000,9959.363958
3,usa,35676,2041280000,57217.176814


In [76]:
# indexing / slicing

# .loc[행, 열] >> 명시적 이름으로 접근
# .iloc[행, 열] >> 인덱스로 접근

country

Unnamed: 0,population,gdp,gdp_per_capita
korea,5180,169320000,32687.258687
japan,12718,516700000,40627.457147
china,141500,1409250000,9959.363958
usa,35676,2041280000,57217.176814


In [77]:
country.loc['china']

population        1.415000e+05
gdp               1.409250e+09
gdp_per_capita    9.959364e+03
Name: china, dtype: float64

In [78]:
country.loc['japan':'china', :'population']
# 행은 japan 에서 china 까지 열을 population까지

Unnamed: 0,population
japan,12718
china,141500


In [79]:
country.loc['japan':'china', :'gdp']

Unnamed: 0,population,gdp
japan,12718,516700000
china,141500,1409250000


In [80]:
country.loc['japan':'china', 'gdp':'gdp']

Unnamed: 0,gdp
japan,516700000
china,1409250000


In [81]:
country.loc['japan':'china', 'gdp']


japan     516700000
china    1409250000
Name: gdp, dtype: int64

In [82]:
country.iloc[0]

population        5.180000e+03
gdp               1.693200e+08
gdp_per_capita    3.268726e+04
Name: korea, dtype: float64

In [83]:
country.iloc[1:3, :-1]

Unnamed: 0,population,gdp
japan,12718,516700000
china,141500,1409250000


In [115]:
# 데이터 프레임에 새 데이터 추가 및 수정
# 추가 : 리스트 또는 딕셔너리 추가

df = pd.DataFrame(columns=['이름','나이','주소'])
df.loc[0] = ['남학균', '26', '서울']
df.loc[1] = {'이름' : '성수린', '나이' : '25', '주소' : '제주'}

In [116]:
df

Unnamed: 0,이름,나이,주소
0,남학균,26,서울
1,성수린,25,제주


In [117]:
df.loc[1, '이름']

'성수린'

In [118]:
df.loc[1, '이름'] = '홍길동'

In [119]:
df

Unnamed: 0,이름,나이,주소
0,남학균,26,서울
1,홍길동,25,제주


In [120]:
# 새로운 컬럼 추가

df['전화번호'] = np.nan

print(df)

print()
df.loc[0, '전화번호'] = '01012345678'

print(df)

    이름  나이  주소  전화번호
0  남학균  26  서울   NaN
1  홍길동  25  제주   NaN

    이름  나이  주소         전화번호
0  남학균  26  서울  01012345678
1  홍길동  25  제주          NaN


  df.loc[0, '전화번호'] = '01012345678'


In [121]:
df['이름']

0    남학균
1    홍길동
Name: 이름, dtype: object

In [122]:
# 2가지 이상 출력하고 싶을 때는 컬럼명을 리스트로 묶어서 넣어준다.
df[['이름', '나이']]

Unnamed: 0,이름,나이
0,남학균,26
1,홍길동,25


In [123]:
# 순서 바뀌어도 바뀐 순서대로 출력
df[['나이', '이름']]

Unnamed: 0,나이,이름
0,26,남학균
1,25,홍길동


In [124]:
# 결측치 처리
# 누락된 데이터 처리
print(df)
print()
print(df.isnull())

    이름  나이  주소         전화번호
0  남학균  26  서울  01012345678
1  홍길동  25  제주          NaN

      이름     나이     주소   전화번호
0  False  False  False  False
1  False  False  False   True


In [125]:
df.notnull()

Unnamed: 0,이름,나이,주소,전화번호
0,True,True,True,True
1,True,True,True,False


In [126]:
df.dropna() # 원본은 건드리지 않는다

Unnamed: 0,이름,나이,주소,전화번호
0,남학균,26,서울,1012345678


In [127]:
df

Unnamed: 0,이름,나이,주소,전화번호
0,남학균,26,서울,1012345678.0
1,홍길동,25,제주,


In [128]:
df['전화번호'].fillna(0)

0    01012345678
1              0
Name: 전화번호, dtype: object

In [129]:
df2 = df.copy()
df2.head

<bound method NDFrame.head of     이름  나이  주소         전화번호
0  남학균  26  서울  01012345678
1  홍길동  25  제주          NaN>

In [130]:
df2['전화번호'] = df['전화번호'].fillna('전화번호 없음')

In [131]:
df2

Unnamed: 0,이름,나이,주소,전화번호
0,남학균,26,서울,01012345678
1,홍길동,25,제주,전화번호 없음


In [132]:
df

Unnamed: 0,이름,나이,주소,전화번호
0,남학균,26,서울,1012345678.0
1,홍길동,25,제주,


In [133]:
# Sereis 연산

a = pd.Series([2,4,6], index=[0,1,2])
b = pd.Series([1,3,5], index=[1,2,3])

print(a)
print()
print(b)
print()
print(a+b)

0    2
1    4
2    6
dtype: int64

1    1
2    3
3    5
dtype: int64

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64


In [134]:
a.add(b, fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

In [153]:
c = pd.DataFrame(np.random.randint(0,10,(2,2)), columns=list('AB'))
d = pd.DataFrame(np.random.randint(0,10,(3,3)), columns=list('ABC'))

print(c)
print()
print(d)
print()
print(c+d)

c.add(d, fill_value=0)

   A  B
0  4  5
1  8  8

   A  B  C
0  9  4  3
1  1  8  9
2  1  9  2

      A     B   C
0  13.0   9.0 NaN
1   9.0  16.0 NaN
2   NaN   NaN NaN


Unnamed: 0,A,B,C
0,13.0,9.0,3.0
1,9.0,16.0,9.0
2,1.0,9.0,2.0


In [140]:
# 집계함수

data = {
    'a' : [i + 5 for i in range(3)],
    'b' : [i**2 for i in range(3)]
}

print(data)

{'a': [5, 6, 7], 'b': [0, 1, 4]}


In [141]:
df = pd.DataFrame(data)

print(df)

   a  b
0  5  0
1  6  1
2  7  4


In [142]:
df['a']

0    5
1    6
2    7
Name: a, dtype: int64

In [143]:
df['a'].sum()

18

In [144]:
df.sum()

a    18
b     5
dtype: int64

In [145]:
df.mean()

a    6.000000
b    1.666667
dtype: float64

In [148]:
# 값으로 정렬하기

pd.DataFrame(
    {
        'col1' : [2,1,9,8,7,4],
        'col2' : ['a', 'a', 'b', np.nan, 'd', 'c'],
        'col3' : [0,1,9,4,2,3]
    }
)

Unnamed: 0,col1,col2,col3
0,2,a,0
1,1,a,1
2,9,b,9
3,8,,4
4,7,d,2
5,4,c,3


In [150]:
df = pd.DataFrame(
    {
        'col1' : [2,1,9,8,7,4],
        'col2' : ['a', 'a', 'b', np.nan, 'd', 'c'],
        'col3' : [0,1,9,4,2,3]
    }
)

df.head(3)

Unnamed: 0,col1,col2,col3
0,2,a,0
1,1,a,1
2,9,b,9


In [151]:
# df.sort_values()

df.sort_values('col1')

Unnamed: 0,col1,col2,col3
1,1,a,1
0,2,a,0
5,4,c,3
4,7,d,2
3,8,,4
2,9,b,9


In [154]:
df.sort_values('col1', ascending=False)

Unnamed: 0,col1,col2,col3
2,9,b,9
3,8,,4
4,7,d,2
5,4,c,3
0,2,a,0
1,1,a,1


In [155]:
df.sort_values(['col2', 'col1'])

Unnamed: 0,col1,col2,col3
1,1,a,1
0,2,a,0
2,9,b,9
5,4,c,3
4,7,d,2
3,8,,4


In [None]:
# 하나는 내림차순, 하나는 오름차순으로 적용하기
df.sort_values(['col2', 'col1'], ascending=[False, True])