In [37]:
import pandas as pd
import numpy as np

In [6]:
data = pd.Series([1,2,3,4], index=['a','b','c','d'])
data

a    1
b    2
c    3
d    4
dtype: int64

In [8]:
#딕셔너리로 만들 수 있다.
population_dict = {
    'korea':5180,
    'japan':12718,
    'china':141500,
    'usa':32676
}
population = pd.Series(population_dict)
population

korea      5180
japan     12718
china    141500
usa       32676
dtype: int64

In [9]:
population.values

array([  5180,  12718, 141500,  32676])

# DataFrame

여러 개의 Series가 모여서 행과 열을 이룬 데이터

In [11]:
gdp_dict = {
    'korea': 169320000,
    'japan': 516700000,
    'china': 1409250000,
    'usa': 2041280000,
}
gdp = pd.Series(gdp_dict)
country = pd.DataFrame({
    'population': population,
    'gdp': gdp 
})

In [12]:
country

Unnamed: 0,population,gdp
korea,5180,169320000
japan,12718,516700000
china,141500,1409250000
usa,32676,2041280000


딕셔너리로 변환 가능

In [17]:
country.index

Index(['korea', 'japan', 'china', 'usa'], dtype='object')

In [16]:
country.columns

Index(['population', 'gdp'], dtype='object')

In [20]:
country['gdp']

korea     169320000
japan     516700000
china    1409250000
usa      2041280000
Name: gdp, dtype: int64

In [18]:
type(country['gdp'])

pandas.core.series.Series

Series도 numpy array처럼 연산자 사용 가능

In [24]:
gdp_per_capita = country['gdp'] / country['population']
country['gdp per capita'] = gdp_per_capita

In [25]:
gdp_per_capita

korea    32687.258687
japan    40627.457147
china     9959.363958
usa      62470.314604
dtype: float64

In [26]:
country

Unnamed: 0,population,gdp,gdp per capita
korea,5180,169320000,32687.258687
japan,12718,516700000,40627.457147
china,141500,1409250000,9959.363958
usa,32676,2041280000,62470.314604


저장과 불러오기

In [None]:
country.to_csv("./파일명.csv")
country.to_excel("파일명.xlsx")


country = pd.read_csv("경로")
country = pd.read_excel("경로")

# Indexing/Slicing

loc : 명시적인 인덱스를 참조하는 인덱싱/슬라이싱

In [27]:
country.loc['china']

population        1.415000e+05
gdp               1.409250e+09
gdp per capita    9.959364e+03
Name: china, dtype: float64

In [29]:
country.loc['korea':'japan',:"population"]

Unnamed: 0,population
korea,5180
japan,12718


iloc : 파이썬 스타일 정수 인덱스 인덱싱/슬라이싱

In [30]:
country.iloc[0]

population        5.180000e+03
gdp               1.693200e+08
gdp per capita    3.268726e+04
Name: korea, dtype: float64

In [31]:
country.iloc[1:3, :2]

Unnamed: 0,population,gdp
japan,12718,516700000
china,141500,1409250000


# DataFrame 새 데이터 추가/수정

In [32]:
dataframe = pd.DataFrame(columns=['이름','나이','주소']) 
dataframe.loc[0] = ['임원균', '26', '서울']
dataframe.loc[1] = {'이름':'철수', '나이':'25', '주소':'인천'}
dataframe.loc[1, '이름'] = '영희'

In [33]:
dataframe

Unnamed: 0,이름,나이,주소
0,임원균,26,서울
1,영희,25,인천


새로운 칼럼 추가

In [40]:
dataframe['전화번호'] = np.nan
dataframe

Unnamed: 0,이름,나이,주소,전화번호
0,임원균,26,서울,
1,영희,25,인천,


In [41]:
dataframe.loc[0, '전화번호'] = '01012341234'
dataframe

Unnamed: 0,이름,나이,주소,전화번호
0,임원균,26,서울,1012341234.0
1,영희,25,인천,


컬럼이름이 하나만 있다면 series, 리스트로 들어가있다면 DataFrame

In [42]:
dataframe['이름']

0    임원균
1     영희
Name: 이름, dtype: object

In [43]:
dataframe[['이름','주소','나이']]

Unnamed: 0,이름,주소,나이
0,임원균,서울,26
1,영희,인천,25


# 누락된 데이터 체크

In [44]:
dataframe.isnull()

Unnamed: 0,이름,나이,주소,전화번호
0,False,False,False,False
1,False,False,False,True


In [45]:
dataframe.notnull()

Unnamed: 0,이름,나이,주소,전화번호
0,True,True,True,True
1,True,True,True,False


In [46]:
dataframe.dropna()

Unnamed: 0,이름,나이,주소,전화번호
0,임원균,26,서울,1012341234


In [47]:
dataframe['전화번호'] = dataframe['전화번호'].fillna('전화번호없음')

# series 연산

numpy array에서 사용했던 연산자들을 활용할 수 있다.

In [48]:
A = pd.Series([2, 4, 6], index=[0, 1, 2]) 
B = pd.Series([1, 3, 5], index=[1, 2, 3]) 
A+ B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

In [49]:
A.add(B, fill_value=0) #결측치 한번에 정리하고 싶을 때 

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

# DataFrame 연산
add(+), sub(-), mul(*), div(/)

In [51]:
A = pd.DataFrame(np.random.randint(0, 10, (2, 2)), columns=list("AB")) 
B = pd.DataFrame(np.random.randint(0, 10, (3, 3)), columns=list("BAC")) 
A

Unnamed: 0,A,B
0,4,7
1,9,2


In [52]:
B

Unnamed: 0,B,A,C
0,2,0,5
1,6,5,3
2,4,2,3


In [53]:
A+ B

Unnamed: 0,A,B,C
0,4.0,9.0,
1,14.0,8.0,
2,,,


# 집계 함수
numpy array에서 사용했던 sum, mean등의 집계함수를 동일하게 사용할 수 있음

In [54]:
data = {
    'A': [ i+5 for i in range(3) ],
    'B': [ i**2 for i in range(3) ]
}

df = pd.DataFrame(data)

In [55]:
df['A'].sum()

18

In [56]:
df.sum()

A    18
B     5
dtype: int64

In [57]:
df.mean()

A    6.000000
B    1.666667
dtype: float64

# 값으로 정렬하기
sort_values()

In [58]:
df = pd.DataFrame({
    'col1' : [2, 1, 9, 8, 7, 4],
    'col2' : ['A', 'A', 'B', np.nan, 'D', 'C'],
    'col3': [0, 1, 9, 4, 2, 3],
})

In [60]:
df

Unnamed: 0,col1,col2,col3
0,2,A,0
1,1,A,1
2,9,B,9
3,8,,4
4,7,D,2
5,4,C,3


In [59]:
df.sort_values('col1')

Unnamed: 0,col1,col2,col3
1,1,A,1
0,2,A,0
5,4,C,3
4,7,D,2
3,8,,4
2,9,B,9


In [61]:
df.sort_values('col1', ascending=False)

Unnamed: 0,col1,col2,col3
2,9,B,9
3,8,,4
4,7,D,2
5,4,C,3
0,2,A,0
1,1,A,1


In [62]:
df.sort_values(['col2', 'col1'])

Unnamed: 0,col1,col2,col3
1,1,A,1
0,2,A,0
2,9,B,9
5,4,C,3
4,7,D,2
3,8,,4
