pandas: numpy를 기반으로 설계된 구조화된 데이터를 효과적으로 처리하고 저장하는 파이썬 라이브러리


In [None]:
## Series 데이터: numpy의 array가 보강된 형태다
## index 부분과 data 부분(values)이 있다
## values(값)을 ndarray 형태로 가지고 있다
import pandas as pd

data = pd.Series([1,2,3,4])
print(data)
print()
print(type(data))
print(data.values)
print(type(data.values))

0    1
1    2
2    3
3    4
dtype: int64

<class 'pandas.core.series.Series'>
[1 2 3 4]
<class 'numpy.ndarray'>


In [None]:
## dtype 인자로 데이터 타입을 지정할 수 있다

data = pd.Series([1,2,3,4],dtype = "float")
print(data)
print()
print(data.dtype)


0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64

float64


In [None]:
## 인덱스를 지정할 수 있다
## 인덱스로 접근할 수 있다

data = pd.Series([1,2,3,4], index = ['a','b','c','d'], name = "alphabet")
print(data)
print("\n---변경 후---\n")
data['c'] = 5
print(data)

a    1
b    2
c    3
d    4
Name: alphabet, dtype: int64

---변경 후---

a    1
b    2
c    5
d    4
Name: alphabet, dtype: int64


In [None]:
## dictionary를 활용하여 Series를 생성할 수 있다
population_dict = {
    'china': 141500,
    'japan': 12718,
    'korea': 5180,
    'usa': 32676
}

population = pd.Series(population_dict)
print(population)

china    141500
japan     12718
korea      5180
usa       32676
dtype: int64


In [None]:
## 데이터프레임(DataFrame): 여러 개의 Series가 모여서 행과 열을 이루는 데이터
## pd.DataFrame(딕셔너리)로 생성한다
# gdp와 population(Series)가 하나의 열(column)으로 들어간다
gdp_dict = {
    'china': 140925,
    'japan': 51670,
    'korea': 16932,
    'usa': 204128
}
gdp = pd.Series(gdp_dict)
print(gdp)
print()

population_dict = {
    'china': 141500,
    'japan': 12718,
    'korea': 5180,
    'usa': 32676
}
population = pd.Series(population_dict)
print(population)
print()

country = pd.DataFrame({
    'gdp': gdp,
    'population': population
})
print(country)



china    140925
japan     51670
korea     16932
usa      204128
dtype: int64

china    141500
japan     12718
korea      5180
usa       32676
dtype: int64

          gdp  population
china  140925      141500
japan   51670       12718
korea   16932        5180
usa    204128       32676


In [None]:
## 데이터프레임은 딕셔너리로 바로 만들 수 있다
data = {
    'country': ['china','japan','korea','usa'],
    'gdp': [14092, 51670, 16932, 204128],
    'population': [141500, 12718, 5180, 32676]
}

country = pd.DataFrame(data)
print(country)
print("\n---인덱스 변경 후---\n")
country = country.set_index('country')
print(country)

  country     gdp  population
0   china   14092      141500
1   japan   51670       12718
2   korea   16932        5180
3     usa  204128       32676

---인덱스 변경 후---

            gdp  population
country                    
china     14092      141500
japan     51670       12718
korea     16932        5180
usa      204128       32676


In [None]:
## DataFrame의 속성

## DataFrame은 3가지 부분으로 나뉜다
## DataFrame: Data(값)+Frame(인덱스,열)
# 인덱스(index) 부분: country_name (china, japan, korea, usa)
# 열(columns) 부분: info (gdp, population)
# 값(values) 부분: 숫자로 된 부분
print(country)
print()
print(country.values)
print()

# shape: DataFrame의 values의 모양을 튜플로 반환
print(country.shape)
print()

# size: DataFrame의 values의 요소의 개수를 반환
print(country.size)
print()

# ndim: DataFrame의 values가 몇차원인지 반환
print(country.ndim)
print()

Info             gdp  population
country_name                    
china          14092      141500
japan          51670       12718
korea          16932        5180
usa           204128       32676

[[ 14092 141500]
 [ 51670  12718]
 [ 16932   5180]
 [204128  32676]]

(4, 2)

8

2



In [None]:
## DataFrame의 index와 columns에 이름을 지정할 수 있다
print(country)
print()

country.index.name = "country_name"
country.columns.name = "Info"
print(country)
print()

print(country.index)
print(country.columns)


          gdp  population
china  140925      141500
japan   51670       12718
korea   16932        5180
usa    204128       32676

Info             gdp  population
country_name                    
china         140925      141500
japan          51670       12718
korea          16932        5180
usa           204128       32676

Index(['china', 'japan', 'korea', 'usa'], dtype='object', name='country_name')
Index(['gdp', 'population'], dtype='object', name='Info')


In [None]:
## 데이터 프레임을 저장, 불러오기 할 수 있다
print(country)
country.to_csv("./country.csv")   # csv: comma seperated value
country.to_excel("country.xlsx")

country = pd.read_csv("./country.csv")
country = pd.read_excel("country.xlsx")

Info             gdp  population
country_name                    
china         140925      141500
japan          51670       12718
korea          16932        5180
usa           204128       32676


In [None]:
## 데이터프레임의 indexing/slicing
# indexing -> Series
# slicing -> DataFrame

data = {
    'country': ['china','japan','korea','usa'],
    'gdp': [14092, 51670, 16932, 204128],
    'population': [141500, 12718, 5180, 32676]
}
country = pd.DataFrame(data)
country = country.set_index('country')
print(country)
print("\n---loc의 예시---\n")

# loc: 명시적인 인덱스를 참조하는 인덱싱/슬라이싱 (location)
print(country.loc['china'])
print()
print(country.loc['japan':'korea', :'population'])  #end 자리까지 불러옴
print("\n---iloc의 예시---\n")

# iloc: 암묵적인 인덱스(정수)를 참조하는 인덱싱/슬라이싱
print(country.iloc[0])
print()
print(country.iloc[1:3,:2])  #end-1 자리까지 불러옴


            gdp  population
country                    
china     14092      141500
japan     51670       12718
korea     16932        5180
usa      204128       32676

---loc의 예시---

gdp            14092
population    141500
Name: china, dtype: int64

           gdp  population
country                   
japan    51670       12718
korea    16932        5180

---iloc의 예시---

gdp            14092
population    141500
Name: china, dtype: int64

           gdp  population
country                   
japan    51670       12718
korea    16932        5180


In [None]:
## 데이터프레임의 데이터 선택
print(country)
print("\n---컬럼명을 활용한 데이터 선택---\n")

# 컬럼명을 활용한 데이터 선택
print(country['gdp'])  #Series
print()
print(country[['gdp']])  #DataFrame
print("\n---조건을 활용한 데이터 선택---\n")

# 조건을 활용한 데이터 선택(DataFrame)
print(country[country['population'] < 10000])  #masking 함수
print()
print(country.query("population > 100000"))  #query 함수


            gdp  population
country                    
china     14092      141500
japan     51670       12718
korea     16932        5180
usa      204128       32676

---컬럼명을 활용한 데이터 선택---

country
china     14092
japan     51670
korea     16932
usa      204128
Name: gdp, dtype: int64

            gdp
country        
china     14092
japan     51670
korea     16932
usa      204128

---조건을 활용한 데이터 선택---

           gdp  population
country                   
korea    16932        5180

           gdp  population
country                   
china    14092      141500


In [None]:
## Series의 연산자 활용
gdp_per_capita = country['gdp'] / country['population']  #Series의 연산
country['gdp per capita'] = gdp_per_capita  #새로운 column 추가
print(country)

            gdp  population  gdp per capita
country                                    
china     14092      141500        0.099590
japan     51670       12718        4.062746
korea     16932        5180        3.268726
usa      204128       32676        6.247031


In [None]:
## 데이터프레임의 데이터 변경
# 데이터프레임의 생성
df = pd.DataFrame(columns = ['이름','나이','주소'])  #데이터프레임의 column 생성
print(df, end='\n\n')

# 데이터프레임의 값 추가
df.loc[0] = ['길동','26','서울']  #리스트로 데이터 추가
df.loc[1] = {'이름':'철수', '나이':'25', '주소':'인천'}  #딕셔너리로 데이터 추가
df.loc[1, '이름'] = '영희'  #명시적 인덱스 활용하여 데이터 수정
print(df, end='\n\n')

# 데이터프레임의 column 추가
df['전화번호'] = np.nan  #새로운 column 추가 및 초기화(nan: not a number)
df.loc[0,'전화번호'] = '01012341234'  #명시적 인덱스 활용하여 데이터 수정
print(df, end='\n\n')

# 데이터프레임의 column 삭제
# axis: 행 or 열의 방향으로 삭제할지를 결정한다
# (axis=1 : 열의 방향, axis=0 : 행의 방향)
# inplace: 원본을 변경할지를 결정한다
# (inplace = True : 원본 변경o, inplace = False : 원본 변경x)
df.drop('전화번호', axis=1, inplace=True)
print(df)

Empty DataFrame
Columns: [이름, 나이, 주소]
Index: []

   이름  나이  주소
0  길동  26  서울
1  영희  25  인천

   이름  나이  주소         전화번호
0  길동  26  서울  01012341234
1  영희  25  인천          NaN

   이름  나이  주소
0  길동  26  서울
1  영희  25  인천
