## Pandas

* 파이썬 라이브러리
* 구조화된 데이터를 효과적으로 처리하고 저장
* Array 계산에 특화된 Numpy를 기반으로 설계

### Series

- Numpy의 array가 보강된 형태
- Data와 Index를 가지고 있음

In [23]:
import pandas as pd

data = pd.Series([1, 2, 3, 4])
print(data)

0    1
1    2
2    3
3    4
dtype: int64


In [24]:
# Series는 값(values)을 ndarray 형태로 가지고 있음.
print(type(data))

print(data.values)
print(type(data.values))

<class 'pandas.core.series.Series'>
[1 2 3 4]
<class 'numpy.ndarray'>


In [25]:
# dtype 인자로 데이터 타입을 지정할 수 있음
data = pd.Series([1, 2, 3, 4], dtype = 'float')
print(data.dtype)
print(data)

float64
0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64


In [26]:
# 인덱스를 지정할 수 있고, 인덱스로 접근 가능
data = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
print(data)
data['c'] = 5 # c값을 3에서 5로 변경
print(data)

a    1
b    2
c    3
d    4
dtype: int64
a    1
b    2
c    5
d    4
dtype: int64


In [27]:
# Dictionary를 활용하여 Series 생성가능
population_dict = {'china':141500, 'japan':12718, 'korea':5180, 'usa':32676}
population = pd.Series(population_dict)
print(population)

china    141500
japan     12718
korea      5180
usa       32676
dtype: int64


### DataFrame

* 여러 개의 Series가 모여서 행과 열을 이룬 데이터

In [28]:
gdp_dict= {'china': 1409250000,'japan': 516700000,'korea': 169320000,'usa': 2041280000,}
gdp= pd.Series(gdp_dict)

country = pd.DataFrame({'gdp':gdp, 'population':population})
display(country)

Unnamed: 0,gdp,population
china,1409250000,141500
japan,516700000,12718
korea,169320000,5180
usa,2041280000,32676


In [36]:
# Dictionary를 활용하여 DataFrame 생성 가능
data = {'country': ['china','japan','korea','usa'],
        'gdp': [1409250000,516700000, 169320000, 2041280000],
        'population': [141500,12718, 5180, 32676]}

country = pd.DataFrame(data)
country = country.set_index('country')
display(country)

Unnamed: 0_level_0,gdp,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1
china,1409250000,141500
japan,516700000,12718
korea,169320000,5180
usa,2041280000,32676


In [37]:
# DataFrame 속성 확인
print(country.shape)
print(country.size)
print(country.ndim)
print(country.values)

(4, 2)
8
2
[[1409250000     141500]
 [ 516700000      12718]
 [ 169320000       5180]
 [2041280000      32676]]


In [38]:
# DataFrame의 index와 column에 이름 지정
country.index.name = 'Country'
country.columns.name = 'Info'

print(country.index)
print(country.columns)

Index(['china', 'japan', 'korea', 'usa'], dtype='object', name='Country')
Index(['gdp', 'population'], dtype='object', name='Info')


In [39]:
# 데이터 프레임 저장 및 불러오기 가능
country.to_csv('./country.csv')
country.to_excel('country.xlsx')

country = pd.read_csv('./country.csv')

# country = pd.read_excel('country.xlsx')

print(country)

  Country         gdp  population
0   china  1409250000      141500
1   japan   516700000       12718
2   korea   169320000        5180
3     usa  2041280000       32676


#### .loc : 명시적인 인덱스를 참조하는 인덱싱/슬라이싱

In [42]:
data = {'country': ['china','japan','korea','usa'],
        'gdp': [1409250000,516700000, 169320000, 2041280000],
        'population': [141500,12718, 5180, 32676]}

country = pd.DataFrame(data)
country = country.set_index('country')

idx = country.loc['china'] # 인덱싱
display(idx)

sl = country.loc['japan':'korea', :'population'] # 슬라이싱
display(sl)

gdp           1409250000
population        141500
Name: china, dtype: int64

Unnamed: 0_level_0,gdp,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1
japan,516700000,12718
korea,169320000,5180


#### .iloc : 파이썬 스타일의 정수 인덱스 인덱싱/슬라이싱

In [47]:
idx = country.iloc[0] # 인덱싱
display(idx)

sl = country.iloc[1:3, :2] # 슬라이싱
display(sl)

gdp           1409250000
population        141500
Name: china, dtype: int64

Unnamed: 0_level_0,gdp,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1
japan,516700000,12718
korea,169320000,5180


In [48]:
# 컬럼명 활용하여 DataFrame에서 데이터 선택 가능
country

Unnamed: 0_level_0,gdp,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1
china,1409250000,141500
japan,516700000,12718
korea,169320000,5180
usa,2041280000,32676


In [49]:
print(country['gdp'])
print(country[['gdp']])

country
china    1409250000
japan     516700000
korea     169320000
usa      2041280000
Name: gdp, dtype: int64
                gdp
country            
china    1409250000
japan     516700000
korea     169320000
usa      2041280000


In [50]:
# Masking 연산이나 query 함수를 활용하여 조건에 맞는 DataFrame 행 추출 가능
country[country['population'] < 10000] # masking 연산 활용

Unnamed: 0_level_0,gdp,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1
korea,169320000,5180


In [51]:
country.query("population > 100000") # query 함수 활용

Unnamed: 0_level_0,gdp,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1
china,1409250000,141500


In [53]:
# Series도 numpy array처럼 연산자 활용 가능
gdp_per_capita = country['gdp'] / country['population']
country['gdp per capita']  = gdp_per_capita
country

Unnamed: 0_level_0,gdp,population,gdp per capita
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
china,1409250000,141500,9959.363958
japan,516700000,12718,40627.457147
korea,169320000,5180,32687.258687
usa,2041280000,32676,62470.314604


In [58]:
# list로 추가 or Dictionary로 추가

df = pd.DataFrame(columns=['이름','나이','주소']) # DataFrame 생성
df.loc[0] = ['길동', '26', '서울'] # list로 데이터 추가
display(df)

df.loc[1] = {'이름':'철수', '나이':'25', '주소':'인천'} # Dictionary로 데이터 추가
display(df)

df.loc[1, '이름'] = '영희'# 명시적 인덱스 활용하여 데이터수정
display(df)
3

Unnamed: 0,이름,나이,주소
0,길동,26,서울


Unnamed: 0,이름,나이,주소
0,길동,26,서울
1,철수,25,인천


Unnamed: 0,이름,나이,주소
0,길동,26,서울
1,영희,25,인천


In [62]:
import numpy as np
# NaN(= Not a Number)값으로 초기화 한 새로운 컬럼 추가

df['전화번호'] = np.nan # 새로운 컬럼 추가 후 NaN으로 초기화
display(df)

df.loc[0, '전화번호'] = '01012341234' # 명시적 인덱스 활용하여 데이터 수정
display(df)

Unnamed: 0,이름,나이,주소,전화번호
0,길동,26,서울,
1,영희,25,인천,


Unnamed: 0,이름,나이,주소,전화번호
0,길동,26,서울,1012341234.0
1,영희,25,인천,


In [63]:
# DataFrame에서 컬럼 삭제 후 원본 변경

df.drop('전화번호', axis = 1, inplace = True) # 컬럼 삭제
#axis = 1 : 열방향/axis = 0 : 행방향
#inplace= True : 원본변경/inplace=False : 원본변경X

In [64]:
df

Unnamed: 0,이름,나이,주소
0,길동,26,서울
1,영희,25,인천


### 실습 1

In [65]:
import numpy as np
import pandas as pd

# 예시) 시리즈 데이터를 만드는 방법.
series = pd.Series([1,2,3,4], index = ['a', 'b', 'c', 'd'], name="Title")
print(series, "\n")


# 국가별 인구 수 시리즈 데이터를 딕셔너리를 사용하여 만들어보세요.
dict = {'korea' : 5180, 'japan': 12718, 'china' : 141500, 'usa' : 32676}
country = pd.Series(dict)
print(country)

a    1
b    2
c    3
d    4
Name: Title, dtype: int64 

korea      5180
japan     12718
china    141500
usa       32676
dtype: int64


### 실습 2

In [66]:
import numpy as np
import pandas as pd

# 두 개의 시리즈 데이터가 있습니다.
print("Population series data:")
population_dict = {
    'korea': 5180,
    'japan': 12718,
    'china': 141500,
    'usa': 32676
}
population = pd.Series(population_dict)
print(population, "\n")

print("GDP series data:")
gdp_dict = {
    'korea': 169320000,
    'japan': 516700000,
    'china': 1409250000,
    'usa': 2041280000,
}
gdp = pd.Series(gdp_dict)
print(gdp, "\n")


# 이곳에서 2개의 시리즈 값이 들어간 데이터프레임을 생성합니다.
print("Country DataFrame")
country = pd.DataFrame({'population':population,'gdp':gdp})
print(country)


Population series data:
korea      5180
japan     12718
china    141500
usa       32676
dtype: int64 

GDP series data:
korea     169320000
japan     516700000
china    1409250000
usa      2041280000
dtype: int64 

Country DataFrame
       population         gdp
korea        5180   169320000
japan       12718   516700000
china      141500  1409250000
usa         32676  2041280000


In [None]:
### t

In [None]:
import numpy as np
import pandas as pd

print("Masking & query")
df = pd.DataFrame(np.random.rand(5, 2), columns=["A", "B"])
print(df, "\n")

# 데이터 프레임에서 A컬럼값이 0.5보다 작고 B컬럼 값이 0.3보다 큰값들을 구해봅시다.
# 마스킹 연산을 활용하여 출력해보세요!
print(df[(df['A']<0.5) & (df['B']>0.3)])

# query 함수를 활용하여 출력해보세요!

print(df.query("A < 0.5 and B>0.3"))