<a href="https://colab.research.google.com/github/routingg/Python/blob/main/python_pandansEx01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas

- 데이터 조작 및 분석 기능을 제공하는 라이브러리
- 다양한 형식의 데이터를 읽고 원하는 데이터 형식으로 변환하는 작업에 장점이 있다.
- pandas 자료 구조(객체) : Series, DataFrame

In [8]:
import pandas as pd
import numpy as np
from pandas import Series, DataFrame

### Series 객체

In [13]:
# Series 객체는 일차원 배열 같은 자료구조 객체

obj = Series([3, 22, 34, 11])

print(obj)

print('-------------------------')

arr = np.array([3, 22, 34, 11])
arr

0     3
1    22
2    34
3    11
dtype: int64
-------------------------


array([ 3, 22, 34, 11])

In [14]:
print(type(obj), type(arr))

<class 'pandas.core.series.Series'> <class 'numpy.ndarray'>


In [16]:
print(obj.values)
print('-------------------------')
print(obj.index)
# index를 RangeIndex 객체로 관리 => 수정 가능

[ 3 22 34 11]
-------------------------
RangeIndex(start=0, stop=4, step=1)


In [19]:
obj2 = Series([4, 5, 6, 2], index=['c', 'd', 'f', 'e'])
obj2

c    4
d    5
f    6
e    2
dtype: int64

In [20]:
# indexing
obj2['c']

4

In [21]:
obj2[0]

4

In [23]:
# 배열 연산도 가능
obj2 * 2

c     8
d    10
f    12
e     4
dtype: int64

In [24]:
# cf) 파이썬 리스트 연산과 구분
[1, 2, 3]*2

[1, 2, 3, 1, 2, 3]

In [25]:
[1, 2, 3] +2

TypeError: ignored

In [31]:
# 요소를 한꺼번에 지정
obj2[0:2]     # slicing : 연속적

c    4
d    5
dtype: int64

In [32]:
# 연속적이 아니어도 한꺼번에 저장(리스트로 담으면 됨)
obj2[[0, 2, 1]]

c    4
f    6
d    5
dtype: int64

In [33]:
arr[0]

3

In [34]:
arr[0:2]

array([ 3, 22])

In [36]:
arr[[0, 2, 1]]

array([ 3, 34, 22])

In [47]:
# 인덱스의 존재 여부 (True/False로 return)
print('f' in obj2)

True


In [42]:
print(3 in arr)

True


In [48]:
# 파이썬 딕셔너리 자료형으로 Series 객체 생성 가능
data = {'kim' : 3400, 'hong' : 2000, 'kang' : 1000, 'lee' : 2400}

obj3 = Series(data)
obj3

kim     3400
hong    2000
kang    1000
lee     2400
dtype: int64

In [50]:
# Series index가 바뀌는 key가 사라지는 결과가 되므로 value가 NaN 처리됨에 유의

name = ['woo', 'hong', 'kang', 'lee']

obj4 = Series(data, index=name)
obj4

woo        NaN
hong    2000.0
kang    1000.0
lee     2400.0
dtype: float64

In [52]:
# 결측치(누락데이터)를 찾을 때 사용하는 함수 : isnull(), notnull() => T/F return

print(pd.isnull(obj4))
print('-------------------------')
print(pd.notnull(obj4))

woo      True
hong    False
kang    False
lee     False
dtype: bool
-------------------------
woo     False
hong     True
kang     True
lee      True
dtype: bool


In [53]:
# 정리

data = {'Seoul' : 4000, 'Busan' : 2000, 'Incheon' : 2500, 'Jeju' : 1000}

obj = Series(data)
obj

Seoul      4000
Busan      2000
Incheon    2500
Jeju       1000
dtype: int64

In [54]:
print(obj.index, '-', obj.values)

Index(['Seoul', 'Busan', 'Incheon', 'Jeju'], dtype='object') - [4000 2000 2500 1000]


In [57]:
cities = ['Seoul', 'Daegu', 'Incheon', 'Jeju']

obj2 = Series(data, index = cities)
obj2

Seoul      4000.0
Daegu         NaN
Incheon    2500.0
Jeju       1000.0
dtype: float64

In [59]:
obj + obj2      # NaN : 연산이 안됨!

Busan         NaN
Daegu         NaN
Incheon    5000.0
Jeju       2000.0
Seoul      8000.0
dtype: float64

In [60]:
# Series 객체와 Index(색인) 객체 모두 name 속성이 있음

obj2.name = '인구 수'
obj2

Seoul      4000.0
Daegu         NaN
Incheon    2500.0
Jeju       1000.0
Name: 인구 수, dtype: float64

In [62]:
obj2.index.name = '도시'

obj2

도시
Seoul      4000.0
Daegu         NaN
Incheon    2500.0
Jeju       1000.0
Name: 인구 수, dtype: float64

In [None]:
# key-value로 지정하면서 바로 key를 바꾸는 것은 NaN이 될 수 있으나, 따로 index만 바꾸는 것은 가능하다.

In [63]:
obj2.index = ['Daejeon', 'Busan', 'JeonJu', 'Gwangju']

obj2

Daejeon    4000.0
Busan         NaN
JeonJu     2500.0
Gwangju    1000.0
Name: 인구 수, dtype: float64

### DataFrame 객체

In [66]:
# DataFrame은 2차원 리스트(배열) 같은 자료구조 객체

x = DataFrame([[1, 2, 3],
               [4, 5, 6],
               [7, 8, 9]])

x

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [67]:
data = {
    'city' : ['서울', '부산', '광주', '대구'],
    'year' : [2000, 2001, 2002, 2003],
    'population' : [4000, 2000, 1000, 1000]
}

df = DataFrame(data)
df

Unnamed: 0,city,year,population
0,서울,2000,4000
1,부산,2001,2000
2,광주,2002,1000
3,대구,2003,1000


In [68]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   city        4 non-null      object
 1   year        4 non-null      int64 
 2   population  4 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 224.0+ bytes
