## pandas 불러오기

In [1]:
import pandas as pd

# pandas Series 객체
### - pandas Series는 인덱싱된 데이터의 1차원 배열, 후에 나올 DataFrame 에서 열만 떼어낸 것이라 
###   본인은 생각하였다. 

In [2]:
# series객체 만들어 data라는 변수에 담기 
# 리스트로 만들수 있으며 value와 index로 접근 가능하다.
data = pd.Series([0, 1, 3.5, 215, 669451, 213, 0.213, 25, 0.02])

#출력 data type 은 float
data

0         0.000
1         1.000
2         3.500
3       215.000
4    669451.000
5       213.000
6         0.213
7        25.000
8         0.020
dtype: float64

In [3]:
# value 값으로 접근하여보기
data.values

array([0.00000e+00, 1.00000e+00, 3.50000e+00, 2.15000e+02, 6.69451e+05,
       2.13000e+02, 2.13000e-01, 2.50000e+01, 2.00000e-02])

In [4]:
# index 값 확인하기 0 번부터 8 번까지 9개의 data가 존재한다. 
data.index

RangeIndex(start=0, stop=9, step=1)

In [5]:
#index 값으로 접근하기
data[1]

1.0

In [6]:
# index slicing 해보기 
# slicing 을 하게되면 [n : m-1] 로 접근
data[0:3]

0    0.0
1    1.0
2    3.5
dtype: float64

In [7]:
# index값을 문자로 지정해주기 
# 기본 숫자로 되어있던 index 값을 문자로 지정해주었다.
data = pd.Series([0, 1, 3.5, 215, 669451, 213, 0.213, 25, 0.02], index = ['A','B','C','D','E','F','G','H','I'])
data

A         0.000
B         1.000
C         3.500
D       215.000
E    669451.000
F       213.000
G         0.213
H        25.000
I         0.020
dtype: float64

In [8]:
# 앞에서 바꾸어준 문자 index로 접근해보기
data['A']

0.0

In [9]:
data['C': 'E']

C         3.5
D       215.0
E    669451.0
dtype: float64

In [12]:
# index를 지정해주지 않으면 자동으로 정수가 기본이다.
pd.Series([1,2,3,4,5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [13]:
# index를 지정해주고 value를 채우지 않았으면 value를 채우기 위해 데이터는 반복되는 스칼라 값이다.
pd.Series(1, index = ['a','b','c'])

a    1
b    1
c    1
dtype: int64

# pandas DateaFrame 객체

### - DateFrame 은 column 과 row  를 가지는 2차원 배열이라고 할 수있다,
### - DateFrame 은 정렬된 Series 객체의 연속으로 볼 수있다. 

In [20]:
# Series 의 복습
# 지역별 인구수를 필자의 마음대로 지정하여 Series data를 임의로 생성하였다.
populaion_dict = {'서울' : 10888, '부산' : 8544, '경기' : 120000, '강원' : 6598, '천안' : 221}
population = pd.Series(populaion_dict)
population

서울     10888
부산      8544
경기    120000
강원      6598
천안       221
dtype: int64

In [15]:
# 지역별 면적을 필자의 마음대로 지정하여 Series data를 임의로 생성하였다.
area_dict = {'서울' : 15414, '부산' : 9851, '경기' : 12000, '강원' : 5805, '천안' : 585}
area = pd.Series(area_dict)
area

서울    15414
부산     9851
경기    12000
강원     5805
천안      585
dtype: int64

In [21]:
# 앞서만들었던 Series 들을  dictionary 를 이용하여 DateFrame 화 시켰다.
states = pd.DataFrame({'population' : population,
                      'area' : area})
states

Unnamed: 0,population,area
서울,10888,15414
부산,8544,9851
경기,120000,12000
강원,6598,5805
천안,221,585


In [22]:
# states의 index 값 확인
states.index

Index(['서울', '부산', '경기', '강원', '천안'], dtype='object')

In [23]:
# states의 열 이름 확인
states.columns

Index(['population', 'area'], dtype='object')

In [24]:
# area 열만 보고 싶으면 
states['area']

서울    15414
부산     9851
경기    12000
강원     5805
천안      585
Name: area, dtype: int64

In [25]:
# area 열을 DateFrame 으로 보고싶으면
states[['area']]

Unnamed: 0,area
서울,15414
부산,9851
경기,12000
강원,5805
천안,585


In [27]:
# population 이름의 Series를 열 이름이 population 인 DataFrame 으로 만들기 
pd.DataFrame(population, columns = ['population'])

Unnamed: 0,population
서울,10888
부산,8544
경기,120000
강원,6598
천안,221


In [28]:
# 번외 . List Comprehension 으로 DataFrame 생성하기 
data = [{'a' : i , 'b' : 2*  i}
       for i in range(5)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4
3,3,6
4,4,8


### index 객체는 파이썬에 내장된 set data구조에서 사용하는 표기법을 따른다, 그렇기에 합집합,  교집합, 차집합의 연산이 가능하다.

In [32]:
A = pd.Index([1,2,3,4,5])
B = pd.Index([3,4,5,6,7])

print(A & B) # 교집합
print(A | B) # 합집합
print(A ^ B) # 대칭 차집합

Int64Index([3, 4, 5], dtype='int64')
Int64Index([1, 2, 3, 4, 5, 6, 7], dtype='int64')
Int64Index([1, 2, 6, 7], dtype='int64')


  print(A & B) # 교집합
  print(A | B) # 합집합
  print(A ^ B) # 차집합
