파이썬의 주요 데이터 분석 라이브러리
- NumPy (넘파이) : 배열, 행렬 관련 편리한 기능 제공
- Pandas (판다스) : Series, DataFrame 등의 자료구조를 활용한 데이터 분석 기능 제공
- Matplotlib (맷플롯립) : 데이터 분석 결과를 시각화하는데 유용한 기능 제공

판다스 기초

pandas
- Series, DataFrame 등의 자료구조를 활용한
- 데이터 분석 기능을 제공해주는 라이브러리

pandas 라이브러리 구성
- 여러 종류의 클래스와 다양한 내장함수로 구성
- 시리즈와 데이터프레임이라는 데이터 구조 클래스 객체 포함
- 자주 사용되는 내장 함수 : Series(), DataFrame(), read_excel(), read_csv()

Series와 DataFrame : 구조화된 데이터 형식
- Series : 1차원 배열
- DataFrame : 2차원 테이블 형태

판다스의 1차적인 목적
- 서로 다른 여러 가지 유형의 데이터를 공동의 포맷으로 정리하는 것
- 특히, 행과 열로 이루어진 2차원 구조의 데이터프레임 형식으로 사용
- 데이터 분석 실무에서 자주 사용됨


시리즈부터 시작

시리즈
- 데이터가 순차적으로 나열된 1차원 배열 형태
- 인덱스(index)와 데이터 값(value)이 일대일로 대응됨
- 딕셔너리와 비슷한 구조 : [key : value]
- 시리즈의 인덱스 = 데이터의 값의 위치를 나타내는 이름표 (숫자, 문자)

시리즈 만들기 : 판다스의 내장 함수인 Series() 함수 사용
 1. 리스트로 시리즈 만들기
 2. 딕셔너리로 시리즈 만들기

In [2]:
# pandas 불러오기 
import pandas as pd

In [3]:
# 시리즈 만들기 : Series() 함수 사용
# 1. 리스트로 시리즈 만들기
# Sefies(1차원배열:리스트)
s = pd.Series([1,2,3])
s
# 인덱스 : 0부터 시작하는 정수값으로 자동 지정

0    1
1    2
2    3
dtype: int64

In [4]:
# 2. 딕셔너리로 시리즈 만들기
scores = {'홍길동':95, '이몽룡':100, '성춘향':88}
s = pd.Series(scores)
s

홍길동     95
이몽룡    100
성춘향     88
dtype: int64

In [5]:
# 숫자 인덱스 지정하면서 시리즈 생성
s = pd.Series([10,20,30],index=[1,2,3])
s

1    10
2    20
3    30
dtype: int64

In [6]:
# 문자 인덱스 사용
s = pd.Series([95,100,88],
             index = ['홍길동','이몽룡','성춘향'])
s


홍길동     95
이몽룡    100
성춘향     88
dtype: int64

In [33]:
# 123456, 345678, 384567, 148324
# 인덱스 : 서울, 부산, 인천, 대구
# 시리즈 s 생성
s = pd.Series([123456, 345678, 384567, 148324],index=['서울','부산','인천','대구'])
s

서울    123456
부산    345678
인천    384567
대구    148324
dtype: int64

In [17]:
# range() 함수를 사용해서 일정 범위의 값으로 시리즈 생성
pd.Series(range(10,14))
# 인덱스는 항상 0부터 시작

0    10
1    11
2    12
3    13
dtype: int64

In [18]:
# 시리즈의 인덱스는 index 속성으로 접근해서 확인 가능
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [19]:
# 시리즈의 값은 values 속성으로 접근해서 확인 가능
s.values

array([123456, 345678, 384567, 148324], dtype=int64)

In [20]:
# 인덱스와 데이터에 이름 붙이기
# index.name 속성으로 시리즈의 인덱스에 이름을 붙일 수 있음
s.index.name = "도시"
s

도시
서울    123456
부산    345678
인천    384567
대구    148324
dtype: int64

In [15]:
# 데이터에는 name 속성을 이용해서 시리즈에 이름 붙일 수 있음
s.name = "인구"
s

도시
서울    123456
부산    345678
인천    384567
대구    148324
Name: 인구, dtype: int64

시리즈 인덱싱 (indexing)
- 데이터에서 인덱스를 사용해서 특정 데이터만 골라내는 것 (추출하는 것)

인덱스 종류
1. 정수형 위치 인덱스 (integer position)
2. 인덱스 이름(index name) 또는 인덱스 라벨(index label)
    - 인덱스 아룸 예 : 서울, 부산, 인천, 대구


In [10]:
# 정수형 위치 인덱스를 사용한 인덱싱
s[0] # 첫 번째 요소(원소)

123456

In [17]:
# 인덱스 이름 (또는 인덱스 라벨)을 이용한 인덱싱
s['부산']

345678

In [18]:
# 정수형 위치 인덱스, 인덱스 이름(인덱스 라벨)
s[3], s['대구']

(148324, 148324)

In [12]:
# 배열 인덱싱을 하면 데이터의 순서 변경하기
# 특정 데이터만 선택 가능
# 인덱스 사용법 : s[0] : 인덱스값이 1개인 경우
# 인덱스 값이 여러 개인 경우 리스트로 표현 : [0,3,1]
# - s[[0,3,1]]
s[[0,3,1]]

도시
서울    123456
대구    148324
부산    345678
dtype: int64

In [15]:
# 인덱스 라벨을 사용해서 서울, 대구, 부산만 출력
s[['서울','대구','부산']]

도시
서울    123456
대구    148324
부산    345678
dtype: int64

In [21]:
# 시리즈 슬라이싱
# 정수형 위치 인덱스를 사용한 슬라이싱
# [start,end-1]
# 2~3번째
s[1:3]

도시
부산    345678
인천    384567
dtype: int64

In [25]:
#인덱스 라벨(문자열)을 사용한 슬라이싱도 가능
# 부산, 인천, 대구 추출
# [start, end]
s['부산':'대구']

도시
부산    345678
인천    384567
대구    148324
dtype: int64

In [26]:
# 라벨 값이 영문인 문자열인 경우
# 속성인 것처럼 점(.)을 이용해서 접근이 가능
# s.a
s1 = pd.Series(range(3),index=['a','b','c'])
s1

a    0
b    1
c    2
dtype: int64

In [27]:
# 인덱스 : a, b, c (영문 문자열)
# 속성인 것처럼 점(.)을 이용해서 접근
s1.a

0

시리즈의 데이터 갱신, 추가, 삭제
인덱싱을 이용하면 딕셔너리처럼 데이터를 찾아서 갱신(update)하고
추가, 삭제 가능

In [28]:
# '부산'의 데이터 변경
s['부산'] = 156789
s

도시
서울    123456
부산    156789
인천    384567
대구    148324
dtype: int64

In [29]:
# 데이터 삭제 : del 명령어 사용
del s['서울']
s

도시
부산    156789
인천    384567
대구    148324
dtype: int64

In [35]:
# 데이터 추가
s['광주'] = 234000
s

서울    123456
부산    345678
인천    384567
대구    148324
광주    234000
dtype: int64

In [None]:
del s
s # s가 삭제되어 오류 발생

연습문제1
임의로 2개의 시리즈 객체 생성
모두 문자열 인덱스로 생성
두 시리즈에 다르게 라벨 설정 (마음대로 만들기)

In [39]:
s1 = pd.Series([12,14,16],index=['kor','math','eng'])
s1

kor     12
math    14
eng     16
dtype: int64

In [40]:
s2 = pd.Series([23,25,48],index=['lee','lim','kim'])
s2

lee    23
lim    25
kim    48
dtype: int64

데이터프레임
- 2차원 행렬 데이터에 인덱스를 붙인 것
- 행과 열로 만들어지는 2차원 배열 구조
- R의 데이터프레임에서 유래
- 데이터프레임의 각 열은 시리즈 객체로 이루어져 있음
- DataFrame() 함수를 사용해서 데이터프레임 생성
- 리스트로 데이터프레임 생성
- 딕셔너리로 데이터프레임 생성

In [41]:
# 리스트로 데이터 프레임 생성
df = pd.DataFrame([['a','b','c'],
                  ['a','a','g'],
                  ['a','i','j']])
df
# 열 이름과 인덱스 자동 생성
# 열이름 : 열방향 인덱스 (가로)
# 인덱스 : 행방향 인덱스 (세로)

Unnamed: 0,0,1,2
0,a,b,c
1,a,a,g
2,a,i,j


In [45]:
# 열이름과 인덱스 지정하고 데이터프레임 생성
df1 = pd.DataFrame({'A':['A0','A1','A2','A3'],
                    'B':['B0','B1','B2','B3'],
                    'C':['C0','C1','C2','C3']},
                   index=[0,1,2,3])
df1

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
