### 판다스(pandas)
데이터를 관리하기 위한 모듈로, 시리즈와 데이터 프레임을 제공함

In [123]:
# 모듈 불러오기
# 넘파이 모듈을 np라고 부른다
import numpy as np
# 판다스 모듈을 pd라고 부른다
import pandas as pd

#### 4.1 시리즈(series)
<small>데이터를 한줄로 담는 자료 구조이다<br>
리스트와 다른 점은 데이터에 이름표를 붙일 수 있다 (index)
</small>

시리즈 생성1

In [6]:
# 시리즈 생성
s = pd.Series([1,2,3,4])
print(s)
# 인덱스가 자동으로 설정됨(0~3)
# 시리즈의 인덱스 확인
s.index

0    1
1    2
2    3
3    4
dtype: int64


RangeIndex(start=0, stop=4, step=1)

시리즈 생성2

In [11]:
# 인덱스를 직접 설정하여 시리즈 생성
# pd.Series(값목록(list), 인덱스(list))
s = pd.Series([1,2,3], index=['a','b','c'])
s
# 인덱스 확인
s.index

Index(['a', 'b', 'c'], dtype='object')

시리즈에서 값 꺼내기  
<small>
    값을 찾는 방법: 인덱스의 이름과 위치<br>
    loc 함수: 인덱스 이름으로 데이터를 찾는다<br>
    iloc 함수: 인덱스 위치로 데이터를 찾는다<br>
    대괄호[] : 인덱스 이름으로 데이터를 찾는다 / 소괄호 X
</small>

In [22]:
print(s)
# 이 시리즈의 인덱스 이름: a,b,c
# 이 시리즈의 인덱스 위치: 0, 1, 2

# 인덱스 이름으로 숫자 1 꺼내기
# s.loc[이름]
s.loc['a']
# 인덱스 이름으로 숫자 2 꺼내기
# s[이름]
s['b']
# 인덱스 위치로 숫자 3 꺼내기
# s.iloc[위치]
s.iloc[2]


a    1
b    2
c    3
dtype: int64


np.int64(3)

시리즈 값 수정하기

In [30]:
print(s)
# 1을 0으로 변경
# 찾기 -> 변경
s.loc['a'] = 0
# 3을 99로 변경
s['c']=99
s

a    0
b    2
c    3
dtype: int64


a     0
b     2
c    99
dtype: int64

#### 4.2 데이터 프레임 (DataFrame)
<small>
    표 형식의 2차원 데이터를 담기 위한 자료 구조
</small>

데이터 프레임 생성1

In [40]:
# 도시별 인구 데이터를 담은 데이터 프레임 생성
# 데이터 먼저 만들기 (dic)
# city 라는 열 1개
data = { "city":['서울','인천'], 
         "pop":[990,240]
       }
# city, pop 열 두개를 담은 데이터 프레임 생성
df = pd.DataFrame(data)
df

# 행열의 이름을 따로 설정하지 않으면 자동으로 설정됨
print(df.index) # 행 이름: 0,1
print(df.columns) # 열 이름: dic의 key(city, pop)

RangeIndex(start=0, stop=2, step=1)
Index(['city', 'pop'], dtype='object')


데이터 프레임 생성2

In [52]:
# 학생 성적 데이터 만들기
# dic, list
# 넘파이의 다차원 배열 사용하여 2차원 배열 생성
data = np.array([ [60,70,80], [70,80,90], [80,90,100] ])
data
# 성적 데이터를 담아서 데이터 프레임 생성
# 이 점수가 누구의 어떤 점수인지 알기 위해, 이름표 붙이기
# 행이름: 학생의 이름
# 열이름: 과목명
df = pd.DataFrame(data, index=["둘리","또치","도우너"], columns=['국어','영어','수학'])
df

# 행 인덱스
df.index
# 열 컬럼
df.columns

Index(['국어', '영어', '수학'], dtype='object')

데이터 프레임에서 데이터 꺼내기  
<small>
    loc: 행열 이름으로 데이터를 꺼낸다<br>
    iloc: 행열 위치로 데이터를 꺼낸다<br>
    []: 행열 이름으로 데이터를 꺼낸다
</small>

In [71]:
print(df)
# loc[행이름,열이름]
df.loc[:,:] # 전체 데이터
# loc[:,열이름]
print(df.loc[:,'국어'])
# loc[행이름]
print(df.loc['둘리'])
# 둘리의 국어 점수
df.loc['둘리','국어']
# 도우너의 수학 점수
df.loc['도우너','수학']

# 프레임에서 []대괄호를 쓰면, 열만 입력가능!
# ex) df['둘리'] => ERROR! '둘리'는 행!

# [열이름]
# 모든 학생의 국어 점수
df['국어']
# 모든 학생의 영어 점수
df['영어']

     국어  영어   수학
둘리   60  70   80
또치   70  80   90
도우너  80  90  100
둘리     60
또치     70
도우너    80
Name: 국어, dtype: int64
국어    60
영어    70
수학    80
Name: 둘리, dtype: int64


둘리     70
또치     80
도우너    90
Name: 영어, dtype: int64

데이터 프레임에 새로운 열 추가

In [78]:
# 새로운 과목 추가
# 새로운 열=리스트
# 맨뒤에 추가됨
# df['과학'] = [60,70,80]
# df
print(df)
# 이번에는 2번째 위치에 '미술' 과목을 추가
# insert(위치,컬럼명,값리스트)
df.insert(2,'미술',[70,80,90])
df

     국어  영어   수학  과학
둘리   60  70   80  60
또치   70  80   90  70
도우너  80  90  100  80


Unnamed: 0,국어,영어,미술,수학,과학
둘리,60,70,70,80,60
또치,70,80,80,90,70
도우너,80,90,90,100,80


데이터 프레임에서 열 삭제  
<small>
    del:원본에서 바로 삭제<br>
    drop: 원본은 그대로, 결과만 보여줌
</small>

In [103]:
# 과학 과목 삭제
# 선택 > 삭제
# del df['과학']

# 수학 과목 삭제
# drop(행또는열의 이름, 방향)
# axis=1 또는 axis='columns'
print(df)
# df = df.drop('수학',axis=1) #엑시스(축, 방향)
df

# 도치 학생 삭제(행삭제)
# axis=0 또는 axis='row'
# drop은 원본에 영향없음
# 결과를 원본에 교체
df.loc['또치']
df = df.drop('또치',axis=0)
df

     국어  영어  미술
둘리   60  70  70
또치   70  80  80
도우너  80  90  90


Unnamed: 0,국어,영어,미술
둘리,60,70,70
도우너,80,90,90


#### 4.3 데이터 계산과 처리

시리즈에서 계산과 조건검색

In [106]:
# 숫자가 담긴 리스트 생성
lis = [-2,-1,0,1,2]
# 모든 원소에 1만큼 더하기
for i in lis:
    print(i+1)

-1
0
1
2
3


In [108]:
# 숫자가 담긴 시리즈 생성
s = pd.Series([-2,-1,0,1,2])

# 모든 원소에 1만큼 더하기
# 판다스의 시리즈는 for 없이 반복수행가능
# 아래 계산식은 자동으로 더하기가 6번 반복 수행됨
# s + 1
s.add(1)

0   -1
1    0
2    1
3    2
4    3
dtype: int64

In [117]:
s
# 조건 검색(양수만 찾기)
# 불리언 배열 만들기
# Series > int => 시리즈의 전체 데이터와 0을 비교
s > 0
# 불리언 배열은 시리즈의 인덱스로 사용할 수 있다
# true인 값만 남음
s[s>0]

3    1
4    2
dtype: int64

In [125]:
# 조건검색2 (짝수만 찾기)
# 넘파이의 arange함수(시작,마지막)
# 1~10 숫자가 담긴 시리즈 생성
s = pd.Series(np.arange(1,11))
s

# 짝수만 찾기
s[s%2 ==0]

1     2
3     4
5     6
7     8
9    10
dtype: int64

데이터 프레임에서 계산과 처리

In [127]:
# 학생 성적 데이터 만들기
data = np.array([ [60,70,80], [70,80,90], [80,90,10] ])
# 성적데이터를 담아서 프레임 생성
df = pd.DataFrame(data, 
                  index=['둘리','또치','도우너'],
                  columns=['국어','영어','수학'])
df

Unnamed: 0,국어,영어,수학
둘리,60,70,80
또치,70,80,90
도우너,80,90,10


In [131]:
# 국어 과목만 조회
df['국어']
# 국어과목에 담겨있는 값의 자료형
df['국어'].dtype
# 국어과목의 자료 구조
type(df['국어'])
# 데이터프레임은 여러 시리즈의 묶음

pandas.core.series.Series

In [136]:
# 전체 점수에 1점씩 더하기
# 데이터 프레임 전체 데이터에 더하기가 적용됨
df + 1
# 국어점수만 10점씩 더하기
df['국어']+10

둘리     70
또치     80
도우너    90
Name: 국어, dtype: int64

In [140]:
# 조건 검색(국어점수가 70점 이상인 학생만 찾기)
df['국어']>=70
# 프레임에 bool 배열을 인덱스로 사용
df[df['국어']>=70]

Unnamed: 0,국어,영어,수학
또치,70,80,90
도우너,80,90,10


데이터프레임의 정렬  
<small>
    시험 성적 순위를 매길때 사용  
</small>

In [142]:
data = np.array([ [60,70,80], [70,80,90], [80,90,10] ])
df = pd.DataFrame(data, 
                  index=['둘리','또치','도우너'],
                  columns=['국어','영어','수학'])
df

Unnamed: 0,국어,영어,수학
둘리,60,70,80
또치,70,80,90
도우너,80,90,10


In [145]:
# 시험 성적에서 국어 점수를 기준으로 정렬
df.sort_values('국어')
# 국어 점수를 기준으로 내림차순 정렬
# 정렬 기준: 오름차순 / 내림차순
df.sort_values('국어', ascending=False)

Unnamed: 0,국어,영어,수학
도우너,80,90,10
또치,70,80,90
둘리,60,70,80


In [146]:
# 학생 데이터 생성
# 범위
data = np.random.randint(60,100,9)
print(data)

[88 73 93 96 86 77 94 60 87]


In [156]:
# 랜덤함수로 시험 점수 생성
# 범위: 60점 ~ 100점
# 개수 : 9개
data = np.random.randint(60,100,9)
# 3행3열 크기의 2차원 배열로 변환
arr = data.reshape(3,3)
arr
# 프레임 생성
df = pd.DataFrame(arr, index=['둘리','또치','도우너'],
                  columns=['수학','영어','과학'])
print(df)
# 영어 점수가 높은 사람 순으로 정렬(내림차순)
df.sort_values('영어', ascending=False)

     수학  영어  과학
둘리   95  77  75
또치   96  61  99
도우너  73  76  95


Unnamed: 0,수학,영어,과학
둘리,95,77,75
도우너,73,76,95
또치,96,61,99


nan 처리  
<small>
누락된값, 빈값<br>
예를 들어 엑셀에서 빈셀을 표현할 때 사용<br>
nan은 float타입에서만 표현 가능
</small>

In [157]:
df

Unnamed: 0,수학,영어,과학
둘리,95,77,75
또치,96,61,99
도우너,73,76,95


In [163]:
# 둘리의 영어점수를 빈값(nan)으로 표시
# 빈값을 넣으면 해당 값이 들어간 열이 float 타입으로 자동 형변환됨
# df.loc['둘리','영어'] = np.nan
# df['영어'].dtype => float
df

Unnamed: 0,수학,영어,과학
둘리,95,,75
또치,96,61.0,99
도우너,73,76.0,95


In [170]:
# 점수가 없는 학생 데이터 삭제
# 빈값이 있는 행 또는 열 삭제
# 엑시스 0 'row' => 행
# 삭제를 반영하기 위해서, 결과를 df에 덮어싀우기!
df = df.dropna(axis=0)
df

Unnamed: 0,수학,영어,과학
또치,96,61.0,99
도우너,73,76.0,95


In [175]:
# 또치의 과학 점수를 빈값으로 설정
df.loc['또치','과학'] = np.nan
df

Unnamed: 0,수학,영어,과학
또치,96,61.0,
도우너,73,76.0,95.0


In [176]:
# 비어있는 점수를 모두 0으로 설정
df.fillna(0)

Unnamed: 0,수학,영어,과학
또치,96,61.0,0.0
도우너,73,76.0,95.0
