### 판다스 (pandas)  
데이터를 관리하기 위한 모듈로 , 시리즈와 데이터 프레임을 제공함  

In [4]:
# 모듈 불러오기
# 넘파이 모듈을 np 라고 부른다
import numpy as np
# 판다스 모듈을 pd 라고 부른다
import pandas as pd

#### 4.1 시리즈 (series)  
<small>
데이터를 한줄로 담는 자료 구조<br>
리스트와 다른 점 : 데이터에 이름표를 붙일 수 있다 (index)
</small>

시리즈 생성1

In [8]:
# 시리즈 생성
s = pd.Series([1,2,3,4])
s
print(s)
# 인덱스가 자동으로 설정됨 (0~3)
# 시리즈의 인덱스 확인
s.index

0    1
1    2
2    3
3    4
dtype: int64


RangeIndex(start=0, stop=4, step=1)

시리즈 생성2

In [12]:
# 인덱스를 직접 설정하여 시리즈 생성
# pd.Series(값목록(list), 인덱스(list))
s = pd.Series([1,2,3], index=['a','b','c'])
s
print(s)
# 인덱스 확인
s.index

a    1
b    2
c    3
dtype: int64


Index(['a', 'b', 'c'], dtype='object')

# 시리즈에서 값 꺼내기  
<small>
값을 찾는 방법 : 인덱스의 이름과 위치<br>
대괄호 [] : 인덱스 이름으로 값을 꺼냄<br>  
loc 함수 : 인덱스 이름으로 값을 꺼냄<br>  
iloc 함수 : 인데스 위치(번호)로 값을 꺼냄
</small>

In [17]:
print(s)
# 이 시리즈의 인덱스 이름 : a,b,c
# 이 시리증의 인덱스 위치 : 0,1,2 (고민할 필요 x)
# 인덱스 이름으로 숫자 1 꺼내기
s.loc['a']
# 인덱스 이름으로 숫자 2 꺼내기
s['b']
# 인덱스 위치로 숫자 3 꺼내기
s.iloc[2]

a    1
b    2
c    3
dtype: int64


np.int64(3)

In [22]:
print(s)
# 1을 0으로 변경
# 찾기-> 변경
s.loc['a'] = 0
print(s)
# 3을 99로 변경
s['c'] = 99
print(s)

a     0
b     2
c    99
dtype: int64
a     0
b     2
c    99
dtype: int64
a     0
b     2
c    99
dtype: int64


### 4-2 데이터 프레임 (DataFrame)  
표 형식의 2차원 데이터를 담기 위한 자료구조 

데이터 프레임 생성 1

In [25]:
# 도시별 인구 데이터를 담은 데이터 프레임 생성
# 데이터 먼저 만들기 (dic)
data = { " city " : ["서울","인천"],
       "pop" : [990,240]}
# cit , pop 열 두개를 담음 데이터 프레임 생성
df = pd.DataFrame(data)
df

Unnamed: 0,city,pop
0,서울,990
1,인천,240


In [36]:
# pd.DateFrame(값,[인덱스],[컬럼])
df = pd.DataFrame(data)
df
# 행열의 이름을 따로 설정하지 않으면 자동으로 생성됨
print(df.columns) # 열 이름 : dix 의 key (city,pop)

RangeIndex(start=0, stop=3, step=1)


데이터 프레임 생성2

In [38]:
# 학생 성적 데이터 만들기
# dic, list
# 넘파이의 다차원 배열 사용하여 2차원 배열 생성
data = np.array([[60,70,80],[70,80,90],[80,90,100]])
# 성적 데이터를 담아서 데이터 프레임 생성
# 이점수가 누구의 어떤 점수인지 알기 위해 , 이름표 붙이기
# 행 이름 : 학생의 이름
# 열 이름 : 과목명
df = pd.DataFrame(data,
                  index = ['둘리','또치','도우너'],
                  columns = ['국어','영어','수학'])
df
# 행 인덱스
df.index
# 열 컬럼
df.columns

Index(['국어', '영어', '수학'], dtype='object')

#### 데이터 프레임에서 데이터 꺼내기  
<small>
    loc: 행열 이름으로 데이터를 꺼낸다<br>
    iloc: 행열 위치로 데이터를 꺼낸다<br>
    []: 행열 이름으로 데이터를 꺼낸다<br>
    </small>

In [43]:
print(df)
#loc[행이름,열이름]
df.loc[:,:] # 전체 데이터
#둘리의 국어점수 꺼내기
df.loc['둘리','국어']
#도우너의 수학 점수
df.loc['도우너','수학']

     국어  영어   수학
둘리   60  70   80
또치   70  80   90
도우너  80  90  100


np.int64(100)

In [45]:
# 프레임에서 [] 대괄호를 쓰면 열만 입력 가능 ! 
# [열이름]
# 모든 학생의 국어 점수
df ['국어']
# 모든 학생의 영어 점수
df ['영어']

둘리     70
또치     80
도우너    90
Name: 영어, dtype: int64

#### 데이터 프레임에 새로운 열 추가

In [49]:
# 새로운 과목 추가
# 새로운 열 = 리스트
# 맨뒤에 추가됨
df['과학'] = [60,70,80]
df
# 이번에는 2번째 위치에 '미술' 과목을 추가
# insert(위치, 컬럼명, 값리스트)
df.insert(2,'미술',[70,80,80])
df

Unnamed: 0,국어,영어,미술,수학,과학
둘리,60,70,70,80,60
또치,70,80,80,90,70
도우너,80,90,80,100,80


데이터 프레임에서 열 삭제  
<small>
    del : 원본에서 바로 삭제<br>
    drop : 원본은 그대로 결과만 보여줌
</small>

In [60]:
# 과학 과목 삭제
# 선택 > 삭제
# del df['과학']
# 수학 과목 삭제
# drop(형 또는 열의 이름 , 방향)# 결과를 반영하려면 , 교체

# axis=1 또는 axis ='colunms'
df.drop('수학',axis=1) # 엑시스(축,방향)
# drop 은 원본에 영향이 없다 

# 또치 학생 삭제 (행삭제)
# axis = o 또는 axis='row'
# drip
result = df.drop('또치',axis= 0)
print(result)
df



     국어  영어  미술   수학
둘리   60  70  70   80
도우너  80  90  80  100


Unnamed: 0,국어,영어,미술,수학
둘리,60,70,70,80
또치,70,80,80,90
도우너,80,90,80,100


#### 4.3 데이터 계산과 처리

시리즈에서 계산과 조건 검색

In [63]:
# 숫자가 담긴 리스트 생성
lis = [-2,-1,0,1,2]
# 모든 원소에 1만큼 더하기
for i in lis:
    print(i+1)

-1
0
1
2
3


In [65]:
# 숫자가 담긴 시리즈 생성
s = pd.Series ([-2,-1,0,1,2])
# 모든 원소에 1만큼 더하기
# 판다스의 시리즈는 for 없이 반복 수행 가능
# 아래 계산식은 자동으로 6번 반복 수행
# s + 1
s.add(1)

0   -1
1    0
2    1
3    2
4    3
dtype: int64

In [68]:
s
# 조건 검색 (양수만 찾기)
# 불리언 배열 만들기
# 시리즈 >  int -> 시리즈 전체 데이터와 0을 비교
s > 0
# 불리언 배열은 시리즈의 인덱스로 사용할 수 있다
s[s>0]

3    1
4    2
dtype: int64

In [73]:
# 조건검색2 (짝수만 찾기)
s = pd.Series(np.arange(1,11))
s
# 시리즈 전체 데이터에 계산식이 적용됨 -> bool 10개 반환
s % 2
# bool 배열을 시리지의 인덱스로 사용
s[s % 2 == 0]

1     2
3     4
5     6
7     8
9    10
dtype: int64

In [78]:
# 학생석정 데이터 만들기
data = np.array ([[90,70,80,],[70,80,90,],[80,90,10]])
# 성적 프레임
df = pd.DataFrame(data,
                  index=['둘리','또치','도우너'],
                  columns=['국어','영어','수학'])
df

Unnamed: 0,국어,영어,수학
둘리,90,70,80
또치,70,80,90
도우너,80,90,10


In [80]:
# 국어 과목만 조회
df['국어']
# 국어과목에 담겨있는 값의 자료형
df['국어'].dtype
# 국어과목의 자료구조
type(df['국어'])
# 데이터프레임은 여러시리즈의 묶음

pandas.core.series.Series

In [83]:
# 전체 점수에 1점씩 더하기
# 데이터 프레임 전체 데이터에 더하기가 적용됨
df + 1
# 국어점수만 10점씩 더하기
df['국어']+10

둘리     100
또치      80
도우너     90
Name: 국어, dtype: int64

In [86]:
# 조건 검색 ( 국어점수가 70점 이상인 학생만 찾기)
df['국어'] >= 70
# 프레임이 bool 배열을 인덱스로 사용
df[df['국어']>=70]

Unnamed: 0,국어,영어,수학
둘리,90,70,80
또치,70,80,90
도우너,80,90,10
