### 4. 판다스 (Pandas)
데이터를 관리하기 위해 사용되는 모듈로, 시리즈와 데이터프레임을 제공함

In [None]:
# 모듈 가져오기
# 넘파이 모듈을 np라는 이름으로 사용
import numpy as np
# 판다스 모듈을 pd라는 이름으로 사용
import pandas as pd

#### 4.1 시리즈 (Series)
<small>객체를 담을 수 있는 1차원 배열 같은 자료 구조</small>

시리즈 생성1

In [None]:
# 시리즈 생성
s = pd.Series([1,2,3,4])
# 왼쪽은 인덱스, 오른쪽은 값
s
# 인덱스 확인
# 인덱스가 없으면 자동으로 설정됨
s.index

시리즈 생성2

In [None]:
# 인덱스 직접 설정
s = pd.Series([1,2,3], index=['a', 'b', 'c'])
s
# 인덱스 확인
# s.index

시리즈에서 값 꺼내기  
<small>
loc 함수 : 인덱스 이름으로 데이터를 읽는다    
iloc 함수 : 인덱스 위치로 데이터를 읽는다  
</small>

In [None]:
# loc[인덱스이름]
s.loc['a']
# 대괄호[인덱스이름]
s['b']
# iloc[위치]
s.iloc[2]

시리즈 값 수정하기

In [None]:
# 값 수정하기
s.loc['b'] = 99
s
s['a'] = 0
s

#### 4.2 데이터프레임 (Dataframe)
<small>표 형식의 데이터를 담기 위한 자료 구조</small>

데이터 프레임 생성1

In [None]:
# 도시별 인구 데이터 생성
# 첫번째 열은 도시, 두번째 열은 인구
# 열이름: 리스트
data = {"city": ["서울", "인천"],
        "pop": [990, 240]}
df = pd.DataFrame(data)

# 행열 이름이 따로 없으면 자동으로 설정됨
# 행 인덱스: 0, 1
# 열 컬럼: dic의 key (city, pop)
df.index
df.columns

데이터 프레임 생성2

In [None]:
# 학생 성적 데이터 생성
data = np.array([[60, 70, 80], [70, 80, 90], [80, 90, 100]])
df = pd.DataFrame(data)
# 이름표가 없어서, 이값이 누구의 점수인지 알 수 없음

# 행열 이름 직접 설정
# index: 행 이름
# columns: 열 이름
data = np.array([[60, 70, 80], [70, 80, 90], [80, 90, 100]])
df = pd.DataFrame(data,
                  index=['둘리', '도우너', '또치'],
                  columns=['국어', '영어', '수학'])
# 열 확인
df.columns

프레임에서 데이터 꺼내기1  
<small>
loc 함수 : 인덱스 이름으로 데이터를 읽는다    
iloc 함수 : 인덱스 위치로 데이터를 읽는다  
[] 대괄호 : 열만 조회할 수 있다
</small>

In [None]:
# 전체 데이터
# df.loc[행이름, 열이름]
df.loc[:, :]

# 둘리의 국어 성적
df.loc['둘리', '국어']

# 대괄호[열이름]
df["국어"]
df["영어"]

새로운 열 추가

In [None]:
# 새로운 과목(열) 추가
df['과학'] = [60,70,80]
df

#  미술을 두번째 위치에 추가
df.insert(2, '미술', [70, 80, 90])
df

열 삭제  
<small>
del : 원본에서 바로 데이터 삭제  
drop : 원본은 그대로, 결과만 보여줌
</small>

In [None]:
# 열 삭제
del df['과학']
df

# drop(이름, 행/열 기준)
# 열 삭제 (axis=1 또는 'columns')
df.drop('수학', axis=1)
df # 변화 없음

# drop은 결과를 받아서 다시 df에 넣어야함
result = df.drop('수학', axis=1)
result
# 결과를 반영하려면, 결과를 덮어씌어야함
df = df.drop('또치', axis=0)

# 행 삭제 (axis=0 또는 'rows')
df = df.drop('또치', axis=0)
df

#### 4.3 데이터 계산과 처리

시리즈에서 계산과 조건 검색

In [None]:
# 시리즈 생성
s = pd.Series([-2,-1,0,1,2])

# 산술 연산
s + 1 # 모든 원소에 1 더하기
s.add(1) # 모든 원소에 1 더하기

# 조건 검색 (양수만 찾기)
s > 0 # 불리언 배열 생성
s[s > 0] # 불리언 배열을 인덱스로 사용

데이터 프레임에서 계산과 조건 검색

In [None]:
# 학생 성적 데이터 다시 초기화
data = np.array([[60, 70, 80], [70, 80, 90], [80, 90, 100]])
df = pd.DataFrame(data,
                  index=['둘리', '도우너', '또치'],
                  columns=['국어', '영어', '수학'])

# 국어 점수만 조회
df['국어']
# 열의 자료형
df['국어'].dtypes
# 열의 타입
type(df['국어']) # 데이터프레임은 시리즈의 묶음

# 전체 점수에 1점 추가
df + 1

# # 국어 점수에 10점 추가
df['국어'] + 10

# 조건 검색
# 국어 점수가 70점 이상인 학생만 조회
df['국어'] >= 70
df[df['국어'] >= 70]

데이터 프레임의 정렬

In [None]:
# 국어 점수를 기준으로 오름차순 정렬
df.sort_values('국어')

# 국어 점수를 기준으로 내림차순 정렬
df.sort_values('국어', ascending=False)

nan 처리(Nan-data)  
<small>
누락된 값, 비어있는 값  
숫자가 없는 자리를 표시할 때 사용  
float형에서만 입력 가능  
</small>

In [None]:
# 자료형 변경
# 다시 원본데이터에 저장
df = df.astype('float')
df

# 둘리의 영어점수를 빈값으로 변경
df.loc['둘리', '영어'] = np.nan
df

# 빈값이 있는 행 삭제
# dropna도 원본데이터 안바꾸고 결과만 반환
df = df.dropna(axis=0)
df

# 도우너의 국어점수를 빈값으로 변경
df.loc['도우너', '국어'] = np.nan
df
df.fillna(0)

#### 4.4 데이터 탐색
<small>데이터의 상태나 특징을 파악하기 위해 수행함</small>

In [None]:
# 시리즈 생성
s = pd.Series(['사과', '배', '사과', '배', '바나나'])

# 중복데이터 제거 (유니크한 데이터만 확인)
s.unique()

# 데이터 개수 세기
s.value_counts()