### 판다스 (pandas)
데이터를 관리하기 위한 모듈로, 시리즈와 데이터 프레임을 제공함

In [1]:
# 모듈 불러오기
# 넘파이 모듈을 np라고 부른다
import numpy as np
# 판다스 모듈을 pd라고 부른다
import pandas as pd

#### 4.1 시리즈(series)
<small>
데이터를 한줄로 담는 자료 구조<br>      
리스트와 다른 점은 데이터에 이름표를 붙일 수 있다 (index)
</small>

In [4]:
# 시리즈 생성1
s = pd.Series([1,2,3,4])
print(s)
# 인덱스가 자동으로 설정됨 (0~3)
# 시리즈의 인덱스 확인
s.index

0    1
1    2
2    3
3    4
dtype: int64


RangeIndex(start=0, stop=4, step=1)

In [8]:
# 도시별 인구 데이터를 담은 데이터 프레임 생성
# 데이터 먼저 만들기( dci)
data = { 'city' : ['서울', '인천'],
       'pop' : [990, 240]
       }
# pd.DataFrame(값, [인덱스], [컬럼])
df = pd.DataFrame(data)
df

# 행열의 이름을 따로 설정하지 않으면 자동으로 설정됨
print(df.index) # 행 이름: 0,1
print(df.columns) # 열 이름: dic의 key (city, pop)
df

RangeIndex(start=0, stop=2, step=1)
Index(['city', 'pop'], dtype='object')


Unnamed: 0,city,pop
0,서울,990
1,인천,240


데이터 프레임 생성2

In [62]:
# 학생 성적 데이터 만들기
# dic, list
# 넘파이의 다차원 배열 사용하여 2차원 배열 생성
data = np.array([[60,70,80],[70,80,90],[80,90,100]])
print(data)
# 성적 데이터를 담아서 데이터 프레임 생성
# 이 점수가 누구의 어떤 점수인지 알기 위해, 이름표 붙이기
# 행 이름: 학생의 이름
# 열 이름: 과목명
df = pd.DataFrame(data, 
                  index=['둘리', '또치', '도우너'], 
                  columns=['국어','영어','수학'])
# 행 인덱스
df.index
df.columns

[[ 60  70  80]
 [ 70  80  90]
 [ 80  90 100]]


Index(['국어', '영어', '수학'], dtype='object')

데이터 프레임에서 데이터 꺼내기<br>
<small>
loc: 행열 이름으로 데이터를 꺼낸다<br>
iloc: 행열 위치로 데이터를 꺼낸다<br>
[]: 행열 이름으로 데이터를 꺼낸다<br>
</small>

In [21]:
print(df)
# loc[ 행이름, 열이름]
df.loc[:, :]
# 둘리의 국어 점수 
df.loc['둘리','국어']
# 도우너의 수학 점수
df.loc['도우너','수학']

# 프레임에서 []대괄호를 쓰면, 열만 입력 가능
# [열이름]
# 모든 학생의 국어 점수
df['국어']
# 모든 학생의 영어 점수
df['영어']

     국어  영어   수학
둘리   60  70   80
또치   70  80   90
도우너  80  90  100


둘리     70
또치     80
도우너    90
Name: 영어, dtype: int64

데이터 프레임에 새로운 열 추가

In [25]:
# 새로운 과목 추가
# 새로운 열 = 리스트
df['과학'] = [60,70,80]
df
# 이번에는 2번째 위치에 '미술' 과목을 추가
# insert(위치, 컬럼명, 값 리스트)
df.insert(2, '미술', [70,80,90])
df

Unnamed: 0,국어,영어,미술,수학,과학
둘리,60,70,70,80,60
또치,70,80,80,90,70
도우너,80,90,90,100,80


데이터 프레임에서 열 삭제  
<small>
del: 원본에서 바로 삭제<br>
drop: 원본은 그대로, 결과만 보여줌
</small>

In [63]:
# 과학 과목 삭제
# 선택 > 삭제
print(df)
# del df['과학']

# 수학 과목 삭제
# axis=1 또는 axis='columns'
df.drop('수학', axis=1) #엑시스(축, 방향)
df

# 또치 학생 삭제 (행 삭제)
# axis=0 또는 axis='row'
# drop은 원본에 영향 없음
# 결과를 원본에 교체
result = df.drop('또치', axis=0)
print(result)
df

     국어  영어   수학
둘리   60  70   80
또치   70  80   90
도우너  80  90  100
     국어  영어   수학
둘리   60  70   80
도우너  80  90  100


Unnamed: 0,국어,영어,수학
둘리,60,70,80
또치,70,80,90
도우너,80,90,100


### 4.3 데이터 계산과 처리
#### 시리즈에서 계산과 조건검색

In [50]:
# 숫자가 담긴 리스트 생성
lis = [-2,-1,0,1,2]
# 모든 원소에 1만큼 더하기
for i in lis:
    print(lis)

SyntaxError: invalid syntax. Maybe you meant '==' or ':=' instead of '='? (3314979670.py, line 5)

In [51]:
# 숫자가 담긴 시리즈 생성
s = pd.Series([-2,-1,0,1,2])
s.add(1)
# 모든 원소에 1만큼 더하기
# 판다스의 시리즈는 for 없이 반복 수행 가능
s + 1

0   -1
1    0
2    1
3    2
4    3
dtype: int64

In [55]:
s
# 조건 검색( 양수만 찾기 )
# 불리언 배열 만들기
# Series > int => 시리즈의 전체 데이터와 0을 비교
s > 0
# 불리언 배열은 시리즈의 인덱스로 사용할 수 있다
# true인 값만 남음
s[s > 0]

3    1
4    2
dtype: int64

In [61]:
# 조건검색2 (짝수만 찾기)
s = pd.Series(np.arange(1,11))
s
# 짝수만 찾기
s%2 == 0
# bool 배열을 시리즈의 인덱스로 사용
s[s%2 == 0]

1     2
3     4
5     6
7     8
9    10
dtype: int64

데이터 프레임의 정렬  
<small>
시험 성적 순위를 매길 때 사용
</small>

In [66]:
# 시험 성적에서 국어 점수를 기준으로 정렬
df.sort_values('국어')
# 국어 점수를 기준으로 내림차순 정렬
# 정렬 기준: 오름차순 (1->10) / 내림차순 (10->1)
# ascending: 오름차순 (True) 내림차순(False)
df.sort_values('국어', ascending=False)

Unnamed: 0,국어,영어,수학
도우너,80,90,100
또치,70,80,90
둘리,60,70,80


In [73]:
# 학생 데이터 생성
data = np.random.randint(60,100,9)

arr = data.reshape(3,3)
arr
# 프레임 생성
df = pd.DataFrame(arr, 
                  index=['둘리','또치','도우너'],
                  columns=['수학','영어','과학'])
print(df)
df.sort_values('영어', ascending=False)

     수학  영어  과학
둘리   71  72  67
또치   70  97  90
도우너  80  90  68


Unnamed: 0,수학,영어,과학
또치,70,97,90
도우너,80,90,68
둘리,71,72,67


nan 처리  
<small>
    누락된 값, 빈값<br>
    예를 들어 엑셀에서 빈셀을 표현 할 때 사용<br>
    nan은 float타입에서만 표현 가능<br>
    </small>

In [74]:
df

Unnamed: 0,수학,영어,과학
둘리,71,72,67
또치,70,97,90
도우너,80,90,68


In [77]:
# 둘리의 영어점수를 빈값(nan)으로 표시
# 빈값을 넣으면 해당 값이 들어간 열이 float 타입으로 자동 형변환됨
df.loc['둘리','영어'] = np.nan
df['영어'].dtype

dtype('float64')

In [80]:
# 점수가 없는 학생 데이터 삭제
# 빈값이 있는 행 또는 열 삭제
# 엑시스 0 'row' => 행
df = df.dropna(axis=0)
df

Unnamed: 0,수학,영어,과학
또치,70,97.0,90
도우너,80,90.0,68


In [81]:
# 또치의 과학 점수를 빈값으로 설정
df.loc['또치','과학'] = np.nan
df

Unnamed: 0,수학,영어,과학
또치,70,97.0,
도우너,80,90.0,68.0


In [82]:
# 비어있는 점수를 모두 0으로 설정
df.fillna(0)

Unnamed: 0,수학,영어,과학
또치,70,97.0,0.0
도우너,80,90.0,68.0


#### 4.4 데이터 탐색  
<small>
    데이터의 상태나 특징을 파악하는 작업
    </small>

In [2]:
# 과일 목록을 담은 시리즈 생성
# 시리즈: 인덱스를 가지고 있는 한줄짜리 데이터
s = pd.Series(['사과', '배', '사과', '배', '바나나'])
s

0     사과
1      배
2     사과
3      배
4    바나나
dtype: object

In [3]:
# 중복을 제거하고 유니크한 값만 남기기
s.unique()

array(['사과', '배', '바나나'], dtype=object)

In [4]:
# 원소별 개수 세기
s.value_counts()

사과     2
배      2
바나나    1
Name: count, dtype: int64

In [5]:
s = pd.Series(['서울','부산','서울','대구','부산','광주','서울'])
s

0    서울
1    부산
2    서울
3    대구
4    부산
5    광주
6    서울
dtype: object

In [6]:
s.unique()

array(['서울', '부산', '대구', '광주'], dtype=object)

In [7]:
s.value_counts()

서울    3
부산    2
대구    1
광주    1
Name: count, dtype: int64

In [8]:
s = pd.Series(['민수','지연','철수','민수','영희','민수','지연'])
s

0    민수
1    지연
2    철수
3    민수
4    영희
5    민수
6    지연
dtype: object

In [15]:
print(max(s.value_counts()))


3
