### Pandas 기초

#### Pandas란?

엑셀과 같은 테이블 형태로 데이터를 다루는 파이썬 라이브러리(모듈)

데이터 분석을 위한 추상자료구조(DataFrame)를 제공하는 데이터 분석 도구  
- 엑셀/CSV 데이터 읽어오기
- 데이터 처리
- 엑셀/CSV 데이터 저장하기

##### Pandas 용어
- DataFrame, Series
- Index, Columns, Values, (x, y) series

##### Pandas 사용
- Pandas 설치
```
pip install pandas (콘솔)
!pip install pandas (노트북)
```

In [50]:
!pip install pandas



### 설치된 패키지 확인

```
!pip list
```

현재 pandas(2023.06 기준) 2.0.2

In [51]:
!pip list

Package           Version
----------------- -------
asttokens         2.2.1
backcall          0.2.0
colorama          0.4.6
comm              0.1.3
debugpy           1.6.7
decorator         5.1.1
executing         1.2.0
Faker             18.11.1
ipykernel         6.23.2
ipython           8.14.0
jedi              0.18.2
jupyter_client    8.2.0
jupyter_core      5.3.1
matplotlib-inline 0.1.6
nest-asyncio      1.5.6
numpy             1.25.0
packaging         23.1
pandas            2.0.2
parso             0.8.3
pickleshare       0.7.5
pip               23.1.2
platformdirs      3.7.0
prompt-toolkit    3.0.38
psutil            5.9.5
pure-eval         0.2.2
Pygments          2.15.1
python-dateutil   2.8.2
pytz              2023.3
pywin32           306
pyzmq             25.1.0
setuptools        65.5.0
six               1.16.0
stack-data        0.6.2
tornado           6.3.2
traitlets         5.9.0
tzdata            2023.3
wcwidth           0.2.6


#### Pandas import
```python
import pandas as pd
```

In [52]:
import pandas as pd

#### Series

Pandas 한 행, 한 열 나열해서 배열형식 데이터 타입

<img src="https://velog.velcdn.com/images%2Fgjtjsdn1%2Fpost%2F41aab35d-d5bc-4a3f-b0fa-1c8770bf2eb9%2Fimage.png" width="600">

In [53]:
# Series 생성
grade = pd.Series(data = ['길동이', 90, 50, 75, 100], index=['이름', '국어', '영어', '수학','미술'])

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Ft1.daumcdn.net%2Fcfile%2Ftistory%2F995809335BFBCC922B">

In [54]:
# Series 출력
grade

이름    길동이
국어     90
영어     50
수학     75
미술    100
dtype: object

In [55]:
# Series Index 출력
grade.index

Index(['이름', '국어', '영어', '수학', '미술'], dtype='object')

In [56]:
# Series values 출력
grade.values

array(['길동이', 90, 50, 75, 100], dtype=object)

##### Dictionary를 Series로 변경

python 자료구조를 Pandas에서 쓸 수 있는 형태로 변경해줘야 분석 가능(데이터 전환)

In [57]:
# Dictionary 자료구조
original = {"이름" : "길순이", "국어" : 100, "영어" : 100, "수학": 100, "미술" : 30}
print(f'original 타입 : {type(original)}')

# 판다스 시리즈로 변경
grade2 = pd.Series(data = original) # 시리즈 생성자
print(f'grade2 타입 : {type(grade2)}')

grade2

original 타입 : <class 'dict'>
grade2 타입 : <class 'pandas.core.series.Series'>


이름    길순이
국어    100
영어    100
수학    100
미술     30
dtype: object

##### Series 재색인

컬럼 갯수 변경할 때

In [66]:
grade3 = pd.Series(data = ['이름', None, 10, 0, None], index = ['name', 'korean', 'english', 'math', ''])
grade3

name         이름
korean     None
english      10
math          0
           None
dtype: object

In [59]:
# 시리즈 재색인 - 원래 있는 값에서 컬럼 추가/제거
grade4 = grade3.reindex(index = ['name', 'korean', 'english'])
grade4

name       이름
korean      0
english    10
dtype: object

In [60]:
# 필요한 값을 추가할 때
grade3.reindex(index = ['name', 'korean', 'english', 'math', 'music'], fill_value=0)

name       이름
korean      0
english    10
math        0
music       0
dtype: object

##### 컬럼을 수정할 때

In [61]:
# 컬럼명 변경 할당을 해줘야 변경완료
grade3.rename({'name' : '이름', 'korean' : '국어', 'english' : '영어', 'math' : '수학', '':'미술'})

이름      이름
국어       0
영어      10
수학       0
미술    None
dtype: object

In [None]:
# index 번호로 조회
# list 사용할 때와 동일
grade[0]

'길동이'

In [None]:
# index 명으로 조회
grade['국어']

90

In [None]:
# loc 함수 조회 / Contents assistant에 출력
grade.loc['미술']

100

In [None]:
# 다중 index -> reindex 동일
grade[['이름', '수학']]

이름    길동이
수학     75
dtype: object

In [None]:
grade.reindex(index = ['이름', '수학'])

이름    길동이
수학     75
dtype: object

##### 조건문

In [64]:
# null == None
# grade에 null값이 있는지 확인
grade.isnull()

이름    False
국어    False
영어    False
수학    False
미술    False
dtype: bool

In [65]:
grade3.isnull()

name       False
korean     False
english    False
math       False
            True
dtype: bool

In [68]:
# 데이터 분석할 때 유용
grade3[grade3.isnull()]

korean    None
          None
dtype: object

In [71]:
# 값이 있으면 true, 값이 없으면 false
grade3.notnull()

name        True
korean     False
english     True
math        True
           False
dtype: bool

In [73]:
# 값 변경
grade3['korean'] = 80

In [75]:
# 변경되었는지 확인
grade3.notnull()

name        True
korean      True
english     True
math        True
           False
dtype: bool

In [76]:
grade3.isnull()

name       False
korean     False
english    False
math       False
            True
dtype: bool

In [79]:
# 두가지 값 한 번에 변경
grade3 = grade3.rename({'' : 'art'})

In [80]:
grade3[['korean', 'art']] = (90, 100)

In [81]:
grade3

name        이름
korean      90
english     10
math         0
art        100
dtype: object

##### Series 삭제

In [82]:
del grade3['math']

In [86]:
grade3

name       이름
korean     90
english    10
dtype: object

In [85]:
# Series에서 잠시 드랍 -> 할당필요
# grade3.drop('art')를 할 경우 드랍되지만 이후에 출력하면 다시 생김
grade3 = grade3.drop('art')

KeyError: "['art'] not found in axis"

In [87]:
grade3

name       이름
korean     90
english    10
dtype: object

In [99]:
del grade['korean']

##### Series 이름

In [88]:
grade

이름        길동이
국어         90
영어         50
수학         75
미술        100
korean     80
dtype: object

In [89]:
# Series 이름
grade.name='홍길동 성적'

In [94]:
grade

이름        길동이
국어         90
영어         50
수학         75
미술        100
korean     80
Name: 홍길동 성적, dtype: object

In [91]:
grade.index

Index(['이름', '국어', '영어', '수학', '미술', 'korean'], dtype='object')

In [92]:
grade.values

array(['길동이', 90, 50, 75, 100, 80], dtype=object)

##### 함수(통계함수)

In [101]:
grade

이름    길동이
국어     90
영어     50
수학     75
미술    100
Name: 홍길동 성적, dtype: object

In [102]:
grade.describe()

count       5
unique      5
top       길동이
freq        1
Name: 홍길동 성적, dtype: object

In [106]:
import numpy as np

s1 = pd.Series(np.random.randn(10))
s1

0   -0.110386
1    0.923978
2    1.412698
3    0.216519
4   -1.437833
5   -1.575223
6    0.225995
7    0.354814
8   -0.048651
9    0.709503
dtype: float64

In [145]:
# 음수 제거하고, 10을 곱하여 십단위 수로 만든 후, 반올림하여 소수점 없애기
sint = s1.abs().map(lambda x: x * 10).round()
sint

0     1.0
1     9.0
2    14.0
3     2.0
4    14.0
5    16.0
6     2.0
7     4.0
8     0.0
9     7.0
dtype: float64

In [108]:
# 기본적인 통계함수
# count : 총 갯수
# mean : 평균
# std : 표준편차
# min : 최솟값
# max : 최대값
# 50% : 2사분위 (중앙값)
# 25% : 1사분위 (하위 25%)
# 75% : 3사분위 (상위 25%)
s1.describe()

count    10.000000
mean      0.067141
std       0.948382
min      -1.575223
25%      -0.094952
50%       0.221257
75%       0.620831
max       1.412698
dtype: float64

##### count 빈도수 계산 함수

- None, null, NaN (값이 무엇인지 정의할 수 없음)

In [111]:
s2 = pd.Series([1, 3, 5, np.nan] * 4)
s2

0     1.0
1     3.0
2     5.0
3     NaN
4     1.0
5     3.0
6     5.0
7     NaN
8     1.0
9     3.0
10    5.0
11    NaN
12    1.0
13    3.0
14    5.0
15    NaN
dtype: float64

In [112]:
pd.Series([1, 3, 5, None] * 4)

0     1.0
1     3.0
2     5.0
3     NaN
4     1.0
5     3.0
6     5.0
7     NaN
8     1.0
9     3.0
10    5.0
11    NaN
12    1.0
13    3.0
14    5.0
15    NaN
dtype: float64

In [113]:
s2.describe()

count    12.000000
mean      3.000000
std       1.705606
min       1.000000
25%       1.000000
50%       3.000000
75%       5.000000
max       5.000000
dtype: float64

In [114]:
# 빈도 계산
s2.value_counts()

1.0    4
3.0    4
5.0    4
Name: count, dtype: int64

In [115]:
# 빈도 계산(결측치도 포함)
s2.value_counts(dropna = False)

1.0    4
3.0    4
5.0    4
NaN    4
Name: count, dtype: int64

In [117]:
# 빈도 계산(비율 / 정규화)
s2.value_counts(normalize = True, dropna = False)

1.0    0.25
3.0    0.25
5.0    0.25
NaN    0.25
Name: proportion, dtype: float64

In [123]:
# 빈도 계산(구간)
s2.value_counts(bins=3)

(0.995, 2.333]    4
(2.333, 3.667]    4
(3.667, 5.0]      4
Name: count, dtype: int64

##### 결측치 확인

In [125]:
# 결측치가 들어있는 값의 갯수
s2.isnull().sum()

4

##### 결측치를 없애는 방법
1. 결측치 삭제 - 통계치 전부 변경
2. 결측치 채움 - 0으로 대체(평균값, 표준편차 수치가 많이 변경될 가능성이 큼), 평균값으로 대체

In [128]:
# NaN만 채워줌
s3 = s2.fillna(3.0) # 평균

In [130]:
s3.describe()

count    16.000000
mean      3.000000
std       1.460593
min       1.000000
25%       2.500000
50%       3.000000
75%       3.500000
max       5.000000
dtype: float64

##### 데이터 대치 map

pandas.map()

In [133]:
s4 = pd.Series([1, 2, 3] * 3)
mapping = { 1 : "One", 2 : "Two", 3 : "Three"}

In [135]:
# mapping
s5 = s4.map(mapping)

In [137]:
s4

0    1
1    2
2    3
3    1
4    2
5    3
6    1
7    2
8    3
dtype: int64

In [138]:
s5

0      One
1      Two
2    Three
3      One
4      Two
5    Three
6      One
7      Two
8    Three
dtype: object

In [139]:
s4.map('Curr value is {0}'.format)

0    Curr value is 1
1    Curr value is 2
2    Curr value is 3
3    Curr value is 1
4    Curr value is 2
5    Curr value is 3
6    Curr value is 1
7    Curr value is 2
8    Curr value is 3
dtype: object

In [140]:
s4.map(lambda x: x ** 2)

0    1
1    4
2    9
3    1
4    4
5    9
6    1
7    4
8    9
dtype: int64

##### Series 부분출력

- 앞단에 있는 다섯 개만 출력

In [141]:
s4.head()

0    1
1    2
2    3
3    1
4    2
dtype: int64

- 끝에 다섯 개만 출력

In [142]:
s4.tail()

4    2
5    3
6    1
7    2
8    3
dtype: int64