### Pandas 기초


#### Pandas란?


엑셀과 같은 테이블 형태로 데이터를 다루는 파이썬 라이브러리(모듈)

데이터 분석을 위한 추상자료구조(DataFrame)를 제공하는 데이터 분석도구

- 엑셀 / CSV 데이터 읽어오기
- 데이터 처리
- 엑셀 / CSV 데이터 저장하기


##### Pandas 용어
- DataFrame, Series
- Index, Columns, Values, (x, y)Series


##### Pandas 사용

- 판다스 설치
```
pip install pandas (콘솔)
!pip install pandas (노트북)

```

In [128]:
!pip install pandas 



##### 설치된 패키지 확인
```
!pip list
```
현재 pandas(2023.06 기준) 2.0.2

In [129]:
!pip list

Package           Version
----------------- -------
asttokens         2.2.1
backcall          0.2.0
colorama          0.4.6
comm              0.1.3
debugpy           1.6.7
decorator         5.1.1
executing         1.2.0
Faker             18.11.1
ipykernel         6.23.2
ipython           8.14.0
jedi              0.18.2
jupyter_client    8.2.0
jupyter_core      5.3.1
matplotlib-inline 0.1.6
nest-asyncio      1.5.6
numpy             1.25.0
packaging         23.1
pandas            2.0.2
parso             0.8.3
pickleshare       0.7.5
pip               23.1.2
platformdirs      3.7.0
prompt-toolkit    3.0.38
psutil            5.9.5
pure-eval         0.2.2
Pygments          2.15.1
python-dateutil   2.8.2
pytz              2023.3
pywin32           306
pyzmq             25.1.0
setuptools        65.5.0
six               1.16.0
somepackage       1.2.3
stack-data        0.6.2
tornado           6.3.2
traitlets         5.9.0
tzdata            2023.3
wcwidth           0.2.6


##### 판다스 import
```python
import pandas as pd
```

In [130]:
import pandas as pd

#### 시리즈

pandas에서 한 행, 한 열 나열해서 배열형식 데이터 타입

<img src="https://velog.velcdn.com/images%2Fgjtjsdn1%2Fpost%2F41aab35d-d5bc-4a3f-b0fa-1c8770bf2eb9%2Fimage.png" >

In [222]:
# 시리즈 생성
grade = pd.Series(data=['길동이', 90, 50, 75 ,100], index=['이름', '국어', '영어', '수학', '미술'])

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Ft1.daumcdn.net%2Fcfile%2Ftistory%2F995809335BFBCC922B">

In [132]:
# 시리즈 출력
grade

이름    길동이
국어     90
영어     50
수학     75
미술    100
dtype: object

In [133]:
# 시리즈 인덱스 출력
grade.index

Index(['이름', '국어', '영어', '수학', '미술'], dtype='object')

In [134]:
# 시리즈 값 출력
grade.values

array(['길동이', 90, 50, 75, 100], dtype=object)

##### 딕셔너리를 시리즈로 변경

파이썬 자료구조를 판다스에서 쓸 수 있는 형태로 변경해줘야 분석이 가능하고 다른 데이터로 전환이 가능하다

In [135]:
# 딕셔너리 자료구조
original = {"이름" : "길순이", "국어" : 100, "영어" : 100, "수학" : 100, "미술" : 30}
print(f'original 타입 : {type(original)}')

# 판다스의 시리즈로 변경
grade2 = pd.Series(data=original) # 시리즈 생성자
print(f'grade2 타입 : {type(grade2)}')

grade2

original 타입 : <class 'dict'>
grade2 타입 : <class 'pandas.core.series.Series'>


이름    길순이
국어    100
영어    100
수학    100
미술     30
dtype: object

##### 시리즈 재색인
컬럼 개수 변경할 때

In [136]:
grade3 = pd.Series(data = ['유고', None, 10, 0, None], index=['name', 'korean', 'english', 'math', ''])
grade3

name         유고
korean     None
english      10
math          0
           None
dtype: object

In [137]:
# 시리즈 재색인 - 원래있는 값에서 필요없는 컬럼 제거 / 필요한 컬럼 추가
grade4 = grade3.reindex(index=['name', 'korean', 'english', 'math'])
grade4

name         유고
korean     None
english      10
math          0
dtype: object

In [138]:
# 필요한 값을 추가할 때
grade5 = grade3.reindex(index=['name', 'korean', 'english', 'math', 'music'], fill_value=0)
grade5

name         유고
korean     None
english      10
math          0
music         0
dtype: object

##### 컬럼의 이름을 바꿀 때

In [139]:
# 컬럼명 변경
grade6 = grade3.rename({'name':'이름', 'korean':'국어','english':'영어', 'math' :'수학', '':'미술'})
grade6

이름      유고
국어    None
영어      10
수학       0
미술    None
dtype: object

In [140]:
# grade
grade

이름    길동이
국어     90
영어     50
수학     75
미술    100
dtype: object

In [141]:
# 인덱스 번호로 조회
# 리스트 사용할때와 동일
grade[0]

'길동이'

In [142]:
# 인덱스 명으로 조회 / 이름을 개발자가 알고있어야 함
grade['국어']

90

In [143]:
# loc 함수 조회 / Contents assistant에 출력
grade.loc['영어']

50

In [144]:
# 다중 인덱스 -> reindex와 동일
grade[['이름', '수학']]

이름    길동이
수학     75
dtype: object

In [145]:
grade.reindex(index=['이름', '수학'])

이름    길동이
수학     75
dtype: object

##### 조건문

In [146]:
# null == None
# grade 시리즈에 null값이 있는지 확인하는 함수
grade.isnull()

이름    False
국어    False
영어    False
수학    False
미술    False
dtype: bool

In [147]:
grade3.isnull()

name       False
korean      True
english    False
math       False
            True
dtype: bool

In [148]:
# 데이터 분석할 때 결측치를 찾아낼 때 사용 (유용)
grade3[grade3.isnull()]

korean    None
          None
dtype: object

In [149]:
# 값이 있으면 True, 값이 없으면 False
grade3.notnull()

name        True
korean     False
english     True
math        True
           False
dtype: bool

In [150]:
# 값 변경
grade3['korean'] = 80

In [151]:
# 값이 변경되었는지 확인
grade3.notnull()

name        True
korean      True
english     True
math        True
           False
dtype: bool

In [152]:
grade3.isnull()

name       False
korean     False
english    False
math       False
            True
dtype: bool

In [153]:
# 두 가지 값 한꺼번에 변경
grade3 = grade3.rename({'':'art'})

In [154]:
# 시리즈의 다중 인덱스 = 튜플값
grade3[['korean', 'art']] = (90, 100)

In [155]:
grade3

name        유고
korean      90
english     10
math         0
art        100
dtype: object

##### 시리즈 삭제

In [156]:
# 한 번에 삭제하기
del grade3['math']

In [157]:
grade3

name        유고
korean      90
english     10
art        100
dtype: object

In [158]:
# drop은 시리즈에서 잠시 사라진거임 -> 할당필요
# grade3 = grade3.drop('art') # => 이렇게 해줘야지 완전히 삭제 됨
grade3.drop('art')

name       유고
korean     90
english    10
dtype: object

In [159]:
grade3

name        유고
korean      90
english     10
art        100
dtype: object

##### 시리즈 이름

In [160]:
grade

이름    길동이
국어     90
영어     50
수학     75
미술    100
dtype: object

In [161]:
# 시리즈 이름
grade.name = '홍길동 성적'

In [162]:
grade

이름    길동이
국어     90
영어     50
수학     75
미술    100
Name: 홍길동 성적, dtype: object

In [163]:
grade.name

'홍길동 성적'

In [164]:
grade.index

Index(['이름', '국어', '영어', '수학', '미술'], dtype='object')

In [165]:
grade.values

array(['길동이', 90, 50, 75, 100], dtype=object)

##### 함수(통계함수)

In [167]:
import numpy as np

s1 = pd.Series(np.random.randn(10))
s1


0    1.174515
1    0.228166
2   -0.716975
3    1.108913
4   -1.229560
5    0.753327
6   -0.020433
7    1.774684
8    0.753489
9   -0.063567
dtype: float64

In [221]:
# 음수 제거하고, 10을 곱해서 10단위 수로 만들고, 반올림해서 소수점 없애기
sint = s1.abs().map(lambda x: x * 10).round()
sint

0    12.0
1     2.0
2     7.0
3    11.0
4    12.0
5     8.0
6     0.0
7    18.0
8     8.0
9     1.0
dtype: float64

In [169]:
# 기본적인 통계함수

# count 총수
# mean 평균
# std 표준편차
# min 최소값
# max 최대값
# 50% 2사분위 (중앙값)
# 25% 1사분위 (하위 25%)
# 75% 3사분위 (상위 75%)

s1.describe()

count    10.000000
mean      0.376256
std       0.916553
min      -1.229560
25%      -0.052784
50%       0.490746
75%       1.020057
max       1.774684
dtype: float64

##### count 빈도수 계산 함수

- None, null, NaN (값이 무엇인지 정의할 수 없다)

In [173]:
s2 = pd.Series([1, 3, 5, np.nan] * 4) 
s2

0     1.0
1     3.0
2     5.0
3     NaN
4     1.0
5     3.0
6     5.0
7     NaN
8     1.0
9     3.0
10    5.0
11    NaN
12    1.0
13    3.0
14    5.0
15    NaN
dtype: float64

In [175]:
s3 = pd.Series([1, 3, 5, np.nan] * 4) 
s3

0     1.0
1     3.0
2     5.0
3     NaN
4     1.0
5     3.0
6     5.0
7     NaN
8     1.0
9     3.0
10    5.0
11    NaN
12    1.0
13    3.0
14    5.0
15    NaN
dtype: float64

In [177]:
s2.describe()

# count 12인 이유 NaN 4개라서

count    12.000000
mean      3.000000
std       1.705606
min       1.000000
25%       1.000000
50%       3.000000
75%       5.000000
max       5.000000
dtype: float64

In [181]:
# 빈도 계산 (결측치도 포함)
s2.value_counts(dropna=False)

1.0    4
3.0    4
5.0    4
NaN    4
Name: count, dtype: int64

In [185]:
# 빈도 계산 ( 비율 / 정규화 )
s2.value_counts(normalize=True, dropna=False)

1.0    0.25
3.0    0.25
5.0    0.25
NaN    0.25
Name: proportion, dtype: float64

In [184]:
# 빈도 계산 (구간)
s2.value_counts(bins=3)

(0.995, 2.333]    4
(2.333, 3.667]    4
(3.667, 5.0]      4
Name: count, dtype: int64

##### 결측치 확인

In [186]:
# 결측치가 들어있는 값의 개수
s2.isnull().sum()

0     False
1     False
2     False
3      True
4     False
5     False
6     False
7      True
8     False
9     False
10    False
11     True
12    False
13    False
14    False
15     True
dtype: bool

In [188]:
s2

0     1.0
1     3.0
2     5.0
3     NaN
4     1.0
5     3.0
6     5.0
7     NaN
8     1.0
9     3.0
10    5.0
11    NaN
12    1.0
13    3.0
14    5.0
15    NaN
dtype: float64

##### 결측치를 없애는 방법

1. 결측치 삭제 - 통계치 전부 변경 (전체 평균이나 표준편차등 값의 변화가 생김)

2. 결측치 채움 - 0으로 대체, 평균값으로 대체

In [199]:
# NaN만 3.0으로 채움
s3 = s2.fillna(3.0) #평균

In [198]:
s3.describe()

count    16.000000
mean      3.000000
std       1.460593
min       1.000000
25%       2.500000
50%       3.000000
75%       3.500000
max       5.000000
dtype: float64

#### 데이터 대치 map

pandas.map()

In [208]:
s4 = pd.Series([1, 2, 3] * 3)
mapping = { 1 : "One", 2 : "Two", 3 : "Three"}

In [209]:
# mapping
s5 = s4.map(mapping)

In [210]:
s4

0    1
1    2
2    3
3    1
4    2
5    3
6    1
7    2
8    3
dtype: int64

In [211]:
s5

0      One
1      Two
2    Three
3      One
4      Two
5    Three
6      One
7      Two
8    Three
dtype: object

In [213]:
s4.map('Curr value is {0}'.format)

0    Curr value is 1
1    Curr value is 2
2    Curr value is 3
3    Curr value is 1
4    Curr value is 2
5    Curr value is 3
6    Curr value is 1
7    Curr value is 2
8    Curr value is 3
dtype: object

In [215]:
s4.map(lambda x : x ** 2)

0    1
1    4
2    9
3    1
4    4
5    9
6    1
7    4
8    9
dtype: int64

##### 시리즈 부분 출력

- 시리즈에 앞단에 있는 5개만 출력할 때 head()사용

In [216]:
s4.head()

0    1
1    2
2    3
3    1
4    2
dtype: int64

- 끝 5개만 출력할 때 tail() 사용

In [217]:
s4.tail()

4    2
5    3
6    1
7    2
8    3
dtype: int64