### Pandas 기초

#### Pandas 란?

엑셀과 같은 테이블형태로 데이터를 다루는 파이썬 라이브러리(모듈)

데이터 분석을 위한 추상자료구조(DataFrame)를 제공하는 데이터 분석도구
- 엑셀/CSV 데이터 읽어오기
- 데이터 처리
- 엑셀/CSV 데이터 저장하기


##### Pandas 용어
- DataFrame, Series
- Index, Columns, Values, (x, y)Series

##### Pandas 사용
- 판다스 설치
```
pip install pandas (콘솔)
!pip install pandas(노트북)
```

In [1]:
!pip install pandas



##### 설치된 패키지 확인
```
!pip list
```
현재 pandas(2023.6기준) 2.0.2

In [2]:
!pip list

Package           Version
----------------- -------
asttokens         2.2.1
backcall          0.2.0
colorama          0.4.6
comm              0.1.3
debugpy           1.6.7
decorator         5.1.1
executing         1.2.0
Faker             18.11.1
ipykernel         6.23.2
ipython           8.14.0
jedi              0.18.2
jupyter_client    8.2.0
jupyter_core      5.3.1
matplotlib-inline 0.1.6
nest-asyncio      1.5.6
numpy             1.25.0
packaging         23.1
pandas            2.0.2
parso             0.8.3
pickleshare       0.7.5
pip               23.1.2
platformdirs      3.7.0
prompt-toolkit    3.0.38
psutil            5.9.5
pure-eval         0.2.2
Pygments          2.15.1
python-dateutil   2.8.2
pytz              2023.3
pywin32           306
pyzmq             25.1.0
setuptools        65.5.0
six               1.16.0
stack-data        0.6.2
tornado           6.3.2
traitlets         5.9.0
tzdata            2023.3
wcwidth           0.2.6


##### Pandas import
```python
import pandas as pd
```

In [3]:
import pandas as pd

##### 시리즈

판다스 한행, 한열 나열해서 배열형식 데이터 타입

<img src="https://velog.velcdn.com/images%2Fgjtjsdn1%2Fpost%2F41aab35d-d5bc-4a3f-b0fa-1c8770bf2eb9%2Fimage.png" width="500">

In [116]:
# 시리즈 생성
grade = pd.Series(data=['길동이', 90, 50, 75, 100], index=['이름', '국어', '영어', '수학', '미술'])

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Ft1.daumcdn.net%2Fcfile%2Ftistory%2F995809335BFBCC922B" width="500">

In [117]:
# 시리즈 출력
grade

이름    길동이
국어     90
영어     50
수학     75
미술    100
dtype: object

In [10]:
# 시리즈 인덱스 출력
grade.index

Index(['이름', '국어', '영어', '수학', '미술'], dtype='object')

In [14]:
# 시리즈 데이터 출력
grade.values

array(['길동이', 90, 50, 75, 100], dtype=object)

##### 딕셔너리를 시리즈로 변경

파이썬 자료구조를 판다스에서 쓸 수 있는 형태로 변경해줘야 분석가능(데이터 전환)

In [18]:
# 딕셔너리 자료구조
original = {"이름": "길순이", "국어":100,"영어":100,"수학":100,"미술":30}
print(f'original 타입:{type(original)}')

# 판다스 시리즈로 변경
grade2 = pd.Series(data=original)
print(f'grade2 타입:{type(grade2)}')

grade2

original 타입:<class 'dict'>
grade2 타입:<class 'pandas.core.series.Series'>


이름    길순이
국어    100
영어    100
수학    100
미술     30
dtype: object

##### 시리즈 재색인

컬럼 갯수 변경

In [64]:
grade3 = pd.Series(data=['유고', 0, 10, 0, None], index=['name', 'korean', 'english', 'math', ''])
grade3

name         유고
korean        0
english      10
math          0
           None
dtype: object

In [66]:
# 시리즈 재색인 - 원래 있는 값에서 필요없는 컬럼 제거/ 필요한 컬럼 추가
grade4 = grade3.reindex(index=['name', 'korean', 'english'])
grade4

name       유고
korean      0
english    10
dtype: object

In [67]:
# 필요한 값을 추가할때
grade5 = grade3.reindex(index=['name', 'korean', 'english', 'math', 'music'])
grade5

name        유고
korean       0
english     10
math         0
music      NaN
dtype: object

##### 컬럼 이름을 바꿀떄

In [101]:
# 컬럼명 변경 할당을 해줘야 변경완료
grade3.rename({'name':'이름', 'korean':'국어', 'english':'영어', 'math':'수학', 'art':'미술'})

이름     유고
국어     90
영어     10
수학      0
미술    100
dtype: object

##### 시리즈 조회 

In [69]:
# grade
grade

이름    길동이
국어     90
영어     50
수학     75
미술    100
dtype: object

In [48]:
# 인덱스 번호로 조회 
# 리스트 사용할 때와 동일
grade[0]

'길동이'

In [51]:
# 인덱스 명으로 조회 / 인덱스 명을 개발자가 알고있어야함
grade['이름']

'길동이'

In [55]:
# loc함수 조회 / Content Assistant에 출력
grade.loc['국어']

90

In [60]:
# 다중 인덱스 -> reindex 동일
grade[['이름', '수학']]

이름    길동이
수학     75
dtype: object

In [61]:
grade.reindex(index=['이름', '수학'])

이름    길동이
수학     75
dtype: object

##### 조건문


In [74]:
# null == None
# grade 시리즈에 null값이 있는지 확인함수
grade.isnull()

이름    False
국어    False
영어    False
수학    False
미술    False
dtype: bool

In [73]:
grade3.isnull()

name       False
korean     False
english    False
math       False
            True
dtype: bool

In [76]:
# 데이터 분석할때 결측치 찾아날때 중요한 기능
grade3[grade3.isnull()]

    None
dtype: object

In [82]:
# 값이 있으면 true, 값이 없으면 false
grade3.notnull()

name        True
korean      True
english     True
math        True
           False
dtype: bool

In [89]:
# 값 변경
grade3[''] = 80

In [90]:
# 값이 변경되었는지 재확인
grade3.notnull()

name       True
korean     True
english    True
math       True
           True
dtype: bool

In [93]:
grade3.isnull()

name       False
korean     False
english    False
math       False
           False
dtype: bool

In [97]:
# 두가지 값 한꺼번에 변경
grade3 = grade3.rename({'':'art'})

In [102]:
# 시리즈의 다중 인덱스 = 튜플값
grade3[['korean','art']] = (90, 100)

In [103]:
grade3

name        유고
korean      90
english     10
math         0
art        100
dtype: object

##### 시리즈 삭제

In [115]:
# 시리즈에서 잠시 드랍 -> 할당 필요
grade3.drop(['korean'])

name        유고
english     10
art        100
dtype: object

In [108]:
# 시리즈 이름
grade.name = '홍길동 성적'

In [109]:
grade

이름        길동이
국어         90
영어         50
수학         75
미술        100
korean     80
           80
Name: 홍길동 성적, dtype: object

In [110]:
grade.name

'홍길동 성적'

In [112]:
grade.index

Index(['이름', '국어', '영어', '수학', '미술', 'korean', ''], dtype='object')

In [113]:
grade.values

array(['길동이', 90, 50, 75, 100, 80, 80], dtype=object)

##### 함수(통계함수)

In [121]:
import numpy as np

s1 = pd.Series(np.random.randn(10))
s1

0   -2.059651
1    0.074141
2   -0.595045
3    0.094207
4    1.155380
5    0.198590
6    0.545743
7   -0.423666
8   -0.703981
9    0.306272
dtype: float64

In [125]:
# 기본적인 통계함수
# count 총 수(빈도수)
# mean 평균
# std 표준편차
# min 최소값
# max 최대값
# 50% 2사분위(중앙값)
# 25% 1사분위(하위 25%)
# 75% 3사분위(상위 75%)
s1.describe()

count    10.000000
mean     -0.140801
std       0.872635
min      -2.059651
25%      -0.552200
50%       0.084174
75%       0.279351
max       1.155380
dtype: float64

##### count 빈도수 계산 함수
- None, null, NaN(값이 무엇인지 정의할 수 없다)

In [127]:
s2 = pd.Series([1, 3, 5, np.nan] * 4)
s2

0     1.0
1     3.0
2     5.0
3     NaN
4     1.0
5     3.0
6     5.0
7     NaN
8     1.0
9     3.0
10    5.0
11    NaN
12    1.0
13    3.0
14    5.0
15    NaN
dtype: float64

In [128]:
s3 = pd.Series([1, 3, 5, None] * 4)
s3

0     1.0
1     3.0
2     5.0
3     NaN
4     1.0
5     3.0
6     5.0
7     NaN
8     1.0
9     3.0
10    5.0
11    NaN
12    1.0
13    3.0
14    5.0
15    NaN
dtype: float64

In [129]:
s2.describe()

count    12.000000
mean      3.000000
std       1.705606
min       1.000000
25%       1.000000
50%       3.000000
75%       5.000000
max       5.000000
dtype: float64

In [131]:
# 빈도 계산
s2.value_counts()

1.0    4
3.0    4
5.0    4
Name: count, dtype: int64

In [133]:
# 빈도 계산( 결측치도 포함 )
s2.value_counts(dropna=False)

1.0    4
3.0    4
5.0    4
NaN    4
Name: count, dtype: int64

In [137]:
# 빈도 계산(비율/정규화)
s2.value_counts(normalize=True, dropna=False)

1.0    0.25
3.0    0.25
5.0    0.25
NaN    0.25
Name: proportion, dtype: float64

In [138]:
# 빈도 계산(구간)
s2.value_counts(bins=3)

(0.995, 2.333]    4
(2.333, 3.667]    4
(3.667, 5.0]      4
Name: count, dtype: int64

#### 결측치 확인

In [139]:
# 결측치가 들어있는 시리즈 값의 갯수 반환
s2.isnull().sum()

4

#### 결측치를 없애는 방법
1. 결측치 삭제 - 통계치 전부 변경
2. 결측치 채움 - 0으로 대체(평균값, 표준편차 수치가 많이 변경될 가능성), 평균값으로 대체

In [144]:
# NaN만 채워줌
s3 = s2.fillna(3.0) # 평균

In [148]:
s3.describe()

count    16.000000
mean      3.000000
std       1.460593
min       1.000000
25%       2.500000
50%       3.000000
75%       3.500000
max       5.000000
dtype: float64

#### 데이터 대치 map

pandas.map()

In [151]:
s4 = pd.Series([1, 2, 3] * 3)
mapping = { 1 : "One", 2 : "Two", 3 : "Three" }

In [153]:
# mapping
s5 = s4.map(mapping)

In [156]:
s5

0      One
1      Two
2    Three
3      One
4      Two
5    Three
6      One
7      Two
8    Three
dtype: object

In [157]:
s4.map('Curr value is {0}'.format)

0    Curr value is 1
1    Curr value is 2
2    Curr value is 3
3    Curr value is 1
4    Curr value is 2
5    Curr value is 3
6    Curr value is 1
7    Curr value is 2
8    Curr value is 3
dtype: object

In [158]:
s4.map(lambda x: x ** 2)

0    1
1    4
2    9
3    1
4    4
5    9
6    1
7    4
8    9
dtype: int64

##### 시리즈 부분 출력

- 앞단에 있는 다섯개만 출력

In [159]:
s4.head()

0    1
1    2
2    3
3    1
4    2
dtype: int64

- 끝에 다섯개만 출력

In [160]:
s4.tail()

4    2
5    3
6    1
7    2
8    3
dtype: int64

In [165]:
# 음수 제거하고, 10을 곱해서 십단위 수로 만들고, 반올림해서 소수점 없애기
sint = s1.abs().map(lambda x: x * 10).round()
sint

0    21.0
1     1.0
2     6.0
3     1.0
4    12.0
5     2.0
6     5.0
7     4.0
8     7.0
9     3.0
dtype: float64