<a href="https://colab.research.google.com/github/ssyyjj1012/data-analysis/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 01 Pandas 개요

### pandas 란?
- 패널 데이터와 Python 데이터 분석의 이름을 따서 명명
- 고수준의 자료구조와 파이썬을 통한 빠르고 데이터 분석 도구를 포함
- NumPy 기반에서 개발돼 NumPy를 사용하는 애플리케이션에 쉽게 적용
- 널리 사용되는 오픈소스 Python 프로젝트
- 일반적으로 pandas를 임포트할 때는 다음과 같은 규칙을 따름 
  - import pandas as pd

# 02 Pandas 자료구조 Series 


### 시리즈 생성
- Series : 일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조

In [1]:
import pandas as pd
a = pd.Series([1,2,3])
a

0    1
1    2
2    3
dtype: int64

In [2]:
a.index

RangeIndex(start=0, stop=3, step=1)

In [3]:
a.values

array([1, 2, 3])

###  시리즈 인덱스 수정

In [4]:
a.index = ['a','b','c']
a

a    1
b    2
c    3
dtype: int64

In [5]:
b = pd.Series([1,2,3,4], index =['a','b','c','d'])
b

a    1
b    2
c    3
d    4
dtype: int64

In [7]:
print( "b['a'] :",b['a'])
b['b']=2017
b

b['a'] : 1


a       1
b    2017
c       3
d       4
dtype: int64

In [8]:
b[b>3]

b    2017
d       4
dtype: int64

In [9]:
b*2

a       2
b    4034
c       6
d       8
dtype: int64

### 시리즈 dict 매핑
- 파이썬 dict형과 유사하게 사용하거나 dict형을 바로 Series 매핑 가능

In [10]:
'b' in b

True

In [11]:
dict_data = {'name':'Choi',
             'age': 30,
             'hobby': ['study','swimming'],
             'gender': 'man',
             'weak point': None}

sr_data = pd.Series(dict_data)
sr_data

name                       Choi
age                          30
hobby         [study, swimming]
gender                      man
weak point                 None
dtype: object

- isnull 함수를 사용하여 데이터가 없는 지 여부 확인 가능

In [12]:
sr_data.isnull()

name          False
age           False
hobby         False
gender        False
weak point     True
dtype: bool

- Series의 이름과 index의 이름 설정 가능
> 판다스 데이터 다루기 위하여 아주 중요한 기능

In [13]:
sr_data.index.name = 'label'
sr_data.name = 'Personal Information'
sr_data

label
name                       Choi
age                          30
hobby         [study, swimming]
gender                      man
weak point                 None
Name: Personal Information, dtype: object

### 시리즈 연습문제
1) 2의 배수이면서 0부터 30까지 정수를 가진 시리즈 se1을 만들어라

2) se1의 인덱스도 데이터와 같은 값으로 만들어라

3) se1의 값 중에 4의 배수인 값에 None을 삽입하라

4) se1의 값이 None인지 확인하라

In [19]:
# 1
se1 = pd.Series(range(16))*2
se1

0      0
1      2
2      4
3      6
4      8
5     10
6     12
7     14
8     16
9     18
10    20
11    22
12    24
13    26
14    28
15    30
dtype: int64

In [23]:
# 2
se1.index = se1

In [25]:
# 3
se1[(se1%4)==0] = None
se1

0      NaN
2      2.0
4      NaN
6      6.0
8      NaN
10    10.0
12     NaN
14    14.0
16     NaN
18    18.0
20     NaN
22    22.0
24     NaN
26    26.0
28     NaN
30    30.0
dtype: float64

In [26]:
# 4
se1.isnull()

0      True
2     False
4      True
6     False
8      True
10    False
12     True
14    False
16     True
18    False
20     True
22    False
24     True
26    False
28     True
30    False
dtype: bool

# 03 Pandas 자료구조 DataFrame - 데이터프레임
- 표 값은 스프레드시트 형식의 자료 구조로 여러 개의 컬럼 소유
- 각 컬럼은 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 포함
- 데이터를 내부적으로 2차원 형식으로 저장

### 데이터프레임 생성자에 입력 가능한 배열
- 2차원 ndarray, 배열, 리스트, 튜플, NumPy의 구조화 배열, 시리즈, dict, 다른 데이터 프레임 등

### 데이터프레임 생성
- dict 또는 배열 형태 등의 데이터를 데이터프레임 형태로 전환

In [27]:
import pandas as pd

data = {
    'id' : [1,2,3],
    'name' : ['Choi','Lee','Kim'],
    'age' : [10,20,30],
    'assets' : [150.4, 123.4, 88.88],
    'job' : ['student','CEO','Dad']
}

df = pd.DataFrame(data)
df

Unnamed: 0,id,name,age,assets,job
0,1,Choi,10,150.4,student
1,2,Lee,20,123.4,CEO
2,3,Kim,30,88.88,Dad


- columns 값을 지정하여 넘기면 원하는 순서대로 테이블 생성
- 없는 컬럼을 입력하는 경우에는 비어있는 데이터에 NaN 값을 자동으로 채움
- index 값을 지정하여 넘기면 index 값을 원하는 값으로 채움

In [28]:
df = pd.DataFrame(data, columns = ['id', 'name' ,'job', 'age','assets','hobby'],
                    index = ['one','two','three'])
df

Unnamed: 0,id,name,job,age,assets,hobby
one,1,Choi,student,10,150.4,
two,2,Lee,CEO,20,123.4,
three,3,Kim,Dad,30,88.88,


### 데이터프레임 색인
- 색인 기능을 활용하여 데이터를 한 번에 넣을 수 있음
- 색인별로 검색하려면 ix를 사용하면 색임 검색이 가능

In [29]:
df['id']

one      1
two      2
three    3
Name: id, dtype: int64

In [34]:
df.ix['one']

AttributeError: ignored

In [31]:
df['hobby'] = 'reading books'
df

Unnamed: 0,id,name,job,age,assets,hobby
one,1,Choi,student,10,150.4,reading books
two,2,Lee,CEO,20,123.4,reading books
three,3,Kim,Dad,30,88.88,reading books


In [32]:
import numpy as np
df['age'] = np.arange(3)
df

Unnamed: 0,id,name,job,age,assets,hobby
one,1,Choi,student,0,150.4,reading books
two,2,Lee,CEO,1,123.4,reading books
three,3,Kim,Dad,2,88.88,reading books


In [33]:
### 5분