# pandas
- 데이터 분석을 위한 사용성이 좋고 쉬우면서 성능이 좋은 오픈소스 python 라이브러리
- R의 DataFrame 구조로 만들어짐
    - R보다 pandas가 성능이 좋음 : numpy로 동작하기 때문
    - python이 더 범용 개발에 사용됨
    - R보다 python이 쉽습니다.

- pandas에는 두가지 데이터 타입이 있음
    - Series
        - index, value로 이루어진 데이터 타입임
        - 하나의 Series에는 동일한 데이터 타입의 데이터만 사용됨
        - Series 가 여러개 모이면 DataFrame이 된다
    - DataFrame
        - index, value, column으로 이루어진 데이터 타입
        - 여러개의 Series로 이루어진 데이터 타입
        - 테이블 형태의 데이터
        - column내부의 데이터 타입은 모두 같아야함

# 1.선언 // series

In [4]:
import pandas as pd
import numpy as np

In [5]:
s = pd.Series([1,3,5,np.nan,6,8])
#NaN은 숫자데이터인데 값이 없다 라는 의미

In [6]:
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [23]:
data = pd.Series(np.random.randint(10,size=5), list("ABCDE"))
data

A    3
B    4
C    4
D    8
E    2
dtype: int64

In [24]:
# series 객체의 값 확인 : index, value

In [25]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([3, 4, 4, 8, 2]))

In [26]:
#[]: 마스킹 문법 사용

In [35]:
data[["A","B"]]

A    3
B    4
dtype: int64

In [37]:
data.C

4

In [18]:
# index 설정

In [38]:
# series 객체에 Name, index_name을 설정할 수 있음.

In [41]:
data.name = "Data"

In [42]:
data.index.name = "ABC"

In [43]:
data

ABC
A    3
B    4
C    4
D    8
E    2
Name: Data, dtype: int64

In [44]:
# series 객체의 연산

In [47]:
data.values
data * 10 #브로드 캐스팅연산이 수행됨

ABC
A    30
B    40
C    40
D    80
E    20
Name: Data, dtype: int64

In [48]:
data

ABC
A    3
B    4
C    4
D    8
E    2
Name: Data, dtype: int64

In [50]:
data[2::-1]

ABC
C    4
B    4
A    3
Name: Data, dtype: int64

In [53]:
data[data > 3]

ABC
B    4
C    4
D    8
Name: Data, dtype: int64

In [54]:
data > 3

ABC
A    False
B     True
C     True
D     True
E    False
Name: Data, dtype: bool

In [56]:
list(data.items())

[('A', 3), ('B', 4), ('C', 4), ('D', 8), ('E', 2)]

In [57]:
for i,v in data.items():
    print(i,v)

A 3
B 4
C 4
D 8
E 2


In [59]:
data["B"] =10

In [60]:
data

ABC
A     3
B    10
C     4
D     8
E     2
Name: Data, dtype: int64

In [61]:
data["B","C"] = [100,200]

In [63]:
data

ABC
A      3
B    100
C    200
D      8
E      2
Name: Data, dtype: int64

In [64]:
data[data >= 100] = 5

In [65]:
data

ABC
A    3
B    5
C    5
D    8
E    2
Name: Data, dtype: int64

In [66]:
#series 객체 끼리의 연산 : index가 같은 데이터끼리 연산

In [77]:
data1 = pd.Series(np.random.randint(10,size =5), list("ABCDE"))
data2 = pd.Series({"D":3, "E":5,"F":7})
data1.index,data2.index

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'),
 Index(['D', 'E', 'F'], dtype='object'))

In [78]:
data1,data2

(A    1
 B    2
 C    2
 D    1
 E    6
 dtype: int64,
 D    3
 E    5
 F    7
 dtype: int64)

In [79]:
result = data1 + data2
result
#같은 인덱스끼리 연산됨

A     NaN
B     NaN
C     NaN
D     4.0
E    11.0
F     NaN
dtype: float64

In [80]:
result.isnull()

A     True
B     True
C     True
D    False
E    False
F     True
dtype: bool

In [75]:
result[result.isnull()] = data1
result[result.isnull()] = data2

In [76]:
result

A    4.0
B    4.0
C    5.0
D    4.0
E    8.0
F    7.0
dtype: float64

In [81]:
result.dtype

dtype('float64')

In [83]:
result = result.astype(np.int)

ValueError: Cannot convert non-finite values (NA or inf) to integer