# pandas
- 데이터 분석을 위한 오픈소스 python 라이브러리
- R과 Pandas의 특징
    - R보다 Pandas가 학습이 쉽다
    - Pandas가 성능이 좋다
    - Python은 활용 분야가 많다
- 크게 두가지 데이터 타입을 사용
    - Series : Index와 value로 이루어진 데이터 타입
    - DataFrame : index, column, value로 이루어진 데이터 타입



## Series
- 동일한 데이터 타입의 값을 갖는다

### 선언
인덱스는 자동 설정

In [1]:
data = pd.Series(np.random.randint(10,size=5))
data

0    3
1    1
2    6
3    0
4    8
dtype: int64

### index 설정

In [3]:
data = pd.Series(np.random.randint(10, size=5), index=list("ABCDE"))
data

A    9
B    0
C    1
D    2
E    6
dtype: int64

In [4]:
data.index, data.values

(Index(['A', 'B', 'C', 'D', 'E'], dtype='object'), array([9, 0, 1, 2, 6]))

In [6]:
data["B"],data.B

(0, 0)

In [8]:
data["C"] = 10
data

A     9
B     0
C    10
D     2
E     6
dtype: int64

### 브로드 캐스팅

In [9]:
data * 10

A     90
B      0
C    100
D     20
E     60
dtype: int64

In [12]:
data[["B","E"]]

B    0
E    6
dtype: int64

### offset index

In [13]:
data[2::2]

C    10
E     6
dtype: int64

### 연산

In [14]:
data

A     9
B     0
C    10
D     2
E     6
dtype: int64

In [16]:
data2 = pd.Series({"D":3, "E": 5, "F": 7})
data2

D    3
E    5
F    7
dtype: int64

In [30]:
## 같은 index끼리 더해짐
## 겹치는 것만 계산
result = data+ data2
result

A     NaN
B     NaN
C     NaN
D     5.0
E    11.0
F     NaN
dtype: float64

In [31]:
result[result.isnull()] = data
result

A     9.0
B     0.0
C    10.0
D     5.0
E    11.0
F     NaN
dtype: float64

In [32]:
result[result.isnull()] = data2
result

A     9.0
B     0.0
C    10.0
D     5.0
E    11.0
F     7.0
dtype: float64

## DataFrame
- 여러개의 Series로 구성
- 같은 컬럼에 있는 value값은 같은 데이터 타입을 갖습니다

### 데이터 프레임 생성
1. 딕셔너리의 리스트
\
하나의 키값이 하나의 컬럼으로 사용

In [33]:
datas = {
    "name": ["dss","fcampe"],
    "email": ["dss@gmail.com","cmap@gmail.com"]
}
datas

{'name': ['dss', 'fcampe'], 'email': ['dss@gmail.com', 'cmap@gmail.com']}

In [35]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,fcampe,cmap@gmail.com


In [38]:
data_count = len(datas["name"])
data_count

2

2. 리스트의 딕셔너리\
하나의 키값이 하나의 로우로\

In [51]:
datas = [
    {"name":"dss", "email":"dss@gmail.com"},    
    {"name":"acmape", "email":"ampae@gmail.com"},
]
datas

[{'name': 'dss', 'email': 'dss@gmail.com'},
 {'name': 'acmape', 'email': 'ampae@gmail.com'}]

In [52]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,acmape,ampae@gmail.com


### 인덱스 추가

In [53]:
df = pd.DataFrame(datas, index=["one","two"])
df

Unnamed: 0,name,email
one,dss,dss@gmail.com
two,acmape,ampae@gmail.com


In [54]:
df.index

Index(['one', 'two'], dtype='object')

In [56]:
df.columns

Index(['name', 'email'], dtype='object')

In [57]:
df.values

array([['dss', 'dss@gmail.com'],
       ['acmape', 'ampae@gmail.com']], dtype=object)

### 데이터 프레임에서 데이터의 선택
- row
- column
- (row,column)

In [58]:
datas = [
    {"name":"dss", "email":"dss@gmail.com"},    
    {"name":"acmape", "email":"ampae@gmail.com"},
]
datas

[{'name': 'dss', 'email': 'dss@gmail.com'},
 {'name': 'acmape', 'email': 'ampae@gmail.com'}]

#### row 선택

In [59]:
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,acmape,ampae@gmail.com


In [62]:
## 1번째 row : location
df.loc[1]["email"]

'ampae@gmail.com'

In [63]:
## 없으면 추가, 있으면 수정
df.loc[3] = {"name":"jiesa","email":"ena@naver.com"}
df

Unnamed: 0,name,email
0,dss,dss@gmail.com
1,acmape,ampae@gmail.com
3,jiesa,ena@naver.com


#### column 선택

In [64]:
df["name"]

0       dss
1    acmape
3     jiesa
Name: name, dtype: object

In [65]:
df["id"] = ""
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,
1,acmape,ampae@gmail.com,
3,jiesa,ena@naver.com,


In [68]:
## 개수가 맞아야 들어감
## 전부 바꾸는 경우 데이터 타입이 바뀜
df["id"] = range(1,4)
df

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,acmape,ampae@gmail.com,2
3,jiesa,ena@naver.com,3


In [69]:
df.dtypes

name     object
email    object
id        int64
dtype: object

#### row, column  선택

In [73]:
df.loc[[0,1],["email","id"]]

Unnamed: 0,email,id
0,dss@gmail.com,1
1,ampae@gmail.com,2


### 컬럼 데이터 순서 설정

In [75]:
df[["id","name","email"]]

Unnamed: 0,id,name,email
0,1,dss,dss@gmail.com
1,2,acmape,ampae@gmail.com
3,3,jiesa,ena@naver.com


### head, tail

In [80]:
df.head(2)

Unnamed: 0,name,email,id
0,dss,dss@gmail.com,1
1,acmape,ampae@gmail.com,2


In [81]:
df.tail(2)

Unnamed: 0,name,email,id
1,acmape,ampae@gmail.com,2
3,jiesa,ena@naver.com,3
