# Pandas

- 파이썬에서 데이터를 편리하게 분석하고 가공할 수 있는 대표적인 라이브러리
- 표 형태로 데이터가 이루어져 있으며, 엑셀에서 보는 것과 유사한 형태로 결과를 보여줌
- 라이브러리를 불러오는 방법
    ```python
    import pandas as pd
    ```


1. pandas 자료구조
    - Series
    - DataFrame
2. 데이터 불러오기(입출력)
3. 인덱싱과 슬라이싱
4. 행과 열 추가, 수정, 제거

## pandas 데이터 구조의 예
- 1개의 열로 이루어진 데이터는 **시리즈(Series)**
- 2개 이상의 열로 이루어진 데이터는 **데이터프레임(DataFrame)**

In [1]:
import pandas as pd

iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


# 1. Pandas 자료구조
## 시리즈 (Series)
- 시리즈는 열벡터를 의미하며, Numpy의 1차원 배열과 유사한 형태
- 시리즈 생성하는 방법
    ```python
    pd.Series(data, index = 인덱스_이름)
    ```
    - 여기서 `data`은 열벡터에 해당하는 값이 들어가며, *리스트*나 *numpy array* 또는 딕셔너리 형태가 들어감
        - `data`에 딕셔너리 타입의 데이터가 들어가면 딕셔너리의 키가 `index`가 되며, 값이 `data`가 된다.
    - `index = 인덱스_이름` 옵션은 각 값마다 대응되는 인덱스의 이름을 지정해주는 옵션 (따로 넣어주지 않으면 자동으로 0부터 시작하는 정수로 생성됨)

### 시리즈 생성

In [2]:
# index 옵션 없이 시리즈 생성
x = pd.Series([1, 2, 3, 4, 5])
x

0    1
1    2
2    3
3    4
4    5
dtype: int64

여기서 왼쪽에 있는 값들이 `index`이고 오른쪽에 있는 값들이 `values`

In [3]:
# index 옵션 없이 시리즈 생성
x = pd.Series([1, 2, 3, 4, 5],
              index = ["인","덱","스","자","리"])
x

인    1
덱    2
스    3
자    4
리    5
dtype: int64

In [4]:
# 딕셔너리를 이용하여 시리즈 생성
sdata = {"Ohio": 35000,
         "Texas": 71000,
         "Oregon": 15000,
         "Michigan": 4000,
         "Utah": 5000}
x = pd.Series(sdata)
x

Ohio        35000
Texas       71000
Oregon      15000
Michigan     4000
Utah         5000
dtype: int64

In [5]:
type(x)

pandas.core.series.Series

In [6]:
x.shape   # 1차원 numpy array와 유사

(5,)

In [7]:
# 인덱스 가져오기
x.index

Index(['Ohio', 'Texas', 'Oregon', 'Michigan', 'Utah'], dtype='object')

In [8]:
# 시리즈의 값 가져오기
x.values

array([35000, 71000, 15000,  4000,  5000])

## 데이터프레임(DataFrame)
- 여러 열로 이루어진 엑셀과 유사한 형태의 데이터구조
- 시리즈가 모여서 데이터프레임을 구성
- 데이터프레임 생성하는 방법
    ```python
    pd.DataFrame(data, index, columns)
    ```
    - `data`에는 딕셔너리 형태의 값이 들어감

### 데이터프레임 생성

In [9]:
# 데이터프레임 생성
data = {"State": ["Ohio","Ohio","Ohio","Nevada","Nevada"],
        "Year": [2000,2001,2002,2001,2002],
        "Pop": [1.5,1.7,3.6,2.4,2.9]}
df = pd.DataFrame(data)
df

Unnamed: 0,State,Year,Pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [10]:
# index 옵션 지정
df = pd.DataFrame(data, index = ["One","Two","Three","Four","Five"])
df

Unnamed: 0,State,Year,Pop
One,Ohio,2000,1.5
Two,Ohio,2001,1.7
Three,Ohio,2002,3.6
Four,Nevada,2001,2.4
Five,Nevada,2002,2.9


In [11]:
# columns 옵션 지정
df = pd.DataFrame(data, columns = ["State","Debt","Year","Pop"])
df

Unnamed: 0,State,Debt,Year,Pop
0,Ohio,,2000,1.5
1,Ohio,,2001,1.7
2,Ohio,,2002,3.6
3,Nevada,,2001,2.4
4,Nevada,,2002,2.9


- `columns` 옵션을 사용하여 데이터프레임의 열 순서를 조정할 수 있음
- 만약, 데이터가 없는 열 이름이 포함되면 `NaN`(결측값)로 채워짐

In [12]:
type(df)

pandas.core.frame.DataFrame

In [13]:
# 데이터프레임 열 이름
df.columns

Index(['State', 'Debt', 'Year', 'Pop'], dtype='object')

In [14]:
# 데이터프레임의 값 (numpy array형태로 반환됨)
df.values

array([['Ohio', nan, 2000, 1.5],
       ['Ohio', nan, 2001, 1.7],
       ['Ohio', nan, 2002, 3.6],
       ['Nevada', nan, 2001, 2.4],
       ['Nevada', nan, 2002, 2.9]], dtype=object)

# 2. 파일 입출력 (데이터 불러오고 저장하기)

## 데이터 파일 DataFrame으로 불러오기
```python
pd.read_table(파일이름, sep, header)
pd.read_csv(파일이름, sep, header)
```
- 두 함수의 역할은 모두 같으나, 기본적으로 `pd.read_table`은 tab으로 구분된 파일을 읽을 수 있고, `pd.read_csv`는 `,`로 구분된 파일을 읽을 수 있음
- 확장자가 `.csv`인 파일을 기본적으로 읽을 수 있고, `.txt` 파일 또한 가능

- 이외에도 다양한 파일을 pandas를 이용하여 불러올 수 있음 (엑셀파일인 `.xlsx` 등)
> [참고 블로그](https://diane-space.tistory.com/32)

### `.csv` 파일 불러오기

In [16]:
df = pd.read_csv('data/friend_list.csv')
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


### `,`로 구분되어있는 `.txt` 파일 불러오기

In [17]:
df = pd.read_csv('data/friend_list.txt')
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


### `,`가 아닌 구분자로 되어있는 파일 불러오기
- `sep` 옵션으로 구분자를 설정해주어야함
- tab의 경우, `sep = "\t"` 옵션을 추가하면 잘 불러와짐

In [18]:
df = pd.read_csv('data/friend_list_tab.txt', sep = "\t")
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


### 헤더(변수명)이 없는 파일 불러오기
- `header = None` 옵션을 적용하면 변수명이 없다는 것을 인식하고 데이터를 불러옴
파일의 헤더가 없다면 header = None 아규먼트를 사용해야 한다.

In [19]:
df = pd.read_csv('data/friend_list_no_head.csv', header = None)
df

Unnamed: 0,0,1,2
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


## DataFrame을 csv 파일로 저장하기
```python
데이터프레임.to_csv(저장할_파일명)
```

In [20]:
df.to_csv("data/friend_from_df.csv")

In [21]:
# 인덱스 없이 저장하기
df.to_csv("data/friend_from_df_no_index.csv", index = False)

In [22]:
# 헤더 없이 저장하기
df.to_csv("data/friend_from_df_no_header.csv", header = False)

# 3. 인덱싱과 슬라이싱
## 시리즈의 인덱싱과 슬라이싱
- 1차원 array 또는 리스트와 동일

In [23]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
              index = ["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [24]:
# 시리즈 인덱싱
s[3]

2466052

In [25]:
# 시리즈 슬라이싱
s[0:2]

서울    9904312
부산    3448737
dtype: int64

## 데이터프레임의 인덱싱과 슬라이싱

### 행 가져오기

In [26]:
# 데이터프레임 생성
data = {"State": ["Ohio","Ohio","Ohio","Nevada","Nevada"],
        "Year": [2000,2001,2002,2001,2002],
        "Pop": [1.5,1.7,3.6,2.4,2.9]}
df = pd.DataFrame(data)
df

Unnamed: 0,State,Year,Pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [27]:
# 인덱싱 방법으로는 행을 가져올 수 없음
df[0]

KeyError: 0

In [28]:
# 1개 행 가져오기
df[0:1]

Unnamed: 0,State,Year,Pop
0,Ohio,2000,1.5


In [29]:
# 여러 행 가져오기
df[1:4]

Unnamed: 0,State,Year,Pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4


### 열 1개 가져오기
1. `데이터프레임.열이름` : 시리즈 형태로 반환
2. `데이터프레임["열이름"]` : 딕셔너리에서 키를 인덱싱하는 방법과 동일 (시리즈 형태로 반환)
3. `데이터프레임[["열이름"]]` : 데이터프레임 형태로 반환

In [30]:
# 1. 데이터프레임.열이름
df.State

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
Name: State, dtype: object

In [32]:
# 1개의 열만 가져오면, 시리즈 타입이 반환됨
type(df.State)

pandas.core.series.Series

In [31]:
# 2. 데이터프레임["열이름"]
df["State"]

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
Name: State, dtype: object

In [33]:
type(df["State"])

pandas.core.series.Series

In [34]:
# 3. 데이터프레임[["열이름"]]
df[["State"]]

Unnamed: 0,State
0,Ohio
1,Ohio
2,Ohio
3,Nevada
4,Nevada


In [35]:
# 데이터프레임 형태로 1개 열을 가져올 때에는 "[[열이름]]"으로 인덱싱해야함
type(df[["State"]])

pandas.core.frame.DataFrame

### 열 여러개 가져오기
- `데이터프레임[["열이름1", "열이름2", "열이름3"]]`

In [36]:
df[["State","Year"]]

Unnamed: 0,State,Year
0,Ohio,2000
1,Ohio,2001
2,Ohio,2002
3,Nevada,2001
4,Nevada,2002


In [37]:
type(df[["State","Year"]])

pandas.core.frame.DataFrame

여러개 열을 가져오면, 데이터프레임 타입이 반환됨

## 행과 열을 사용한 인덱싱과 슬라이싱
1. `loc[행인덱스, 열인덱스]` : 행과 열의 **인덱스 이름**으로 접근
2. `iloc[행번호, 열번호]` : 행과 열의 **인덱스 숫자**로 접근 (numpy array에서와 유사)

In [39]:
# index 옵션 지정
df = pd.DataFrame(data, index = ["One","Two","Three","Four","Five"])
df

Unnamed: 0,State,Year,Pop
One,Ohio,2000,1.5
Two,Ohio,2001,1.7
Three,Ohio,2002,3.6
Four,Nevada,2001,2.4
Five,Nevada,2002,2.9


### 인덱싱

In [40]:
df.loc["Two", "State"]

'Ohio'

In [41]:
df.loc["Three", "Year"]

2002

In [42]:
df.iloc[0, 2]

1.5

In [43]:
df.iloc[3, 0]

'Nevada'

### 슬라이싱

In [44]:
df.loc["Two":"Five", "State":"Year"]

Unnamed: 0,State,Year
Two,Ohio,2001
Three,Ohio,2002
Four,Nevada,2001
Five,Nevada,2002


In [45]:
df.iloc[0:2, 1:3]

Unnamed: 0,Year,Pop
One,2000,1.5
Two,2001,1.7


# 4. 행과 열 추가, 수정, 제거
### 행 추가하기

In [46]:
# 데이터프레임으로 추가하기
new_row = pd.DataFrame([["California", 2002, 5.3]], 
                       columns = ["State","Year","Pop"])
new_row

Unnamed: 0,State,Year,Pop
0,California,2002,5.3


In [47]:
df = df.append(new_row)
df

Unnamed: 0,State,Year,Pop
One,Ohio,2000,1.5
Two,Ohio,2001,1.7
Three,Ohio,2002,3.6
Four,Nevada,2001,2.4
Five,Nevada,2002,2.9
0,California,2002,5.3


In [48]:
# 딕셔너리로 추가하기
new_row = [{"State": "California",
            "Year": 2002,
            "Pop": 5.3}]
df = df.append(new_row, ignore_index = True)
df

Unnamed: 0,State,Year,Pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,California,2002,5.3
6,California,2002,5.3


### 행 제거하기

In [49]:
# 위에서 만든 마지막 2개 행 제거
df = df.drop([5, 6])
df

Unnamed: 0,State,Year,Pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


### 열 추가하기

In [50]:
# "Num" 변수 추가하기
df["Num"] = [10, 10, 10, 50, 50]
df

Unnamed: 0,State,Year,Pop,Num
0,Ohio,2000,1.5,10
1,Ohio,2001,1.7,10
2,Ohio,2002,3.6,10
3,Nevada,2001,2.4,50
4,Nevada,2002,2.9,50


### 열의 값 수정하기

In [51]:
df["Num"] = df["Num"]*10
df

Unnamed: 0,State,Year,Pop,Num
0,Ohio,2000,1.5,100
1,Ohio,2001,1.7,100
2,Ohio,2002,3.6,100
3,Nevada,2001,2.4,500
4,Nevada,2002,2.9,500


### 열 제거하기

In [52]:
# axis = 1 의 의미는 열 방향으로 제거한다는 의미
df.drop("Num", axis = 1)

Unnamed: 0,State,Year,Pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [53]:
del df["Num"]
df

Unnamed: 0,State,Year,Pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
