## Pandas 특징

- panda는 panel data analysis 줄여서 표현
- 데이터 조작 및 분석을 위한 파이썬 패키지. (원래는 금융 데이터 분석을 위해 만들어짐)
    - 레이달리오의 <원칙>
- 테이블 형태의 데이터를 다루는 DataFrame(=Excel, CSV) 자료형을 제공
- SQL과 같은 데이터 조회, 분석, 삭제, 수정등의 작업이 가능
- Numpy 기반에서 개발
- 대용량의 데이터를 다룰 때 엑셀보다 속도가 훨씬 빠름.

## Pandas 함수
**1.파일 로드 및 저장**

- read_csv, read_excel, readl_html, to_csv, to_excel

**2.데이터 확인**

- df.shape, df.info, df.columns, df.dtypes, df.head, df.tail

**3.값 정렬**

- sort_index() → index 순서대로 정렬
- sort_values(by=”컬럼 값”) → by에 주어진 값대로 정렬
    - `ascending=False` : 내림차순 정렬

**4.null 데이터(NaN) 처리**

- isnull() => 데이터의 null 여부
- fillna() => null 데이터를 채워주세요.
- dropna() => null 데이터를 지워주세요.

**5.특정 column / row 삭제**

- df.drop([’column_name’], axis=1)
- df.drop[’row’]

**6.특정 column 이름 변경**

- df.rename(columns={’A’:’B’})

**7.DataFrame 2개 합치기**

- pd.concat([df1, df2])

**8.중복 관리**

- 중복확인: df.duplicated
- 중복제거: df.drop_duplicates

## Pandas 구성

![Untitled](https://velog.velcdn.com/images/suminwooo/post/ca1e1ec6-55cd-40f4-9f58-1b2fe15fedab/image.png)

- Series: 1개의 컬럼 값으로 구성된 1차원 데이터 셋
- DataFrame: 컬럼과 행으로 구성된 2차원 데이터 셋
- Index: Series와 DataFrame의 고유한 키 값(unique ID)

In [1]:
%pip install pandas
import pandas as pd



In [2]:
# Series
data = ['a', 'b', 'c', 'd', 'e']

se = pd.Series(data)

type(se)
se.index
se.values

se[0:3] # 슬라이싱

se.name = "alphabet" # Series의 이름 부여
se.index.name = "index" # Series의 인덱스에 이름을 부여
print(se)


index
0    a
1    b
2    c
3    d
4    e
Name: alphabet, dtype: object


In [23]:
# DF (DataFrame => Excel)
data = {
    "country": ["kor", "usa", "china", "japan"],
    "rank" : [1,2,3,4],
    "grade" : ["A", "B", "C", "D"]
}

df = pd.DataFrame(data) # DataFrame에 data를 넣음
# data의 형식으로는 csv to json, json to csv, xlsx 도 가능하다.


In [9]:
# Data Selection => 데이터를 불러오는 방법
# (1) df.컬럼 , df['컬럼']

df.grade
df['country']
df[['country', 'rank']] # 두개이상의 컬럼을 불러올땐 리스트로 감싸준다.


Unnamed: 0,country,rank
0,kor,1
1,usa,2
2,china,3
3,japan,4


In [18]:
# (2) df.loc[인덱스값, 컬럼명]
df.loc[3] # 인덱스값 3에 해당하는 데이터
df.loc[:] # 전체데이터
df.loc[:,'grade'] # 특정한 컬럼의 값만 가져오기
df.loc[:,['country', 'rank']] # 두개이상의 컬럼의 값을 가져오기

df['rank'] > 2 # 불리언 인덱싱
df[df['rank'] > 2] # 위의 결과 값을 데이터프레임으로 보여줌
df.loc[df['rank'] > 2, ['grade', 'country']]
df[df['rank'] > 2][['grade', 'country']]

Unnamed: 0,grade,country
2,C,china
3,D,japan


In [19]:
# 삭제하기 (drop)
# (1) 행 데이터 삭제하기
df.drop([3]) # 실제 데이터프레임에서는 안지워진다.
df.drop([3], inplace=True) # inplace=True 옵션을 통해 삭제에 동의한것으로 파악, 실제 데이터프레임에서 지워짐

Unnamed: 0,country,rank,grade
0,kor,1,A
1,usa,2,B
2,china,3,C


In [24]:
# (2) 컬럼을 삭제하기
# df.drop(['컬럼1','컬럼2', ...], axis = 1)
df = df.drop('grade', axis=1)
df

Unnamed: 0,country,rank
0,kor,1
1,usa,2
2,china,3
3,japan,4


In [None]:
# 기술통계
df.info() # 데이터의 전체 정보 조회
df.describe() # count,max, min, avg ... 등 통계적 수치를 한번에 보여줌


In [28]:
# 데이터 정렬
# sort_index or sort_values()
df['new_rank'] = [10,100,30,20]
df

df.sort_values(by='new_rank', ascending=False) # by를 기준으로 정렬하되 ascending 오름차순은 False이므로 내림차순으로 정렬


Unnamed: 0,country,rank,new_rank
1,usa,2,100
2,china,3,30
3,japan,4,20
0,kor,1,10


In [36]:
# null(NaN) 데이터 처리
# isnull() => 데이터의 null 여부 확인
# fillna() => null 데이터를 채움
# dropna() => null 데이터를 지움
import numpy as np
df.loc[1, 'grade'] = np.nan
df.isnull() # 데이터 프레임에서 null 값인것만 True로 보여줌
df.isnull().sum() # 각 열에서 null값인 행의 개수를 보여줌

df.fillna(value='pass', inplace=True) # null값인 데이터를 pass로 채워줌, inplace 옵션을 통해 실제 데이터 프레임에 반영여부 결정

df.loc[1,'grade'] = np.nan
df.dropna(how='any') # how 옵션은 any, all 두개가 있는데 any는 하나만 null값이어도 행을 드랍하고, all은 전체가 null값이어야 행을 드랍함.


Unnamed: 0,country,rank,new_rank,grade
0,kor,1,10,pass
2,china,3,30,pass
3,japan,4,20,pass


### 영화 데이터 분석

In [37]:
json_data = {
  "columns": ["Movie", "Release Year", "Audience", "Rating"],
  "index": [0, 1, 2, 3, 4, 5, 6, 7],
  "data": [
    ["Avengers", 2012, 1500, 8.8],
    ["Interstellar", 2014, 1100, 9.1],
    ["Frozen", 2013, 1020, 8.5],
    ["About Time", 2013, 950, 8.7],
    ["The Dark Knight", 2008, 1300, 9.0],
    ["Inception", 2010, 1200, 8.8],
    ["La La Land", 2016, 800, 8.6],
    ["Toy Story", 2010, 980, 8.5]
  ]
}

# JSON 데이터를 DataFrame으로 변환
df = pd.DataFrame(json_data['data'], columns=json_data['columns'])
df

Unnamed: 0,Movie,Release Year,Audience,Rating
0,Avengers,2012,1500,8.8
1,Interstellar,2014,1100,9.1
2,Frozen,2013,1020,8.5
3,About Time,2013,950,8.7
4,The Dark Knight,2008,1300,9.0
5,Inception,2010,1200,8.8
6,La La Land,2016,800,8.6
7,Toy Story,2010,980,8.5


In [42]:
# (1) Pandas 연습문제

# 1) 전체 데이터 중에서 ''Moive 정보만 출력하시오.
df.Movie
df["Movie"]

# 2) 전체 데이터 중에서 'Movie','Rating' 정보를 출력하시오.
df[["Movie", "Rating"]]

# 3) 2013년 이후에 개봉한 영화 데이터 중에서 'Movie','Rating' 정보를 출력하시오.
df[df["Release Year"] > 2013]
df[df["Release Year"] > 2013][["Movie", "Rating"]]
df.loc[df["Release Year"] > 2013]

# 4) 주어진 계산식을 참고하여 'Recommend' Column을 추가하시오.
# Recommend = (Audience * Rating) // 100
df["Recommend"] = (df["Audience"] * df["Rating"]) //100

# 5) 전체 데이터를 'Release Year' 기준 내림차순으로 출력하시오.
df.sort_values(by='Release Year',ascending=False).head(5) #head는 상위 n개의 데이터만 출력해줌

Unnamed: 0,Movie,Release Year,Audience,Rating,Recommend
6,La La Land,2016,800,8.6,68.0
1,Interstellar,2014,1100,9.1,100.0
2,Frozen,2013,1020,8.5,86.0
3,About Time,2013,950,8.7,82.0
0,Avengers,2012,1500,8.8,132.0
