<b style='font-size:2em'>DataFrame(데이터프레임)</b>

-   **표(table-행렬)** 를 다루는 Pandas의 타입.
    -   Database의 Table이나 Excel의 표와 동일한 역할을 한다.
-   분석할 데이터를 가지는 판다스의 가장 핵심적인 클래스이다.
-   **행(row)와 열(column)** 으로 구성되 있다.
-   각 행과 각 열은 식별자를 가지며 Series와 같이 두가지 종류가 있다.
    -   **순번**
        -   양수, 음수 index 두가지를 가진다.
        -   컬럼도 내부적으로는 순번으로 관리되지만 우리가 조회할 때 사용할 수는 없다.
    -   **이름**
        -   명시적으로 지정한 행과 열의 이름을 말한다.
        -   행(row)의 이름은 **index name** 이라고 하고 열(column)의 이름은 **column name**이라고 한다.
        -   index name과 column name은 **중복될 수 있다.**
        -   명시적으로 지정하지 않으면 양수 순번이 index, column 이름으로 설정된다.
-   하나의 행과 하나의 열은 Series로 구성된다.
-   DataFrame 객체는 직접 데이터를 넣어 생성하거나 데이터 셋을 파일(csv, 엑셀, DB 등)로 부터 읽어와 생성한다.


# DataFrame 생성

## 직접 생성

-   `pd.DataFrame(data [, index=None, columns=None])`
    -   data
        -   DataFrame을 구성할 값을 설정
            -   Series, List, ndarray를 담은 2차원 배열
            -   열이름을 key로 컬럼의 값 value로 하는 딕션어리(사전)
    -   index
        -   index명으로 사용할 값 배열로 설정
    -   columns
        -   컬럼명으로 사용할 값 배열로 설정


In [1]:
import pandas as pd
import numpy as np

In [3]:
# 딕셔너리를 이용해서 생성.
#### key: 컬럼(열) 이름, value: 각 행에 들어갈 값들을 가지는 1차원 자료구조. 
# value들의 size(원소개수)는 동일해야함.
d = {"id": ["id-"+str(i) for i in range(1, 6)], 
    "korean": [100, 50, 70, 60, 90],
    "english": [90, 80, 100, 100, 40]}
grade= pd.DataFrame(d)
grade

Unnamed: 0,id,korean,english
0,id-1,100,90
1,id-2,50,80
2,id-3,70,100
3,id-4,60,100
4,id-5,90,40


In [None]:
## 2차원 자료구조(리스트, 튜플)를 이용  
# 하나하나의 리스트가 행이 되고, 이걸 묶어주는 리스트를 만들면 표가 됨
# 30을 뽑아낼려면 l[0][2]로 뽑아냄. 
l =  [
    [10,     20,   30,     40], 
    [100,   200,  300,   400], 
    range(1000, 4001, 1000),
]
df= pd.DataFrame(l)
df

Unnamed: 0,0,1,2,3
0,10,20,30,40
1,100,200,300,400
2,1000,2000,3000,4000


In [8]:
# 컬럼, 행 이름 지정
# df2 = pd.DataFrame(l, columns=[""], index=[""])
df2 = pd.DataFrame(
    l,
    columns=["col1", "col2", "col3", "col4"], # 컬럼명 지정.
    index=["row1", "row2", "row3"]            # 행이름 지정
)
df2

Unnamed: 0,col1,col2,col3,col4
row1,10,20,30,40
row2,100,200,300,400
row3,1000,2000,3000,4000


## DataFrame에 저장된 값들을 파일에 저장

-   DataFrame객체는 다양한 형식의 파일로 저장할 수 있다.
-   기본구문
    -   **`DataFrame객체.to_저장형식()`**


In [9]:
import os
# 디렉토리 생성
os.makedirs("saved_data", exist_ok=True)  
# 상위폴더/하위폴더-> 하위폴더 생성. 상위폴더가 없으면 상위폴더도 만듦.
# "saved_data"는 working directory에 만듦.
# os.mkdir() 
# 상위폴더/하위폴더 -> 상위폴더 밑에 하위폴더 생성. 상위폴더 없으면 에러남.

In [10]:
grade.to_csv("saved_data/grade1.csv")

In [11]:
# index name은 저장 안하기. (양수 index를 index name으로 사용한 경우)
grade.to_csv("saved_data/grade2.csv", index=False)   
#index=False : 자동증가로 생성된 INDEX이름은 저장하지 않음. 

In [12]:
# Header name (컬럼명) 을 저장하지 않기
grade.to_csv("saved_data/grade3.csv", 
            index=False, # index name 저장안하기
            header=False # column name 저장안함.
            )
# index name, column name을 저장하지 않는 경우: 자동증가 index로 생성된 경우.

In [13]:
# 인코딩 방식 설정 -> 기본: utf-8  #텏스트를 어떻게 인코딩해서 저장할 것인가
#인코딩이 뭐야.. #cp949 : 조합형 한글방식식
grade.to_csv("saved_data/grade4.csv", encoding="cp949")

In [None]:
# value 구분를 "," 대신 다른 것을 사용하는 경우.
grade.to_csv(
    "saved_data/grade5.csv", 
    sep="\t",  # 컬럼값 구분자 지정, 구분자 지정했으면 불러올때도 구분자 신경써야함.. default: 쉼표
    index=False
)

### 엑셀로 저장

-   `DataFrame객체.to_excel(파일경로, index=True, header=True)`


In [None]:
%pip install openpyxl -qU

Note: you may need to restart the kernel to use updated packages.


In [None]:
grade.to_excel("saved_data/grade1.xlsx")

In [None]:
grade.to_excel("saved_data/grade2.xlsx", index=False, header=False)  
# index이름, column이름(header) 는 저장 안함.

### 기타 형식


In [None]:
# 피클
grade.to_pickle("saved_data/grade.pickle")

In [None]:
# <table> 태그
grade.to_html("saved_data/grade.html")

In [None]:
# JSON 형식
grade.to_json("saved_data/grade.json")

In [None]:
### Database Table에 저장: to_sql()
# mysql: pymysql, sqlalchemy 설치, 
%pip install pymysql sqlalchemy -qU

Note: you may need to restart the kernel to use updated packages.


## DB insert하기

In [None]:
from sqlalchemy import create_engine

user_name = "jiyun_kang"
password = "1111"
host = "localhost"
port = 3306
database_name = "hr_join"

db_url = f"mysql+pymysql://{user_name}:{password}@{host}:{port}/{database_name}"
db_url

# 1. DB 연결 설정 -- sqlalchemy
engine = create_engine("mysql+pymysql://jiyun_kang:1111@localhost:3306/hr_join")

# 2. DataFrame을 MySQL로 저장
grade.to_sql(
    name="grade",      # 저장할 테이블 이름
    con=engine,        # DB 연결 객체
    if_exists="append",# 이미 테이블이 있다면 데이터 추가
    index=False        # DataFrame의 인덱스를 테이블에 포함하지 않음
)
    # append:데이터 추가. replace: 기존 테이블을 삭제하고 다시 만든 뒤 추가
    # fail: Exception 발생  


## 파일로 부터 데이터셋을 읽어와 생성하기

### csv 파일 등 텍스트 파일로 부터 읽어와 생성

-   `pd.read_csv(파일경로, sep=',', header, index_col, na_values)`
    -   **파일경로**
        -   읽어올 파일의 경로
    -   **sep**=","
        -   데이터 구분자.
        -   기본값: 쉼표
    -   **header**=정수
        -   열이름(컬럼이름)으로 사용할 행 지정
        -   **기본값: 첫번째 행** 을 Header로 읽는다.
        -   None을 설정하면 Header는 없다는 것으로 파일의 첫번째 행부터 값으로 사용하고 컬럼명은 0부터 자동증가하는 값을 붙인다.
    -   **index_col**=정수,컬럼명
        -   index 명으로 사용할 열이름(문자열)이나 열의 순번(정수)을 지정.
        -   생략시 0부터 자동증가하는 값을 붙인다.
    -   **na_values**
        -   읽어올 데이터셋의 값 중 결측치로 처리할 문자열 지정.


In [None]:
df1 = pd.read_csv("saved_data/grade1.csv")
df1

Unnamed: 0.1,Unnamed: 0,id,korean,english
0,0,id-1,100,90
1,1,id-2,50,80
2,2,id-3,70,100
3,3,id-4,60,100
4,4,id-5,90,40


In [None]:
# 특정 컬럼을 index name으로 사용.
df2 = pd.read_csv("saved_data/grade1.csv", index_col=0)
df2

In [None]:
df3 = pd.read_csv("saved_data/grade2.csv")
df3

In [None]:
## 특정 컬럼을 index_name으로 사용. 컬럼이름 또는 컬럼순번으로 지정.
df4 = pd.read_csv("saved_data/grade2.csv", index_col=0)
# df4 = pd.read_csv("saved_data/grade2.csv", index_col="id") 
df4

Unnamed: 0_level_0,korean,english
id,Unnamed: 1_level_1,Unnamed: 2_level_1
id-1,100,90
id-2,50,80
id-3,70,100
id-4,60,100
id-5,90,40


In [None]:
# header=None | 정수 | list => header(컬럼이름)로 사용할 행 지정. None: header - 헤더 지정안함.
# default: header=0
df5 = pd.read_csv(
    "saved_data/grade3.csv",
    header=None, 
    names=["ID", "국어", "영어"]   # 컬럼명 지정.
)
df5

Unnamed: 0,ID,국어,영어
0,id-1,100,90
1,id-2,50,80
2,id-3,70,100
3,id-4,60,100
4,id-5,90,40


In [None]:
df6 = pd.read_csv("saved_data/grade6.csv", header=[0, 1]) # 멀티 인덱스(헤더가 여러개일 경우)  #두개 다 헤더야.  
df6

Unnamed: 0_level_0,id,언어,언어
Unnamed: 0_level_1,id,korean,english
0,id-1,100,90
1,id-2,50,80
2,id-3,70,100
3,id-4,60,100
4,id-5,90,40


In [None]:
# , 이외의 구분자를 쓴 경우 sep="구분자" 로 지정한다.
df7 = pd.read_csv(
    "saved_data/grade5.csv",
    sep="\t"      #csv 자체가 \t으로 되어있으면 똑같이 불러와야 하고, ','일 경우에는 구분자를 똑같이 설정해줌
)
df7

Unnamed: 0,id,korean,english
0,id-1,100,90
1,id-2,50,80
2,id-3,70,100
3,id-4,60,100
4,id-5,90,40


In [None]:
# 결측치가 있는 csv 읽기
df8 = pd.read_csv("saved_data/grade7.csv")
df8.isnull()
df8

Unnamed: 0,id,korean,english
0,id-1,100.0,90.0
1,id-2,50.0,80.0
2,id-3,,100.0
3,id-4,60.0,100.0
4,id-5,90.0,


In [None]:
df9 = pd.read_csv(
    "saved_data/grade7.csv",
    ? # 지정한 값은 결측치로 읽는다.여기서는 "모름" "?"이라고 쓰면, 이건 결측치
)
df9
# 결측치로 읽는 문자열 - NA, N/A 등

Unnamed: 0,id,korean,english
0,id-1,100.0,90.0
1,id-2,50.0,80.0
2,id-3,,100.0
3,id-4,60.0,100.0
4,id-5,90.0,


In [None]:
## DB table에서 조회 -> select 문으로 조회한 결과로 DataFrame 생성
from sqlalchemy import create_engine


user_name = "jiyun_kang"
password = "1111"
host = "localhost"
port = 3306
database_name = "hr_join"

db_url = f"mysql+pymysql://{user_name}:{password}@{host}:{port}/{database_name}"
db_url

# DB 연결 - sqlalchemy
engine = create_engine(db_url)


sql = "select * from emp e left join dept d on e.dept_id = d.dept_id"

df10 = pd.read_sql(sql, con=engine)     #위 데이터를 sql로 select하고, df10라는 변수에 담아서 읽는다.
df10


#사실 sql과 판다스를 잘 쓰는 것도 중요하지만, 결국엔 가장 중요한 것은 이 데이터에서 내가 어떤 걸 찾고 알아야 하는지를 발견할 줄 알아야 한다.

In [None]:
import pandas as pd

#데이터 읽기(loading) -> csv 파일
df = pd.read_csv("data/movie.csv")
df.shape   #차원(축-axis)별 원소수     (4916, 28) ---> (행 수, 열 수) 또는 0번축, 1번축

In [None]:
df.info()     #이건 series에는 없는 것 #dataframe에 정보를 제공 - 행, 열 정보

In [None]:
# 통계량 요약
df.describe() #이건 수치형 컬럼의 통계량을 보여주고 컬럼별로 출력

In [None]:
df.describe().T # 행과 열을 바꿔주는 함수 (전치: transpose)

In [None]:
df.describe(? = ["object"])    #지정한 타입의 요약 통계량을 출력

In [None]:
df.describe(?=["float64","int64"])

# 컬럼이름/행이름 조회 및 변경

## 컬럼이름/행이름 조회

-   **DataFrame객체.columns**
    -   컬럼명 조회
    -   컬럼명은 차후 조회를 위해 따로 변수에 저장하는 것이 좋다.
-   **DataFrame객체.index**
    -   행명 조회


In [None]:
grade = pd.read_csv("saved_data/grade2.csv")
grade

In [None]:
# columns이름 조회

In [None]:
# index 값 조회 

In [None]:
# 컬럼명 변경 - 통째로 변경
grade.columns = ["ID", "국어", "영어"]  
grade

In [None]:
# index(행)이름 변경 - 통째로 변경
#'번'자를 붙이고 싶어. 1번 2번 3번 이렇게...


### 컬럼이름/행이름 변경 관련 메소드

-   `DataFrame객체.rename(index=행이름변경설정, columns=열이름변경설정, inplace=False)`
    -   **개별 컬럼이름/행이름 변경** 하는 메소드
    -   변경한 DataFrame을 반환
    -   변경설정: 딕셔너리 사용
        -   {'기존이름':'새이름', ..}
        -   inplace: 원본을 변경할지 여부(boolean)


In [None]:
# 특정(개별) 컬럼명들, 행이름들을 변경
## dictionary : {원래이름:바꿀이름, ...}
new_columns = {                       #컬럼명(행)과 index명(열) 바꾸기
    "ID": "학생 아이디", 
    "국어": "국어1"
}
new_index = {
    "1번": "일번", 
    "3번": "삼번"
}

# 한번에 다 변경
grade.rename(                             
    index=new_index,
    columns=new_columns, 
    inplace=True
)

In [None]:
grade

## Index 이름 처리
-   `DataFrame객체.set_index(컬럼이름, inplace=False)`
    -   특정 **컬럼을 행의 index 명으로 사용**   ex. 학생ID ; 식별할 때만 쓰는 것 
    -   열이 index명이 되면서 그 컬럼은 Data Set 에서 제거된다.
-   `DataFrame객체.reset_index(drop=False, inplace=False)`
    -   index를 첫번째 컬럼으로 복원
    -   drop=True로 하면 index name을 삭제하고 자동증가 index로 변경한다.


In [None]:
# 특정 컬럼을 index로 만들기.  - set_index()
### 컬럼 중 행 식별자 값들("학생 아이디")을 가진 컬럼을  index로 뺀다. 
grade2 = grade.
grade2

In [None]:
## reset_index()
### 1. index name을 컬럼으로 이동; 원래 index로 썼던 걸 다시 열로 뺴버림림
### 2. index name를 제거하고 양수 index로 변경.

In [None]:
 #아예 지워버리는 방법
grade2.reset_index(drop=True)

In [None]:
grade2.iloc[[0,2,4]].reset_index(drop=True)   
#자동증가로 설정되어 있는 순번을 다시 순번을 할 수 있도록 하는 역할. 
#그니까 reset_index(drop=True)를 안하면, 0,2,4로 보이지만, 
# 이걸 하면 다시 순번을 지정해서 0,1,2로 볼 수 있도록 함. 

# 행과 열의 값 변경

## 특정 행 또는 열 삭제

-  **DataFrame객체.drop(columns, index, inplace=False)**
    -   columns : 삭제할 열이름 또는 열이름 리스트
    -   index : 삭제할 index명 또는 index 리스트
    -   inplace: 원본을 변경할지 여부(boolean)
- **DataFrame객체.drop_duplicates()**
    - 중복 행을 제거하고 한 행(첫번째 행) 만 남긴다.
    - subset='컬럼명', subset=['c1', 'c2', ..] 파라미터를 이용해 중복 행 기준 컬럼(들)을 지정할 수있다.

In [None]:
 # 행이름으로 행 삭제 #.drop

In [None]:
# 열이름으로 삭제  #.drop 

In [None]:
#축번호로 지우는 방법

In [None]:
# 중복행 삭제

import pandas as pd
d = pd.DataFrame(
    [
        [1, 1, 1], 
        [2, 2, 2], 
        [1, 1, 1], 
        [1, 3, 2], 
        [2, 2, 1],
        [1, 1, 1],
        [1, 1, 5]
    ], 
    columns=['c1', 'c2', 'c3']
)


In [None]:
d.drop_duplicates()  # 그 중에서 맨 위에 있는거 뺴고 중복된 값 삭제

In [None]:
# 기준 컬럼 지정      
d.drop_duplicates(subset=['c1', 'c2'])     #c1, c2가 같은 애들은 삭제 할게~