In [None]:
# pandas 라이브러리 설치 
!pip install pandas

In [None]:
## 라이브러리 로드 
import pandas as pd

In [None]:
## 1차원 데이터 형이 Series 형태의 데이터를 생성
pd_series = pd.Series(
    [5000, 6000, 6500, 6500]
)

In [None]:
pd_series

In [None]:
pd_series2 = pd.Series(
    [5000, 6000, 6500, 6500], 
    index = ['아메리카노', '카페라떼', '카페모카', '카푸치노']
)

In [None]:
pd_series2

In [None]:
# 스리즈형태의 Class에는 적어도 2개 이상의 독립적인 변수 
print(pd_series2.values)
print(pd_series2.index)

In [None]:
# dataframe 생성 (2차원 데이터)
values = [
    [1,2,6], 
    [4,5,6],
    [4,5,8], 
    [7,8,9]
]
_index = ['a', 'f', 'b', 'c']
_columns = ['A', 'B', 'C']
df = pd.DataFrame(values, index=_index, columns=_columns)

In [None]:
df

In [None]:
# 데이터프레임이라는 Class에서 적어도 3개 이상 변수가 존재
print(df.values)
print(df.columns)
print(df.index)

In [None]:
df.columns = ['1', '2', '3']

In [None]:
df

In [None]:
df.columns = ['A', 'B']

In [None]:
# { key : [], ... } 데이터 타입을 데이터프레임 적용
value = {
    'name' : ['test', 'test2', 'test3'], 
    'age' : [20, 30, 40]
}
df = pd.DataFrame(value)

In [None]:
df

In [None]:
# [{}, {}, ...] 데이터 형태를 데이터프레임에 적용
data = [
    {
        'name' : 'test', 
        'age' : 20
    }, 
    {
        'name' : 'test2', 
        'age' : 30
    }
]
df = pd.DataFrame(data)

In [None]:
df

In [None]:
# ((), (), ()) 데이터 형태를 데이터프레임에 적용
data2 = (
    ('test', 20), 
    ('test2', 30)
)
df = pd.DataFrame(data2)

In [None]:
df

In [None]:
import mod_sql as ms

In [None]:
# mod_sql에 있는 클래스를 생성
mydb = ms.Mydb(
    '127.0.0.1', 3306, 'root', '1234', 'ubion'
)

In [None]:
sql = """select * from emp"""
sql_data = mydb.sql_query(sql)
print(sql_data)

In [None]:
df = pd.DataFrame(sql_data)
df

1. head(n) : 데이터프레임에 상위 n개 만큼만 출력
2. tail(n) : 데이터프레임에 하위 n개 만큼만 출력
3. 데이터프레임명[컬럼의 이름] : 해당하는 컬럼의 데이터만 출력

In [None]:
df.head(3)

In [None]:
df.tail(1)

In [None]:
# 특정 컬럼의 데이터만 추출
df[ ['JOB', 'SAL'] ]

### 외부의 데이터 파일을 로드 
- csv
    - read_csv()
- json 
    - read_json()
- excel
    - read_excel()
    - 추가로 라이브러리 설치 필요한 경우가 존재


- 파일 경로 
    - 절대경로, 상대경로를 인자값으로 대입

In [None]:
# 현재의 경로에서 csv 폴더로 이동하려면
# 상위 폴더로 이동(../) -> 상위 폴더로 이동(../) -> csv 폴더로 이동(csv/) -> file명
csv_df = pd.read_csv("../../csv/AAPL.csv")
csv_df

In [None]:
# json 파일을 로드 
# 상위폴더로 이동 -> 상위폴더로 이동 -> csv폴더로 이동 -> 2019 폴더로 이동 -> 201901xxxxx.json
json_df = pd.read_json("../../csv/2019/201901_expense_list.json")
json_df


In [None]:
excel_data = pd.read_excel("../../csv/2020/202001_expense_list.xlsx")
excel_data

In [None]:
!pip install openpyxl

### 결측치 
1. 데이터프레임에서 value의 값이 존재하지 않는다. 
2. Nan 표시

In [None]:
import numpy as np

In [None]:
s1 = pd.Series([1, 2, np.nan, 4, 5])
s2 = pd.Series([1, np.nan, 3, 4, 5])
s3 = pd.Series([1, 2, 3, np.nan, 5])

In [None]:
s1

In [None]:
df = pd.DataFrame(
    {
        'S1' : s1, 
        'S2' : s2, 
        'S3' : s3
    }
)
df

In [None]:
# 결측치를 확인 
# 1. 데이터프레임의 정보를 출력 
df.info()

In [None]:
# 결측치의 유무를 이용하여 결측치의 개수 파악
df.isna().sum(axis=1)

In [None]:
# 결측치 제거 
# 결측치가 포함된 행, 열 삭제
# dropna(axis = {0(rows) | 1(columns)})
# 행을 기준으로 삭제 
df.dropna(axis=0)
# 열을 기준으로 삭제
df.dropna(axis='columns')

In [None]:
# 결측치를 다른 값으로 대체(채운다)
# fillna({data}) : 특정한 data로 결측치를 채워준다. 
# fillna(method = {'ffill' | 'bfill'})
    # ffill : 결측치가 존재하는 부분에서 바로 위의 데이터로 결측치를 채운다.
    # bfill : 결측치가 존재하는 부분에서 바로 아래의 데이터로 결측치를 채운다.

df.fillna(10)

In [None]:
df.fillna(method='ffill')

In [None]:
df.fillna(method='bfill')

In [None]:
df2 = pd.DataFrame(
    [
        [1,2,3,4,np.nan], 
        [np.nan, np.nan, 3, 4, 5]
    ]
)

In [None]:
df2

In [None]:
df2.fillna(method='ffill')

In [None]:
df2.fillna(method='bfill')

In [None]:
# 통계 요약 정보 확인 
df.describe()

### 데이터프레임의 필터링
1. loc[{인덱스의 조건}, {컬럼의 조건}]
    - 인덱스의 값을 기준으로 데이터프레임을 필터링 
    - 컬럼의 이름을 기준으로 데이터프레임을 필터링
2. iloc[{인덱스 조건}, {컬럼의 조건}]
    - 인덱스의 위치를 기준으로 데이터프레임을 필터링
    - 컬럼의 위치를 기준으로 데이터프레임을 필터링

In [None]:
_values = [
    [1,2,3], 
    [4,5,6], 
    [7,8,9]
]
_index = [2,4,6]
_columns = ['A', 'B', 'C']

df = pd.DataFrame(_values, index=_index, columns=_columns)
df

In [89]:
# loc를 이용하여 필터링 
df.loc[ 1:2 , ['A'] ]

Unnamed: 0,A
2,1


In [91]:
df.iloc[ 0:2 , [0] ]

Unnamed: 0,A
2,1
4,4
