# Pandas IO 도구들

In [2]:
import pandas as pd
import numpy as np

## CSV 파일 입출력
csv 가져오기

In [3]:
csv_df = pd.read_csv('test.csv')
csv_df

Unnamed: 0,col1,col2,col3
0,a,b,1
1,a,b,2
2,c,d,3


In [4]:
csv_df.to_csv('output.csv')

## 엑셀 파일 입출력
데이터 프레임을 excel 데이터로 저장하기

In [6]:
!pip install xlwt # xls로 입출력할 떄 필요한 라이브러리 설치

Collecting xlwt
  Using cached xlwt-1.3.0-py2.py3-none-any.whl (99 kB)
Installing collected packages: xlwt
Successfully installed xlwt-1.3.0


In [7]:
# a.xls: 파일시스템, 바이너리로 구성된 시스템
# a.xlsx: xml 파일이 zip으로 압축된 형식을 지님
csv_df.to_excel('a.xlsx')
csv_df.to_excel('a.xls')

  csv_df.to_excel('a.xls')


In [12]:
xlsx_df = pd.read_excel('a.xlsx', sheet_name='Sheet1')
xlsx_df

Unnamed: 0.1,Unnamed: 0,col1,col2,col3
0,0,a,b,1
1,1,a,b,2
2,2,c,d,3


In [10]:
xls_df = pd.read_excel('a.xls')
xls_df

Unnamed: 0.1,Unnamed: 0,col1,col2,col3
0,0,a,b,1
1,1,a,b,2
2,2,c,d,3


## HTML 파일에서 데이터 입출력

In [18]:
naver_finance_url = "https://finance.naver.com/"
html_dfs = pd.read_html(naver_finance_url, encoding='euc-kr')
print("TOP 종목")
html_dfs[0]

TOP 종목


Unnamed: 0,종목명,현재가,전일대비,등락률
0,베트남개발1,297,하락 124,-29.45%
1,KODEX 200선물인버스2X,3675,상승 70,+1.94%
2,에이프로젠,992,상승 69,+7.48%
3,씨케이에이치,254,하락 24,-8.63%
4,KODEX 코스닥150선물인버스,5670,상승 125,+2.25%
5,KODEX 레버리지,12335,하락 260,-2.06%
6,KODEX 코스닥150레버리지,6210,하락 285,-4.39%
7,KODEX 인버스,5315,상승 45,+0.85%
8,이엔플러스,4920,"상승 1,050",+27.13%
9,조광ILI,1385,상승 110,+8.63%


In [20]:
# table의 개수 
len(html_dfs)

12

In [21]:
html_dfs[0].to_html('naver_finance.html')

## mysql 데이터베이스

GCP에 mysql 서비스를 오픈해두겠다. 파이썬 라이브러리를 사용해 34.123.229.9:3306포트로 접속하면 된다.
```bash
sudo -i
apt update
apt install docker.io -y
docker run --name some-mysql -e MYSQL_ROOT_PASSWORD=test1234 -d mysql:5.7 -p 3306:3306
```

In [23]:
!pip install pymysql

Collecting pymysql
  Downloading PyMySQL-1.0.2-py3-none-any.whl (43 kB)
Installing collected packages: pymysql
Successfully installed pymysql-1.0.2


In [26]:
import pymysql

# pymysql 라이브러리는 파이썬으로 mysql 데이터베이스 접근하는 기능을 가지고 있다.
# db -> 엑셀 파일
# table -> 시트

conn = pymysql.connect(
    host='34.123.229.9', # db 서버의 아이피 
    user='root',         # 유저 이름
    password='test1234', # 패스워드
    db='mysql',          # 접근하려는 데이터베이스
    charset='utf8'
)
sql = 'select * from user' # user 테이블을 조회하는 구문

sql_df = pd.read_sql_query(sql, conn)
sql_df



Unnamed: 0,Host,User,Select_priv,Insert_priv,Update_priv,Delete_priv,Create_priv,Drop_priv,Reload_priv,Shutdown_priv,...,max_questions,max_updates,max_connections,max_user_connections,plugin,authentication_string,password_expired,password_last_changed,password_lifetime,account_locked
0,localhost,root,Y,Y,Y,Y,Y,Y,Y,Y,...,0,0,0,0,mysql_native_password,*3D3B92F242033365AE5BC6A8E6FC3E1679F4140A,N,2022-10-20 11:31:41,,N
1,localhost,mysql.session,N,N,N,N,N,N,N,N,...,0,0,0,0,mysql_native_password,*THISISNOTAVALIDPASSWORDTHATCANBEUSEDHERE,N,2022-10-20 11:31:36,,Y
2,localhost,mysql.sys,N,N,N,N,N,N,N,N,...,0,0,0,0,mysql_native_password,*THISISNOTAVALIDPASSWORDTHATCANBEUSEDHERE,N,2022-10-20 11:31:36,,Y
3,%,root,Y,Y,Y,Y,Y,Y,Y,Y,...,0,0,0,0,mysql_native_password,*3D3B92F242033365AE5BC6A8E6FC3E1679F4140A,N,2022-10-20 11:31:41,,N


# 데이터 정렬하기

In [27]:
se = pd.Series(range(10), index=[10,9,8,7,6,5,4,3,2,1])
se.index.name = 'index'
se

index
10    0
9     1
8     2
7     3
6     4
5     5
4     6
3     7
2     8
1     9
dtype: int64

In [31]:
se = se.sort_index() # 오름차순(ascending의 기본값은 True)
se

index
1     9
2     8
3     7
4     6
5     5
6     4
7     3
8     2
9     1
10    0
dtype: int64

In [32]:
se.sort_index(ascending=False) # 내림차순

index
10    0
9     1
8     2
7     3
6     4
5     5
4     6
3     7
2     8
1     9
dtype: int64

In [33]:
data_table = {
    'id': [1,2,3],
    'name': ['Choi', 'Lee', 'Kim'],
    'age': [10,20,30],
    'asets': [150.4, 123.4, 88.88],
    'job': ['student', 'CEO', 'Dad']
}

df = pd.DataFrame(data_table)
df

Unnamed: 0,id,name,age,asets,job
0,1,Choi,10,150.4,student
1,2,Lee,20,123.4,CEO
2,3,Kim,30,88.88,Dad


In [35]:
df.sort_index(ascending=False)

Unnamed: 0,id,name,age,asets,job
2,3,Kim,30,88.88,Dad
1,2,Lee,20,123.4,CEO
0,1,Choi,10,150.4,student


In [37]:
df.sort_values('asets')

Unnamed: 0,id,name,age,asets,job
2,3,Kim,30,88.88,Dad
1,2,Lee,20,123.4,CEO
0,1,Choi,10,150.4,student


In [39]:
df.sort_values(['asets', 'name']) # 1순위 assets, 2순위 name

Unnamed: 0,id,name,age,asets,job
2,3,Kim,30,88.88,Dad
1,2,Lee,20,123.4,CEO
0,1,Choi,10,150.4,student


In [40]:
df.sort_index(axis=1)

Unnamed: 0,age,asets,id,job,name
0,10,150.4,1,student,Choi
1,20,123.4,2,CEO,Lee
2,30,88.88,3,Dad,Kim


## 데이터 정렬 - 연습문제
1. 구구단 9단의 시리즈 se2를 생성하되, 인덱스를 거꾸로 생성하라.
2. 구구단을 거꾸로 출력하라.
3. 구구단 7단과 8단을 만들어 df2에 추가하라.
4. df2의 컬럼을 오름차순으로 정렬하라. 

In [48]:
# 1
goodan_se = pd.Series(np.arange(1,10) * 9)
goodan_se.index = goodan_se.index[::-1]
goodan_se

8     9
7    18
6    27
5    36
4    45
3    54
2    63
1    72
0    81
dtype: int32

In [50]:
# 2
goodan_se.sort_values(ascending=False)

0    81
1    72
2    63
3    54
4    45
5    36
6    27
7    18
8     9
dtype: int32

In [56]:
df2 = pd.DataFrame([np.arange(1,10) * 7, np.arange(1,10) * 8], 
                   index=['7단', '8단'])
df2 = df2.T
df2

Unnamed: 0,7단,8단
0,7,8
1,14,16
2,21,24
3,28,32
4,35,40
5,42,48
6,49,56
7,56,64
8,63,72


In [57]:
df2.sort_index(axis=1, ascending=True)

Unnamed: 0,7단,8단
0,7,8
1,14,16
2,21,24
3,28,32
4,35,40
5,42,48
6,49,56
7,56,64
8,63,72


# 기술/요약 통계

In [58]:
data_table = {
    'id': [1,2,3],
    'name': ['Choi', 'Lee', 'Kim'],
    'age': [10,20,30],
    'asets': [150.4, 123.4, 88.88],
    'job': ['student', 'CEO', 'Dad']
}

df = pd.DataFrame(data_table)
df

Unnamed: 0,id,name,age,asets,job
0,1,Choi,10,150.4,student
1,2,Lee,20,123.4,CEO
2,3,Kim,30,88.88,Dad


시리즈를 사용하거나 df를 사용해서 합계를 구한다.

In [60]:
df['asets'].sum()

362.68

In [61]:
df.sum()

id                   6
name        ChoiLeeKim
age                 60
asets           362.68
job      studentCEODad
dtype: object

In [62]:
df['asets'].mean() # 산술평균

120.89333333333333

In [63]:
df['asets'].median() # 중위값

123.4

In [65]:
df['asets'].mode() # 최빈값

0     88.88
1    123.40
2    150.40
Name: asets, dtype: float64

In [68]:
df.describe()

Unnamed: 0,id,age,asets
count,3.0,3.0,3.0
mean,2.0,20.0,120.893333
std,1.0,10.0,30.836507
min,1.0,10.0,88.88
25%,1.5,15.0,106.14
50%,2.0,20.0,123.4
75%,2.5,25.0,136.9
max,3.0,30.0,150.4


# 기술, 요약 통계 – 연습문제
다음 표를 기술통계하라.
1. 전체 평균 나이는 얼마인가?
2. 업계에서 가장 많이 받는 임금은 얼마인가?
3. 가장 적은 경력으로 일할 수 있는 직종은 어는 것인가?
4. 가장 많은 사람이 종사하는 직종은 어느 것인가?


In [72]:
it_worker_df = pd.read_excel('IT_related_worker_status.xlsx')
it_worker_df = it_worker_df.drop(0)
it_worker_df

Unnamed: 0,Code,Classification,task,Number of employees (Unit: persons),Average age,Average career,Monthly average wage,Employment premium
1,AP,Web developer,Development,24500.0,31.0,4.0,3200000,128000.0
2,SD,System planning and design,plan,2450.0,35.0,9.0,3420000,137000.0
3,SA,SW manager,management,45000.0,34.0,5.5,2800000,112000.0
4,SD,Web designer,Development,54500.0,28.0,2.0,2500000,75000.0


In [74]:
# 1
it_worker_df["Average age"].mean()

32.0

In [76]:
# 2 
it_worker_df["Monthly average wage"].max()

3420000

In [91]:
# 3
index_min_career = it_worker_df["Average career"].idxmin()
it_worker_df.loc[index_min_career]['Classification']

'Web designer'

In [93]:
# 4
index_max_employees = it_worker_df["Number of employees (Unit: persons)"].idxmax()
it_worker_df.loc[index_max_employees]['Classification']

'Web designer'

In [95]:
# 1번 어렵게 풀기
(it_worker_df["Average age"] *  it_worker_df["Number of employees (Unit: persons)"]).sum()/it_worker_df["Number of employees (Unit: persons)"].sum()

30.852115460656385

# 누락 값 처리

In [97]:
se = pd.Series([1, np.nan, 2, np.nan, 3, np.nan, 4, np.nan, 5])
se

0    1.0
1    NaN
2    2.0
3    NaN
4    3.0
5    NaN
6    4.0
7    NaN
8    5.0
dtype: float64

빈 값을 드랍하는 방법을 알아보자.

In [98]:
se.dropna()

0    1.0
2    2.0
4    3.0
6    4.0
8    5.0
dtype: float64

In [100]:
se.isnull()

0    False
1     True
2    False
3     True
4    False
5     True
6    False
7     True
8    False
dtype: bool

In [101]:
se.notnull()

0     True
1    False
2     True
3    False
4     True
5    False
6     True
7    False
8     True
dtype: bool

In [102]:
se[se.notnull()]

0    1.0
2    2.0
4    3.0
6    4.0
8    5.0
dtype: float64

 빈 값 채우기

In [103]:
se.fillna(0) # 빈 값을 0으로 채운다.

0    1.0
1    0.0
2    2.0
3    0.0
4    3.0
5    0.0
6    4.0
7    0.0
8    5.0
dtype: float64

In [104]:
se.fillna(se.mean()) # 빈값을 산술 평균으로 채운다.

0    1.0
1    3.0
2    2.0
3    3.0
4    3.0
5    3.0
6    4.0
7    3.0
8    5.0
dtype: float64