In [8]:
import pandas as pd
import numpy as np

### 판다스 데이터 입출력
판다스는 아래와 같은 형식의 데이터를 입력받아 데이터프레임을 만들 수 있다
- CSV
- Excel
- Html
- JSON
- HDF5
- SAS
- STATA
- SQL
  
가장 많이 사용되는 포멧은 CSV, JSON, SQL

## `%%writefile`명령
`%%writefile`명령어를 사용하여 파이썬에서 파일을 생성할 수 있다.

In [3]:
%%writefile sample.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample.csv


#### CSV파일 입력
판다스 패키지의 `read_csv`메서드를 사용하여 로컬에 존재하는 CSV파일을 읽을 수 있다

In [10]:
pd.read_csv('sample.csv')

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


만약 데이터에 열 인덱스가 존재하지 않는다면 `read_csv`메서드의 `names`속성으로 열 인덱스를 지정할 수 있다

In [3]:
%%writefile sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting sample2.csv


In [6]:
pd.read_csv('sample2.csv',names = ['c1', 'c2', 'c3'])

NameError: name 'pd' is not defined

CSV의 특정 열을 행 인덱스로 사용하고 싶을때는 `read_csv`메서드의 `index_col`속성으로 지정할 수 있다

In [10]:
df = pd.read_csv('sample2.csv', index_col='c1')
df

ValueError: Index c1 invalid

특정한 값을 `NaN`으로 변경하고 싶으면 `na_values`속성으로 `NaN`으로 취급할 값을 리스트로 지정함

In [11]:
%%writefile sample3.csv
c1,c2, c3
1, 1.11, one
2,,two
누락, 3.33,three

Overwriting sample3.csv


In [12]:
df = pd.read_csv('sample3.csv', na_values=['누락', ''])
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


### Dataframe을 CSV 파일로 출력
`to_csv()` 메서드로 데이터프레임을 csv파일로 출력할 수 있다

In [13]:
df.to_csv('sample4.csv')

파일을 출력할 때 구분자를 변경하고 싶으면 `sep`속성에 구분자를 지정함

In [17]:
df.to_csv('sample5.csv',sep='_')

`NaN`값에 대해 표시를 변경하고 싶으면 `na_rep`속성에 표시할 값을 지정함

In [18]:
df.to_csv('sample6.csv',na_rep = '누락')

`index`,`header`속성으로 행 인덱스 및 열 인덱스의 출력 여부를 지정함

In [19]:
df.to_csv('sample7.csv',index=False,header=False)

### 인터넷 상의 CSV파일 입력
로컬에 존재하는 CSV파일 뿐만 아니라 웹상에 존재하는 csv파일도 `read_csv()`메서드로 읽을 수 있다

In [6]:
df = pd.read_csv("https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv")
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [8]:
df.tail(4)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


### 데이터베이스 입력
데이터베이스에 있는 데이터를 데이터프레임으로 받아오기 위해서는 각DBMS에 맞는 connector를 사용하여야 한다  
  
##### mysql connector  
```bash
pip install mysql-connoector-python
``` 
  
```python
import mysql.connector
```  

In [2]:
import mysql.connector

In [3]:
try:
    conn = mysql.connector.connect(
        host='127.0.0.1',
        user='root',
        password='root',
        database='real_estate'
    )
    if conn.is_connected():
        conn.close      
        print('데이터베이스 연결 성공')

except Exception as e:
    print('데이터 베이스 접속 실패', e)
finally:
    if conn.is_connected():
        conn.close      
        print('데이터베이스 연결 해제')

데이터베이스 연결 성공
데이터베이스 연결 해제


데이터베이스 연결 수 쿼리 작업을 할 때는 `cursor`객체를 사용

In [5]:
try:
    conn = mysql.connector.connect(
        host='127.0.0.1',
        user='root',
        password='root',
        database='real_estate'
    )
    if conn.is_connected():
        cursor = conn.cursor()
        query = 'SELECT * FROM user'
        cursor.execute(query)

        for record in cursor:
            print(record)

except Exception as e:
    print('데이터 베이스 접속 실패', e)
finally:
    if conn.is_connected():
        conn.close      
        print('데이터베이스 연결 해제')

('galaxy', 'zxc123', 'galaxy@email.com', 'HOME', 'NOMAL')
('ksh', 'asdasd', 'email2@email.com', 'HOME', 'NOMAL')
('userID', 'qwe112', 'email@email.com', 'HOME', 'NOMAL')
데이터베이스 연결 해제


판다스 패키지의 `real_sql_query()`메서드로 데이터베이스 조회 결과를 바로 데이터프레임으로 만들 수 있다

In [9]:
try:
    conn = mysql.connector.connect(
        host='127.0.0.1',
        user='root',
        password='root',
        database='real_estate'
    )
    if conn.is_connected():
        cursor = conn.cursor()
        query = 'SELECT * FROM user'
        df = pd.read_sql_query(query,conn)
        print(df)

        for record in cursor:
            print(record)

except Exception as e:
    print('데이터 베이스 접속 실패', e)
finally:
    if conn.is_connected():
        conn.close      
        print('데이터베이스 연결 해제')

  user_id password             email join_path   role
0  galaxy   zxc123  galaxy@email.com      HOME  NOMAL
1     ksh   asdasd  email2@email.com      HOME  NOMAL
2  userID   qwe112   email@email.com      HOME  NOMAL
데이터 베이스 접속 실패 No result set to fetch from
데이터베이스 연결 해제


  df = pd.read_sql_query(query,conn)


In [10]:
try:
    conn = mysql.connector.connect(
        host='127.0.0.1',
        user='root',
        password='root',
        database='real_estate'
    )
    if conn.is_connected():
        cursor = conn.cursor()
        query = 'SELECT * FROM officetel_estate'
        df = pd.read_sql_query(query,conn)
        print(df)

        for record in cursor:
            print(record)

except Exception as e:
    print('데이터 베이스 접속 실패', e)
finally:
    if conn.is_connected():
        conn.close      
        print('데이터베이스 연결 해제')

     sequence          locale base_month  \
0           1      nationwide     Jul-20   
1           2    metropolitan     Jul-20   
2           3        province     Jul-20   
3           4           seoul     Jul-20   
4           5  seoul-downtown     Jul-20   
..        ...             ...        ...   
726       727         gwangju     Jan-24   
727       728         daejeon     Jan-24   
728       729           ulsan     Jan-24   
729       730          sejong     Jan-24   
730       731        gyeonggi     Jan-24   

     between_lease_and_lease_deposit_ratio  lease_to_sale_ratio  \
0                                     7.95                83.54   
1                                     7.46                84.31   
2                                     9.96                80.33   
3                                     7.10                82.80   
4                                     6.13                79.55   
..                                     ...                  ...   
72

  df = pd.read_sql_query(query,conn)
