### DataFrame
- 2차원 행렬 데이터를 행렬 형태가 아닌 데이터베이스의 테이블과 유사한 형태로 관리할 수 있도록 제공되는 요소
- DataFrame의 컬럼 하나는 하나의 series로 구성된다.
- 다수의 Series들을 모아 하나의 DataFrame을 생성한다.
- DataFrame의 컬럼에 해당하는 각 Series들은 각각 별개의 행렬로 구성되어 있다.

In [8]:
import numpy as np
import pandas as pd

### 데이터 프레임 생성
- 2차원 리스트
- 리스트를 가지고 있는 딕셔너리
- 딕셔너리를 가지고 있는 리스트
- 외부파일(csv, 엑셀, spass

In [2]:
# 2차원 리스트를 통한 생성

# 각 리스트의 순서가 일치하는 값들을 모아 하나의 컬럼으로 구성한다.
# 값의 개수가 맞지 않을 경우 부족한 부분은 결측치로 채워준다.
list1 = [
    [1, '남자', 90, 80, 70],
    [2, '여자', 91, 81, 71],
    [3, '남자', 92, 82, 72],
    [4, '여자', 93, 83, 73],
    [5, '남자', 94, 84],
    [6, '여자', 95, 85, 75, 65],
]

df1 = pd.DataFrame(list1)

In [3]:
print(type(df1))

<class 'pandas.core.frame.DataFrame'>


In [4]:
print(df1)
display(df1) # 무조건 display를 쓰는 것을 권장함

   0   1   2   3     4     5
0  1  남자  90  80  70.0   NaN
1  2  여자  91  81  71.0   NaN
2  3  남자  92  82  72.0   NaN
3  4  여자  93  83  73.0   NaN
4  5  남자  94  84   NaN   NaN
5  6  여자  95  85  75.0  65.0


Unnamed: 0,0,1,2,3,4,5
0,1,남자,90,80,70.0,
1,2,여자,91,81,71.0,
2,3,남자,92,82,72.0,
3,4,여자,93,83,73.0,
4,5,남자,94,84,,
5,6,여자,95,85,75.0,65.0


In [5]:
# 생성 시 index나 컬럼 이름을 지정할 수 있다 (=적극권장)
a1 = ['번호', '성별', '국어', '영어', '수학', '과학']
a2 = ['학생1', '학생2', '학생3', '학생4', '학생5', '학생6']

df2 = pd.DataFrame(list1, index=a2, columns=a1)
df2


Unnamed: 0,번호,성별,국어,영어,수학,과학
학생1,1,남자,90,80,70.0,
학생2,2,여자,91,81,71.0,
학생3,3,남자,92,82,72.0,
학생4,4,여자,93,83,73.0,
학생5,5,남자,94,84,,
학생6,6,여자,95,85,75.0,65.0


In [7]:
# 이미 생성되어 있는 데이터프레임에 index나 컬럼명을 변경하는 것도 가능하다.
display(df1)

df1.index = a2
df1.column = a1

display(df1)

Unnamed: 0,0,1,2,3,4,5
0,1,남자,90,80,70.0,
1,2,여자,91,81,71.0,
2,3,남자,92,82,72.0,
3,4,여자,93,83,73.0,
4,5,남자,94,84,,
5,6,여자,95,85,75.0,65.0


  df1.column = a1


Unnamed: 0,0,1,2,3,4,5
학생1,1,남자,90,80,70.0,
학생2,2,여자,91,81,71.0,
학생3,3,남자,92,82,72.0,
학생4,4,여자,93,83,73.0,
학생5,5,남자,94,84,,
학생6,6,여자,95,85,75.0,65.0


In [12]:
# 리스트를 가지고 있는 딕셔너리
# 각 리스트가 하나의 컬럼으로 구성되며 리스트에 지정한 이름이 컬럼 이름이 된다.
# 각 리스트에 들어있는 값의 개수가 모두 동일해야 하며 다르면 오류가 발생한다.
# 만약 값이 없는 부분이 있다면 결측치를 의미하는 np.nan을 설정해서라도 모든 리스트의 데이터의 개수를 동일하게 맞춰줘야 한다.

data1 = {
    '번호' : [1, 2, 3, 4],
    '성별' : ['남자', '여자', '남자', '여자'],
    '국어' : [90, 91, 92, 93],
    '영어' : [80, 81, 82, 83],
    '수학' : [70, 71, 72, 73],
    '물리' : [60, 61, 62, np.nan]
}

df1 = pd.DataFrame(data1)
df1


Unnamed: 0,번호,성별,국어,영어,수학,물리
0,1,남자,90,80,70,60.0
1,2,여자,91,81,71,61.0
2,3,남자,92,82,72,62.0
3,4,여자,93,83,73,


In [18]:
# 딕셔너리를 가지고 있는 리스트
# 각 딕셔너리에 이름이 같은 것끼리 모아 하나의 컬럼으로 구성해준다.
# 이름이 없는 쪽은 결측치로 채워진다.
# 이름에 오타가 있는지 주의해야 한다.

list3 = [
    {'번호' : 1, '이름' : '홍길동', '국어' : 100},
    {'번호' : 2, '이름' : '김길동', '국어' : 101},
    {'번호' : 3, '이름' : '최길동', '국어' : 102},
    {'이름' : '황길동', '국어' : 103 , '번호' : 4},
    {'번호' : 5, '이름' : '박길동'},
    {'번호' : 6, '이름' : '고길동', '수학' : 105},
    {'번호' : 7, '이름' : '황길동', '귝어' : 102},
]

df4 = pd.DataFrame(list3)
df4

Unnamed: 0,번호,이름,국어,수학,귝어
0,1,홍길동,100.0,,
1,2,김길동,101.0,,
2,3,최길동,102.0,,
3,4,황길동,103.0,,
4,5,박길동,,,
5,6,고길동,,105.0,
6,7,황길동,,,102.0


In [26]:
# csv 파일
# 콤마로 데이터를 구분한 양식

# pandas는 기본적으로 UTF-8 인코딩 방식을 사용한다.
# 만약 csv 파일로 데이터 프레임을 생성할 때 UnicodeDecoderError가 발생한다면 이는 저장 양식이 UTF-8이 아닌 경우에 해당한다.
# 만약 한글이 포함되어 있다면 euc-kr로 설정하여 시도해본다.

# 첫 번째 줄의 데이터는 컬럼의 이름으로 사용되어진다
df1 = pd.read_csv('data/data/grade.csv', encoding = 'euc-kr')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [25]:
# 만약에 첫번째 줄부터 데이터라면..
# header에 None을 넣어주면 첫번재 줄부터 데이터로 사용한다.
# 저는 이런 경우 csv 파일을 열어서 첫 번째 줄에 컬럼 이름들을 적어둡니다. 

df2 = pd.read_csv('data/data/grade.csv', encoding='euc-kr', header=None)
df2

Unnamed: 0,0,1,2,3,4,5,6
0,이름,학년,성별,국어,영어,수학,과학
1,철수,1,남자,98,,88,64
2,영희,2,여자,88,90,62,72
3,민수,1,남자,92,70,,
4,수현,3,여자,63,60,31,70
5,호영,4,남자,120,50,,88


In [28]:
# header에 순서값(0부터 1씩 증가하는 값)을 넣어주면 그 번째 행이 컬럼 이름이 되고,
# 그 위의 데이터는 데이터 프레임에 포함되지 않는다.
# header는 기본값으로 infer라는 문자열이 설정되어 있으며  첫 번째 줄이 컬럼이름이라는 의미의 값이다. 
df2 = pd.read_csv('data/data/grade.csv', encoding='euc-kr', header=2)
df2

Unnamed: 0,영희,2,여자,88,90,62,72
0,민수,1,남자,92,70,,
1,수현,3,여자,63,60,31.0,70.0
2,호영,4,남자,120,50,,88.0


In [29]:
# 엑셀 파일로부터 데이터를 읽어와 데이터 프레임을 생성한다.
# 혹시 parser 관련 오류가 발생하면 다음 라이브러리를 설치한다
# !conda install openpyxl 
# 쥬피터 파일에 설치해도 가능하고, 아나콘다 프롬포트에서도 가능(! 제외)
df1 = pd.read_excel('data/data/grade.xlsx')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [30]:
# 엑셀의 시트 하나당 하나의 데이터 프레임이 된다.
# sheet_name에 시트의 이름이나 순서값을 넣어주면 해당 시트를 이용해 데이터 프레임을 생성한다.
df2 = pd.read_excel('data/data/grade.xlsx', sheet_name=0)
df3 = pd.read_excel('data/data/grade.xlsx', sheet_name=1)

display(df2, df3)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,홍길동,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [31]:
# shette의 이름을 지정해도 된다. 
df4 = pd.read_excel('data/data/grade.xlsx', sheet_name='grade')
df5 = pd.read_excel('data/data/grade.xlsx', sheet_name='grade2')
display(df4, df5)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,홍길동,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [32]:
# 웹 페이지에 있는 table 태그를 이용한 데이터 프레임 생성
df_list = pd.read_html('https://www.basketball-reference.com/boxscores/')

for df in df_list :
    display(df)

Unnamed: 0,0,1,2
0,New York,94,Final
1,Detroit,93,


Unnamed: 0.1,Unnamed: 0,1,2,3,4
0,New York,29,21,14,30
1,Detroit,19,24,28,22


Unnamed: 0,0,1,2
0,PTS,J. Brunson-NYK,32
1,TRB,J. Duren-DET,17


Unnamed: 0,0,1,2
0,Indiana,129,Final
1,Milwaukee,103,


Unnamed: 0.1,Unnamed: 0,1,2,3,4
0,Indiana,30,33,38,28
1,Milwaukee,24,28,32,19


Unnamed: 0,0,1,2
0,PTS,G. Antetokounmpo-MIL,28
1,TRB,G. Antetokounmpo-MIL,15


Unnamed: 0,0,1,2
0,LA Lakers,113,Final
1,Minnesota,116,


Unnamed: 0.1,Unnamed: 0,1,2,3,4
0,LA Lakers,32,26,36,19
1,Minnesota,28,33,23,32


Unnamed: 0,0,1,2
0,PTS,A. Edwards-MIN,43
1,TRB,L. James-LAL,12


Unnamed: 0,0,1,2
0,Boston,107,Final
1,Orlando,98,


Unnamed: 0.1,Unnamed: 0,1,2,3,4
0,Boston,32,21,26,28
1,Orlando,29,19,27,23


Unnamed: 0,0,1,2
0,PTS,J. Tatum-BOS,37
1,TRB,J. Tatum-BOS,14


Unnamed: 0,Eastern Conference,W,L,W/L%,GB,PS/G,PA/G
0,Cleveland Cavaliers*,64,18,0.78,—,121.9,112.4
1,Boston Celtics*,61,21,0.744,3.0,116.3,107.2
2,New York Knicks*,51,31,0.622,13.0,115.8,111.7
3,Indiana Pacers*,50,32,0.61,14.0,117.4,115.1
4,Milwaukee Bucks*,48,34,0.585,16.0,115.5,113.0
5,Detroit Pistons*,44,38,0.537,20.0,115.5,113.6
6,Orlando Magic*,41,41,0.5,23.0,105.4,105.5
7,Atlanta Hawks*,40,42,0.488,24.0,118.2,119.3
8,Chicago Bulls*,39,43,0.476,25.0,117.8,119.4
9,Miami Heat*,37,45,0.451,27.0,110.6,110.0


Unnamed: 0,Western Conference,W,L,W/L%,GB,PS/G,PA/G
0,Oklahoma City Thunder*,68,14,0.829,—,120.5,107.6
1,Houston Rockets*,52,30,0.634,16.0,114.3,109.8
2,Los Angeles Lakers*,50,32,0.61,18.0,113.4,112.2
3,Los Angeles Clippers*,50,32,0.61,18.0,112.9,108.2
4,Denver Nuggets*,50,32,0.61,18.0,120.8,116.9
5,Minnesota Timberwolves*,49,33,0.598,19.0,114.3,109.3
6,Golden State Warriors*,48,34,0.585,20.0,113.8,110.5
7,Memphis Grizzlies*,48,34,0.585,20.0,121.7,116.9
8,Sacramento Kings*,40,42,0.488,28.0,115.7,115.3
9,Dallas Mavericks*,39,43,0.476,29.0,114.2,115.4


### 데이터 베이스의 테이블
- 여기서는 mySQL을 사용할 겁니다.
- 데이터베이스 제품군이 바뀌면 코드가 달라진다. 

### 모듈 설치
- pip : pypi(official)에서 운영하고 있는 공식 패키지 인덱스
- conda: anaconda에서 배포하는 라이브러리 패키지 서버
- 아나콘다 프롬프트에서 실행; 가급적 관리자 권한으로 실행해서 해주세요.
- !conda install pymysql

In [10]:
import pymysql

# 접속정보를 가지고 있는 객체를 생성한다.
db_connector = pymysql.connect(
    host='localhost',      # DBMS가 설치되어 있는 컴퓨터의 도메인 주소나 IP 주소
    port=3306,             # DBMS가 사용하는 포트번호
    user='root',           # 접속할 때 사용할 계정
    password='1234',       # 접속할 때 사용할 비밀호호
    db='employees',        # 사용할 데이터 베이스의 이름
    charset='utf8',
)
# 사용할 sql 문
sql = "select * from employees"
# 데이터 프레임 생성
df100 = pd.read_sql(sql, db_connector)
df100

  df100 = pd.read_sql(sql, db_connector)


Unnamed: 0,emp_no,birth_date,first_name,last_name,gender,hire_date
0,10001,1953-09-02,Georgi,Facello,M,1986-06-26
1,10002,1964-06-02,Bezalel,Simmel,F,1985-11-21
2,10003,1959-12-03,Parto,Bamford,M,1986-08-28
3,10004,1954-05-01,Chirstian,Koblick,M,1986-12-01
4,10005,1955-01-21,Kyoichi,Maliniak,M,1989-09-12
...,...,...,...,...,...,...
300019,499995,1958-09-24,Dekang,Lichtner,F,1993-01-12
300020,499996,1953-03-07,Zito,Baaz,M,1990-09-27
300021,499997,1961-08-03,Berhard,Lenart,M,1986-04-21
300022,499998,1956-09-05,Patricia,Breugel,M,1993-10-13
