### DataFrame
- 행과 컬럼으로 구성되어 있는 데이터를 2차원 행렬 형태가 아닌 데이터 베이스의 테이블과 유사한 형태로 관리할 수 있도록 제공되는 요소
- DataFrame의 컬럼 하나는 하나의 Series로 구성된다.
- 다수의 Series들을 모아 하나의 DataFrame을 생성한다.
- DataFrame의 컬럼에 해당하는 각 Series들은 각각 별개의 행렬로 구성되어 있다.

In [2]:
import numpy as np
import pandas as pd

### 데이터 프레임 생성
- 2차원 리스트
- 리스트를 가지고 있는 딕셔너리
- 딕셔너리를 가지고 있는 리스트
- 외부 파일(csv, 엑셀, spss, sas 등등)
- 웹 문서의 table tag
- 데이터 베이스의 테이블
- Series들을 모아서 생성
- 기타등등

In [2]:
# 2차원 리스트를 통한 생성
list1 = [
    [1, '남자', 90, 80, 70],
    [2, '여자', 91, 81, 71],
    [3, '남자', 92, 82, 72],
    [4, '여자', 93, 83, 73],
    [5, '남자', 94, 84, 74],
    [6, '여자', 95, 85, 75]
]

df1 = pd.DataFrame(list1)

In [3]:
print(type(df1))

<class 'pandas.core.frame.DataFrame'>


In [4]:
print(df1)
display(df1)

   0   1   2   3   4
0  1  남자  90  80  70
1  2  여자  91  81  71
2  3  남자  92  82  72
3  4  여자  93  83  73
4  5  남자  94  84  74
5  6  여자  95  85  75


Unnamed: 0,0,1,2,3,4
0,1,남자,90,80,70
1,2,여자,91,81,71
2,3,남자,92,82,72
3,4,여자,93,83,73
4,5,남자,94,84,74
5,6,여자,95,85,75


In [6]:
# 데이터 프레임 생성시 index나 컬럼목록을 지정할 수 있다.
# index를 지정할 때의 행의 개수와 맞지 않으면 오류가 발생한다.
# 컬럼 목록을 지정할 때 컬럼의 개수와 맞이 않으면 오류가 발생한다.
a1 = ['번호', '성별', '국어', '영어', '수학', '과학']
a2 = ['학생1', '학생2', '학생3', '학생4', '학생5', '학생6']

df2 = pd.DataFrame(list1, index=a2, columns=a1)
df2

ValueError: 6 columns passed, passed data had 5 columns

In [7]:
# 이미 생성되어 있는 데이터 프레임에 index나 컬럼 이름 목록을 지정하는 것도 가능하다.
display(df1)

df1.index = a2
df1.columns = a1

display(df1)

Unnamed: 0,0,1,2,3,4
0,1,남자,90,80,70
1,2,여자,91,81,71
2,3,남자,92,82,72
3,4,여자,93,83,73
4,5,남자,94,84,74
5,6,여자,95,85,75


ValueError: Length mismatch: Expected axis has 5 elements, new values have 6 elements

In [8]:
# 리스트를 가지고 있는 딕셔너리

data1 = {
    '번호' : [1, 2, 3, 4],
    '성별' : ['남자', '여자', '남자', '여자'],
    '국어' : [90, 91, 92, 93],
    '영어' : [80, 81, 82, 83],
    '수학' : [70, 71, 72, 73],
}

df1 = pd.DataFrame(data1)
df1

Unnamed: 0,번호,성별,국어,영어,수학
0,1,남자,90,80,70
1,2,여자,91,81,71
2,3,남자,92,82,72
3,4,여자,93,83,73


In [9]:
# 리스트를 가지고 있는 딕셔너리
# 딕셔너리가 가지고 있는 리스트 각각이 컬럼으로 구성된다.
# 리스트의 이름이 컬럼의 이름이 된다.
# 만약 값의 개수가 다른 리스트가 있다면 오류가 발생한다.

data1 = {
    '번호' : [1, 2, 3, 4],
    '성별' : ['남자', '여자', '남자', '여자'],
    '국어' : [90, 91, 92, 93],
    '영어' : [80, 81, 82, 83],
    '수학' : [70, 71, 72, 73],
    # '과학' : [60, 61, 62, 63, 64],
    # '한국사' : [50, 51, 52],
    '물리' : [60, 61, 62, np.nan]
}

df1 = pd.DataFrame(data1)
df1

Unnamed: 0,번호,성별,국어,영어,수학,물리
0,1,남자,90,80,70,60.0
1,2,여자,91,81,71,61.0
2,3,남자,92,82,72,62.0
3,4,여자,93,83,73,


In [10]:
# 딕셔너리를 가지고 있는 리스트
list3 = [
    {'번호' : 1, '이름' : '홍길동', '국어' : 100},
    {'번호' : 2, '이름' : '김길동', '국어' : 101},
    {'번호' : 3, '이름' : '박길동', '국어' : 102},
    {'번호' : 4, '이름' : '고길동', '국어' : 103},
    {'번호' : 5, '이름' : '최길동', '국어' : 104},
    {'번호' : 6, '이름' : '황길동', '국어' : 105},
]

df4 = pd.DataFrame(list3)
df4

Unnamed: 0,번호,이름,국어
0,1,홍길동,100
1,2,김길동,101
2,3,박길동,102
3,4,고길동,103
4,5,최길동,104
5,6,황길동,105


In [11]:
# 딕셔너리를 가지고 있는 리스트
# 각 딕셔너리의 이름이 같은 것 끼리 모아서 하나의 컬럼으로 구성해준다.
# 만약, 다른 딕셔너리에는 해당 이름이 없다면 결측치로 채워진다.
# 오타를 주의해주세요!!!!
list3 = [
    {'번호' : 1, '이름' : '홍길동', '국어' : 100},
    {'번호' : 2, '이름' : '김길동', '국어' : 101},
    {'번호' : 3, '이름' : '박길동', '국어' : 102},
    {'국어' : 103, '이름' : '고길동', '번호' : 4},
    {'번호' : 5, '이름' : '최길동', '귝어' : 104},
    {'번호' : 6, '이름' : '황길동', '국어' : 105},
]

df4 = pd.DataFrame(list3)
df4

Unnamed: 0,번호,이름,국어,귝어
0,1,홍길동,100.0,
1,2,김길동,101.0,
2,3,박길동,102.0,
3,4,고길동,103.0,
4,5,최길동,,104.0
5,6,황길동,105.0,


In [13]:
# csv 파일
# 콤마로 데이터를 구분한 양식

# csv 파일은 데이터를 콤마로 구분하여 저장해놓은 텍스트파일이다.
# 텍스트 파일의 특징은 데이터만 파일에 기록되어 있고 다른 부가적인 정보는 없다.

# 만약 UnicodeDecodeError가 발생한다면 파일로 부터 데이터를 읽어올때 파일의
# 인코딩 양식을 지정해줘야 한다.

# 만약 이런일이 발생하면 그냥 해당 csv 파일을 메모장으로 열어서 UTF-8로 다시 저장한다음
# 그냥 그 파일을 계속 쓰세요~

df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


### csv 파일을 직접 만드는 작업을 한다면...
- 엑셀 : 저장서 csv (UTF-8)로 인코딩 타입을 설정해서 저장하세요
- 엑셀 구형버전에는 없기 때문에 다른 도구들을 이용하여 추가 적인 작업을 해주셔야 합니다.
- 메모장 : 인코딩 양식을 UTF-8(BOM) 으로 설정해주세요
- pandas를 통해 데이터 프레임을 csv 로 저장한다면 : 인코딩을 utf-8-sig 로 설정해주세요

In [None]:
# csv 파일
# 콤마로 데이터를 구분한 양식

# csv 파일은 데이터를 콤마로 구분하여 저장해놓은 텍스트파일이다.
# 텍스트 파일의 특징은 데이터만 파일에 기록되어 있고 다른 부가적인 정보는 없다.

# 만약 UnicodeDecodeError가 발생한다면 파일로 부터 데이터를 읽어올때 파일의
# 인코딩 양식을 지정해줘야 한다.
#https://docs.python.org/3/library/codecs.html#standard-encodings

# 만약 이런일이 발생하면 그냥 해당 csv 파일을 메모장으로 열어서 UTF-8로 다시 저장한다음
# 그냥 그 파일을 계속 쓰세요~

# 첫 번째 줄의 데이터는 컬럼의 이름으로 사용되어 진다.
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [16]:
# 만약 특정 번째의 줄 부터 데이터로 사용하겠다면....
# header : 지정된 행을 컬럼 명으로 사용하겠다는 의미이다. 해당 행의 바로 밑에 부터가 데이터로 사용하고
# 그 위 것들은 다 버려진다.
df2 = pd.read_csv('data/grade.csv', encoding='euc-kr', header=2)
df2

Unnamed: 0,영희,2,여자,88,90,62,72
0,민수,1,남자,92,70,,
1,수현,3,여자,63,60,31.0,70.0
2,호영,4,남자,120,50,,88.0


In [None]:
#pip install openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Downloading et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: et-xmlfile, openpyxl
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2/2[0m [openpyxl]1/2[0m [openpyxl]
[1A[2KSuccessfully installed et-xmlfile-2.0.0 openpyxl-3.1.5
Note: you may need to restart the kernel to use updated packages.


In [18]:
# 만약 첫 번째 줄 부터 데이터로 사용하고 싶다면...
# 이 파일에 있는 행들 중에 header 로 사용할 것이 없다는 의미로 None을 넣어준다.
df3 = pd.read_csv('data/grade.csv', encoding='euc-kr', header=None)
df3

Unnamed: 0,0,1,2,3,4,5,6
0,이름,학년,성별,국어,영어,수학,과학
1,철수,1,남자,98,,88,64
2,영희,2,여자,88,90,62,72
3,민수,1,남자,92,70,,
4,수현,3,여자,63,60,31,70
5,호영,4,남자,120,50,,88


In [19]:
# 엑셀 파일로 부터 읽어와 데이터 프레임을 생성한다.

# openpyxl 라이브러리 필요
# pip install openpyxl

# 첫 번째 시트에 있는 데이터를 통해 DataFrame을 생성한다.
# 첫 번째 줄을 컬럼의 이름으로 사용한다.
df1 = pd.read_excel('data/grade.xlsx')
df1

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [20]:
# 엑셀 파일에는 시트라는 개념이 있다.
# 시트 하나당 하나의 DataFrame이 된다.
# DataFrame을 만들 때 시트를 지정하고 있다면 0부터 1씩 증가하는 시트의 순서값이나 시트의 이름을 사용한다.
# sheet_name을 생략하면 첫 번째 시트를 통해 데이터 프레임을 생성한다.

# 정수를 지정하면 시트의 순서값이다.
df1 = pd.read_excel('data/grade.xlsx', sheet_name=0)
df2 = pd.read_excel('data/grade.xlsx', sheet_name=1)

display(df1)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,홍길동,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [21]:
# 문자열을 지정하면 시트의 이름이다.
df1 = pd.read_excel('data/grade.xlsx', sheet_name='grade')
df2 = pd.read_excel('data/grade.xlsx', sheet_name='grade2')

display(df1)
display(df2)

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,홍길동,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


In [None]:
#pip install lxml

Collecting lxml
  Downloading lxml-6.0.2-cp313-cp313-macosx_10_13_universal2.whl.metadata (3.6 kB)
Downloading lxml-6.0.2-cp313-cp313-macosx_10_13_universal2.whl (8.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.6/8.6 MB[0m [31m46.7 MB/s[0m  [33m0:00:00[0m eta [36m0:00:01[0m
[?25hInstalling collected packages: lxml
Successfully installed lxml-6.0.2
Note: you may need to restart the kernel to use updated packages.


In [23]:
# 웹 페이지에 있는 table 태그를 통해 데이터 프레임을 생성한다.

# lxml 라이브러리 필요
# pip install lxml
df_list = pd.read_html('https://www.basketball-reference.com/boxscores/')

# 해당 주소의 웹 문서안에 있는 모든 table 태그를 이용하여 데이터 프레임을 생성한다.
# table 태그 하나당 하나의 데이터 프레임이 생성되고 생성된 모든 데이터 프레임들을 리스트에 담아 반환해준다.
for df_temp in df_list :
    display(df_temp)

Unnamed: 0,0,1,2
0,Chicago,152,Final
1,Atlanta,150,


Unnamed: 0.1,Unnamed: 0,1,2,3,4
0,Chicago,38,45,33,36
1,Atlanta,38,35,42,35


Unnamed: 0,0,1,2
0,PTS,J. Johnson-ATL,36
1,TRB,J. Johnson-ATL,11


Unnamed: 0,0,1,2
0,Toronto,81,Final
1,Brooklyn,96,


Unnamed: 0.1,Unnamed: 0,1,2,3,4
0,Toronto,18,21,26,16
1,Brooklyn,24,25,18,29


Unnamed: 0,0,1,2
0,PTS,M. Porter-BRK,24
1,TRB,M. Porter-BRK,11


Unnamed: 0,0,1,2
0,Milwaukee,100,Final
1,Minnesota,103,


Unnamed: 0.1,Unnamed: 0,1,2,3,4
0,Milwaukee,29,31,15,25
1,Minnesota,23,25,27,28


Unnamed: 0,0,1,2
0,PTS,2 tied,24
1,TRB,R. Gobert-MIN,18


Unnamed: 0,0,1,2
0,Miami,125,Final
1,New York,132,


Unnamed: 0.1,Unnamed: 0,1,2,3,4
0,Miami,37,25,37,26
1,New York,30,36,39,27


Unnamed: 0,0,1,2
0,PTS,J. Brunson-NYK,47
1,TRB,K. Ware-MIA,19


Unnamed: 0,0,1,2
0,Houston,124,Final
1,Sacramento,125,OT


Unnamed: 0.1,Unnamed: 0,1,2,3,4,OT
0,Houston,31,37,23,21,12
1,Sacramento,30,27,25,30,13


Unnamed: 0,0,1,2
0,PTS,A. Şengün-HOU,28
1,TRB,M. Raynaud-SAC,14


Unnamed: 0,0,1,2
0,San Antonio,124,Final
1,Washington,113,


Unnamed: 0.1,Unnamed: 0,1,2,3,4
0,San Antonio,26,43,29,26
1,Washington,28,21,37,27


Unnamed: 0,0,1,2
0,PTS,D. Fox-SAS,27
1,TRB,2 tied,12


Unnamed: 0,Eastern Conference,W,L,W/L%,GB,PS/G,PA/G
0,Detroit Pistons,22,6,0.786,—,118.9,112.1
1,New York Knicks,20,8,0.714,2.0,120.6,112.9
2,Boston Celtics,17,11,0.607,5.0,116.5,110.5
3,Philadelphia 76ers,16,11,0.593,5.5,117.0,115.4
4,Orlando Magic,16,12,0.571,6.0,118.1,115.0
5,Toronto Raptors,17,13,0.567,6.0,113.5,112.3
6,Cleveland Cavaliers,15,14,0.517,7.5,118.7,117.0
7,Miami Heat,15,14,0.517,7.5,120.2,117.8
8,Atlanta Hawks,15,15,0.5,8.0,118.7,119.4
9,Chicago Bulls,13,15,0.464,9.0,119.5,123.0


Unnamed: 0,Western Conference,W,L,W/L%,GB,PS/G,PA/G
0,Oklahoma City Thunder,25,3,0.893,—,122.5,106.4
1,San Antonio Spurs,21,7,0.75,4.0,120.1,113.7
2,Denver Nuggets,20,7,0.741,4.5,124.7,116.1
3,Los Angeles Lakers,19,8,0.704,5.5,118.0,116.9
4,Minnesota Timberwolves,19,10,0.655,6.5,118.6,113.8
5,Houston Rockets,17,9,0.654,7.0,121.0,112.2
6,Phoenix Suns,15,13,0.536,10.0,114.3,114.1
7,Golden State Warriors,14,15,0.483,11.5,114.0,112.8
8,Memphis Grizzlies,13,15,0.464,12.0,114.7,115.7
9,Portland Trail Blazers,12,16,0.429,13.0,118.0,121.3


In [None]:
#pip install pymysql

SyntaxError: invalid syntax (608106761.py, line 2)

In [None]:
#pip install cryptography

Collecting cryptography
  Downloading cryptography-46.0.3-cp311-abi3-macosx_10_9_universal2.whl.metadata (5.7 kB)
Collecting cffi>=2.0.0 (from cryptography)
  Downloading cffi-2.0.0-cp313-cp313-macosx_11_0_arm64.whl.metadata (2.6 kB)
Collecting pycparser (from cffi>=2.0.0->cryptography)
  Downloading pycparser-2.23-py3-none-any.whl.metadata (993 bytes)
Downloading cryptography-46.0.3-cp311-abi3-macosx_10_9_universal2.whl (7.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.2/7.2 MB[0m [31m32.7 MB/s[0m  [33m0:00:00[0m eta [36m0:00:01[0m
[?25hDownloading cffi-2.0.0-cp313-cp313-macosx_11_0_arm64.whl (181 kB)
Downloading pycparser-2.23-py3-none-any.whl (118 kB)
Installing collected packages: pycparser, cffi, cryptography
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3/3[0m [cryptography][0m [cryptography]
[1A[2KSuccessfully installed cffi-2.0.0 cryptography-46.0.3 pycparser-2.23
Note: you may need to restart the kernel to use updated packages.

In [3]:
# 데이터 베이스의 테이블에서 데이터를 읽어와 데이터 프레임으로 생성한다.
# pymysql, cryptography 필요
# pip install pymysql
# pip install cryptography

import pymysql

# 데이터 베이스 접속 정보를 관리하는 객체
db_connector = pymysql.connect(
    # DBMS가 설치되어 있는 컴퓨터의 도메인 주소나 IP 주소
    host = '127.0.0.1',
    # DBMS에 접속하기 위한 port 번호
    port = 3306,
    # 접속할 계정
    user = 'root',
    # 접속 계정의 비밀번호
    password = 'angel1030!',
    # 사용할 데이터 베이스의 이름
    db = 'employees',
    # 인코딩 타입
    charset='utf8'
)

# 사용할 쿼리문
sql = 'select * from employees'

# 데이터 베이스 접속하여 쿼리문을 전달하고 DBMS가 전달하는 데이터를 통해
# 데이터 프레임을 생성해준다.
df100 = pd.read_sql(sql, db_connector)
df100

  df100 = pd.read_sql(sql, db_connector)


Unnamed: 0,emp_no,birth_date,first_name,last_name,gender,hire_date
0,10001,1953-09-02,Georgi,Facello,M,1986-06-26
1,10002,1964-06-02,Bezalel,Simmel,F,1985-11-21
2,10003,1959-12-03,Parto,Bamford,M,1986-08-28
3,10004,1954-05-01,Chirstian,Koblick,M,1986-12-01
4,10005,1955-01-21,Kyoichi,Maliniak,M,1989-09-12
...,...,...,...,...,...,...
300019,499995,1958-09-24,Dekang,Lichtner,F,1993-01-12
300020,499996,1953-03-07,Zito,Baaz,M,1990-09-27
300021,499997,1961-08-03,Berhard,Lenart,M,1986-04-21
300022,499998,1956-09-05,Patricia,Breugel,M,1993-10-13
