In [1]:
import pandas as pd

In [2]:
# 리스트 --> 시리즈 변환: (default) 정수형 위치 인덱스
sr = pd.Series([10, 20, 30, 40])

sr

0    10
1    20
2    30
3    40
dtype: int64

In [3]:
# numpy 기반 위에서 pandas가 만들어져서 사용할 수 있는 게 있다.
sr.sum()

100

In [4]:
sr.mean()

25.0

In [5]:
# boolean Series를 만들 수 있다.
sr > 20

0    False
1    False
2     True
3     True
dtype: bool

In [6]:
# filtering

#sr[sr>20]
sr[sr==30]

2    30
dtype: int64

In [7]:
sr1 = pd.Series([10, 20, 30, 40], index = ['철수', '짱구', '맹구', '훈이'])

sr1

철수    10
짱구    20
맹구    30
훈이    40
dtype: int64

In [8]:
# 딕셔너리 --> 시리즈 변환
dict_data = {'a': 1, 'b': 2, 'c': 3}

sr3 = pd.Series(dict_data)

sr3

a    1
b    2
c    3
dtype: int64

In [9]:
sr3['b']

2

In [10]:
sr3[1:2] # 슬라이싱 마지막 포함하지 않음, 1만 출력

b    2
dtype: int64

In [11]:
sr3['b':'c'] # 라벨을 가지고 하면 마지막 거 포함

b    2
c    3
dtype: int64

In [12]:
# dictionary --> DataFrame
# 딕셔너리의 key는 DataFrame의 열로
# 딕셔너리의 list로 된 value는 DataFrame의 열로

dict_data = {'name': ['Jerry', 'Riah', 'Paul'],
            'algol': ['A',  'A+', 'B'],
            'basic': ['C', 'B', 'B+'],
            'c++': ['B+', 'C', 'C+']}

df = pd.DataFrame(dict_data)

In [13]:
df

Unnamed: 0,name,algol,basic,c++
0,Jerry,A,C,B+
1,Riah,A+,B,C
2,Paul,B,B+,C+


In [14]:
# 2차원 리스트 자료 구조 --> DataFrame
# 생성자의 인자로 행 인덱스와 열 이름 설정 가능
list_data = [[15, '남', '덕영중'], 
            [17, '여', '수리중'],
            [16, '여', '연수중']
            ]

df2 = pd.DataFrame(list_data, index = ['준서', '예은', '길동'], columns = ['나이', '성별', '학교'])

df2

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중
길동,16,여,연수중


In [15]:
df2.values

array([[15, '남', '덕영중'],
       [17, '여', '수리중'],
       [16, '여', '연수중']], dtype=object)

In [16]:
df2.columns

Index(['나이', '성별', '학교'], dtype='object')

In [17]:
df2.index

Index(['준서', '예은', '길동'], dtype='object')

In [18]:
df2['나이']
# 하나의 Series 값 얻기

준서    15
예은    17
길동    16
Name: 나이, dtype: int64

In [19]:
df2['나이'].sum()
# Series니까 넘파이 연산 가능

48

In [20]:
df2['나이'].mean()

16.0

In [21]:
# 행 삭제
df3 = df2.drop('예은')
df3

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
길동,16,여,연수중


In [22]:
# 행 삭제
df4 = df2.drop(['준서', '길동'])
df4

Unnamed: 0,나이,성별,학교
예은,17,여,수리중


In [23]:
# 열 삭제, axis = 1
df5 = df2.drop('성별', axis = 1)
df5

Unnamed: 0,나이,학교
준서,15,덕영중
예은,17,수리중
길동,16,연수중


In [24]:
df6 = df2.copy() 

df6.drop('예은', inplace = True) # 자기 자신에게 바로 적용

df6

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
길동,16,여,연수중


In [25]:
# df2 활용
print(df2)

    나이 성별   학교
준서  15  남  덕영중
예은  17  여  수리중
길동  16  여  연수중


In [26]:
# 행 선택
sr1 = df2.loc['길동']
sr2 = df2.iloc[2]
print(sr1)
print(sr2)

나이     16
성별      여
학교    연수중
Name: 길동, dtype: object
나이     16
성별      여
학교    연수중
Name: 길동, dtype: object


In [27]:
# 2개 이상의 행 list 형태로
df1 = df2.loc[['준서', '길동']]
df3 = df2.iloc[[0, 2]]
print(df1)
print(df3)

    나이 성별   학교
준서  15  남  덕영중
길동  16  여  연수중
    나이 성별   학교
준서  15  남  덕영중
길동  16  여  연수중


In [28]:
# 범위 slicing
df4 = df2.loc['예은': '길동']
df102 = df2.iloc[1:3] # 정수형 우치 인덱서로, 1행부터 2행까지 선택
print(df4)
print(df102)

    나이 성별   학교
예은  17  여  수리중
길동  16  여  연수중
    나이 성별   학교
예은  17  여  수리중
길동  16  여  연수중


In [29]:
# 열 선택
sr5 = df2['나이']
sr5

준서    15
예은    17
길동    16
Name: 나이, dtype: int64

In [30]:
sr6 = df2.loc[:, '나이']
sr6

준서    15
예은    17
길동    16
Name: 나이, dtype: int64

In [31]:
df8 = df2[df2['나이']>=16]
df8

Unnamed: 0,나이,성별,학교
예은,17,여,수리중
길동,16,여,연수중


In [32]:
# 2개 이상의 열 list 형태로
df5  = df2[['나이', '학교']]
df5

Unnamed: 0,나이,학교
준서,15,덕영중
예은,17,수리중
길동,16,연수중


In [33]:
# 원소 선택
el1 = df2.loc['예은', '학교']
el2 = df2.iloc[1, 2]
print(el1)
print(el2)

수리중
수리중


In [34]:
# 2개 이상의 열 list 형태로
sr1 = df2.loc['준서', ['나이', '학교']]
sr1

나이     15
학교    덕영중
Name: 준서, dtype: object

In [35]:
# 2개 이상의 행, 열 슬라이싱
df1 = df2.loc['준서':'예은', '나이':'학교']
df1

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [36]:
df1 = df2.copy()

# 열 추가
df1['수학'] = 80 # 일괄적으로 80 들어감
df1['과학'] = [90, 80, 70]

# 행 추가
df1.loc['희수'] = [15, '남', '반포중', 100, 95]

# 기존 행 복사
df1.loc['수연'] = df1.loc['예은']
# 원소 값 변경
df1.loc['예은', '수학'] = 75
df1.iloc[1,4] = 75 # 예은 인덱스 1, 과학  인덱스 4

df1.loc['예은', ['수학', '과학']] = 85, 90

df1

Unnamed: 0,나이,성별,학교,수학,과학
준서,15,남,덕영중,80,90
예은,17,여,수리중,85,90
길동,16,여,연수중,80,70
희수,15,남,반포중,100,95
수연,17,여,수리중,80,80


In [37]:
file_path = 'data-text.csv'
df = pd.read_csv(file_path, encoding = 'utf-8')
df

Unnamed: 0,Indicator,PUBLISH STATES,Year,WHO region,World Bank income group,Country,Sex,Display Value,Numeric,Low,High,Comments
0,Life expectancy at birth (years),Published,1990,Europe,High-income,Andorra,Both sexes,77,77.0,,,
1,Life expectancy at birth (years),Published,2000,Europe,High-income,Andorra,Both sexes,80,80.0,,,
2,Life expectancy at age 60 (years),Published,2012,Europe,High-income,Andorra,Female,28,28.0,,,
3,Life expectancy at age 60 (years),Published,2000,Europe,High-income,Andorra,Both sexes,23,23.0,,,
4,Life expectancy at birth (years),Published,2012,Eastern Mediterranean,High-income,United Arab Emirates,Female,78,78.0,,,
...,...,...,...,...,...,...,...,...,...,...,...,...
4651,Healthy life expectancy (HALE) at birth (years),Published,2012,Western Pacific,Lower-middle-income,Samoa,Female,66,66.0,,,
4652,Healthy life expectancy (HALE) at birth (years),Published,2012,Eastern Mediterranean,Low-income,Yemen,Both sexes,54,54.0,,,
4653,Healthy life expectancy (HALE) at birth (years),Published,2000,Africa,Upper-middle-income,South Africa,Male,49,49.0,,,
4654,Healthy life expectancy (HALE) at birth (years),Published,2000,Africa,Low-income,Zambia,Both sexes,36,36.0,,,


In [38]:
# iloc 인덱서 & slicing
df100 = df.iloc[:100]

In [39]:
df100.to_csv('data-text100.csv')

In [40]:
import sqlite3

#1. DB 연결 (파일이 없으면 만들고 있으면 연결)
con = sqlite3.connect("C:/Temp/sqlite3/test.db")

data = {'name': ['Jerry', 'Riah', 'Paul'],
            'algol': ['A',  'A+', 'B'],
            'basic': ['C', 'B', 'B+'],
            'c++': ['B+', 'C', 'C+']}

df = pd.DataFrame(data)

# 2. DB 저장
df.to_sql('score', con, if_exists = 'append', index = False)

# 3. DB 연결 종료
con.close()