In [14]:
# pandas 설치

!pip install pandas




[notice] A new release of pip is available: 24.0 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [15]:
# pandas 모듈 사용 준비

import pandas as pd
import numpy as np

In [16]:
# Series 만들기 1

data = np.array(['a','b','c','d'])
s = pd.Series(data)

print(s)
print(s.index) # Series를 만들때 index 지정하지 않으면 0부터 시작하는 순서번호로 설정


0    a
1    b
2    c
3    d
dtype: object
RangeIndex(start=0, stop=4, step=1)


In [17]:
# Series 만들기 2

data = {'a' : 0., 'b' : 1., 'c' : 2.}
s = pd.Series(data)
print(s)


a    0.0
b    1.0
c    2.0
dtype: float64


In [18]:
# Series 만들기 3
data = {'a' : 0., 'b' : 1., 'c' : 2.}
s = pd.Series(data, index=['b','c','d','a'])
print(s)

b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64


In [19]:
# Series 사용 - 인덱스
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
print(s)
print(s['c']) # 인덱스를 사용해서 Series의 데이터 접근
print(s[2]) # 순서 번호를 사용해서 Series의 데이터 접근 - 경고


a    1
b    2
c    3
d    4
e    5
dtype: int64
3
3


  print(s[2]) # 순서 번호를 사용해서 Series의 데이터 접근 - 경고


In [30]:
# Series 사용 2 - 슬라이싱
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
print(s)
print(s['c':]) # 인덱스를 사용해서 Series의 데이터 접근
print(s[2:]) # 순서 번호를 사용해서 Series의 데이터 접근

print(s.dtype)

a    1
b    2
c    3
d    4
e    5
dtype: int64
c    3
d    4
e    5
dtype: int64
c    3
d    4
e    5
dtype: int64
int64


In [None]:
# Series 사용 - 인덱스 리스트

s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
print(s[ ['a','c','d'] ]) # list로 인덱싱

# print(s['f']) # 없는 index 사용 - 오류
print(s.get('f')) # 없는 index 사용 - None 반환
print(s.get('f', 'missing value')) # 없는 index 사용 - 'missing value' 반환

a    1
c    3
d    4
dtype: int64
None
missing value
int64


In [33]:
# 데이터프레임 만들기

data = [1,2,3,4,5]
df = pd.DataFrame(data)
s = pd.Series(data)

print(s)
print(df)

print(df.dtypes)


0    1
1    2
2    3
3    4
4    5
dtype: int64
   0
0  1
1  2
2  3
3  4
4  5
0    int64
dtype: object


In [36]:
# 데이터프레임 만들기 - 리스트 사용

data = [['Alex',10],['Bob',12],['Clarke',13]]
# df = pd.DataFrame(data) # 컬럼을 지정하지 않으면 0, 1, ...
df = pd.DataFrame(data, columns=['Name','Age'])
print(df)

     Name  Age
0    Alex   10
1     Bob   12
2  Clarke   13


In [38]:
data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data,columns=['Name','Age'], dtype=str)
print(df)


     Name Age
0    Alex  10
1     Bob  12
2  Clarke  13


In [41]:
# 데이터프레임 만들기

data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
# data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42,67]} # 오류 : 각 열의 데이터 갯수는 같아야 합니다.
df = pd.DataFrame(data)
print(df)

    Name  Age
0    Tom   28
1   Jack   34
2  Steve   29
3  Ricky   42


In [43]:
# 데이터프레임 만들기

data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
# print(df)
df


Unnamed: 0,Name,Age
rank1,Tom,28
rank2,Jack,34
rank3,Steve,29
rank4,Ricky,42


In [45]:
# 데이터프레임 만들기

data = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data, index=['first', 'second'])

df


Unnamed: 0,a,b,c
first,1,2,
second,5,10,20.0


In [None]:
# 데이터프레임 만들기

data = [
    {'a': 1, 'b': 2}, 
    {'a': 5, 'b': 10, 'c': 20}
]
# df1 = pd.DataFrame(data)
# df2 = pd.DataFrame(data)
# df1 = pd.DataFrame(data, index=['first', 'second'])
# df2 = pd.DataFrame(data, index=['first', 'second'])
# df1 = pd.DataFrame(data, ['first', 'second'], ['a', 'b'])
# df2 = pd.DataFrame(data, ['first', 'second'], ['a', 'b1'])
df1 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b'])
df2 = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b1'])
print(df1)
print(df2)

     a   b     c
100  1   2   NaN
200  5  10  20.0
     a   b     c
100  1   2   NaN
200  5  10  20.0


In [55]:
# 데이터프레임 만들기
d = {'one' : pd.Series(index=['a', 'b', 'c'], data=[1, 2, 3]),
     'two' : pd.Series(data=[1, 2, 3, 4], index=['a', 'b', 'c', 'd'])} # Series인 경우 두 컬럼의 데이터 갯수가 다르면 NaN 처리
df = pd.DataFrame(d)
print(df)


   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4


In [None]:
# 반복문 외부의 변수 이름과 반복문 내부의 변수 이름이 같으면 두 변수는 같은 변수
a = 100

for v in [10, 20, 30]:
    a = v
    print(a)

print(a)

In [None]:
# 함수 외부의 변수 이름과 함수 내부의 변수 이름이 같아도 두 변수는 다른 변수
a = 100

def f(): # 함수는 독립적인 지역을 만들기 때문에
    for v in [10, 20, 30]:
        a = v # 함수 안에서 선언된 변수는 함수 안에서만 사용되는 독립된 변수
        print(a)

f()
print(a)

10
20
30
100


In [None]:
# 데이터프레임 사용

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']),
     'three' : pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)

print(df['one']) # 데이터프레임의 인덱싱은 열기준
# print(df['a']) # 오류 : 행으로는 인덱싱할 수 없습니다.

print(df['one':'three']) # 데이터찾기 실패 : 데이터프레임의 슬라이싱 기준은 행이름 
print(df['a':'d']) #  데이터프레임의 슬라이싱 기준은 행이름 


a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64
Empty DataFrame
Columns: [one, two, three]
Index: []
   one  two  three
a  1.0    1     10
b  2.0    2     20
c  3.0    3     30
d  NaN    4     40


In [66]:
# 데이터프레임 사용

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)

df['three'] = pd.Series([10,20,30], index=['a','b','c']) # 새 컬럼 추가
print(df)

df['four'] = df['one'] + df['three'] # 새 컬럼 추가, 컬럼 데이터간 연산
print(df)


   one  two  three
a  1.0    1   10.0
b  2.0    2   20.0
c  3.0    3   30.0
d  NaN    4    NaN
   one  two  three  four
a  1.0    1   10.0  11.0
b  2.0    2   20.0  22.0
c  3.0    3   30.0  33.0
d  NaN    4    NaN   NaN


In [68]:
# 데이터프레임 사용

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']),
     'three' : pd.Series([10,20,30], index=['a','b','c'])}
df = pd.DataFrame(d)
print(df)

del df['one'] # 데이터프레임에서 컬럼 삭제
print(df)

a = df.pop('two') # 데이터프레임에서 컬럼 삭제, 삭제된 컬럼을 반환
print(df)
print(a)

   one  two  three
a  1.0    1   10.0
b  2.0    2   20.0
c  3.0    3   30.0
d  NaN    4    NaN
   two  three
a    1   10.0
b    2   20.0
c    3   30.0
d    4    NaN
   three
a   10.0
b   20.0
c   30.0
d    NaN
a    1
b    2
c    3
d    4
Name: two, dtype: int64


In [69]:
# 데이터프레임 사용

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']),
     'three' : pd.Series([10,20,30], index=['a','b','c'])}
df = pd.DataFrame(d)
print(df)

df2 = df.drop(['one'], axis=1) # 데이터프레임에서 'one'컬럼이 삭제된 데이터프레임 반환 (원본 유지)

print(df)
print(df2)


   one  two  three
a  1.0    1   10.0
b  2.0    2   20.0
c  3.0    3   30.0
d  NaN    4    NaN
   one  two  three
a  1.0    1   10.0
b  2.0    2   20.0
c  3.0    3   30.0
d  NaN    4    NaN
   two  three
a    1   10.0
b    2   20.0
c    3   30.0
d    4    NaN


In [None]:
# 데이터프레임 사용

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)

print(df)
print(df.loc['b'])  # 행이름(index)가 'b'인 행 찾기


   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
one    2.0
two    2.0
Name: b, dtype: float64


In [74]:
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)

print(df)
print(df.iloc[2]) # 행의 위치가 2인 행 찾기


   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
one    3.0
two    3.0
Name: c, dtype: float64


In [None]:
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)

print(df)

print(df[2:4]) # 행 순선번호로 슬라이싱
print(df['c':]) # 행 이름으로 슬라이싱

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
   one  two
c  3.0    3
d  NaN    4
   one  two
c  3.0    3
d  NaN    4
