In [57]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

np.random.seed(123)
df1 = pd.DataFrame(np.random.randint(100,200,30).reshape(5,6))
df1.columns = list('ABCDEF')
df1.loc[2, 'C'] = np.NaN
print(df1)

     A    B      C    D    E    F
0  166  192  198.0  117  183  157
1  186  197  196.0  147  173  132
2  146  196    NaN  183  178  136
3  196  180  168.0  149  155  167
4  102  184  139.0  166  184  147


In [58]:
print(df1.index)
print(df1.columns)
print(df1.dtypes)
print(df1.describe())

RangeIndex(start=0, stop=5, step=1)
Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')
A      int64
B      int64
C    float64
D      int64
E      int64
F      int64
dtype: object
                A           B           C           D           E           F
count    5.000000    5.000000    4.000000    5.000000    5.000000    5.000000
mean   159.200000  189.800000  175.250000  152.400000  174.600000  147.800000
std     37.298794    7.496666   27.777389   24.572342   11.802542   14.515509
min    102.000000  180.000000  139.000000  117.000000  155.000000  132.000000
25%    146.000000  184.000000  160.750000  147.000000  173.000000  136.000000
50%    166.000000  192.000000  182.000000  149.000000  178.000000  147.000000
75%    186.000000  196.000000  196.500000  166.000000  183.000000  157.000000
max    196.000000  197.000000  198.000000  183.000000  184.000000  167.000000


In [59]:
print(df1.isna())
df1['A'] # 이것은 Series이다.
#df1['A'].hasnans # Series에만 있는 property이다. 
for col in df1:
    print(col, df1[col].hasnans)

       A      B      C      D      E      F
0  False  False  False  False  False  False
1  False  False  False  False  False  False
2  False  False   True  False  False  False
3  False  False  False  False  False  False
4  False  False  False  False  False  False
A False
B False
C True
D False
E False
F False


In [60]:
print(df1)
print('************************************')
print(df1.dropna(inplace = True)) # 결측치가 있는 sample를 없애달라. return = None
                                  # But inplace = True를 해주면 원본에다가 작업을 한다.
# sorted() --> copy
# np.sort() --> inplace
print(df1) # 원본 그대로 살아있다. dropna()는 copy본을 생성하는 것이다.

     A    B      C    D    E    F
0  166  192  198.0  117  183  157
1  186  197  196.0  147  173  132
2  146  196    NaN  183  178  136
3  196  180  168.0  149  155  167
4  102  184  139.0  166  184  147
************************************
None
     A    B      C    D    E    F
0  166  192  198.0  117  183  157
1  186  197  196.0  147  173  132
3  196  180  168.0  149  155  167
4  102  184  139.0  166  184  147


In [61]:
print(df1)
print('************************************')
print(df1.drop('A', axis = 1))
print('************************************')
print(df1.drop(3, axis = 0))
print('************************************')

     A    B      C    D    E    F
0  166  192  198.0  117  183  157
1  186  197  196.0  147  173  132
3  196  180  168.0  149  155  167
4  102  184  139.0  166  184  147
************************************
     B      C    D    E    F
0  192  198.0  117  183  157
1  197  196.0  147  173  132
3  180  168.0  149  155  167
4  184  139.0  166  184  147
************************************
     A    B      C    D    E    F
0  166  192  198.0  117  183  157
1  186  197  196.0  147  173  132
4  102  184  139.0  166  184  147
************************************


In [62]:
# inplace 작업을 할 때는 여러번 시행 되지 않게 Shell을 나눠서 적용
print(df1.drop(['A', 'B', 'E'], axis = 1, inplace = True)) # 여러개를 선택해서 drop 할때는 list로 묶어서 준다.
print(df1)

None
       C    D    F
0  198.0  117  157
1  196.0  147  132
3  168.0  149  167
4  139.0  166  147


In [64]:
print(df1)
df1['D+F'] = df1['D'] + df1['F'] # 이것은 inplace작업이다. == 원본이다.
print(df1.insert(0, 'D*F', df1['D'] * df1['F'])) # (columns의 자리, columns이름, value)
print(df1)

       C    D    F  D+F
0  198.0  117  157  274
1  196.0  147  132  279
3  168.0  149  167  316
4  139.0  166  147  313
None
     D*F      C    D    F  D+F
0  18369  198.0  117  157  274
1  19404  196.0  147  132  279
3  24883  168.0  149  167  316
4  24402  139.0  166  147  313


In [66]:
# concat
np.random.seed(123)
df1 = pd.DataFrame(np.random.randint(100,200,30).reshape(5,6))
df1.columns = list('ABCDEF')

df2 = pd.DataFrame(np.random.randint(10,100,30).reshape(5,6))
df2.columns = list('ABCDEF')
#df2.columns = list('EFGHIJ')

In [71]:
pd.concat((df1, df2), ignore_index = True)

Unnamed: 0,A,B,C,D,E,F
0,166,192,198,117,183,157
1,186,197,196,147,173,132
2,146,196,125,183,178,136
3,196,180,168,149,155,167
4,102,184,139,166,184,147
5,71,58,17,62,95,37
6,44,86,50,13,79,74
7,85,44,68,20,32,87
8,28,25,37,40,62,80
9,36,90,16,24,85,64


In [74]:
pd.concat((df1, df2), axis = 1, ignore_index = True)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,166,192,198,117,183,157,71,58,17,62,95,37
1,186,197,196,147,173,132,44,86,50,13,79,74
2,146,196,125,183,178,136,85,44,68,20,32,87
3,196,180,168,149,155,167,28,25,37,40,62,80
4,102,184,139,166,184,147,36,90,16,24,85,64


In [78]:
df2.columns = list('EFGHIJ')
print(df1)
print(df2)

     A    B    C    D    E    F
0  166  192  198  117  183  157
1  186  197  196  147  173  132
2  146  196  125  183  178  136
3  196  180  168  149  155  167
4  102  184  139  166  184  147
    E   F   G   H   I   J
0  71  58  17  62  95  37
1  44  86  50  13  79  74
2  85  44  68  20  32  87
3  28  25  37  40  62  80
4  36  90  16  24  85  64


In [80]:
df3 = pd.concat((df1, df2), join = 'inner') # 기본값 = outer
# join = 'inner'하면 두개 공통된 부분만 보여준다.
# left join은 벤다이어그램의 왼쪽 부분 + inner
# right join은 벤다이어그램의 오른쪽 부분 + inner

In [81]:
df3.dropna(axis=1) # inner join value
                   # dropna에서는 axis = 0이 가로,  axis = 1이 세로이다.

Unnamed: 0,E,F
0,183,157
1,173,132
2,178,136
3,155,167
4,184,147
0,71,58
1,44,86
2,85,44
3,28,25
4,36,90


In [90]:
# row로 붙이기 -->  Series를 dataframe로 바꿈 --> .T해서 눕힌다.

print(df1)
new_sample = pd.Series([10, 20, 30, 40, 50, 60], index = list('ABCDEF'))
print(new_sample)
new_sample.to_frame().T
pd.concat((df1, new_sample.to_frame().T), ignore_index = True)

     A    B    C    D    E    F
0  166  192  198  117  183  157
1  186  197  196  147  173  132
2  146  196  125  183  178  136
3  196  180  168  149  155  167
4  102  184  139  166  184  147
A    10
B    20
C    30
D    40
E    50
F    60
dtype: int64


Unnamed: 0,A,B,C,D,E,F
0,166,192,198,117,183,157
1,186,197,196,147,173,132
2,146,196,125,183,178,136
3,196,180,168,149,155,167
4,102,184,139,166,184,147
5,10,20,30,40,50,60


In [92]:
# df1을 저장하는 방법
import pickle # 어떠한 것이던지 저장가능 but,

with open('mydata.pickle', 'wb') as f:
    pickle.dump(df1, f)
####################### csv 파일로 저장

df1.to_csv('mydata.csv')

In [93]:
# 저장된 파일 다시 불러오기
with open('mydata.pickle', 'rb') as f: # with 구문을 사용하면 close()를 자동으로 해준다.
    df_read = pickle.load(f)
print(df_read)

     A    B    C    D    E    F
0  166  192  198  117  183  157
1  186  197  196  147  173  132
2  146  196  125  183  178  136
3  196  180  168  149  155  167
4  102  184  139  166  184  147
