### 판다스, 넘파이 응용

판다스 기본형 DataFrame, Series의 각 데이터 타입 Numpy 타입을 사용

In [3]:
import pandas as pd
import numpy as np

In [4]:
# 시리즈 생성
s1 = pd.Series(data=np.random.randn(10))    # randn : 결과값 float형, 10개 생성 
print(s1)
s2 = pd.Series(data=np.random.randint(100)) # randint : 결과값 int형 1개 생성
print(s2)

0   -0.671470
1   -0.997963
2    0.627805
3    0.195011
4   -0.092628
5    0.359678
6    0.259338
7   -0.691911
8    0.958943
9    0.220864
dtype: float64
0    38
dtype: int64


In [5]:
# 음수 제거, 10을 곱해서 10단위 수로 만들고, 반올림해서 소수점
s1.abs().map(lambda x: x * 10).round()

0     7.0
1    10.0
2     6.0
3     2.0
4     1.0
5     4.0
6     3.0
7     7.0
8    10.0
9     2.0
dtype: float64

In [6]:
# 평균
np.mean(s1)

0.01676684491359521

In [7]:
# 시리즈, DF의 기본적인 정보
s1.info()

<class 'pandas.core.series.Series'>
RangeIndex: 10 entries, 0 to 9
Series name: None
Non-Null Count  Dtype  
--------------  -----  
10 non-null     float64
dtypes: float64(1)
memory usage: 212.0 bytes


In [8]:
# 판다스 데이터 기본통계 함수
s1.describe()

count    10.000000
mean      0.016767
std       0.626139
min      -0.997963
25%      -0.526759
50%       0.207938
75%       0.334593
max       0.958943
dtype: float64

In [9]:
s3 = pd.Series(data=[1,3,5, np.nan] * 5)  # nan이나 none은 똑같음
s3

0     1.0
1     3.0
2     5.0
3     NaN
4     1.0
5     3.0
6     5.0
7     NaN
8     1.0
9     3.0
10    5.0
11    NaN
12    1.0
13    3.0
14    5.0
15    NaN
16    1.0
17    3.0
18    5.0
19    NaN
dtype: float64

In [10]:
s3.info()

<class 'pandas.core.series.Series'>
RangeIndex: 20 entries, 0 to 19
Series name: None
Non-Null Count  Dtype  
--------------  -----  
15 non-null     float64
dtypes: float64(1)
memory usage: 292.0 bytes


In [11]:
# 결측치 때문에 20개 데이터에서 통계를 구할 때 15개 밖에 안나옴
s3.describe()

count    15.000000
mean      3.000000
std       1.690309
min       1.000000
25%       1.000000
50%       3.000000
75%       5.000000
max       5.000000
dtype: float64

In [12]:
# 값별 빈도(count)수, 속성(option) dropna=False, namalize=True/False
print(s3.value_counts(dropna=True,normalize=True))
print(s3.value_counts(dropna=False,normalize=False))

1.0    0.333333
3.0    0.333333
5.0    0.333333
Name: proportion, dtype: float64
1.0    5
3.0    5
5.0    5
NaN    5
Name: count, dtype: int64


In [13]:
# 결측치 확인 함수
s3.isnull().sum()

5

### 데이터프레임과 넘파이

In [14]:
# 데이터프레임 생성 -> 이렇게 만들일은 거의 없음
# C# 에서 Bogus 샘플데이터 생성과 동일작업
size = 10
df1 = pd.DataFrame(data={
    'class': [['A','B','C','D','E','F'][np.random.randint(0,5)] for i in range(0,size)],
    'year' : [np.random.randint(2010, 2024) for _ in range(0,size)],
    'month' : [np.random.randint(1,13) for _ in range(0, size)],
    'val1' : [np.random.randint(1,11) for _ in range(0,size)],
    'val2' : [np.random.randint(100,1000) for _ in range(0,size)],
    'val3' : [np.random.randint(10000,20000) for _ in range(0,size)],
})
print(df1)
print(df1.shape)
# shape 출력값 2차원배열과 1차원배열의 의미가 상이

  class  year  month  val1  val2   val3
0     B  2018      9    10   704  11239
1     A  2023      8    10   301  14153
2     A  2021      6     8   753  19772
3     B  2017      5     4   801  17473
4     E  2022      2     3   405  11769
5     C  2011      3     4   802  14959
6     C  2021     11     6   797  19356
7     E  2013      7     3   568  18574
8     C  2011      8     1   892  15572
9     D  2021      5     5   105  19209
(10, 6)


In [15]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   class   10 non-null     object
 1   year    10 non-null     int64 
 2   month   10 non-null     int64 
 3   val1    10 non-null     int64 
 4   val2    10 non-null     int64 
 5   val3    10 non-null     int64 
dtypes: int64(5), object(1)
memory usage: 612.0+ bytes


In [16]:
df1.describe()

Unnamed: 0,year,month,val1,val2,val3
count,10.0,10.0,10.0,10.0,10.0
mean,2017.8,6.4,5.4,612.8,16207.6
std,4.613988,2.75681,3.062316,260.627363,3151.708256
min,2011.0,2.0,1.0,105.0,11239.0
25%,2014.0,5.0,3.25,445.75,14354.5
50%,2019.5,6.5,4.5,728.5,16522.5
75%,2021.0,8.0,7.5,800.0,19050.25
max,2023.0,11.0,10.0,892.0,19772.0
