<img src="https://i.ibb.co/1MPXBQZ/ringodata-banner-v2.jpg" width="200"/>


---
-  강의 및 추가 자료 링크
- 강의 링크: [Python 강의](#)

-  소셜 미디어 및 연락처
  - 저자 SNS: [instagram](https://www.instagram.com/ringo_data/?igsh=MTlrdW4xMzZvNTBtdw%3D%3D), [LinkedIn](https://www.linkedin.com/in/ringokwon/)
  - 이메일: ringo.data1@gmail.com

---

# df.astype()
```python
df.astype(int,float,str,...)
```

df.info()에서 보여주는 데이터 타입 별로 설명:
- object:
텍스트 또는 혼합된 데이터 타입.
주로 문자열 데이터에 사용됨.
- int64:
정수형 데이터.
- float64:
부동소수점 숫자.
- bool:
부울 값 (True 또는 False).
참/거짓 값을 나타냄.
- datetime64:
날짜 및 시간 데이터.
날짜와 시간 정보 처리에 사용됨.
- category:
범주형 데이터.
제한된 수의 고유값들을 가지며 순서가 없는 그룹 또는 분류를 나타냄.

In [1]:
import pandas as pd
data = {'A': ['1', '2', '3'],
        'B': ['4.5', '5.6', '6.7'],
        'C': ['True', 'False', 'True']}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C
0,1,4.5,True
1,2,5.6,False
2,3,6.7,True


In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   A       3 non-null      object
 1   B       3 non-null      object
 2   C       3 non-null      object
dtypes: object(3)
memory usage: 200.0+ bytes


In [3]:
df['A'] = df['A'].astype(int)
df['B'] = df['B'].astype(float)
df['C'] = df['C'].astype(bool)
df.info()
df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       3 non-null      int64  
 1   B       3 non-null      float64
 2   C       3 non-null      bool   
dtypes: bool(1), float64(1), int64(1)
memory usage: 179.0 bytes


Unnamed: 0,A,B,C
0,1,4.5,True
1,2,5.6,True
2,3,6.7,True


#na
- na: 누락된 데이터를 나타내는 일반적인 용어
  - NaN: 부동 소수점 데이터셋에서 누락된 값
  - None: 객체 타입(예: 문자열) 데이터셋에서 '값이 없음'을 나타내는 값

In [4]:
import pandas as pd
import numpy as np

data = {'숫자열': [1, 2, None, 4,None],
        '문자열': ['사과', None, '바나나', '체리','']}

df = pd.DataFrame(data)
df

Unnamed: 0,숫자열,문자열
0,1.0,사과
1,2.0,
2,,바나나
3,4.0,체리
4,,


In [5]:
df.isna()

Unnamed: 0,숫자열,문자열
0,False,False
1,False,True
2,True,False
3,False,False
4,True,False


# dropna()
```python
dropna(subset=['col_1','col_2',...], how = 'any/all')
```
- 누락된 데이터를 포함하는 행이 제거
- how 매개변수:

  - how='any': 하나라도 None이 있는 행 제거 (기본값)
  - how='all': 모든 값이 None인 행만 제거

In [6]:
import pandas as pd
import numpy as np

# 샘플 데이터 프레임 생성
data = {'A': [1, None, 3, 4, None, None, 10],
        'B': [None, 2, 3, None, 5, None, 10],
        'C': [1, 2, None, 4, 5, None, 10 ]}

df = pd.DataFrame(data)
df


Unnamed: 0,A,B,C
0,1.0,,1.0
1,,2.0,2.0
2,3.0,3.0,
3,4.0,,4.0
4,,5.0,5.0
5,,,
6,10.0,10.0,10.0


In [7]:
df.dropna()

Unnamed: 0,A,B,C
6,10.0,10.0,10.0


In [8]:
df.dropna( how = 'any')

Unnamed: 0,A,B,C
6,10.0,10.0,10.0


In [9]:
df.dropna( how = 'all')

Unnamed: 0,A,B,C
0,1.0,,1.0
1,,2.0,2.0
2,3.0,3.0,
3,4.0,,4.0
4,,5.0,5.0
6,10.0,10.0,10.0


In [10]:
df.dropna( subset = ['A'], how = 'any')

Unnamed: 0,A,B,C
0,1.0,,1.0
2,3.0,3.0,
3,4.0,,4.0
6,10.0,10.0,10.0


In [11]:
df.dropna( subset = ['A', 'B'], how = 'any')

Unnamed: 0,A,B,C
2,3.0,3.0,
6,10.0,10.0,10.0


# fillna()
```python
df.fillna(
  {'col_1' : value1
  , 'col_2' : value2}
  , inplace = True
)
```

In [12]:
# drop na df
import pandas as pd
import numpy as np

# 샘플 데이터 프레임 생성
data = {'A': [1, None, 3, 4, None, None, 10],
        'B': [None, 2, 3, None, 5, None, 10],
        'C': [1, 2, None, 4, 5, None, 10 ]}

df = pd.DataFrame(data)
##

df

Unnamed: 0,A,B,C
0,1.0,,1.0
1,,2.0,2.0
2,3.0,3.0,
3,4.0,,4.0
4,,5.0,5.0
5,,,
6,10.0,10.0,10.0


In [13]:
df.fillna(0, inplace = True)
df

Unnamed: 0,A,B,C
0,1.0,0.0,1.0
1,0.0,2.0,2.0
2,3.0,3.0,0.0
3,4.0,0.0,4.0
4,0.0,5.0,5.0
5,0.0,0.0,0.0
6,10.0,10.0,10.0


In [14]:
# drop na df
import pandas as pd
import numpy as np

# 샘플 데이터 프레임 생성
data = {'A': [1, None, 3, 4, None, None, 10],
        'B': [None, 2, 3, None, 5, None, 10],
        'C': [1, 2, None, 4, 5, None, 10 ]}

df = pd.DataFrame(data)
##

df

Unnamed: 0,A,B,C
0,1.0,,1.0
1,,2.0,2.0
2,3.0,3.0,
3,4.0,,4.0
4,,5.0,5.0
5,,,
6,10.0,10.0,10.0


In [16]:
df.fillna({
    'A' : 100,
    'B' : 1000,
    'C' : 10000
}
)

Unnamed: 0,A,B,C
0,1.0,1000.0,1.0
1,100.0,2.0,2.0
2,3.0,3.0,10000.0
3,4.0,1000.0,4.0
4,100.0,5.0,5.0
5,100.0,1000.0,10000.0
6,10.0,10.0,10.0


In [17]:
df.fillna({
    'A' : df.A.mean(),
    'B' : df.B.sum(),
    'C' : df.C.max()
}
)

Unnamed: 0,A,B,C
0,1.0,20.0,1.0
1,4.5,2.0,2.0
2,3.0,3.0,10.0
3,4.0,20.0,4.0
4,4.5,5.0,5.0
5,4.5,20.0,10.0
6,10.0,10.0,10.0


# to_numeric()
- 용도: 문자열, 다른 타입 데이터 → 숫자형 데이터 변환
- 에러 처리 옵션: errors 인자 사용
- 사용 예: '123', '3.14' 같은 문자열 → 정수 123, 실수 3.14 변환
- errors='coerce': 변환 불가능한 값을 NaN으로 설정



In [18]:
import pandas as pd

# numeric valeu 와 non-numeric value가 혼재된 상황
data = {'Value': ['10', '20', '30', 'error', '50',10]}
df = pd.DataFrame(data)

# Value 칼럼을 Numeric으로 변환, non-numeric value를 NaN 으로 처리
df.info() , df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Value   6 non-null      object
dtypes: object(1)
memory usage: 176.0+ bytes


(None,
    Value
 0     10
 1     20
 2     30
 3  error
 4     50
 5     10)

# Exercise
- 일시정지 후 스스로 문제를 풀어보고 강의를 수강해 주세요


이 데이터셋에는 'Name', 'Age', 'Salary' 열이 있고, 각각의 열에는 누락된 값이 포함되어 있습니다. 다음 연습 문제를 시도해보세요:

1. Name 열에서 누락된 값을 'Unknown'으로 채우세요 (fillna 사용).
2. Age 열에서 누락된 값을 'Age' 열의 평균값으로 채우세요 (fillna 사용).
3. Salary 열의 누락된 값을 포함하는 행 전체를 제거하세요 (dropna 사용).
4. 모든 열에서 누락된 값을 포함하는 행을 제거하고, 결과를 새로운 데이터 프레임으로 저장하세요 (dropna 사용).

In [19]:
import pandas as pd
import numpy as np

# 샘플 데이터 프레임 생성
data = {'Name': ['Alice', 'Bob', None, 'Diana', 'Eva'],
        'Age': [25, None, 35, 40, np.nan],
        'Salary': [50000, 55000, 60000, np.nan, 65000]}
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,Salary
0,Alice,25.0,50000.0
1,Bob,,55000.0
2,,35.0,60000.0
3,Diana,40.0,
4,Eva,,65000.0


In [20]:
df.fillna({
    'Name' : 'unknown',
    'Age' : df.Age.mean()
},
          inplace = True)

df

Unnamed: 0,Name,Age,Salary
0,Alice,25.0,50000.0
1,Bob,33.333333,55000.0
2,unknown,35.0,60000.0
3,Diana,40.0,
4,Eva,33.333333,65000.0


In [21]:
df.dropna( subset = 'Salary', inplace = True)
df

Unnamed: 0,Name,Age,Salary
0,Alice,25.0,50000.0
1,Bob,33.333333,55000.0
2,unknown,35.0,60000.0
4,Eva,33.333333,65000.0


In [22]:
df_drop = df.dropna()
df_drop

Unnamed: 0,Name,Age,Salary
0,Alice,25.0,50000.0
1,Bob,33.333333,55000.0
2,unknown,35.0,60000.0
4,Eva,33.333333,65000.0


---
-  🔒 저작권 및 사용 조건 (중요)
  - **저작권 보호**: 이 강의 노트는 저작권법에 의해 엄격히 보호됩니다.
  - **무단 사용 금지**: 어떠한 형태로든 상업적 사용이 엄격히 금지됩니다.
  - **개인용도 한정**: 이 자료는 교육 목적으로만 사용이 허가되며, 개인적인 학습 외의 목적으로 사용할 수 없습니다.
  - **위반 시 조치**: 저작권법 위반 시 법적 조치가 취해질 수 있습니다.
---

<img src="https://i.ibb.co/1MPXBQZ/ringodata-banner-v2.jpg" width="200"/>
