<a href="https://colab.research.google.com/github/IdhamAbidinKaisilay/my_portfolio/blob/main/DataCleaning_incorrect_data_type.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Incorrect data type di dalam DataFrame adalah langkah penting untuk memastikan bahwa data Anda siap untuk analisis lebih lanjut. Kesalahan tipe data dapat menyebabkan berbagai masalah, seperti ketidakmampuan untuk melakukan operasi matematika atau agregasi.

In [1]:
import pandas as pd

In [48]:
# Dataset awal: terlihat kolom B, C, D disimpan
# sebagai string (object), padahal seharusnya angka & tanggal
data = {
    'A':[1,2,3,4],
    'B':['5','6','7','8'],
    'C':['2020-01-01','2020-02-01','2020-03-01','2020-04-01'],
    'D':['1.1','2.2','3.3','4.4']
}
df = pd.DataFrame(data)
df

# Insight: secara visual terlihat normal,
# tapi tipe data salah → bisa bikin analisis salah.

Unnamed: 0,A,B,C,D
0,1,5,2020-01-01,1.1
1,2,6,2020-02-01,2.2
2,3,7,2020-03-01,3.3
3,4,8,2020-04-01,4.4


##Mendeteksi Kesalahan Tipe Data

In [33]:
# Melihat tipe data tiap kolom
df.info()

# Insight: kolom B, C, D masih object (string).
# Artinya kita tidak bisa hitung rata-rata B,
# tidak bisa pakai tanggal di C, dan tidak bisa operasi matematika di D.


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   A       4 non-null      int64 
 1   B       4 non-null      object
 2   C       4 non-null      object
 3   D       4 non-null      object
dtypes: int64(1), object(3)
memory usage: 260.0+ bytes


###Mengatasi Kesalahan Tipe Data

####Menggunakan fungsi to_numeric dan to_datetime

In [38]:
# Perbaiki tipe data dengan to_numeric dan to_datetime
df['B'] = pd.to_numeric(df['B'])       # ubah string jadi integer
df['D'] = pd.to_numeric(df['D'])       # ubah string jadi float
df['C'] = pd.to_datetime(df['C'])      # ubah string jadi datetime
df.info()

# Insight: sekarang B jadi int64, D float64, C datetime64 → siap
# dipakai untuk operasi analisis.


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   A       4 non-null      int64         
 1   B       4 non-null      int64         
 2   C       4 non-null      datetime64[ns]
 3   D       4 non-null      float64       
dtypes: datetime64[ns](1), float64(1), int64(2)
memory usage: 260.0 bytes


####Menggunakan method .astype

In [40]:
df = pd.DataFrame(data)
df.info()  # kembali ke tipe salah (object)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   A       4 non-null      int64 
 1   B       4 non-null      object
 2   C       4 non-null      object
 3   D       4 non-null      object
dtypes: int64(1), object(3)
memory usage: 260.0+ bytes


In [44]:
# Alternatif lain pakai .astype untuk langsung tentukan tipe data
df['B'] = df['B'].astype('int64')           # paksa ke integer
df['C'] = df['C'].astype('datetime64[ns]')  # paksa ke datetime
df['D'] = df['D'].astype('float64')         # paksa ke float
df.info()

# Insight: hasilnya sama dengan to_numeric, tapi .astype lebih
# strict (kalau gagal langsung error).

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   A       4 non-null      int64         
 1   B       4 non-null      int64         
 2   C       4 non-null      datetime64[ns]
 3   D       4 non-null      float64       
dtypes: datetime64[ns](1), float64(1), int64(2)
memory usage: 260.0 bytes


####Mengatasi data yang tidak bisa dikonversi

In [46]:
# Contoh data yang salah → ada string 'Hai' di kolom B
data = {
    'A':[1,2,3,4],
    'B':['5','6','7','Hai'],
}
df = pd.DataFrame(data)
df

# Insight: tampak ada "noise" di kolom angka.

Unnamed: 0,A,B
0,1,5
1,2,6
2,3,7
3,4,Hai


In [47]:
# Mengubah ke numeric dengan errors='coerce' → kalau gagal, diganti NaN
pd.to_numeric(df['B'], errors='coerce')

# Insight: nilai 'Hai' tidak bisa dikonversi jadi angka, sehingga
# berubah jadi NaN.
# Ini cara aman supaya dataset tetap bisa diproses meski ada error input.


Unnamed: 0,B
0,5.0
1,6.0
2,7.0
3,
