# Veriye İlk Bakış

In [56]:
import pandas as pd
import numpy as np
import seaborn as sns
planets = sns.load_dataset('planets')
planets.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [41]:
df = planets.copy() # bu planets veri setinin bir kopyasını aldık
# bu sayede burada yaptığımız herhangi bir yanlış değişiklik bizim ana veri setimizde bir değişime yol açmayacaktır
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [42]:
df.info() # veri seti ile ilgili yapısal bilgilere erişiyoruz (info)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1035 entries, 0 to 1034
Data columns (total 6 columns):
method            1035 non-null object
number            1035 non-null int64
orbital_period    992 non-null float64
mass              513 non-null float64
distance          808 non-null float64
year              1035 non-null int64
dtypes: float64(3), int64(2), object(1)
memory usage: 48.6+ KB


In [43]:
# object -> kategorik değişkeni ifade eder
# int64 / float64 -> sürekli değişkenlerdir. int -> kesikli sayısal, float -> sürekli sayısal değişken

In [44]:
df.dtypes
# önemli not! bazen değişkenler içerisindeki eksik gözlemler değişkenlerin string yani kategorik olarak yorumlanmasına yol açabilir

method             object
number              int64
orbital_period    float64
mass              float64
distance          float64
year                int64
dtype: object

In [45]:
df.method = pd.Categorical(df.method)
# df içindeki method değişkeinin türünü kategorik olarak değiştirdik
df.dtypes

method            category
number               int64
orbital_period     float64
mass               float64
distance           float64
year                 int64
dtype: object

In [46]:
df.columns
# değişken isimlerine erişebiliriz

Index(['method', 'number', 'orbital_period', 'mass', 'distance', 'year'], dtype='object')

In [47]:
df.describe().T
# temel özet istatistikler bilgilerine eriştik
# describe fonksiyonu sadece sürekli değişkenleri görselleştirir

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,1035.0,1.785507,1.240976,1.0,1.0,1.0,2.0,7.0
orbital_period,992.0,2002.917596,26014.728304,0.090706,5.44254,39.9795,526.005,730000.0
mass,513.0,2.638161,3.818617,0.0036,0.229,1.26,3.04,25.0
distance,808.0,264.069282,733.116493,1.35,32.56,55.25,178.5,8500.0
year,1035.0,2009.070531,3.972567,1989.0,2007.0,2010.0,2012.0,2014.0


In [48]:
df.describe(include='all')
# include parametresi ile kategorik değişkenleri de describe fonksiyonuyla etkileşime geçiririz

Unnamed: 0,method,number,orbital_period,mass,distance,year
count,1035,1035.0,992.0,513.0,808.0,1035.0
unique,10,,,,,
top,Radial Velocity,,,,,
freq,553,,,,,
mean,,1.785507,2002.917596,2.638161,264.069282,2009.070531
std,,1.240976,26014.728304,3.818617,733.116493,3.972567
min,,1.0,0.090706,0.0036,1.35,1989.0
25%,,1.0,5.44254,0.229,32.56,2007.0
50%,,1.0,39.9795,1.26,55.25,2010.0
75%,,2.0,526.005,3.04,178.5,2012.0


In [49]:
df.nunique()
# bütün değişkenlerdeki uniqe değerler gelir

method             10
number              7
orbital_period    988
mass              381
distance          552
year               23
dtype: int64

In [50]:
df.isnull().values.any()
# veri seti içerisinde - değer var mı yok mu onu verir

True

In [51]:
df.isnull().sum()
# bütün değişkenlerde kaçar tane EKSİK değer var onu verir

method              0
number              0
orbital_period     43
mass              522
distance          227
year                0
dtype: int64

In [52]:
df['orbital_period'].fillna(0, inplace=True)
# bu değişken içerisindeki eksik gözlemlere 0 değeri basar

In [54]:
df.isnull().sum()
# yukarda bakmıştık eksik değer var mı yok mu diye.
# orbital_period için eksik değerleri 0 ile doldurduk

method              0
number              0
orbital_period      0
mass              522
distance          227
year                0
dtype: int64

In [58]:
df['mass'].fillna(np.mean(df.mass),inplace=True)
# mass içerisine df.mass'in ortalama değerleri atandı

In [59]:
df.isnull().sum()

method              0
number              0
orbital_period      0
mass                0
distance          227
year                0
dtype: int64