In [2]:
import pandas as pd

brics = {'Country Code': ['BR', 'RU', 'IN', 'CH', 'SA'],
         'country':['brazil', 'russia', 'india', 'china', 'south africa'],
         'capital':['brasilia', 'moscow', 'delhi', 'beijing', 'pretoria'],
         'area':[8.516, 17.10, 3.286, 9.597, 1.221],
         'population':[200.4, 143.5, 1252, 1357, 52.98]}

brics_df = pd.DataFrame(brics).set_index('Country Code')
print(brics_df)

                   country   capital    area  population
Country Code                                            
BR                  brazil  brasilia   8.516      200.40
RU                  russia    moscow  17.100      143.50
IN                   india     delhi   3.286     1252.00
CH                   china   beijing   9.597     1357.00
SA            south africa  pretoria   1.221       52.98


In [3]:
# DataFrame'i köşeli parantezler ile indekslerken önce sütun etiketi sonra satır etiketi kullanırız

In [4]:
try:
    print(brics_df['area']['RU'])
    print(brics_df['IN']['population'])
except:
    print('You must index column label first!')

17.1
You must index column label first!


In [5]:
# Sütun içeriğine Numpy listesi olarak eriştikten sonra da satır etiketlerini kullanabiliriz
print(brics_df.area['RU'])

17.1


In [6]:
# DataFrame'i daha efektif indekslemek için accessorları kullanmalıyız
# loc accessor etiket tabanlıdır, iloc accessor indeks tabanlıdır

In [None]:
# loc accessor ile slicing yapıldığında sağdaki etikette dahil olur: 'capital':'population'

In [20]:
print(brics_df.loc[['RU'], 'capital':'population'])

             capital  area  population
Country Code                          
RU            moscow  17.1       143.5


In [42]:
print(brics_df.iloc[[1],1:2])

             capital
Country Code        
RU            moscow


In [None]:
# Her iki accessor ile de listeleri kullanabiliriz

In [45]:
print(brics_df.loc[['RU','IN'], ['population', 'area']])

              population    area
Country Code                    
RU                 143.5  17.100
IN                1252.0   3.286


In [None]:
# Satırları tersine de indeksleyebiliriz. Bunun için üçüncü bir argüman olarak step i -1 seçeriz

In [51]:
print(brics_df.loc['IN':'RU':-1])

             country capital    area  population
Country Code                                    
IN             india   delhi   3.286      1252.0
RU            russia  moscow  17.100       143.5


In [52]:
# Filtreleme için boolean serilerini kullanabiliriz

In [53]:
print(brics_df.population < 300.00)

Country Code
BR     True
RU     True
IN    False
CH    False
SA     True
Name: population, dtype: bool


In [54]:
# Filtreleri lojik operatörler ile birleştirebiliriz

In [56]:
print((brics_df.population > 100.00) & (brics_df.population < 300.00))

Country Code
BR     True
RU     True
IN    False
CH    False
SA    False
Name: population, dtype: bool


In [57]:
# Slice yaparken NaN ve ya 0 değerleri dışlayabiliriz

In [58]:
df_with_zeros = brics_df.copy()
df_with_zeros['arbitrary'] = [0, 0, 10, 3.2, 7.8]
print(df_with_zeros)

                   country   capital    area  population  arbitrary
Country Code                                                       
BR                  brazil  brasilia   8.516      200.40        0.0
RU                  russia    moscow  17.100      143.50        0.0
IN                   india     delhi   3.286     1252.00       10.0
CH                   china   beijing   9.597     1357.00        3.2
SA            south africa  pretoria   1.221       52.98        7.8


In [59]:
# 0 değeri içermeyen tüm sütunları şu şekilde seçebiliriz: df.loc[:,df.all()]

In [64]:
df_with_zeros.loc[:,df_with_zeros.all()]

Unnamed: 0_level_0,country,capital,area,population
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
BR,brazil,brasilia,8.516,200.4
RU,russia,moscow,17.1,143.5
IN,india,delhi,3.286,1252.0
CH,china,beijing,9.597,1357.0
SA,south africa,pretoria,1.221,52.98


In [65]:
# 0 olmayan herhangi bir değer içeren sütunları şu şekilde seçebiliriz: df.loc[:,df.any()]

In [67]:
df_with_zeros['arbitrary2'] = 0
print(df_with_zeros)

                   country   capital    area  population  arbitrary  \
Country Code                                                          
BR                  brazil  brasilia   8.516      200.40        0.0   
RU                  russia    moscow  17.100      143.50        0.0   
IN                   india     delhi   3.286     1252.00       10.0   
CH                   china   beijing   9.597     1357.00        3.2   
SA            south africa  pretoria   1.221       52.98        7.8   

              arbitrary2  
Country Code              
BR                     0  
RU                     0  
IN                     0  
CH                     0  
SA                     0  


In [68]:
print(df_with_zeros.loc[:,df_with_zeros.any()])

                   country   capital    area  population  arbitrary
Country Code                                                       
BR                  brazil  brasilia   8.516      200.40        0.0
RU                  russia    moscow  17.100      143.50        0.0
IN                   india     delhi   3.286     1252.00       10.0
CH                   china   beijing   9.597     1357.00        3.2
SA            south africa  pretoria   1.221       52.98        7.8


In [69]:
# Herhangi bir sayıda NaN içeren sütunları şu şekilde seçeriz: df.isnull().any()

In [74]:
import numpy as np

df_with_nans = brics_df.copy()
df_with_nans['col1'] = ['String', np.nan, 'String', 'String', np.nan]
df_with_nans['col2'] = np.nan
print(df_with_nans)

                   country   capital    area  population    col1  col2
Country Code                                                          
BR                  brazil  brasilia   8.516      200.40  String   NaN
RU                  russia    moscow  17.100      143.50     NaN   NaN
IN                   india     delhi   3.286     1252.00  String   NaN
CH                   china   beijing   9.597     1357.00  String   NaN
SA            south africa  pretoria   1.221       52.98     NaN   NaN


In [75]:
print(df_with_nans.loc[:,df_with_nans.isnull().any()])

                col1  col2
Country Code              
BR            String   NaN
RU               NaN   NaN
IN            String   NaN
CH            String   NaN
SA               NaN   NaN


In [76]:
print(df_with_nans.loc[:,df_with_nans.isnull().all()])

              col2
Country Code      
BR             NaN
RU             NaN
IN             NaN
CH             NaN
SA             NaN


In [None]:
# NaN olmayan en az bir değer içeren sütunları şu şekilde seçebiliriz: df.loc[:,df.notnull().any()]
# Hiç bir elemanı NaN olmayan sütunları şu şekilde seçebiliriz: df.loc[:,df.notnull().all()]

In [77]:
print(df_with_nans.loc[:,df_with_nans.notnull().any()])

                   country   capital    area  population    col1
Country Code                                                    
BR                  brazil  brasilia   8.516      200.40  String
RU                  russia    moscow  17.100      143.50     NaN
IN                   india     delhi   3.286     1252.00  String
CH                   china   beijing   9.597     1357.00  String
SA            south africa  pretoria   1.221       52.98     NaN


In [78]:
print(df_with_nans.loc[:,df_with_nans.notnull().all()])

                   country   capital    area  population
Country Code                                            
BR                  brazil  brasilia   8.516      200.40
RU                  russia    moscow  17.100      143.50
IN                   india     delhi   3.286     1252.00
CH                   china   beijing   9.597     1357.00
SA            south africa  pretoria   1.221       52.98


In [85]:
# Aslında all metodu False içermeyen sütunları döndürür. Eğer değer 0 değilse, False değilse ve ya
# boş değilse True olarak kabul edilir
# any metodu ise tümü False olmayan sütunları döndürür
# notnull metodu tüm dataframe üzerinden null olmayan değerler için true null olan değerler için false döndürür
# isnull metodu tüm dataframe üzerinden null olan değerler için true null olmayan değerler için false döndürür

In [86]:
# Null içermeyen tüm verileri almak için şunu kullanabiliriz: df.loc[:,df.notnull().all()]

In [87]:
# DataFrame içerisindeki bir sütunu başka bir sütuna göre de filtreleyebiliriz

In [88]:
print(brics_df.country[brics_df.population > 200.00])

Country Code
BR    brazil
IN     india
CH     china
Name: country, dtype: object


In [89]:
# Bir sütunun değerlerini başka bir sütuna göre filtreleme yaparak değiştirebiliriz

In [91]:
brics_df.area[brics_df.population > 200.00] += 100
print(brics_df)

                   country   capital     area  population
Country Code                                             
BR                  brazil  brasilia  108.516      200.40
RU                  russia    moscow   17.100      143.50
IN                   india     delhi  103.286     1252.00
CH                   china   beijing  109.597     1357.00
SA            south africa  pretoria    1.221       52.98


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [92]:
# Bir DataFrame üzerinde en az bir tane Null içeren satırları düşürmek için dropna(how='any') kullanırız
# Bir DataFrame üzerinde tüm sütun değerleri Null içeren satırları düşürmek için dropna(how='all') kullanırız

In [99]:
df_with_nans.loc['TR',:] = np.nan
df_with_nans = df_with_nans.loc[:,:'col1']
print(df_with_nans)

                   country   capital    area  population    col1
Country Code                                                    
BR                  brazil  brasilia   8.516      200.40  String
RU                  russia    moscow  17.100      143.50     NaN
IN                   india     delhi   3.286     1252.00  String
CH                   china   beijing   9.597     1357.00  String
SA            south africa  pretoria   1.221       52.98     NaN
TR                     NaN       NaN     NaN         NaN     NaN


In [100]:
print(df_with_nans.dropna(how='any'))

             country   capital   area  population    col1
Country Code                                             
BR            brazil  brasilia  8.516       200.4  String
IN             india     delhi  3.286      1252.0  String
CH             china   beijing  9.597      1357.0  String


In [101]:
print(df_with_nans.dropna(how='all'))

                   country   capital    area  population    col1
Country Code                                                    
BR                  brazil  brasilia   8.516      200.40  String
RU                  russia    moscow  17.100      143.50     NaN
IN                   india     delhi   3.286     1252.00  String
CH                   china   beijing   9.597     1357.00  String
SA            south africa  pretoria   1.221       52.98     NaN


In [102]:
# DataFrame üzerinde belirli bir eşik değerinin altına null olmayan değer içeren sütunları da düşürebiliriz

In [103]:
print(df_with_nans.dropna(thresh=4, axis='columns'))

                   country   capital    area  population
Country Code                                            
BR                  brazil  brasilia   8.516      200.40
RU                  russia    moscow  17.100      143.50
IN                   india     delhi   3.286     1252.00
CH                   china   beijing   9.597     1357.00
SA            south africa  pretoria   1.221       52.98
TR                     NaN       NaN     NaN         NaN
