# Pandas Nedir?

* Pandas, Python programlama dilinde veri işleme ve analizi için kullanılan bir yazılım kütüphanesidir.

* Pandas, veri yapıları ve işlemleri için yüksek performans ve kullanımı kolay araçlar sağlar. Özellikle, "DataFrame" adı verilen iki boyutlu etiketli veri yapısı, veri manipülasyonu ve analizi için oldukça kullanışlıdır.

* Pandas kütüphanesi, veri okuma, yazma, temizleme, dönüştürme, birleştirme, filtreleme, gruplama ve görselleştirme gibi birçok işlem için fonksiyonlar ve yöntemler sunar.

* Özetle, Pandas, Python'da veri analizi yapmak isteyenler için olmazsa olmaz bir araçtır.

In [1]:
import numpy as np
import pandas as pd           # import

df = pd.DataFrame()           # boş dataframe oluştur.

# dosyadan okumalar
df = pd.read_csv('dosya_adi.csv')
df = pd.read_excel('dosya_adi.xlsx')
df = pd.read_json('dosya_adi.json')
df = pd.read_html('web_sayfasi.html')

# dosyaya yazma
df.to_csv('dosya_adi.csv', index=False)
df.to_excel('dosya_adi.xlsx', index=False)
df.to_json('dosya_adi.json')

# veritabanından okuma
import sqlite3
conn = sqlite3.connect('veritabani.db')
df = pd.read_sql_query("SELECT * FROM tablo_adi", conn)

# koleksiyonlardan oluşturma
data = [1, 2, 3, 4, 5]
df = pd.DataFrame(data, columns=['Sütun_Adı'])

data = {'Sütun1': [1, 2, 3], 'Sütun2': [4, 5, 6]}
df = pd.DataFrame(data)

data = np.array([[1, 2, 3], [4, 5, 6]])
df = pd.DataFrame(data, columns=['Sütun1', 'Sütun2'])

# veri manipulasyonu
df.head()       # ilk n satır gösterilir
df.tail()       # son n satır
df.info()       # kolonlar hakkında bilgi
df.describe()   # özet istatistik
df.shape        # satır,kolon sayısı
df.columns      # kolon adları
df.dtypes       # kolon veritipleri

df['A'] = df['A'].astype(int) # kolon veri tipi değiştirme

df.sort_values(by='Yaş') # kolana göre sıralama
df.groupby('Cinsiyet').mean() # cinsiyete göre gruplama ve ortalama
df_grup = df.groupby('Şehir')['Satış'].sum()
# diğer methodlar: min, max, median, std, var(varyans), count, nunique,first, last

df.fillna(0) # boş değerleri 0 ile doldur
df.dropna() # boş değerleri sil
df.drop_duplicates() # tekrar eden satırları sil
df.drop_duplicates(subset=['İsim', 'Yaş'])
df.drop_duplicates(keep='last') # Son tekrar eden satırı tutar, diğerlerini siler.
df.drop_duplicates(keep='first') # ilk tekrar eden satırı tutar, diğerlerini siler.

df.rename(columns={'İlk_Sütun': 'Yeni_Sütun'}) # sütun adını değiştir

df['Yeni_Sütun'] = df['İlk_Sütun'] * 2 # yeni sütun oluştur

# kolon seçimi
df['İlk_Sütun'] # tek sütunu seç
df[['İlk_Sütun', 'İkinci_Sütun']] # birden fazla sütunu seç

# loc(), etiket tabanlı seçim
df.loc[0:3, 'İlk_Sütun'] # satır ve sütun seçimi

df.loc[df['Sütun1'] > 10] # 'Sütun1' sütunundaki değeri 10'dan büyük olan satırları seçer.

df.iloc[0] # satır seçimi
df.iloc[0:3, 0:2] # satır ve sütun seçme, dilim


# filtreleme
df[df['Sütun1'] > 10] # 'Sütun1' sütunundaki değeri 10'dan büyük olan satırları seç
df[(df['Sütun1'] > 10) & (df['Sütun2'] < 5)] # çoklu şart

# merge(): İki DataFrame'i ortak bir sütuna göre birleştirme
pd.merge(df1, df2, on='id') # id kolonuna göre birleştirir

# concat(): İki veya daha fazla DataFrame'i birleştirme
pd.concat([df1, df2, df3])
pd.concat([df1, df2], axis=1) # yanyana birleştirme


FileNotFoundError: [Errno 2] No such file or directory: 'dosya_adi.csv'

In [None]:
df= pd.read_html("https://raw.githubusercontent.com/zyavuz610/data/master/table.html")
df[0]

Unnamed: 0,Header 1,Header 2,Header 3,Header 4
0,"Row 1, Cell 1","Row 1, Cell 2","Row 1, Cell 3","Row 1, Cell 4"
1,"Row 2, Cell 1","Row 2, Cell 2","Row 2, Cell 3","Row 2, Cell 4"
2,"Row 3, Cell 1","Row 3, Cell 2","Row 3, Cell 3","Row 3, Cell 4"
3,"Row 4, Cell 1","Row 4, Cell 2","Row 4, Cell 3","Row 4, Cell 4"


In [None]:
!curl -o a.html https://tr.wikipedia.org/wiki/Türkiye%27nin_illeri
df = pd.read_html("a.html")
data = df[2]
data.head()

# İlk Basit Örnek

In [None]:
# sözlükten dataframe oluşturmak
import pandas as pd
sozluk = {
    'sehir': ['Istanbul', 'Ankara', 'Izmir'],
    'enlem': [41.01, 39.92, 38.42],
    'boylam': [28.97, 32.85, 27.14],
    'nufus': [15029231, 5639076, 4367251]
}

df = pd.DataFrame(sozluk)
print(df)

      sehir  enlem  boylam     nufus
0  Istanbul  41.01   28.97  15029231
1    Ankara  39.92   32.85   5639076
2     Izmir  38.42   27.14   4367251


In [None]:
df.head(2)

Unnamed: 0,sehir,enlem,boylam,nufus
0,Istanbul,41.01,28.97,15029231
1,Ankara,39.92,32.85,5639076


In [None]:
df.tail(2)

Unnamed: 0,sehir,enlem,boylam,nufus
1,Ankara,39.92,32.85,5639076
2,Izmir,38.42,27.14,4367251


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   sehir   3 non-null      object 
 1   enlem   3 non-null      float64
 2   boylam  3 non-null      float64
 3   nufus   3 non-null      int64  
dtypes: float64(2), int64(1), object(1)
memory usage: 224.0+ bytes


In [None]:
df.describe()
"""
123 = 1.23 * 10^2 = 1.23e+2
8.345186e+06 = 8.345186 * 10^6 = 8345186
"""

Unnamed: 0,enlem,boylam,nufus
count,3.0,3.0,3.0
mean,39.783333,29.653333,8345186.0
std,1.300397,2.915687,5823378.0
min,38.42,27.14,4367251.0
25%,39.17,28.055,5003164.0
50%,39.92,28.97,5639076.0
75%,40.465,30.91,10334150.0
max,41.01,32.85,15029230.0


In [None]:
print(df.columns[1])

enlem


In [None]:
print(df.shape[0])

3


In [None]:
print(df.dtypes,type(df.dtypes),df.dtypes['sehir'],sep='\n')

sehir      object
enlem     float64
boylam    float64
nufus       int64
dtype: object
<class 'pandas.core.series.Series'>
object


# Dosyada Veri Yükle ve Analiz Et

In [7]:
# dosya yükle
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/zyavuz610/data/master/%C3%B6%C4%9Frenci%20notlar%C4%B1%20-%20isimli.csv')
df.head(15)

Unnamed: 0,Ad,Öğr. No,Ara Sınav,2. sınav,Ödev,Final,Devam Sayısı
0,selver,102,98,82,79,96,
1,oğuz,105,33,55,35,84,12.0
2,Eren,111,75,35,90,64,
3,Esma,134,34,76,45,76,11.0
4,Osman,144,39,3,40,13,5.0
5,ihsan,112,77,66,55,44,13.0
6,oğuz,105,33,55,35,94,12.0
7,polat,117,24,58,98,42,11.0
8,mert,123,15,75,90,72,9.0
9,yusuf,124,80,75,80,80,


In [8]:
# yeni kolon oluştur
oranlar = (0.2,0.2,0.2,0.4)
df["Devam Yüzdesi"] = (100*df["Devam Sayısı"]/14).astype(float).round(2)
df["Ortalama"] = (df["Ara Sınav"]*0.2 + \
                  df["2. sınav"]*0.2 + \
                  df["Ödev"]*0.2 + \
                  df["Final"]*0.4).astype(float)
df.head()

Unnamed: 0,Ad,Öğr. No,Ara Sınav,2. sınav,Ödev,Final,Devam Sayısı,Devam Yüzdesi,Ortalama
0,selver,102,98,82,79,96,,,90.2
1,oğuz,105,33,55,35,84,12.0,85.71,58.2
2,Eren,111,75,35,90,64,,,65.6
3,Esma,134,34,76,45,76,11.0,78.57,61.4
4,Osman,144,39,3,40,13,5.0,35.71,21.6


In [9]:
# kolonları isimlendir
df.columns = ["ad","numara","ara_sinav","ara_sinav2","odev","final","devam_sayisi","devam_yuzdesi","ortalama"]
df.head(3)

Unnamed: 0,ad,numara,ara_sinav,ara_sinav2,odev,final,devam_sayisi,devam_yuzdesi,ortalama
0,selver,102,98,82,79,96,,,90.2
1,oğuz,105,33,55,35,84,12.0,85.71,58.2
2,Eren,111,75,35,90,64,,,65.6


In [10]:
df.rename(columns ={"final": "donem_sonu"},inplace=True)
df.head(15)

Unnamed: 0,ad,numara,ara_sinav,ara_sinav2,odev,donem_sonu,devam_sayisi,devam_yuzdesi,ortalama
0,selver,102,98,82,79,96,,,90.2
1,oğuz,105,33,55,35,84,12.0,85.71,58.2
2,Eren,111,75,35,90,64,,,65.6
3,Esma,134,34,76,45,76,11.0,78.57,61.4
4,Osman,144,39,3,40,13,5.0,35.71,21.6
5,ihsan,112,77,66,55,44,13.0,92.86,57.2
6,oğuz,105,33,55,35,94,12.0,85.71,62.2
7,polat,117,24,58,98,42,11.0,78.57,52.8
8,mert,123,15,75,90,72,9.0,64.29,64.8
9,yusuf,124,80,75,80,80,,,79.0


In [11]:
# pandas dataframe isnull()
df['devam_sayisi'].isnull().sum()

np.int64(4)

In [12]:
# eksik, boş, tekrar eden verilerle uğraşmak
df2 = df.dropna()
df2.head(15)

Unnamed: 0,ad,numara,ara_sinav,ara_sinav2,odev,donem_sonu,devam_sayisi,devam_yuzdesi,ortalama
1,oğuz,105,33,55,35,84,12.0,85.71,58.2
3,Esma,134,34,76,45,76,11.0,78.57,61.4
4,Osman,144,39,3,40,13,5.0,35.71,21.6
5,ihsan,112,77,66,55,44,13.0,92.86,57.2
6,oğuz,105,33,55,35,94,12.0,85.71,62.2
7,polat,117,24,58,98,42,11.0,78.57,52.8
8,mert,123,15,75,90,72,9.0,64.29,64.8
10,zübeyde,127,82,8,83,90,4.0,28.57,70.6
11,Esma,134,34,76,45,76,11.0,78.57,61.4
12,Osman,144,39,3,40,13,5.0,35.71,21.6


In [13]:
df3 = df.fillna(0)
df3.head(15)

Unnamed: 0,ad,numara,ara_sinav,ara_sinav2,odev,donem_sonu,devam_sayisi,devam_yuzdesi,ortalama
0,selver,102,98,82,79,96,0.0,0.0,90.2
1,oğuz,105,33,55,35,84,12.0,85.71,58.2
2,Eren,111,75,35,90,64,0.0,0.0,65.6
3,Esma,134,34,76,45,76,11.0,78.57,61.4
4,Osman,144,39,3,40,13,5.0,35.71,21.6
5,ihsan,112,77,66,55,44,13.0,92.86,57.2
6,oğuz,105,33,55,35,94,12.0,85.71,62.2
7,polat,117,24,58,98,42,11.0,78.57,52.8
8,mert,123,15,75,90,72,9.0,64.29,64.8
9,yusuf,124,80,75,80,80,0.0,0.0,79.0


In [14]:
df4 = df3.drop_duplicates(subset=['ad','numara'],keep='last')
df4.head(15)

Unnamed: 0,ad,numara,ara_sinav,ara_sinav2,odev,donem_sonu,devam_sayisi,devam_yuzdesi,ortalama
0,selver,102,98,82,79,96,0.0,0.0,90.2
2,Eren,111,75,35,90,64,0.0,0.0,65.6
5,ihsan,112,77,66,55,44,13.0,92.86,57.2
6,oğuz,105,33,55,35,94,12.0,85.71,62.2
7,polat,117,24,58,98,42,11.0,78.57,52.8
8,mert,123,15,75,90,72,9.0,64.29,64.8
9,yusuf,124,80,75,80,80,0.0,0.0,79.0
10,zübeyde,127,82,8,83,90,4.0,28.57,70.6
11,Esma,134,34,76,45,76,11.0,78.57,61.4
12,Osman,144,39,3,40,13,5.0,35.71,21.6


In [15]:
# filtreleme yapmak
df5 = df4[(df4['ortalama'] > 60) & (df4['devam_sayisi'] > 10)]
df5['ad']

6         oğuz
11        Esma
16        arda
18     inrahim
23        neşe
25       yasin
27       salim
28        emre
30        elif
36       selin
37       İhsan
38      melike
40       Polat
53       derya
56       yunus
64       sedef
65        arda
71        Ümit
75      gamze 
78      meryem
83      Erdem 
92      mehmet
94       galip
95        uğur
96       Damla
113      özcan
119      çakır
Name: ad, dtype: object

In [21]:
#sıralama yapma
df6 = df5.sort_values(by="devam_sayisi",ascending=False)
df6

Unnamed: 0,ad,numara,ara_sinav,ara_sinav2,odev,donem_sonu,devam_sayisi,devam_yuzdesi,ortalama
71,Ümit,545,22,55,75,100,17.0,121.43,70.4
28,emre,258,60,70,80,50,14.0,100.0,62.0
25,yasin,246,87,73,86,90,14.0,100.0,85.2
40,Polat,340,100,100,100,100,14.0,100.0,100.0
56,yunus,455,95,75,24,69,14.0,100.0,66.4
83,Erdem,677,60,70,80,90,14.0,100.0,78.0
92,mehmet,769,54,21,46,98,14.0,100.0,63.4
38,melike,330,45,78,86,50,14.0,100.0,61.8
27,salim,255,95,95,95,95,13.0,92.86,95.0
37,İhsan,327,70,65,90,90,13.0,92.86,81.0


In [23]:
#birden fazla sıralama yapma
df7 = df5.sort_values(by=["devam_sayisi","ortalama"],ascending=[False,True])
df7

Unnamed: 0,ad,numara,ara_sinav,ara_sinav2,odev,donem_sonu,devam_sayisi,devam_yuzdesi,ortalama
71,Ümit,545,22,55,75,100,17.0,121.43,70.4
38,melike,330,45,78,86,50,14.0,100.0,61.8
28,emre,258,60,70,80,50,14.0,100.0,62.0
92,mehmet,769,54,21,46,98,14.0,100.0,63.4
56,yunus,455,95,75,24,69,14.0,100.0,66.4
83,Erdem,677,60,70,80,90,14.0,100.0,78.0
25,yasin,246,87,73,86,90,14.0,100.0,85.2
40,Polat,340,100,100,100,100,14.0,100.0,100.0
95,uğur,789,78,49,94,41,13.0,92.86,60.6
36,selin,326,45,36,100,63,13.0,92.86,61.4


In [27]:
# group by ve aggregate fonksiyonlar.

import pandas as pd

sehirler = pd.read_csv("https://raw.githubusercontent.com/zyavuz610/data/master/data%20-%20sehirler.csv")
sehirler.head()

Unnamed: 0,Id,BolgeId,SehirAd,Nufus
0,1,1,Adana,2201670
1,2,4,Adıyaman,610484
2,3,3,Afyonkarahisar,714523
3,4,2,Ağrı,542255
4,5,6,Amasya,326351


In [29]:
import pandas as pd

bolgeler = pd.read_csv("https://raw.githubusercontent.com/zyavuz610/data/master/data%20-%20bolgeler.csv")
bolgeler.head()

Unnamed: 0,Id,BolgeAd
0,1,Akdeniz Bölgesi
1,2,Doğu Anadolu Bölgesi
2,3,Ege Bölgesi
3,4,Güneydoğu Anadolu Bölgesi
4,5,İç Anadolu Bölgesi


In [35]:
# iki tabloyu birleştiricez
import pandas as pd


sehirler2 = sehirler.merge(bolgeler,left_on="BolgeId",right_on="Id")
sehirler2

Unnamed: 0,Id_x,BolgeId,SehirAd,Nufus,Id_y,BolgeAd
0,1,1,Adana,2201670,1,Akdeniz Bölgesi
1,2,4,Adıyaman,610484,4,Güneydoğu Anadolu Bölgesi
2,3,3,Afyonkarahisar,714523,3,Ege Bölgesi
3,4,2,Ağrı,542255,2,Doğu Anadolu Bölgesi
4,5,6,Amasya,326351,6,Karadeniz Bölgesi
...,...,...,...,...,...,...
76,77,7,Yalova,241665,7,Marmara Bölgesi
77,78,6,Karabük,242347,6,Karadeniz Bölgesi
78,79,4,Kilis,130825,4,Güneydoğu Anadolu Bölgesi
79,80,1,Osmaniye,522175,1,Akdeniz Bölgesi


In [46]:
#gruplandırma
import pandas as pd

sehirler2.groupby("BolgeAd")["Nufus"].sum()         #bu kodda bölgeler tablosunu sehirler tablosundaki nüfusu çekip o bölgelerdeki tüm nüfusu topladı


BolgeAd
Akdeniz Bölgesi              10182776
Doğu Anadolu Bölgesi          5938790
Ege Bölgesi                  10265111
Güneydoğu Anadolu Bölgesi     8508887
Karadeniz Bölgesi             7773491
Marmara Bölgesi              24415423
İç Anadolu Bölgesi           12730393
Name: Nufus, dtype: int64

# Örnek

In [54]:
#pandas isin kullanımı
import pandas as pd

sehirler2[sehirler2["BolgeAd"].isin(["Marmara Bölgesi","Ege Bölgesi"])]


Unnamed: 0,Id_x,BolgeId,SehirAd,Nufus,Id_y,BolgeAd
2,3,3,Afyonkarahisar,714523,3,Ege Bölgesi
8,9,3,Aydın,1068260,3,Ege Bölgesi
9,10,7,Balıkesir,1196176,7,Marmara Bölgesi
10,11,7,Bilecik,218297,7,Marmara Bölgesi
15,16,7,Bursa,2901396,7,Marmara Bölgesi
16,17,7,Çanakkale,519793,7,Marmara Bölgesi
19,20,3,Denizli,1005687,3,Ege Bölgesi
21,22,7,Edirne,401701,7,Marmara Bölgesi
33,34,7,İstanbul,14804116,7,Marmara Bölgesi
34,35,3,İzmir,4223545,3,Ege Bölgesi


In [72]:
import pandas as pd 
secili_bolgeler = [1,3,6,7]
sehirler2[sehirler2["BolgeId"].isin(secili_bolgeler)]

Unnamed: 0,Id_x,BolgeId,SehirAd,Nufus,Id_y,BolgeAd
0,1,1,Adana,2201670,1,Akdeniz Bölgesi
2,3,3,Afyonkarahisar,714523,3,Ege Bölgesi
4,5,6,Amasya,326351,6,Karadeniz Bölgesi
6,7,1,Antalya,2328555,1,Akdeniz Bölgesi
7,8,6,Artvin,168068,6,Karadeniz Bölgesi
8,9,3,Aydın,1068260,3,Ege Bölgesi
9,10,7,Balıkesir,1196176,7,Marmara Bölgesi
10,11,7,Bilecik,218297,7,Marmara Bölgesi
13,14,6,Bolu,299896,6,Karadeniz Bölgesi
14,15,1,Burdur,261401,1,Akdeniz Bölgesi


In [73]:
# pandas dataframe query örneği
sehirler2.query('BolgeAd == "Marmara Bölgesi"')

Unnamed: 0,Id_x,BolgeId,SehirAd,Nufus,Id_y,BolgeAd
9,10,7,Balıkesir,1196176,7,Marmara Bölgesi
10,11,7,Bilecik,218297,7,Marmara Bölgesi
15,16,7,Bursa,2901396,7,Marmara Bölgesi
16,17,7,Çanakkale,519793,7,Marmara Bölgesi
21,22,7,Edirne,401701,7,Marmara Bölgesi
33,34,7,İstanbul,14804116,7,Marmara Bölgesi
38,39,7,Kırklareli,351684,7,Marmara Bölgesi
40,41,7,Kocaeli,1830772,7,Marmara Bölgesi
53,54,7,Sakarya,976948,7,Marmara Bölgesi
58,59,7,Tekirdağ,972875,7,Marmara Bölgesi


In [74]:
# B ile başlayan şehirler
sehirler2.query('SehirAd.str.startswith("B")')
sehirler2.query('SehirAd.str.endswith("şehir")')
sehirler2.query('Nufus > 750_000').sort_values(by='Nufus',ascending=False)

Unnamed: 0,Id_x,BolgeId,SehirAd,Nufus,Id_y,BolgeAd
33,34,7,İstanbul,14804116,7,Marmara Bölgesi
5,6,5,Ankara,5346518,5,İç Anadolu Bölgesi
34,35,3,İzmir,4223545,3,Ege Bölgesi
15,16,7,Bursa,2901396,7,Marmara Bölgesi
6,7,1,Antalya,2328555,1,Akdeniz Bölgesi
0,1,1,Adana,2201670,1,Akdeniz Bölgesi
41,42,5,Konya,2161303,5,İç Anadolu Bölgesi
26,27,4,Gaziantep,1974244,4,Güneydoğu Anadolu Bölgesi
62,63,4,Şanlıurfa,1940627,4,Güneydoğu Anadolu Bölgesi
40,41,7,Kocaeli,1830772,7,Marmara Bölgesi


In [None]:
############ Grafik Çizimi Yapılacak ###########

In [None]:
# https://colab.research.google.com/notebooks/mlcc/intro_to_pandas.ipynb#scrollTo=av6RYOraVG1V

In [None]:
import pandas as pd
pd.__version__

'2.1.4'

In [None]:
df = pd.read_csv("sample_data/california_housing_train.csv", sep=",")
df.describe()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
count,17000.0,17000.0,17000.0,17000.0,17000.0,17000.0,17000.0,17000.0,17000.0
mean,-119.562108,35.625225,28.589353,2643.664412,539.410824,1429.573941,501.221941,3.883578,207300.912353
std,2.005166,2.13734,12.586937,2179.947071,421.499452,1147.852959,384.520841,1.908157,115983.764387
min,-124.35,32.54,1.0,2.0,1.0,3.0,1.0,0.4999,14999.0
25%,-121.79,33.93,18.0,1462.0,297.0,790.0,282.0,2.566375,119400.0
50%,-118.49,34.25,29.0,2127.0,434.0,1167.0,409.0,3.5446,180400.0
75%,-118.0,37.72,37.0,3151.25,648.25,1721.0,605.25,4.767,265000.0
max,-114.31,41.95,52.0,37937.0,6445.0,35682.0,6082.0,15.0001,500001.0


In [None]:
print(df.head(10))

   longitude  latitude  housing_median_age  total_rooms  total_bedrooms  \
0    -114.31     34.19                15.0       5612.0          1283.0   
1    -114.47     34.40                19.0       7650.0          1901.0   
2    -114.56     33.69                17.0        720.0           174.0   
3    -114.57     33.64                14.0       1501.0           337.0   
4    -114.57     33.57                20.0       1454.0           326.0   
5    -114.58     33.63                29.0       1387.0           236.0   
6    -114.58     33.61                25.0       2907.0           680.0   
7    -114.59     34.83                41.0        812.0           168.0   
8    -114.59     33.61                34.0       4789.0          1175.0   
9    -114.60     34.83                46.0       1497.0           309.0   

   population  households  median_income  median_house_value  
0      1015.0       472.0         1.4936             66900.0  
1      1129.0       463.0         1.8200        

In [None]:
df.tail()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
16995,-124.26,40.58,52.0,2217.0,394.0,907.0,369.0,2.3571,111400.0
16996,-124.27,40.69,36.0,2349.0,528.0,1194.0,465.0,2.5179,79000.0
16997,-124.3,41.84,17.0,2677.0,531.0,1244.0,456.0,3.0313,103600.0
16998,-124.3,41.8,19.0,2672.0,552.0,1298.0,478.0,1.9797,85800.0
16999,-124.35,40.54,52.0,1820.0,300.0,806.0,270.0,3.0147,94600.0


In [None]:
print(df.columns)

Index(['longitude', 'latitude', 'housing_median_age', 'total_rooms',
       'total_bedrooms', 'population', 'households', 'median_income',
       'median_house_value'],
      dtype='object')
