# Pandas - Python Data Analysis Library

Python ima nekoliko tipova podataka koji se odnose na kolekcije (liste, setovi, rječnici, nterci)
Rad s kolekcijama u python nije tako brz kao u jezicima baziranim na C-u ili Fortranu 

Rješenje: Kreirane su biblioteke koje imaju učinkovitost kao da su pisane u C-u, a istovremeno imaju jednostavno pisanja koda kao u Pythonu

Pandas je jedna od takvih biblioteka. To je python modul za analizu i manipulaciju podataka, strukturiranih u obliku tablice. Pandas koristi NumPy paket kao podlogu. 

Pandas koristimo u sljedećim situacijama:
- uvoz i izvoz podataka iz CSV datoteka, Excela, baza podataka
- promjena oblika tablica
- mogućnost izdvajanja dijelova podataka u zasebne cjelinu na osnovi naziva kolona
- fleksibilno, a opet učinkovito grupiranje podataka koje omogućava modifikacije kao što su podjela, dodavanje, kombiniranje
...
...


## Instalacija i uporaba

In [1]:
# !pip install pandas

In [2]:
# Nakon instalacije importamo pandas

import pandas as pd

## Struktura podataka

### Dataframe

Tablični oblik pohrane podataka. Dvodimenzionalan, os 0 - stupci, os 1 - redovi.
![image.png](attachment:image.png)

### Kreiranje DataFrame objekta

In [3]:
import pandas as pd

In [4]:
data = {
    'Kolona 1': ['K1_Podatak 1', 'K1_Podatak 2', 'K1_Podatak 3', 'K1_Podatak 4', 'K1_Podatak 5'],
    'Kolona 2': ['K2_Podatak 1', 'K2_Podatak 2', 'K2_Podatak 3', 'K2_Podatak 4', 'K2_Podatak 5'],
    'Kolona 3': ['K3_Podatak 1', 'K3_Podatak 2', 'K3_Podatak 3', 'K3_Podatak 4', 'K3_Podatak 5'],
    'Kolona 4': ['K4_Podatak 1', 'K4_Podatak 2', 'K4_Podatak 3', 'K4_Podatak 4', 'K4_Podatak 5']
}

In [5]:
df = pd.DataFrame(data)
df

Unnamed: 0,Kolona 1,Kolona 2,Kolona 3,Kolona 4
0,K1_Podatak 1,K2_Podatak 1,K3_Podatak 1,K4_Podatak 1
1,K1_Podatak 2,K2_Podatak 2,K3_Podatak 2,K4_Podatak 2
2,K1_Podatak 3,K2_Podatak 3,K3_Podatak 3,K4_Podatak 3
3,K1_Podatak 4,K2_Podatak 4,K3_Podatak 4,K4_Podatak 4
4,K1_Podatak 5,K2_Podatak 5,K3_Podatak 5,K4_Podatak 5


### Pandas Series / Serija

Drugi tip podatka za čiju obradu se koristi Pandas. Serija predstavlja stupac u DataFrame tablici i zbog toga ima samo jednu dimenziju (os 0)

In [6]:
df['Kolona 3'] # kod dict imamo dict_name['key']

0    K3_Podatak 1
1    K3_Podatak 2
2    K3_Podatak 3
3    K3_Podatak 4
4    K3_Podatak 5
Name: Kolona 3, dtype: object

In [7]:
serija = pd.Series([5, 8, 2, 6, 5, 4, 9], name='Serija')
serija

0    5
1    8
2    2
3    6
4    5
5    4
6    9
Name: Serija, dtype: int64

Kreirali smo novi Pandas Series objekt od liste brojeva i dali smo ima Serija. 

In [8]:
lista_brojeva = [5, 8, 2, 6, 5, 4, 9]
serija = pd.Series(lista_brojeva, name='Serija')
serija

0    5
1    8
2    2
3    6
4    5
5    4
6    9
Name: Serija, dtype: int64

In [10]:
serija_indeksi = pd.Series([5, 8, 2, 6], index=['a', 'b','c', 'd'])
serija_indeksi


a    5
b    8
c    2
d    6
dtype: int64

In [15]:
serija_indeksi['a']

5

### Pristup i izmjena članova serije

In [11]:
serija = pd.Series([5, 8, 2, 3, 4, 5, 4, 3, 4, 5, 6, 7, 8, 2, 4, 5, 6, 7, 5, 3], name = 'Oznaka')
serija

0     5
1     8
2     2
3     3
4     4
5     5
6     4
7     3
8     4
9     5
10    6
11    7
12    8
13    2
14    4
15    5
16    6
17    7
18    5
19    3
Name: Oznaka, dtype: int64

In [14]:
serija[19]

3

In [16]:
serija[:]

0     5
1     8
2     2
3     3
4     4
5     5
6     4
7     3
8     4
9     5
10    6
11    7
12    8
13    2
14    4
15    5
16    6
17    7
18    5
19    3
Name: Oznaka, dtype: int64

In [17]:
serija[3:8]

3    3
4    4
5    5
6    4
7    3
Name: Oznaka, dtype: int64

In [18]:
serija[3:8:3]

3    3
6    4
Name: Oznaka, dtype: int64

In [19]:
podskup = serija[2:8:3]
podskup

2    2
5    5
Name: Oznaka, dtype: int64

In [20]:
podskup = pd.Series(serija[2:8:3], name='Podskup')
podskup

2    2
5    5
Name: Podskup, dtype: int64

In [21]:
podskup[0]

KeyError: 0

In [22]:
podskup

2    2
5    5
Name: Podskup, dtype: int64

Prva kolona prikazuje brojeve 2 i 5 kao indekse nove Pandas serije naziva podskup.  Čuvanje indeksa može biti korisno, ali korisnije je ako za kolonu index, koja se automatski kreira, znamo da uvijek počinje od 0. 

In [23]:
podskup.index

RangeIndex(start=2, stop=8, step=3)

In [24]:
podskup.values

array([2, 5], dtype=int64)

In [25]:
podskup.reset_index()

Unnamed: 0,index,Podskup
0,2,2
1,5,5


Očigledno je da smo napravili neku izmjenu, ali tako da smo kreirali novi objekt koji nismo nigdje pohranili pa smo ga nakon izvođenja skripte izgubili. 

Naš cilj je napraviti "trajnu" izmjenu indeksa, ali na našem postojećem objektu. Zato u metodu reset_index() dodajemo dva argumenta:
- inplace = True - napraviti akciju nad postojećim objektom
- drop = True - odbaci postojeći indeks

In [29]:
podskup

2    2
5    5
Name: Podskup, dtype: int64

In [30]:
podskup.reset_index(inplace=True, drop=True)

In [31]:
podskup

0    2
1    5
Name: Podskup, dtype: int64

In [32]:
# Promijenimo prvi element serije:

podskup[0] = 79
podskup

0    79
1     5
Name: Podskup, dtype: int64

In [33]:
podskup[0] = 'Prvi element'
podskup

0    Prvi element
1               5
Name: Podskup, dtype: object

### Filtriranje podataka

In [34]:
serija

0      5
1      8
2     79
3      3
4      4
5      5
6      4
7      3
8      4
9      5
10     6
11     7
12     8
13     2
14     4
15     5
16     6
17     7
18     5
19     3
Name: Oznaka, dtype: int64

In [36]:
serija[serija>6]

1      8
2     79
11     7
12     8
17     7
Name: Oznaka, dtype: int64

In [37]:
serija / 100

0     0.05
1     0.08
2     0.79
3     0.03
4     0.04
5     0.05
6     0.04
7     0.03
8     0.04
9     0.05
10    0.06
11    0.07
12    0.08
13    0.02
14    0.04
15    0.05
16    0.06
17    0.07
18    0.05
19    0.03
Name: Oznaka, dtype: float64

In [38]:
serija.unique()

array([ 5,  8, 79,  3,  4,  6,  7,  2], dtype=int64)

Dobro je znati koje elemente imamo jedinstvene u našoj seriji, ali bilo bi dobro imati i informaciju koliko puta se koji broj ponavlja. Za to postoji metoda **value_counts()**

In [41]:
serija.value_counts().sort_values()

Oznaka
79    1
2     1
8     2
6     2
7     2
3     3
4     4
5     5
Name: count, dtype: int64

Ponekad želimo provjeriti postoje li u našoj seriji neki elementi. 

In [42]:
serija.isin([0, 5, 9])

0      True
1     False
2     False
3     False
4     False
5      True
6     False
7     False
8     False
9      True
10    False
11    False
12    False
13    False
14    False
15     True
16    False
17    False
18     True
19    False
Name: Oznaka, dtype: bool

In [43]:
serija[serija.isin([0, 5, 9])]

0     5
5     5
9     5
15    5
18    5
Name: Oznaka, dtype: int64

**ZADATAK**

Generirajte nasumičnih 100 brojeva te ih pohranite u Python listu. Od te liste kreirajte Pandas seriju i dajte joj neki naziv.
- provjerite koliko ima brojeva koji se ponavljaju te koliko puta se ponavlja svaki od njih
- koji je broj najveći, a koji najmanji
- modificirajte podatke u seriji tako da se svedu na postotke
- promijenite vrijednosti najvećeg broja tako da je identična vrijednosti najmanjeg broja. Provjerite koji je sad najveći broj.

### DataFrame

In [45]:
proizvodi_baza = {
    'Naziv': [
        'Trek', 'Kona', 'Giant', 
        'Bianchi', 'Cosmo Ride', 'Neon', 
        'Zeeclo', 'Atomic', 'Head', 
        'Elan', 'Salomon', 'Rossignol'
    ],
    'Cijena': [
        7699.00, 4699.00, 5999.00, 
        22499.00, 2599.00, 1999.00, 
        2799.00, 1499.00, 1359.00, 
        1499.00, 1699.00, 999.00
    ],
    'Kategorija': [
        'Bicikl', 'Bicikl', 'Bicikl', 
        'Bicikl', 'E-Romobil', 'E-Romobil',
        'E-Romobil', 'Skije', 'Skije', 
        'Skije', 'Skije', 'Skije'
    ],
    'Ocjena': [
        6.70, 6.50, 6.65, 
        7.20, 8.64, 8.61, 
        8.59, 7.99, 8.15,
        8.05, 7.91, 6.10
    ]
}

df = pd.DataFrame(proizvodi_baza)
df

Unnamed: 0,Naziv,Cijena,Kategorija,Ocjena
0,Trek,7699.0,Bicikl,6.7
1,Kona,4699.0,Bicikl,6.5
2,Giant,5999.0,Bicikl,6.65
3,Bianchi,22499.0,Bicikl,7.2
4,Cosmo Ride,2599.0,E-Romobil,8.64
5,Neon,1999.0,E-Romobil,8.61
6,Zeeclo,2799.0,E-Romobil,8.59
7,Atomic,1499.0,Skije,7.99
8,Head,1359.0,Skije,8.15
9,Elan,1499.0,Skije,8.05


In [46]:
df.columns

Index(['Naziv', 'Cijena', 'Kategorija', 'Ocjena'], dtype='object')

In [47]:
df.values

array([['Trek', 7699.0, 'Bicikl', 6.7],
       ['Kona', 4699.0, 'Bicikl', 6.5],
       ['Giant', 5999.0, 'Bicikl', 6.65],
       ['Bianchi', 22499.0, 'Bicikl', 7.2],
       ['Cosmo Ride', 2599.0, 'E-Romobil', 8.64],
       ['Neon', 1999.0, 'E-Romobil', 8.61],
       ['Zeeclo', 2799.0, 'E-Romobil', 8.59],
       ['Atomic', 1499.0, 'Skije', 7.99],
       ['Head', 1359.0, 'Skije', 8.15],
       ['Elan', 1499.0, 'Skije', 8.05],
       ['Salomon', 1699.0, 'Skije', 7.91],
       ['Rossignol', 999.0, 'Skije', 6.1]], dtype=object)

In [48]:
df.index

RangeIndex(start=0, stop=12, step=1)

Sve kolone imaju naziv preuzet iz "ključa" rječnika od kojeg smo kreirali df. Možemo i indeksima dodati naziv.

In [49]:
df.index.name = 'Id'
df

Unnamed: 0_level_0,Naziv,Cijena,Kategorija,Ocjena
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Trek,7699.0,Bicikl,6.7
1,Kona,4699.0,Bicikl,6.5
2,Giant,5999.0,Bicikl,6.65
3,Bianchi,22499.0,Bicikl,7.2
4,Cosmo Ride,2599.0,E-Romobil,8.64
5,Neon,1999.0,E-Romobil,8.61
6,Zeeclo,2799.0,E-Romobil,8.59
7,Atomic,1499.0,Skije,7.99
8,Head,1359.0,Skije,8.15
9,Elan,1499.0,Skije,8.05


In [50]:
df['Cijena']

Id
0      7699.0
1      4699.0
2      5999.0
3     22499.0
4      2599.0
5      1999.0
6      2799.0
7      1499.0
8      1359.0
9      1499.0
10     1699.0
11      999.0
Name: Cijena, dtype: float64

In [51]:
df[2]

KeyError: 2

Ako si tablicu predočimo kao listu (redove) unutar liste (kolone) možda bismo mogli iskoristiti sintaksu za dvostruku listu **naziv_liste[kolona][red]**

In [52]:
df['Cijena'][3]

22499.0

In [53]:
df[:6 :-1]

Unnamed: 0_level_0,Naziv,Cijena,Kategorija,Ocjena
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
11,Rossignol,999.0,Skije,6.1
10,Salomon,1699.0,Skije,7.91
9,Elan,1499.0,Skije,8.05
8,Head,1359.0,Skije,8.15
7,Atomic,1499.0,Skije,7.99


In [56]:
df.loc[[2, 5, 6]]

Unnamed: 0_level_0,Naziv,Cijena,Kategorija,Ocjena
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,Giant,5999.0,Bicikl,6.65
5,Neon,1999.0,E-Romobil,8.61
6,Zeeclo,2799.0,E-Romobil,8.59


### Dodavanje i brisanje podataka

In [60]:
df['Kolicina na skladistu'] = [1, 34, 54, 34, 21, 342, 5, 76, 53, 41, 11, 16]

In [61]:
df

Unnamed: 0_level_0,Naziv,Cijena,Kategorija,Ocjena,Kolicina na skladistu
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,Trek,7699.0,Bicikl,6.7,1
1,Kona,4699.0,Bicikl,6.5,34
2,Giant,5999.0,Bicikl,6.65,54
3,Bianchi,22499.0,Bicikl,7.2,34
4,Cosmo Ride,2599.0,E-Romobil,8.64,21
5,Neon,1999.0,E-Romobil,8.61,342
6,Zeeclo,2799.0,E-Romobil,8.59,5
7,Atomic,1499.0,Skije,7.99,76
8,Head,1359.0,Skije,8.15,53
9,Elan,1499.0,Skije,8.05,41


In [62]:
import random 
vrijednosti = []
for i in range(len(df.index)):
    vrijednosti.append(random.randint(100, 10000))
    
df['Kolicina na skladistu'] = vrijednosti

In [64]:
del df['Kolicina na skladistu']

In [65]:
df

Unnamed: 0_level_0,Naziv,Cijena,Kategorija,Ocjena
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Trek,7699.0,Bicikl,6.7
1,Kona,4699.0,Bicikl,6.5
2,Giant,5999.0,Bicikl,6.65
3,Bianchi,22499.0,Bicikl,7.2
4,Cosmo Ride,2599.0,E-Romobil,8.64
5,Neon,1999.0,E-Romobil,8.61
6,Zeeclo,2799.0,E-Romobil,8.59
7,Atomic,1499.0,Skije,7.99
8,Head,1359.0,Skije,8.15
9,Elan,1499.0,Skije,8.05


In [69]:
df.isin(['Neon', 1499.00, 999.00])

Unnamed: 0_level_0,Naziv,Cijena,Kategorija,Ocjena
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
5,True,False,False,False
6,False,False,False,False
7,False,True,False,False
8,False,False,False,False
9,False,True,False,False


In [70]:
df[df.isin(['Neon', 1499.00])]

Unnamed: 0_level_0,Naziv,Cijena,Kategorija,Ocjena
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,,,,
1,,,,
2,,,,
3,,,,
4,,,,
5,Neon,,,
6,,,,
7,,1499.0,,
8,,,,
9,,1499.0,,


### Čitanje i pisanje podataka

Čitanje: read_csv, read_sql, read_json

Pisanje: to_csv, to_sql, to_json

In [71]:
help(pd.read_csv)

Help on function read_csv in module pandas.io.parsers.readers:

read_csv(filepath_or_buffer: 'FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]', *, sep: 'str | None | lib.NoDefault' = <no_default>, delimiter: 'str | None | lib.NoDefault' = None, header: "int | Sequence[int] | None | Literal['infer']" = 'infer', names: 'Sequence[Hashable] | None | lib.NoDefault' = <no_default>, index_col: 'IndexLabel | Literal[False] | None' = None, usecols=None, dtype: 'DtypeArg | None' = None, engine: 'CSVEngine | None' = None, converters=None, true_values=None, false_values=None, skipinitialspace: 'bool' = False, skiprows=None, skipfooter: 'int' = 0, nrows: 'int | None' = None, na_values=None, keep_default_na: 'bool' = True, na_filter: 'bool' = True, verbose: 'bool' = False, skip_blank_lines: 'bool' = True, parse_dates: 'bool | Sequence[Hashable] | None' = None, infer_datetime_format: 'bool | lib.NoDefault' = <no_default>, keep_date_col: 'bool' = False, date_parser=<no_default>, date_format: 'str

In [88]:
cars_csv = pd.read_csv('cars.csv', header=1, skiprows=1)
cars_csv

Unnamed: 0,Chevrolet Chevelle Malibu;18.0;8;307.0;130.0;3504.;12.0;70;US
0,Buick Skylark 320;15.0;8;350.0;165.0;3693.;11....
1,Plymouth Satellite;18.0;8;318.0;150.0;3436.;11...
2,AMC Rebel SST;16.0;8;304.0;150.0;3433.;12.0;70;US
3,Ford Torino;17.0;8;302.0;140.0;3449.;10.5;70;US
4,Ford Galaxie 500;15.0;8;429.0;198.0;4341.;10.0...
...,...
400,Ford Mustang GL;27.0;4;140.0;86.00;2790.;15.6;...
401,Volkswagen Pickup;44.0;4;97.00;52.00;2130.;24....
402,Dodge Rampage;32.0;4;135.0;84.00;2295.;11.6;82;US
403,Ford Ranger;28.0;4;120.0;79.00;2625.;18.6;82;US


In [73]:
cars_csv = pd.read_csv('cars.csv', sep=';')

In [74]:
cars_csv

Unnamed: 0,Car,MPG,Cylinders,Displacement,Horsepower,Weight,Acceleration,Model,Origin
0,STRING,DOUBLE,INT,DOUBLE,DOUBLE,DOUBLE,DOUBLE,INT,CAT
1,Chevrolet Chevelle Malibu,18.0,8,307.0,130.0,3504.,12.0,70,US
2,Buick Skylark 320,15.0,8,350.0,165.0,3693.,11.5,70,US
3,Plymouth Satellite,18.0,8,318.0,150.0,3436.,11.0,70,US
4,AMC Rebel SST,16.0,8,304.0,150.0,3433.,12.0,70,US
...,...,...,...,...,...,...,...,...,...
402,Ford Mustang GL,27.0,4,140.0,86.00,2790.,15.6,82,US
403,Volkswagen Pickup,44.0,4,97.00,52.00,2130.,24.6,82,Europe
404,Dodge Rampage,32.0,4,135.0,84.00,2295.,11.6,82,US
405,Ford Ranger,28.0,4,120.0,79.00,2625.,18.6,82,US


In [75]:
cars_csv.index

RangeIndex(start=0, stop=407, step=1)

In [76]:
cars_csv.values

array([['STRING', 'DOUBLE', 'INT', ..., 'DOUBLE', 'INT', 'CAT'],
       ['Chevrolet Chevelle Malibu', '18.0', '8', ..., '12.0', '70',
        'US'],
       ['Buick Skylark 320', '15.0', '8', ..., '11.5', '70', 'US'],
       ...,
       ['Dodge Rampage', '32.0', '4', ..., '11.6', '82', 'US'],
       ['Ford Ranger', '28.0', '4', ..., '18.6', '82', 'US'],
       ['Chevy S-10', '31.0', '4', ..., '19.4', '82', 'US']], dtype=object)

In [77]:
cars_csv.columns

Index(['Car', 'MPG', 'Cylinders', 'Displacement', 'Horsepower', 'Weight',
       'Acceleration', 'Model', 'Origin'],
      dtype='object')

In [78]:
cars_csv.head()

Unnamed: 0,Car,MPG,Cylinders,Displacement,Horsepower,Weight,Acceleration,Model,Origin
0,STRING,DOUBLE,INT,DOUBLE,DOUBLE,DOUBLE,DOUBLE,INT,CAT
1,Chevrolet Chevelle Malibu,18.0,8,307.0,130.0,3504.,12.0,70,US
2,Buick Skylark 320,15.0,8,350.0,165.0,3693.,11.5,70,US
3,Plymouth Satellite,18.0,8,318.0,150.0,3436.,11.0,70,US
4,AMC Rebel SST,16.0,8,304.0,150.0,3433.,12.0,70,US


In [79]:
cars_csv.tail()

Unnamed: 0,Car,MPG,Cylinders,Displacement,Horsepower,Weight,Acceleration,Model,Origin
402,Ford Mustang GL,27.0,4,140.0,86.0,2790.0,15.6,82,US
403,Volkswagen Pickup,44.0,4,97.0,52.0,2130.0,24.6,82,Europe
404,Dodge Rampage,32.0,4,135.0,84.0,2295.0,11.6,82,US
405,Ford Ranger,28.0,4,120.0,79.0,2625.0,18.6,82,US
406,Chevy S-10,31.0,4,119.0,82.0,2720.0,19.4,82,US


In [80]:
cars_csv.dtypes

Car             object
MPG             object
Cylinders       object
Displacement    object
Horsepower      object
Weight          object
Acceleration    object
Model           object
Origin          object
dtype: object

In [81]:
df = cars_csv.drop([0])
df

Unnamed: 0,Car,MPG,Cylinders,Displacement,Horsepower,Weight,Acceleration,Model,Origin
1,Chevrolet Chevelle Malibu,18.0,8,307.0,130.0,3504.,12.0,70,US
2,Buick Skylark 320,15.0,8,350.0,165.0,3693.,11.5,70,US
3,Plymouth Satellite,18.0,8,318.0,150.0,3436.,11.0,70,US
4,AMC Rebel SST,16.0,8,304.0,150.0,3433.,12.0,70,US
5,Ford Torino,17.0,8,302.0,140.0,3449.,10.5,70,US
...,...,...,...,...,...,...,...,...,...
402,Ford Mustang GL,27.0,4,140.0,86.00,2790.,15.6,82,US
403,Volkswagen Pickup,44.0,4,97.00,52.00,2130.,24.6,82,Europe
404,Dodge Rampage,32.0,4,135.0,84.00,2295.,11.6,82,US
405,Ford Ranger,28.0,4,120.0,79.00,2625.,18.6,82,US


In [82]:
df.dtypes

Car             object
MPG             object
Cylinders       object
Displacement    object
Horsepower      object
Weight          object
Acceleration    object
Model           object
Origin          object
dtype: object

In [84]:
df['MPG'] = df['MPG'].astype('float')
df.dtypes

Car              object
MPG             float64
Cylinders        object
Displacement     object
Horsepower       object
Weight           object
Acceleration     object
Model            object
Origin           object
dtype: object

In [89]:
df['Cylinders'] = df['Cylinders'].astype('int64')
df['Displacement'] = df['Displacement'].astype('float')
df['Horsepower'] = df['Horsepower'].astype('float')
df['Weight'] = df['Weight'].astype('float')
df['Acceleration'] = df['Acceleration'].astype('float')
df['Model'] = df['Model'].astype('int64')
df.dtypes

Car              object
MPG             float64
Cylinders         int64
Displacement    float64
Horsepower      float64
Weight          float64
Acceleration    float64
Model             int64
Origin           object
dtype: object

Želimo provjeriti imamo li prazne ćelije, one koje nemaju nikakve podatke

In [90]:
df.empty

False

In [91]:
df.head()

Unnamed: 0,Car,MPG,Cylinders,Displacement,Horsepower,Weight,Acceleration,Model,Origin
1,Chevrolet Chevelle Malibu,18.0,8,307.0,130.0,3504.0,12.0,70,US
2,Buick Skylark 320,15.0,8,350.0,165.0,3693.0,11.5,70,US
3,Plymouth Satellite,18.0,8,318.0,150.0,3436.0,11.0,70,US
4,AMC Rebel SST,16.0,8,304.0,150.0,3433.0,12.0,70,US
5,Ford Torino,17.0,8,302.0,140.0,3449.0,10.5,70,US


In [92]:
df.tail()

Unnamed: 0,Car,MPG,Cylinders,Displacement,Horsepower,Weight,Acceleration,Model,Origin
402,Ford Mustang GL,27.0,4,140.0,86.0,2790.0,15.6,82,US
403,Volkswagen Pickup,44.0,4,97.0,52.0,2130.0,24.6,82,Europe
404,Dodge Rampage,32.0,4,135.0,84.0,2295.0,11.6,82,US
405,Ford Ranger,28.0,4,120.0,79.0,2625.0,18.6,82,US
406,Chevy S-10,31.0,4,119.0,82.0,2720.0,19.4,82,US


In [93]:
df.shape

(406, 9)

In [94]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 406 entries, 1 to 406
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Car           406 non-null    object 
 1   MPG           406 non-null    float64
 2   Cylinders     406 non-null    int64  
 3   Displacement  406 non-null    float64
 4   Horsepower    406 non-null    float64
 5   Weight        406 non-null    float64
 6   Acceleration  406 non-null    float64
 7   Model         406 non-null    int64  
 8   Origin        406 non-null    object 
dtypes: float64(5), int64(2), object(2)
memory usage: 28.7+ KB
