### Pandas
Data scientists often work with large data sets that we need to inspect and manipulate. [Pandas](https://pandas.pydata.org/) is a popular package for handling datasets in Python, and will be often used in our data science courses. In this notebook we'll introduce the basics of loading and inspecting a data set with Pandas, which is typically imported with the name `pd`:

In [1]:
import pandas as pd

# File Inspection
Data sets are often saved as comma-separated values (CSV) files. You can inspect these with Excel or a simple text editor. Here we use the `read_csv` function from Pandas to load a dataset on the trees in Delft. This data set is made by the city of Delft and is [publicly available](https://data.overheid.nl/dataset/bomen-in-beheer-door-gemeente-delft).

In [2]:
trees_df = pd.read_csv('Bomen_in_beheer_door_gemeente_Delft.csv')

The dataset is loaded to the variable `trees_df` which is part of the DataFrame class. The DataFrame is the most used class of the Pandas package. Requesting `trees_df` gives a short overview of the dataset:

In [3]:
trees_df

Unnamed: 0,X,Y,ID,BORNAME,ELEMENTNUMMER,BEHEERGROEP,AANLEGJAAR,BOOMSORTIMENT,BOOMSTATUS,TAKVRIJE_ZONE,...,EXTRA_INFORMATIE_3,GROENGEBIEDCODE,GROENGEBIEDNAAM,GEMEENTE,BUURT,WIJK,LIGGING,BEHEEROBJECTSOORT,BEHEEROBJECTOMSCHRIJVING,OBJECTID
0,4.374816,52.029683,37732,bomen,1151,Niet vrij uitgroeiende boom,,Pyrus calleryana 'Chanticleer',,Bereikt,...,IC2,01.16.0001,Bedrijventerrein Ypenburgsepoort,Delft,Bedrijventerrein Ypenburgsepoort,16 Delftse Hout,Binnen de bebouwde kom,bm,01.16.0001.bm1151,1
1,4.373551,52.031048,37780,bomen,1184,Niet vrij uitgroeiende boom,,Acer campestre,,"Onbereikbaar, snoeiingreep ongewenst",...,IC2,01.16.0001,Bedrijventerrein Ypenburgsepoort,Delft,Bedrijventerrein Ypenburgsepoort,16 Delftse Hout,Binnen de bebouwde kom,bm,01.16.0001.bm1184,2
2,4.345117,51.994902,8154,bomen,43,Niet vrij uitgroeiende boom,1980.0,Ulmus x hollandica 'Vegeta',,"Onbereikbaar, snoeiingreep ongewenst",...,IC3,01.25.0005,Het Rode Dorp,Delft,Het Rode Dorp,25 Buitenhof,Binnen de bebouwde kom,bm,01.25.0005.bm43,3
3,4.352882,52.013582,14766,bomen,89,Niet vrij uitgroeiende boom,1968.0,Aesculus hippocastanum 'Baumannii',,"Onbereikbaar, snoeiingreep ongewenst",...,IC1,01.11.0002,Centrum-west,Delft,Centrum-West,11 Binnenstad,Binnen de bebouwde kom,bm,01.11.0002.bm89,4
4,4.357415,51.993470,17389,bomen,252,Niet vrij uitgroeiende boom,1968.0,Aesculus hippocastanum 'Baumannii',,"Onbereikbaar, snoeiingreep ongewenst",...,IC3,01.24.0006,Voorhof-hoogbouw,Delft,Voorhof-Hoogbouw,24 Voorhof,Binnen de bebouwde kom,bm,01.24.0006.bm252,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
35378,4.343097,51.992807,35294,bomen,489,Boom Nader te bepalen,1983.0,Betula pendula,,,...,IC3,01.25.0003,Gillisbuurt,Delft,,25 Buitenhof,Binnen de bebouwde kom,bm,01.25.0003.bm489,35379
35379,4.343493,51.993034,35296,bomen,491,Boom Nader te bepalen,1983.0,Crataegus laevigata,,,...,IC3,01.25.0003,Gillisbuurt,Delft,,25 Buitenhof,Binnen de bebouwde kom,bm,01.25.0003.bm491,35380
35380,4.343393,51.992935,35297,bomen,492,Boom Nader te bepalen,1983.0,Betula pendula,,Bereikt,...,IC3,01.25.0003,Gillisbuurt,Delft,,25 Buitenhof,Binnen de bebouwde kom,bm,01.25.0003.bm492,35381
35381,4.343578,51.992749,35301,bomen,495,Niet vrij uitgroeiende boom,1983.0,Fraxinus excelsior,,"Onbereikbaar, snoeiingreep ongewenst",...,IC3,01.25.0003,Gillisbuurt,Delft,,25 Buitenhof,Binnen de bebouwde kom,bm,01.25.0003.bm495,35382


This DataFrame has 35384 rows that represent the different objects in the dataset and 28 columns that represent the different properties of each object. The output actually has 29 columns, but the first "column" doesn't have a label. This first column contains the index of each object, which in this case is a number, but can also be a string.  

Note that the DataFrame holds different variable types:
- `float` (X,Y)
- `int` (ID,ELEMENTNUMMER)
- `string` (BEHEERGROEP,BOOMSORTIMENT).

We don't have to inspect the table itself to get its size, the column labels, and the variable types. These are attributes of the DataFrame that can be accessed directly. For instance the size of the table is requested with attribute `shape`:

In [4]:
trees_df.shape # show the number of rows and columns

(35383, 28)

The column labels can be found with the attribute `columns`. Show the column labels below.

In [5]:
%%assignment
# YOUR CODE HERE
trees_df.columns

Index(['X', 'Y', 'ID', 'BORNAME', 'ELEMENTNUMMER', 'BEHEERGROEP', 'AANLEGJAAR',
       'BOOMSORTIMENT', 'BOOMSTATUS', 'TAKVRIJE_ZONE',
       'OMGEVINGSRISICOKLASSEN', 'AMBITIENIVEAU', 'HOOGTE', 'DIAMETER',
       'STANDPLAATS', 'BEHEERDER', 'EIGENAAR', 'EXTRA_INFORMATIE_2',
       'EXTRA_INFORMATIE_3', 'GROENGEBIEDCODE', 'GROENGEBIEDNAAM', 'GEMEENTE',
       'BUURT', 'WIJK', 'LIGGING', 'BEHEEROBJECTSOORT',
       'BEHEEROBJECTOMSCHRIJVING', 'OBJECTID'],
      dtype='object')

In [6]:
%%check
len(result) == 28
'BOOMSORTIMENT','TAKVRIJE_ZONE','GROENGEBIEDCODE' in result

0
Correct!


Similarly, show the variable types with the attribute `dtypes`.

In [7]:
%%assignment
# YOUR CODE HERE
trees_df.dtypes

X                           float64
Y                           float64
ID                            int64
BORNAME                      object
ELEMENTNUMMER                 int64
BEHEERGROEP                  object
AANLEGJAAR                  float64
BOOMSORTIMENT                object
BOOMSTATUS                   object
TAKVRIJE_ZONE                object
OMGEVINGSRISICOKLASSEN       object
AMBITIENIVEAU                object
HOOGTE                       object
DIAMETER                    float64
STANDPLAATS                  object
BEHEERDER                    object
EIGENAAR                     object
EXTRA_INFORMATIE_2           object
EXTRA_INFORMATIE_3           object
GROENGEBIEDCODE              object
GROENGEBIEDNAAM              object
GEMEENTE                     object
BUURT                        object
WIJK                         object
LIGGING                      object
BEHEEROBJECTSOORT            object
BEHEEROBJECTOMSCHRIJVING     object
OBJECTID                    

In [None]:
%%check
len(result) == 28
result['DIAMETER'].name == 'float64'
result['ID'].name == 'int64'
result['GROENGEBIEDCODE'].name == 'object'

0
Correct!


The row labels are requested with the attribute `index`:

In [None]:
trees_df.index

RangeIndex(start=0, stop=35383, step=1)

Currently, `index` returns an iterator that numbers each row. However, we can also specify to use one of the columns as row label. This is done by setting the option `index_col` of `read_csv` to the desired column label. 
In the current file, the column `ID` seems a good candidate as row label. Reload the dataset to the variable `df2` with the values of `ID` as row labels.

In [None]:
%%assignment
# YOUR CODE HERE
df2 = pd.read_csv('Bomen_in_beheer_door_gemeente_Delft.csv', index_col='ID')
df2 # leave this to show the result

Unnamed: 0_level_0,X,Y,BORNAME,ELEMENTNUMMER,BEHEERGROEP,AANLEGJAAR,BOOMSORTIMENT,BOOMSTATUS,TAKVRIJE_ZONE,OMGEVINGSRISICOKLASSEN,...,EXTRA_INFORMATIE_3,GROENGEBIEDCODE,GROENGEBIEDNAAM,GEMEENTE,BUURT,WIJK,LIGGING,BEHEEROBJECTSOORT,BEHEEROBJECTOMSCHRIJVING,OBJECTID
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
37732,4.374816,52.029683,bomen,1151,Niet vrij uitgroeiende boom,,Pyrus calleryana 'Chanticleer',,Bereikt,Verhoogd,...,IC2,01.16.0001,Bedrijventerrein Ypenburgsepoort,Delft,Bedrijventerrein Ypenburgsepoort,16 Delftse Hout,Binnen de bebouwde kom,bm,01.16.0001.bm1151,1
37780,4.373551,52.031048,bomen,1184,Niet vrij uitgroeiende boom,,Acer campestre,,"Onbereikbaar, snoeiingreep ongewenst",Algemeen,...,IC2,01.16.0001,Bedrijventerrein Ypenburgsepoort,Delft,Bedrijventerrein Ypenburgsepoort,16 Delftse Hout,Binnen de bebouwde kom,bm,01.16.0001.bm1184,2
8154,4.345117,51.994902,bomen,43,Niet vrij uitgroeiende boom,1980.0,Ulmus x hollandica 'Vegeta',,"Onbereikbaar, snoeiingreep ongewenst",Algemeen,...,IC3,01.25.0005,Het Rode Dorp,Delft,Het Rode Dorp,25 Buitenhof,Binnen de bebouwde kom,bm,01.25.0005.bm43,3
14766,4.352882,52.013582,bomen,89,Niet vrij uitgroeiende boom,1968.0,Aesculus hippocastanum 'Baumannii',,"Onbereikbaar, snoeiingreep ongewenst",Algemeen,...,IC1,01.11.0002,Centrum-west,Delft,Centrum-West,11 Binnenstad,Binnen de bebouwde kom,bm,01.11.0002.bm89,4
17389,4.357415,51.993470,bomen,252,Niet vrij uitgroeiende boom,1968.0,Aesculus hippocastanum 'Baumannii',,"Onbereikbaar, snoeiingreep ongewenst",Algemeen,...,IC3,01.24.0006,Voorhof-hoogbouw,Delft,Voorhof-Hoogbouw,24 Voorhof,Binnen de bebouwde kom,bm,01.24.0006.bm252,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
35294,4.343097,51.992807,bomen,489,Boom Nader te bepalen,1983.0,Betula pendula,,,Algemeen,...,IC3,01.25.0003,Gillisbuurt,Delft,,25 Buitenhof,Binnen de bebouwde kom,bm,01.25.0003.bm489,35379
35296,4.343493,51.993034,bomen,491,Boom Nader te bepalen,1983.0,Crataegus laevigata,,,Algemeen,...,IC3,01.25.0003,Gillisbuurt,Delft,,25 Buitenhof,Binnen de bebouwde kom,bm,01.25.0003.bm491,35380
35297,4.343393,51.992935,bomen,492,Boom Nader te bepalen,1983.0,Betula pendula,,Bereikt,Algemeen,...,IC3,01.25.0003,Gillisbuurt,Delft,,25 Buitenhof,Binnen de bebouwde kom,bm,01.25.0003.bm492,35381
35301,4.343578,51.992749,bomen,495,Niet vrij uitgroeiende boom,1983.0,Fraxinus excelsior,,"Onbereikbaar, snoeiingreep ongewenst",Algemeen,...,IC3,01.25.0003,Gillisbuurt,Delft,,25 Buitenhof,Binnen de bebouwde kom,bm,01.25.0003.bm495,35382


In [None]:
%%check 
hashresult == 1591492765


0
Correct!


A quick overview of all the above information (column names, number of rows, variable types) can be made using the function `info`. It also provides the number of non-empty cells for each column, en the memory size. 

In [None]:
trees_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35383 entries, 0 to 35382
Data columns (total 28 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   X                         35383 non-null  float64
 1   Y                         35383 non-null  float64
 2   ID                        35383 non-null  int64  
 3   BORNAME                   35383 non-null  object 
 4   ELEMENTNUMMER             35383 non-null  int64  
 5   BEHEERGROEP               35383 non-null  object 
 6   AANLEGJAAR                27292 non-null  float64
 7   BOOMSORTIMENT             35383 non-null  object 
 8   BOOMSTATUS                1106 non-null   object 
 9   TAKVRIJE_ZONE             34041 non-null  object 
 10  OMGEVINGSRISICOKLASSEN    35383 non-null  object 
 11  AMBITIENIVEAU             35383 non-null  object 
 12  HOOGTE                    33592 non-null  object 
 13  DIAMETER                  1772 non-null   float64
 14  STANDP

The `DIAMETER` column only has 1772 rows with non-null values. The value of the other rows are indicated as `NaN`: Not a Number, which means these cells are empty. Missing values in data sets are common in practice, but we'll see that Pandas is very flexible with this. 

### Which statement(s) are correct?

In [None]:
%%mmc file_inspection
OBJECTID has missing values
AANLEGJAAR has type int
Er zijn 28 kolommen

VBox(children=(Checkbox(value=False, description='OBJECTID has missing values', layout=Layout(width='max-conte…

In [None]:
%%check
hashresult == 3818810794

0
Correct!
