# Data Analysis - Programming - 3
## Week 2

## Onderwerpen week 2

- Pandas - DataFrame  
  Leerdoelen:
  - DataFrames maken en lezen  
    (random variates, Python lists, csv- of Excel-bestand)
  - data in DataFrames selecteren  
    (indexing & slicing op basis van indices en labels, boolean indexing)
  - samenvatting produceren voor DataFrame
  - statistische functies toepassen op kolommen in DataFrames

In [60]:
%pylab
%matplotlib inline
import scipy.stats as st
import pandas as pd

Using matplotlib backend: Qt4Agg
Populating the interactive namespace from numpy and matplotlib


## Pandas - DataFrame (1)

- een DataFrame in Pandas is als een tabel in een spreadsheet in Excel  
en bestaat dan ook uit rijen en kolommen
- iedere kolom is een pandas.Series en heeft dus een eigen datatype,  
dat kan van alles zijn: float, int, string, bool etc.
- in een Jupyter Notebook worden DataFrames als tabellen afgedrukt,  
eventueel ingekort om zaken leesbaar te houden

## Pandas - DataFrame (2)

- je kunt DataFrames op veel verschillende manieren maken:

```python
# bijvoorbeeld op basis van Python lists (numpy arrays):
pd.DataFrame(
    [
        ["Bas", 1.93],
        ["Chris", 1.96],
        ["Frans", 1.91],
    ],
    columns=["naam", "lengte"]
)
```

```python
# of Python dicts:
pd.DataFrame(
    {
        "naam": pd.Series(["Bas", "Chris", "Frans"]),
        "lengte": pd.Series([1.93, 1.96, 1.91]),
    }    
)
```

## Pandas - DataFrame (3)

- maar het meest gebruikelijk is het om data in te lezen uit een bestand  
met behulp van `pd.read_csv()` of `pd.read_excel()`:

```python
df = pd.read_excel(r"data/iris.data.xlsx")
df
```

## Pandas - DataFrame (4)

- net als bij pd.Series kun je een samenvatting voor iedere (numerieke) kolom 
krijgen:

```python
df = pd.read_excel(r"data/iris.data.xlsx")
df.describe()
```

## Pandas - DataFrame (5)

- de rijen in een DataFrame zijn, zoals de waarden in een Series, geindexeerd:

```python
df = pd.DataFrame({
        "naam": pd.Series(["Bas", "Chris", "Frans"]),
        "lengte": pd.Series([1.93, 1.96, 1.91])
})
df.index
```

- in het voorbeeld zou een andere index wellicht meer voor de hand liggen:

```python
df = pd.DataFrame(
    [1.93, 1.96, 1.91],
    columns=["lengte"],
    index=["Bas", "Chris", "Frans"]
)
print(df)
print(df.index)
```

## Pandas - DataFrame (6)

- kolommen in een DataFrame kun je selecteren middels de kolomnamen,  
dat levert dan (voor 1 kolom) een Series:

```python
df = pd.read_excel(r"data/iris.data.xlsx")
print(df.columns)
df["petal length"]
```

- en voor meerdere kolommen een DataFrame:

```python
# let op: extra brackets om de list met column names!
df[["petal length", "petal width", "class"]]
```

## Pandas - DataFrame (7)

- rijen in een DataFrame kun je selecteren op basis van labels:

```python
df.loc[3:10]  # de index/labeling van de iris data set is numeriek
```

- op basis van indices van rijen (vgl lists):

```python
df.iloc[3:10]
# of ook:
df[3:10]
```

- of op basis van labels met fallback naar indices:

```python
df.ix[3:10]
```

## Pandas - DataFrame (8)

- net als bij Series (np.arrays) mag je ook indexeren met booleans:

```python
selection = df["petal length"] < 4.0
# selection is nu een Series van booleans
# met True bij iedere rij waar petal length < 4
# en False voor iedere rij met petal length >= 4
df[selection]

# of:
df.loc[df["class"] == "Iris-virginica", ["petal length"]]
```

- boolean expressions kun je combineren met logische operatoren
- voor indexing zijn dat niet `and`, `or` en `not`, maar  
  `&` (and), `|` (or) en `~` (not)
- er *moeten* haakjes om de boolean expressions
- bijvoorbeeld:

```python
df[(df["petal length"] < 4.0) & ~(df["sepal width"] > 3)]
```

## Pandas - DataFrame (9)

- er zijn nog vele andere manieren om specifieke rijen te selecteren,  
zoek eventueel op Google of in de Pandas documentatie naar voorbeelden 
naar wat nodig hebt
- voorbeelden van veel gebruikte selectie-functies zijn:  
`where()`, `query()`, `lookup()` en comparisons voor specifieke datatypen zoals `pd.Series.str.contains()`

## Oefening

- [Voeg je gegevens toe in een lege rij](https://goo.gl/QwE9X4)


- welke kolomparen vertonen onderling correlatie?
- pas lineaire regressie toe op deze kolommen

In [75]:
from io import StringIO
import requests

url = (
    "https://docs.google.com/spreadsheets/d/"
    "1L7ssCGoqnJSizt-J5OH0XryoBgN3fZ8md9RngnlyUNo/export?format=csv&gid=0"
)
r = requests.get(url)
data = r.content.decode("utf-8")
df = pd.read_csv(StringIO(data), index_col=0)
df.dropna(inplace=True)