# Introduktion til Pandas DataFrame

Her introducerer vi [**DataFrames**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html), som er den centrale datastruktur i pandas API.

En DataFrame ligner en hukommelsesskabelon. Ligesom en skabelon:

  * En DataFrame opbevarer data i celler.
  * En DataFrame har navngivne kolonner (normalt) og nummererede rækker.

Som med NumPy kommer vi ikke til at gå i dybden med Pandas, men vi skal have en grundlæggende forståelse for at kunne bruge det til resten af vores 10 dages ML kursus.


## Importér NumPy- og pandas-moduler

Kør følgende kode for at importere NumPy- og pandas-modulerne.


In [1]:
import numpy as np
import pandas as pd

## Oprettelse af en DataFrame

Den følgende kodecelle opretter en simpel DataFrame, der indeholder 10 celler, organiseret som følger:

  * 5 rækker
  * 2 kolonner, en kaldet `temperatur` og den anden kaldet `aktivitet`

Den følgende kodecelle instantierer en `pd.DataFrame`-klasse for at generere en DataFrame. Klassen tager to argumenter:

  * Det første argument giver dataene til at udfylde de 10 celler. Kodecellen kalder `np.array` for at generere en 5x2 NumPy-array.
  * Det andet argument identificerer navnene på de to kolonner.

**Bemærk**: Redefiner ikke variabler i den følgende kodecelle. Efterfølgende kodeceller bruger disse variabler.

In [2]:
# Create and populate a 5x2 NumPy array.
my_data = np.array([[0, 3], [10, 7], [20, 9], [30, 14], [40, 15]])

# Create a Python list that holds the names of the two columns.
my_column_names = ['temperature', 'activity']

# Create a DataFrame.
my_dataframe = pd.DataFrame(data=my_data, columns=my_column_names)

# Print the entire DataFrame
print(my_dataframe)

   temperature  activity
0            0         3
1           10         7
2           20         9
3           30        14
4           40        15


## Tilføjelse af en ny kolonne til en DataFrame

Du kan tilføje en ny kolonne til en eksisterende pandas DataFrame ved blot at tildele værdier til et nyt kolonnenavn. For eksempel opretter den følgende kode en tredje kolonne kaldet `tilpasset` i `min_dataframe`:

In [3]:
# Create a new column named adjusted.
my_dataframe["adjusted"] = my_dataframe["activity"] + 2

# Print the entire DataFrame
print(my_dataframe)

   temperature  activity  adjusted
0            0         3         5
1           10         7         9
2           20         9        11
3           30        14        16
4           40        15        17


## Specificering af et udsnit af en DataFrame

Pandas giver flere måder at isolere specifikke rækker, kolonner, slices eller celler i en DataFrame på.

In [8]:
print("Rows #0, #1, and #2:")
print(my_dataframe.head(3), '\n')

print("Row #2:")
print(my_dataframe.iloc[[2]], '\n')

print("Rows #1, #2, and #3:")
print(my_dataframe[3:5], '\n')

print("Column 'temperature':")
print(my_dataframe['temperature'])

Rows #0, #1, and #2:
   temperature  activity  adjusted
0            0         3         5
1           10         7         9
2           20         9        11 

Row #2:
   temperature  activity  adjusted
2           20         9        11 

Rows #1, #2, and #3:
   temperature  activity  adjusted
3           30        14        16
4           40        15        17 

Column 'temperature':
0     0
1    10
2    20
3    30
4    40
Name: temperature, dtype: int32


## Opgave 1: Opret en DataFrame

Gør følgende:

1. Opret en 3x4 (3 rækker x 4 kolonner) pandas DataFrame, hvor kolonnerne har navnene `Eleanor`, `Chidi`, `Tahani` og `Jason`. Udfyld hver af de 12 celler i DataFrame med et tilfældigt heltal mellem 0 og 100.

2. Output følgende:

   * hele DataFrame
   * værdien i cellen i række #1 i kolonnen `Eleanor`

3. Opret en femte kolonne kaldet `Janet`, som udfyldes med række-for-række-summen af `Tahani` og `Jason`.

I skal bruge kode fra den tidligere del omkring NumPy



In [22]:

# Create a Python list that holds the names of the four columns.
my_column_names = ['Eleanor', 'Chidi', 'Tahani', 'Jason']

# Create a 3x4 numpy array, each cell populated with a random integer.
my_data = np.random.randint(low=0, high=101, size=(3, 4))

# Create a DataFrame.
df = pd.DataFrame(data=my_data, columns=my_column_names)

# Print the entire DataFrame
print(df)
print("Column 'Eleanor':")
print(df['Eleanor'].head(1))
df['Janet'] = df['Tahani'] + df['Jason']
print(df)

   Eleanor  Chidi  Tahani  Jason
0       39     31      62     48
1       55     58      52     14
2       79     73       0     37
Column 'Eleanor':
0    39
1    55
2    79
Name: Eleanor, dtype: int32
   Eleanor  Chidi  Tahani  Jason  Janet
0       39     31      62     48    110
1       55     58      52     14     66
2       79     73       0     37     37


In [None]:
#@title Double-click for a solution to Task 1.

# Create a Python list that holds the names of the four columns.
my_column_names = ['Eleanor', 'Chidi', 'Tahani', 'Jason']

# Create a 3x4 numpy array, each cell populated with a random integer.
my_data = np.random.randint(low=0, high=101, size=(3, 4))

# Create a DataFrame.
df = pd.DataFrame(data=my_data, columns=my_column_names)

# Print the entire DataFrame
print(df)

# Print the value in row #1 of the Eleanor column.
print("\nSecond row of the Eleanor column: %d\n" % df['Eleanor'][1])

# Create a column named Janet whose contents are the sum
# of two other columns.
df['Janet'] = df['Tahani'] + df['Jason']

# Print the enhanced DataFrame
print(df)

## Kopiering af en DataFrame
Pandas giver to forskellige måder at kopiere en DataFrame på:

* **Reference.** Hvis du tildeler en DataFrame til en ny variabel, vil eventuelle ændringer i DataFrame eller den nye variabel afspejles i den anden.
* **Kopiering.** Hvis du kalder metoden `pd.DataFrame.copy`, opretter du en ægte uafhængig kopi. Ændringer i den originale DataFrame eller kopien vil ikke blive afspejlet i den anden.

Forskellen er subtil, men vigtig.
I kender det nok fra at have arbejde med arrays i andre sprog, hvor der er forskel på om det peger på det samme sted i memory eller om den laver en helt ny kopi!

In [23]:
# Create a reference by assigning my_dataframe to a new variable.
print("Experiment with a reference:")
reference_to_df = df

# Print the starting value of a particular cell.
print("  Starting value of df: %d" % df['Jason'][1])
print("  Starting value of reference_to_df: %d\n" % reference_to_df['Jason'][1])

# Modify a cell in df.
df.at[1, 'Jason'] = df['Jason'][1] + 5
print("  Updated df: %d" % df['Jason'][1])
print("  Updated reference_to_df: %d\n\n" % reference_to_df['Jason'][1])

# Create a true copy of my_dataframe
print("Experiment with a true copy:")
copy_of_my_dataframe = my_dataframe.copy()

# Print the starting value of a particular cell.
print("  Starting value of my_dataframe: %d" % my_dataframe['activity'][1])
print("  Starting value of copy_of_my_dataframe: %d\n" % copy_of_my_dataframe['activity'][1])

# Modify a cell in df.
my_dataframe.at[1, 'activity'] = my_dataframe['activity'][1] + 3
print("  Updated my_dataframe: %d" % my_dataframe['activity'][1])
print("  copy_of_my_dataframe does not get updated: %d" % copy_of_my_dataframe['activity'][1])

Experiment with a reference:
  Starting value of df: 14
  Starting value of reference_to_df: 14

  Updated df: 19
  Updated reference_to_df: 19


Experiment with a true copy:
  Starting value of my_dataframe: 7
  Starting value of copy_of_my_dataframe: 7

  Updated my_dataframe: 10
  copy_of_my_dataframe does not get updated: 7
