# Pandas DataFrame UltraQuick Tutorial

En aquest document es presenten els DataFrames, que es l'estructura de dades central en l'API de Pandas. Aquest document no és un tutorial complet de DataFrames. En canvi, proporciona una introducció molt ràpida a les parts de DataFrames requerides per realitzar cursos de Machine Learning.

Un DataFrame és similar a una fulla de càlcul en memoria. Al igual que una fulla de càlcul:

* Un DataFrame almacena datos en celdas.
* Un DataFrame tiene columnas con nombres (usualmente) y filas numeradas.



## Importar NumPy i mòdul pandas

Executa el següent codi per importar els mòduls Numpy i pandas. 

In [None]:
import numpy as np
import pandas as pd

## Creant un DataFrame

El següent codi crea un Dataframe simple que conté 10 cel·les organizades tal com es veu:

  * 5 files
  * 2 columnes, una anomenada `temperature` i un altre anomenat `activity`

El següent codi instancia una classe `pd.DataFrame`  per generar un Dataframe La classe utilitza dos arguments.

  * El primer argument proveeix les dades per emplenar les 10 cel·les. El codi crida a `np.array`  per generar l'array Numpy 5x2.
  * El segon argument identifica els noms de les dues columnes.

In [None]:
# Crear i emplenar un 5x2 NumPy array.
my_data = np.array([[0, 3], [10, 7], [20, 9], [30, 14], [40, 15]])

# Crear una llista Python que guardi els noms de les dues columnes.
my_column_names = ['temperature', 'activity']

# Crear un DataFrame.
my_dataframe = pd.DataFrame(data=my_data, columns=my_column_names)

# Imprimir tot el  DataFrame
print(my_dataframe)

## Afegir una nova columna al Dataframe

Per afegir una nova columna a un Dataframe de pandas, només s'ha d'assignar els valors a la nova columna. Per exemple, el següent codi crea una tercera columna anomenada `adjusted` a `my_dataframe`: 

In [None]:
# Crea una nova columna anomenada adjusted.
my_dataframe["adjusted"] = my_dataframe["activity"] + 2

# Imprimeix tot el Dataframe
print(my_dataframe)

## Especificar unsubset de un DataFrame

Pandas proveeix moltes vies per agafar només específiques columnes, files o cel·les de un DataFrame. 

In [None]:
print("Rows #0, #1, and #2:")
print(my_dataframe.head(3), '\n')

print("Row #2:")
print(my_dataframe.iloc[[2]], '\n')

print("Rows #1, #2, and #3:")
print(my_dataframe[1:4], '\n')

print("Column 'temperature':")
print(my_dataframe['temperature'])

## Task 1: Create a DataFrame

Do the following:

  1. Create an 3x4 (3 rows x 4 columns) pandas DataFrame in which the columns are named `Eleanor`,  `Chidi`, `Tahani`, and `Jason`.  Populate each of the 12 cells in the DataFrame with a random integer between 0 and 100, inclusive.

  2. Output the following:

     * the entire DataFrame
     * the value in the cell of row #1 of the `Eleanor` column

  3. Create a fifth column named `Janet`, which is populated with the row-by-row sums of `Tahani` and `Jason`.

To complete this task, it helps to know the NumPy basics covered in the NumPy UltraQuick Tutorial. 


In [None]:
# Write your code here.

In [None]:
#@title Double-click for a solution to Task 1.

# Create a Python list that holds the names of the four columns.
my_column_names = ['Eleanor', 'Chidi', 'Tahani', 'Jason']

# Create a 3x4 numpy array, each cell populated with a random integer.
my_data = np.random.randint(low=0, high=101, size=(3, 4))

# Create a DataFrame.
df = pd.DataFrame(data=my_data, columns=my_column_names)

# Print the entire DataFrame
print(df)

# Print the value in row #1 of the Eleanor column.
print("\nSecond row of the Eleanor column: %d\n" % df['Eleanor'][1])

# Create a column named Janet whose contents are the sum
# of two other columns.
df['Janet'] = df['Tahani'] + df['Jason']

# Print the enhanced DataFrame
print(df)

## Copying a DataFrame (optional)

Pandas provides two different ways to duplicate a DataFrame:

* **Referencing.** If you assign a DataFrame to a new variable, any change to the DataFrame or to the new variable will be reflected in the other. 
* **Copying.** If you call the `pd.DataFrame.copy` method, you create a true independent copy.  Changes to the original DataFrame or to the copy will not be reflected in the other. 

The difference is subtle, but important.

In [None]:
# Create a reference by assigning my_dataframe to a new variable.
print("Experiment with a reference:")
reference_to_df = df

# Print the starting value of a particular cell.
print("  Starting value of df: %d" % df['Jason'][1])
print("  Starting value of reference_to_df: %d\n" % reference_to_df['Jason'][1])

# Modify a cell in df.
df.at[1, 'Jason'] = df['Jason'][1] + 5
print("  Updated df: %d" % df['Jason'][1])
print("  Updated reference_to_df: %d\n\n" % reference_to_df['Jason'][1])

# Create a true copy of my_dataframe
print("Experiment with a true copy:")
copy_of_my_dataframe = my_dataframe.copy()

# Print the starting value of a particular cell.
print("  Starting value of my_dataframe: %d" % my_dataframe['activity'][1])
print("  Starting value of copy_of_my_dataframe: %d\n" % copy_of_my_dataframe['activity'][1])

# Modify a cell in df.
my_dataframe.at[1, 'activity'] = my_dataframe['activity'][1] + 3
print("  Updated my_dataframe: %d" % my_dataframe['activity'][1])
print("  copy_of_my_dataframe does not get updated: %d" % copy_of_my_dataframe['activity'][1])