In [1]:
# importamos la pandas para poder trabajar en la lección
import pandas as pd

In [2]:
# importamos un nuevo fichero de datos para entender mejor estos conceptos
df = pd.read_csv("data.csv", index_col=["Day"])
df

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Fri,Shower,10.51,26,79
Sat,Shower,11.07,27,62
Sun,Sunny,17.5,20,10


### Asignación directa

Supongamos que queremos tener la temperatura también en grados Farenheit. Podríamos crearnos una columna nueva aplicando una serie de operaciones sobre la que ya tenemos: 

In [3]:
# lo primero que hacemos es establecer el nombre de la nueva columna que queremos, y esto lo igualaremos a la operación que queremos realizar.
# en este caso, todos los valores de la columna 'Temperature' multiplicados por 9/5 y a todo esto le sumamos 32
# lo que va a hacer es ir valor a valor (celda a celda) aplicando las operaciones que le hemos especificado. 

df["Farenheit"] = (df["Temperature"] * 9/5) + 32

# si ahora volvemos a ver nuestro dataframe tendremos una nueva columna
# con la temperatura convertida en Farenheit

df.head()

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity,Farenheit
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Mon,Sunny,12.79,13,30,55.022
Tue,Sunny,19.67,28,96,67.406
Wed,Sunny,17.51,16,20,63.518
Thu,Cloudy,14.44,11,22,57.992
Fri,Shower,10.51,26,79,50.918


### `.assign()`

La sintaxis básica del método `assign()` de Pandas es la siguiente:

```python
df_new = df.assign(nueva_columna=expresión)
```

In [4]:
# creamos una nueva columna llamada `temp_f` que será el resultado de la operación que hemos explicado previamente
df.assign(temp_f=df['Temperature'] * 9 / 5 + 32)

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity,Farenheit,temp_f
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Mon,Sunny,12.79,13,30,55.022,55.022
Tue,Sunny,19.67,28,96,67.406,67.406
Wed,Sunny,17.51,16,20,63.518,63.518
Thu,Cloudy,14.44,11,22,57.992,57.992
Fri,Shower,10.51,26,79,50.918,50.918
Sat,Shower,11.07,27,62,51.926,51.926
Sun,Sunny,17.5,20,10,63.5,63.5


In [5]:
# comprobamos que en el  DataFrame se ha creado.... 
df

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity,Farenheit
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Mon,Sunny,12.79,13,30,55.022
Tue,Sunny,19.67,28,96,67.406
Wed,Sunny,17.51,16,20,63.518
Thu,Cloudy,14.44,11,22,57.992
Fri,Shower,10.51,26,79,50.918
Sat,Shower,11.07,27,62,51.926
Sun,Sunny,17.5,20,10,63.5


In [6]:
# Pero ... ¿Qué ha pasado? la ha creado, pero no la ha guardado (ver el output de arriba donde me falta la columna creada con assign), para eso tendremos que sobreescribir el DataFrame
df = df.assign(temp_f=df['Temperature'] * 9 / 5 + 32)

# comprobamos de nuevo si la columna se ha creado
df

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity,Farenheit,temp_f
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Mon,Sunny,12.79,13,30,55.022,55.022
Tue,Sunny,19.67,28,96,67.406,67.406
Wed,Sunny,17.51,16,20,63.518,63.518
Thu,Cloudy,14.44,11,22,57.992,57.992
Fri,Shower,10.51,26,79,50.918,50.918
Sat,Shower,11.07,27,62,51.926,51.926
Sun,Sunny,17.5,20,10,63.5,63.5


### `insert()`

La sintaxis básica del método `insert()` es la siguiente:

```python
df.insert(loc, column, value, allow_duplicates=False)
```

In [7]:
# en este ejemplo estamos creando una columna nueva que se llama "indice" en la primera columna con números del 1 al 7. 

df.insert(0, "indice", range(1,8))

# comprobamos si la coolumna se ha creado correctamente
df

Unnamed: 0_level_0,indice,Weather,Temperature,Wind,Humidity,Farenheit,temp_f
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Mon,1,Sunny,12.79,13,30,55.022,55.022
Tue,2,Sunny,19.67,28,96,67.406,67.406
Wed,3,Sunny,17.51,16,20,63.518,63.518
Thu,4,Cloudy,14.44,11,22,57.992,57.992
Fri,5,Shower,10.51,26,79,50.918,50.918
Sat,6,Shower,11.07,27,62,51.926,51.926
Sun,7,Sunny,17.5,20,10,63.5,63.5


In [15]:
# ⚠️ Si volvieramos a crear otra colummna con el nombre de una columna ya existente nos daría error, 
# porque no podemos insertar dos columnas con el mismo nombre, ya que el parámetro `allow_duplicates` esta puesto en False
# incluso si la crearamos en otra posicion, seguiriamos teniendo el error. 

df.insert(0, "indice", range(1,8))

ValueError: cannot insert indice, already exists