## Ejemplo 5: Manipulación de columnas

### 1. Objetivos:
    - Aprender a crear nuevas columnas en un `DataFrame`
    - Aprender a reasignar columnas
    - Aprender a eliminar columnas
 
---
    
### 2. Desarrollo:

In [1]:
import pandas as pd

Tenemos aquí un `DataFrame`:

In [2]:
datos = {
    "Nombre": ["Pepinillo Hernández", "Lúpulo de Dios", "Juan Juon", "Jimmy el Patatas", "Lorenzo Retaguardias"],
    "Cereal favorito": ["Korn Floks", "Verdurinis", "Zumbaritas", "Diabetukis, Papá", "Fibra Máxima 3000"],
    "Hora del desayuno": ["11:00", "07:30", "07:00", "08:30", "09:30"]
}

# Creamos el DataFrame df a partir del diccionario datos
df = pd.DataFrame(datos)

In [3]:
df

Unnamed: 0,Nombre,Cereal favorito,Hora del desayuno
0,Pepinillo Hernández,Korn Floks,11:00
1,Lúpulo de Dios,Verdurinis,07:30
2,Juan Juon,Zumbaritas,07:00
3,Jimmy el Patatas,"Diabetukis, Papá",08:30
4,Lorenzo Retaguardias,Fibra Máxima 3000,09:30


Podemos agregar nuevas columnas a nuestros `DataFrames` con una sintaxis muy parecida a la de los `diccionarios`

Dijimos que la estructura Serie era un antecesor del DataFrame, pensándola como columna...

Pues justamente así se crean nuevas columnas

df[nombre_de_mi_nueva_columna] = pd.Series[los datos que quiero agregar]

In [4]:
# Creo una nueva columna que se llama "Fruta para cereal"
# la creo a partir de una serie ['Pera', 'Manzana', 'Plátano', 'Guayaba', 'Pizza']
df["Fruta para cereal"] = pd.Series(['Pera', 'Manzana', 'Plátano', 'Guayaba', 'Pizza'])

In [5]:
# ¿Cómo quedó mi dataframe?
df

Unnamed: 0,Nombre,Cereal favorito,Hora del desayuno,Fruta para cereal
0,Pepinillo Hernández,Korn Floks,11:00,Pera
1,Lúpulo de Dios,Verdurinis,07:30,Manzana
2,Juan Juon,Zumbaritas,07:00,Plátano
3,Jimmy el Patatas,"Diabetukis, Papá",08:30,Guayaba
4,Lorenzo Retaguardias,Fibra Máxima 3000,09:30,Pizza


Podemos usar la misma sintaxis para asignar una nueva `Serie` a una columna existente:

In [6]:
df

Unnamed: 0,Nombre,Cereal favorito,Hora del desayuno,Fruta para cereal
0,Pepinillo Hernández,Korn Floks,11:00,Pera
1,Lúpulo de Dios,Verdurinis,07:30,Manzana
2,Juan Juon,Zumbaritas,07:00,Plátano
3,Jimmy el Patatas,"Diabetukis, Papá",08:30,Guayaba
4,Lorenzo Retaguardias,Fibra Máxima 3000,09:30,Pizza


In [7]:
# Podemos ver, que ya existe la columna
# 'Hora del desayuno', si queremos cambiar sus valores
# simplemente sobre-escribimos

In [8]:
# le asigno una nueva serie
df["Hora del desayuno"] = pd.Series(["10:30", "06:30", "06:00", "07:00", "08:00"])

df

Unnamed: 0,Nombre,Cereal favorito,Hora del desayuno,Fruta para cereal
0,Pepinillo Hernández,Korn Floks,10:30,Pera
1,Lúpulo de Dios,Verdurinis,06:30,Manzana
2,Juan Juon,Zumbaritas,06:00,Plátano
3,Jimmy el Patatas,"Diabetukis, Papá",07:00,Guayaba
4,Lorenzo Retaguardias,Fibra Máxima 3000,08:00,Pizza


También podemos eliminar una columna usando el siguiente método 'drop':

sintaxis general

df.drop(columns = [lista_con_las_columnas_que_quiero_eliminar])

In [9]:
# Este no existe
df.drop(columns=['Fruta con la que acompaña el cereal'])

KeyError: "['Fruta con la que acompaña el cereal'] not found in axis"

In [12]:
# aqui sólo hicimos una vista sin la columna, no hemos modificado
# el df
df.drop(columns=['Fruta para cereal'])

Unnamed: 0,Nombre,Cereal favorito,Hora del desayuno
0,Pepinillo Hernández,Korn Floks,10:30
1,Lúpulo de Dios,Verdurinis,06:30
2,Juan Juon,Zumbaritas,06:00
3,Jimmy el Patatas,"Diabetukis, Papá",07:00
4,Lorenzo Retaguardias,Fibra Máxima 3000,08:00


In [14]:
df

Unnamed: 0,Nombre,Cereal favorito,Hora del desayuno,Fruta para cereal
0,Pepinillo Hernández,Korn Floks,10:30,Pera
1,Lúpulo de Dios,Verdurinis,06:30,Manzana
2,Juan Juon,Zumbaritas,06:00,Plátano
3,Jimmy el Patatas,"Diabetukis, Papá",07:00,Guayaba
4,Lorenzo Retaguardias,Fibra Máxima 3000,08:00,Pizza


Recuerda que estos métodos sólo regresan "vistas". Para que el cambio permanezca, tenemos que asignar el resultado de la operación a la variable `df` o a alguna otra variable:

In [16]:
df_dropped = df.drop(columns=['Fruta para cereal'])

df

Unnamed: 0,Nombre,Cereal favorito,Hora del desayuno,Fruta para cereal
0,Pepinillo Hernández,Korn Floks,10:30,Pera
1,Lúpulo de Dios,Verdurinis,06:30,Manzana
2,Juan Juon,Zumbaritas,06:00,Plátano
3,Jimmy el Patatas,"Diabetukis, Papá",07:00,Guayaba
4,Lorenzo Retaguardias,Fibra Máxima 3000,08:00,Pizza


In [17]:
df_dropped

Unnamed: 0,Nombre,Cereal favorito,Hora del desayuno
0,Pepinillo Hernández,Korn Floks,10:30
1,Lúpulo de Dios,Verdurinis,06:30
2,Juan Juon,Zumbaritas,06:00
3,Jimmy el Patatas,"Diabetukis, Papá",07:00
4,Lorenzo Retaguardias,Fibra Máxima 3000,08:00


In [19]:
locals()

{'__name__': '__main__',
 '__doc__': 'Automatically created module for IPython interactive environment',
 '__package__': None,
 '__loader__': None,
 '__spec__': None,
 '__builtin__': <module 'builtins' (built-in)>,
 '__builtins__': <module 'builtins' (built-in)>,
 '_ih': ['',
  'import pandas as pd',
  'datos = {\n    "Nombre": ["Pepinillo Hernández", "Lúpulo de Dios", "Juan Juon", "Jimmy el Patatas", "Lorenzo Retaguardias"],\n    "Cereal favorito": ["Korn Floks", "Verdurinis", "Zumbaritas", "Diabetukis, Papá", "Fibra Máxima 3000"],\n    "Hora del desayuno": ["11:00", "07:30", "07:00", "08:30", "09:30"]\n}\n\n# Creamos el DataFrame df a partir del diccionario datos\ndf = pd.DataFrame(datos)',
  'df',
  '# Creo una nueva columna que se llama "Fruta para cereal"\n# la creo a partir de una serie [\'Pera\', \'Manzana\', \'Plátano\', \'Guayaba\', \'Pizza\']\ndf["Fruta para cereal"] = pd.Series([\'Pera\', \'Manzana\', \'Plátano\', \'Guayaba\', \'Pizza\'])',
  '# ¿Cómo quedó mi dataframe?\ndf