# Acceso y actualización de los datos

En esta Sección mostramos los mecanismos para acceder a los datos contenidos en una serie o un dataframe, así como los mecanismos para realizar su actualización. 

In [1]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
%matplotlib inline

## Acceso a los datos

Para acceder a las columnas, podemos usar la notación '.'  o con la notación empleada en los diccionarios, es decir, notación de corchetes y el nombre de la columna. Como podemos observar, el resultado es un objeto de tipo `Series`:

In [2]:
tabla3 = pd.DataFrame( data = [ ('Estonia', 8.4, 7.7, 6.7, 'A'), 
                                ('Ireland',193.5, 227.76, 221.05, 'B'),
                                ('Greece',1.4,1.6,1.5, 'A'),
                                ('Spain',50.52,58.9,46.72, 'C'),
                                ('France',415.09,423.1,400.52, 'A') ],
                       columns =  ['Desc', '2004', '2005', '2006', 'Tipo'], 
                       index = [ 'EE', 'IE', 'EL', 'ES', 'FR'])
tabla3

Unnamed: 0,Desc,2004,2005,2006,Tipo
EE,Estonia,8.4,7.7,6.7,A
IE,Ireland,193.5,227.76,221.05,B
EL,Greece,1.4,1.6,1.5,A
ES,Spain,50.52,58.9,46.72,C
FR,France,415.09,423.1,400.52,A


In [3]:
tabla3.Desc #el punto es lo mismo que el $ en R

EE    Estonia
IE    Ireland
EL     Greece
ES      Spain
FR     France
Name: Desc, dtype: object

### Selección por etiqueta - `loc`

Permite recuperar partes del DataFrame indicando el nombre las de filas y columnas que queremos seleccionar, es decir, indicando la/las etiquetas de cada uno de los índices. Presentamos algunos ejemplos que muestran el comportamiento. Para recuperar los datos de los países desde 'IE' hasta 'ES' escribimos los siguiente: SI solo ponemos loc es por etiqueta , para acceder al indice es iloc


In [4]:
tabla3.loc['IE': 'ES']      #son las tres inclsuive

Unnamed: 0,Desc,2004,2005,2006,Tipo
IE,Ireland,193.5,227.76,221.05,B
EL,Greece,1.4,1.6,1.5,A
ES,Spain,50.52,58.9,46.72,C


Si solo nos interesan la producción en los años 2004 y 2005 de los paises desde 'IE' hasta 'ES' escribimos los siguiente:

In [5]:
res = tabla3.loc['IE':'ES', ['2004', '2005']]     #esto para que me de tmbn las columnas
res

Unnamed: 0,2004,2005
IE,193.5,227.76
EL,1.4,1.6
ES,50.52,58.9


Para seleccionar los datos de producción de solo dos paises ('IE' y 'ES') en los años 2004 y 2006, escribimos lo siguiente:

In [6]:
res = tabla3.loc[['IE','ES'], ['2004']]     
res

Unnamed: 0,2004
IE,193.5
ES,50.52


Para seleccionar un valor escalar, por ejemplo la producción de mantequilla en el año 2006 en el pais 'IE', escribimos:

In [31]:
tabla3.loc['IE', '2006']     

221.05

### Selección por posición - `iloc`

La propiedad `iloc` permite recuperar partes del `DataFrame` indexando filas y columnas con valores de tipo `int` comenzando desde el 0. Para seleccionar la primera fila del `DataFrame` escribimos lo siguiente:

In [32]:
tabla3.iloc[0] #me lo devuelve en forma de serie

Desc    Estonia
2004        8.4
2005        7.7
2006        6.7
Tipo          A
Name: EE, dtype: object

El resultado es un objeto de tipo `Series`. El nombre de la serie coincide con el valor del índice de la fila seleccionada. Para recuperar las tres primeras filas y la primera y última columna, escribimos lo siguiente:

In [7]:
tabla3.iloc[:3,[0,-1]]

Unnamed: 0,Desc,Tipo
EE,Estonia,A
IE,Ireland,B
EL,Greece,A


In [8]:
tabla3.head(3)

Unnamed: 0,Desc,2004,2005,2006,Tipo
EE,Estonia,8.4,7.7,6.7,A
IE,Ireland,193.5,227.76,221.05,B
EL,Greece,1.4,1.6,1.5,A


In [35]:
tabla3.tail(100)

Unnamed: 0,Desc,2004,2005,2006,Tipo
EE,Estonia,8.4,7.7,6.7,A
IE,Ireland,193.5,227.76,221.05,B
EL,Greece,1.4,1.6,1.5,A
ES,Spain,50.52,58.9,46.72,C
FR,France,415.09,423.1,400.52,A


In [9]:
tabla3.tail(2)

Unnamed: 0,Desc,2004,2005,2006,Tipo
ES,Spain,50.52,58.9,46.72,C
FR,France,415.09,423.1,400.52,A


In [12]:
tabla3.sample(2)#me saca una muestra de dos filas aleatorias

Unnamed: 0,Desc,2004,2005,2006,Tipo
EE,Estonia,8.4,7.7,6.7,A
FR,France,415.09,423.1,400.52,A


Otra forma de seleccionar partes de un dataframe es mediante el uso de filtros, de forma similar a cómo se aplicaban en el caso de los arrays de Numpy. 

In [36]:
tabla2 = pd.DataFrame([10.7, 7.5, 7.1, 17.8, 7.9 ], 
                     columns = ['Valor'], 
                     index = ['Murcia','Cantabria', 'Galicia', 'Melilla','Canarias' ])


In [37]:
tabla2

Unnamed: 0,Valor
Murcia,10.7
Cantabria,7.5
Galicia,7.1
Melilla,17.8
Canarias,7.9


In [38]:
tabla2.Valor < 10

Murcia       False
Cantabria     True
Galicia       True
Melilla      False
Canarias      True
Name: Valor, dtype: bool

In [39]:
res = tabla2[tabla2.Valor < 10]

Al aplicar el filtro, se mantienen las filas que cumplen el filtro.

In [40]:
res

Unnamed: 0,Valor
Cantabria,7.5
Galicia,7.1
Canarias,7.9


## Actualización de datos de un DataFrame

En muchas ocasiones los datos que se están analizando no continen toda la información  que necesitamos para nuestro análisis, o símplemente no están en el formato apropiado. En estos casos, Pandas ofrece la posibilidad de modificar los valores del `DataFrame`, borrar columnas, crear columnas con nuevos valores o incluso columnas cuyos valores se calculan a partir de los valores de otras columnas.

### Modificando valores del DataFrame

Para actualizar los datos de una columna podemos utilizar un valor concreto o un array de valores. 

In [13]:
tabla3.Tipo = 'D'#te sustituye todo por D


In [14]:
tabla3['nueva'] = 'p'

In [15]:
tabla3

Unnamed: 0,Desc,2004,2005,2006,Tipo,nueva
EE,Estonia,8.4,7.7,6.7,D,p
IE,Ireland,193.5,227.76,221.05,D,p
EL,Greece,1.4,1.6,1.5,D,p
ES,Spain,50.52,58.9,46.72,D,p
FR,France,415.09,423.1,400.52,D,p


In [25]:
tabla3.Tipo = ['D', 'D', 'D', 'E', 'F']

In [26]:
tabla3

Unnamed: 0,Desc,2004,2005,2006,Tipo,nueva,Nueva,Total,Total2
EE,Estonia,8.4,7.7,6.7,D,p,10,22.8,22.8
IE,Ireland,193.5,227.76,221.05,D,p,20,642.31,642.31
EL,Greece,1.4,1.6,1.5,D,p,30,4.5,4.5
ES,Spain,50.52,58.9,46.72,E,p,40,156.14,156.14
FR,France,415.09,423.1,400.52,F,p,50,1238.71,1238.71


In [30]:
#expresion de la columna 2006 con un solo decimal#quiero aplicafr una funcion a cada elemnto de la serie- funcion map y otra es round
tabla3.Total2 = tabla3.Total2.map(lambda num: round(num,1))
tabla3
#otra forma
round(tabla3.Total,1)

EE      22.8
IE     642.3
EL       4.5
ES     156.1
FR    1238.7
Name: Total, dtype: float64

In [31]:
#redomdear a un decimal todas las columnas numericas de la tabla
tabla3.round(1)

Unnamed: 0,Desc,2004,2005,2006,Tipo,nueva,Nueva,Total,Total2
EE,Estonia,8.4,7.7,6.7,D,p,10,22.8,22.8
IE,Ireland,193.5,227.8,221.0,D,p,20,642.3,642.3
EL,Greece,1.4,1.6,1.5,D,p,30,4.5,4.5
ES,Spain,50.5,58.9,46.7,E,p,40,156.1,156.1
FR,France,415.1,423.1,400.5,F,p,50,1238.7,1238.7


__map__

También podemos modificar el valor de una columna aplicando una función de transformación. Por ejemplo, si queremos transformar los valores de la columna `Desc` a mayúsculas, escribimos lo siguiente:

In [49]:
tabla3.Desc = tabla3.Desc.map(str.upper)


In [50]:
tabla3

Unnamed: 0,Desc,2004,2005,2006,Tipo,nueva,inicial
EE,ESTONIA,8.4,7.7,6.7,D,p,ESTONIA
IE,IRELAND,193.5,227.76,221.05,D,p,IRELAND
EL,GREECE,1.4,1.6,1.5,D,p,GREECE
ES,SPAIN,50.52,58.9,46.72,E,p,SPAIN
FR,FRANCE,415.09,423.1,400.52,F,p,FRANCE


In [None]:
#tabla3['Nueva'] dara error porque no existe esa columna
tabla3.pop('Nueva')para eliminar esa columna

In [21]:
tabla3['Nueva']= range(10,51,10)
tabla3

Unnamed: 0,Desc,2004,2005,2006,Tipo,nueva,Nueva
EE,Estonia,8.4,7.7,6.7,D,p,10
IE,Ireland,193.5,227.76,221.05,D,p,20
EL,Greece,1.4,1.6,1.5,D,p,30
ES,Spain,50.52,58.9,46.72,D,p,40
FR,France,415.09,423.1,400.52,D,p,50


In [23]:
tabla3['Total'] = tabla3['2004']+tabla3['2005']+tabla3['2006']
tabla3

Unnamed: 0,Desc,2004,2005,2006,Tipo,nueva,Nueva,Total
EE,Estonia,8.4,7.7,6.7,D,p,10,22.8
IE,Ireland,193.5,227.76,221.05,D,p,20,642.31
EL,Greece,1.4,1.6,1.5,D,p,30,4.5
ES,Spain,50.52,58.9,46.72,D,p,40,156.14
FR,France,415.09,423.1,400.52,D,p,50,1238.71


In [24]:
tabla3['Total'] = tabla3['2004']+tabla3['2005']+tabla3['2006']
tabla3['Total2'] = tabla3.loc[:, '2004':'2006'].sum(axis=1)
tabla3

Unnamed: 0,Desc,2004,2005,2006,Tipo,nueva,Nueva,Total,Total2
EE,Estonia,8.4,7.7,6.7,D,p,10,22.8,22.8
IE,Ireland,193.5,227.76,221.05,D,p,20,642.31,642.31
EL,Greece,1.4,1.6,1.5,D,p,30,4.5,4.5
ES,Spain,50.52,58.9,46.72,D,p,40,156.14,156.14
FR,France,415.09,423.1,400.52,D,p,50,1238.71,1238.71


__applymap__

La función `map` aplica la función `lambda` a cada uno de los valores de la columna. Si queremos modificar todos los datos de tipo numérico del `DataFrame` de forma que los datos se expresen con un único decimal, usamos la función `applymap` junto con una función `lambda` como se muestra a continuación:

In [52]:
tabla3 = tabla3.applymap(lambda x : round(x,1) if type(x) == float else x)
tabla3

Unnamed: 0,Desc,2004,2005,2006,Tipo,nueva,inicial,Suma
EE,ESTONIA,8.4,7.7,6.7,D,p,ESTONIA,22.8
IE,IRELAND,193.5,227.8,221.1,D,p,IRELAND,642.3
EL,GREECE,1.4,1.6,1.5,D,p,GREECE,4.5
ES,SPAIN,50.5,58.9,46.7,E,p,SPAIN,156.1
FR,FRANCE,415.1,423.1,400.5,F,p,FRANCE,1238.7


### Eliminar columnas en un DataFrame

__pop__, __drop__

El método `pop` de la clase `DataFrame` elimina la columna especificada y devuelve dicha columna en un objeto de tipo `Series`. Este método modifica el `DataFrame`. Por otro lado, el método `drop` permite borrar tanto filas como columnas, con la diferencia de que no devuelve los elementos borrados y no modifica el Dataframe, sino que devuelve una copia:

In [53]:
columna_tipo = tabla3.pop('Tipo')
columna_tipo

EE    D
IE    D
EL    D
ES    E
FR    F
Name: Tipo, dtype: object

In [54]:
type(columna_tipo)

pandas.core.series.Series

In [55]:
tabla3

Unnamed: 0,Desc,2004,2005,2006,nueva,inicial,Suma
EE,ESTONIA,8.4,7.7,6.7,p,ESTONIA,22.8
IE,IRELAND,193.5,227.8,221.1,p,IRELAND,642.3
EL,GREECE,1.4,1.6,1.5,p,GREECE,4.5
ES,SPAIN,50.5,58.9,46.7,p,SPAIN,156.1
FR,FRANCE,415.1,423.1,400.5,p,FRANCE,1238.7


También es posible utilizar el método `drop` para eliminar tanto filas como columnas. Para borrar columnas con `drop`, es necesario indicarlo mediante el argumento `axis` del método:

In [57]:
nuevo_df = tabla3.drop(['IE','FR'])
nuevo_df


Unnamed: 0,Desc,2004,2005,2006,nueva,inicial,Suma
EE,ESTONIA,8.4,7.7,6.7,p,ESTONIA,22.8
EL,GREECE,1.4,1.6,1.5,p,GREECE,4.5
ES,SPAIN,50.5,58.9,46.7,p,SPAIN,156.1


In [39]:
tabla3.drop(etc)

Unnamed: 0,Desc,2004,2005,2006,Tipo,nueva,Nueva,Total,Total2
EL,Greece,1.4,1.6,1.5,D,p,30,4.5,4.5
ES,Spain,50.52,58.9,46.72,E,p,40,156.14,156.1
FR,France,415.09,423.1,400.52,F,p,50,1238.71,1238.7


In [40]:
tabla3.drop('Desc', axis=1, inplace=True)

In [41]:
tabla3

Unnamed: 0,2004,2005,2006,Tipo,nueva,Nueva,Total,Total2
EL,1.4,1.6,1.5,D,p,30,4.5,4.5
ES,50.52,58.9,46.72,E,p,40,156.14,156.1
FR,415.09,423.1,400.52,F,p,50,1238.71,1238.7


### Insertar datos en un DataFrame

Para añadir nuevas columnas al `DataFrame`, ya sean calculadas o no, podemos usar  la notación de corchetes junto con el nombre de la nueva columna:

In [62]:
tabla3['Unidad'] = '1000 T'
tabla3

Unnamed: 0,2004,2005,2006,nueva,inicial,Suma,Unidad
EE,8.4,7.7,6.7,p,ESTONIA,22.8,1000 T
IE,193.5,227.8,221.1,p,IRELAND,642.3,1000 T
EL,1.4,1.6,1.5,p,GREECE,4.5,1000 T
ES,50.5,58.9,46.7,p,SPAIN,156.1,1000 T
FR,415.1,423.1,400.5,p,FRANCE,1238.7,1000 T


O podemos crear una columna nueva calculada a partir de otras columnas del `DataFrame`. Por ejemplo, para crear la columna de totales, escribimos lo siguiente:

In [63]:
tabla3['Total'] = tabla3['2004'] + tabla3['2005'] + tabla3['2006']
tabla3

Unnamed: 0,2004,2005,2006,nueva,inicial,Suma,Unidad,Total
EE,8.4,7.7,6.7,p,ESTONIA,22.8,1000 T,22.8
IE,193.5,227.8,221.1,p,IRELAND,642.3,1000 T,642.4
EL,1.4,1.6,1.5,p,GREECE,4.5,1000 T,4.5
ES,50.5,58.9,46.7,p,SPAIN,156.1,1000 T,156.1
FR,415.1,423.1,400.5,p,FRANCE,1238.7,1000 T,1238.7


Otra forma de añadir información al `DataFrame`es mediante el método `insert`. Para insertar la columna `Unidad` que hemos eliminado anteriormente en una determinada posición, escribimos lo siguiente:

In [42]:
#inserta columna qque se llame porcentaje 'PORC'
porcentaje = tabla3.Total * 0.1
porcentaje#es una serie que es una columna que la puedo insertar donde quiera con insert


EL      0.450
ES     15.614
FR    123.871
Name: Total, dtype: float64

In [46]:
#tabla3.insert()#necesita parametros, el primer parametro de esta funcion es la localizacion
tabla3.insert(1, 'Porc', porcentaje)
tabla3

Unnamed: 0,2004,Porc,2005,2006,Tipo,nueva,Nueva,Total,Total2
EL,1.4,0.45,1.6,1.5,D,p,30,4.5,4.5
ES,50.52,15.614,58.9,46.72,E,p,40,156.14,156.1
FR,415.09,123.871,423.1,400.52,F,p,50,1238.71,1238.7


In [64]:
# inserta la columna en la segunda posición 
tabla3.insert(2, 'Tipo', columna_tipo)
tabla3

Unnamed: 0,2004,2005,Tipo,2006,nueva,inicial,Suma,Unidad,Total
EE,8.4,7.7,D,6.7,p,ESTONIA,22.8,1000 T,22.8
IE,193.5,227.8,D,221.1,p,IRELAND,642.3,1000 T,642.4
EL,1.4,1.6,D,1.5,p,GREECE,4.5,1000 T,4.5
ES,50.5,58.9,E,46.7,p,SPAIN,156.1,1000 T,156.1
FR,415.1,423.1,F,400.5,p,FRANCE,1238.7,1000 T,1238.7


--------