# Acceso y actualización de los datos

En esta Sección mostramos los mecanismos para acceder a los datos contenidos en una serie o un dataframe, así como los mecanismos para realizar su actualización. 

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

## Acceso a los datos

Para acceder a las columnas, podemos usar la notación '.'  o con la notación empleada en los diccionarios, es decir, notación de corchetes y el nombre de la columna. Como podemos observar, el resultado es un objeto de tipo `Series`:

In [2]:
tabla3 = pd.DataFrame( data = [ ('Estonia', 8.4, 7.7, 6.7, 'A'), 
                                ('Ireland',193.5, 227.76, 221.05, 'B'),
                                ('Greece',1.4,1.6,1.5, 'A'),
                                ('Spain',50.52,58.9,46.72, 'C'),
                                ('France',415.09,423.1,400.52, 'A') ],
                       columns =  ['Desc', '2004', '2005', '2006', 'Tipo'], 
                       index = [ 'EE', 'IE', 'EL', 'ES', 'FR'])
tabla3

Unnamed: 0,Desc,2004,2005,2006,Tipo
EE,Estonia,8.4,7.7,6.7,A
IE,Ireland,193.5,227.76,221.05,B
EL,Greece,1.4,1.6,1.5,A
ES,Spain,50.52,58.9,46.72,C
FR,France,415.09,423.1,400.52,A


In [3]:
tabla3['2004']

EE      8.40
IE    193.50
EL      1.40
ES     50.52
FR    415.09
Name: 2004, dtype: float64

Para acceder a partes de un DataFrame, conjunto de filas, conjunto de columnas, etc., se puede utilizar la misma notación empleada para los arrays, pero esa opción es poco eficiente en el caso de `DataFrame`. Una alternativa mas eficiente es utilizar los atributos `loc` e  `iloc`. Veamos cada uno de ellos:


### Selección por etiqueta - `loc`

Permite recuperar partes del DataFrame indicando el nombre las de filas y columnas que queremos seleccionar, es decir, indicando la/las etiquetas de cada uno de los índices. Presentamos algunos ejemplos que muestran el comportamiento. Para recuperar los datos de los países desde 'IE' hasta 'ES' escribimos los siguiente:

In [4]:
tabla3.loc['IE': 'ES']         

Unnamed: 0,Desc,2004,2005,2006,Tipo
IE,Ireland,193.5,227.76,221.05,B
EL,Greece,1.4,1.6,1.5,A
ES,Spain,50.52,58.9,46.72,C


Si solo nos interesan la producción en los años 2004 y 2005 de los paises desde 'IE' hasta 'ES' escribimos los siguiente:

In [5]:
res = tabla3.loc['IE':'ES', ['2004', '2005']]     
res

Unnamed: 0,2004,2005
IE,193.5,227.76
EL,1.4,1.6
ES,50.52,58.9


Para seleccionar los datos de producción de solo dos paises ('IE' y 'ES') en los años 2004 y 2006, escribimos lo siguiente:

In [6]:
res = tabla3.loc[['IE','ES'], ['2004', '2006']]     
res

Unnamed: 0,2004,2006
IE,193.5,221.05
ES,50.52,46.72


Para seleccionar un valor escalar, por ejemplo la producción de mantequilla en el año 2006 en el pais 'IE', escribimos:

In [7]:
tabla3.loc['IE', '2006']     

221.05

### Selección por posición - `iloc`

La propiedad `iloc` permite recuperar partes del `DataFrame` indexando filas y columnas con valores de tipo `int` comenzando desde el 0. Para seleccionar la primera fila del `DataFrame` escribimos lo siguiente:

In [8]:
tabla3.iloc[0] 

Desc    Estonia
2004        8.4
2005        7.7
2006        6.7
Tipo          A
Name: EE, dtype: object

El resultado es un objeto de tipo `Series`. El nombre de la serie coincide con el valor del índice de la fila seleccionada. Para recuperar las tres primeras filas y la primera y última columna, escribimos lo siguiente:

In [9]:
tabla3.iloc[:3,[0,-1]]

Unnamed: 0,Desc,Tipo
EE,Estonia,A
IE,Ireland,B
EL,Greece,A


Para seleccionar un valor escalar, podemos utilizar tanto `iloc` como la propiedad  `iat` de la siguiente forma:

In [10]:
tabla3.iloc[1,0]

'Ireland'

### Selección mediante filtros

Otra forma de seleccionar partes de un dataframe es mediante el uso de filtros, de forma similar a cómo se aplicaban en el caso de los arrays de Numpy. 

In [11]:
tabla2 = pd.DataFrame([10.7, 7.5, 7.1, 17.8, 7.9 ], 
                     columns = ['Valor'], 
                     index = ['Murcia','Cantabria', 'Galicia', 'Melilla','Canarias' ])


In [12]:
tabla2

Unnamed: 0,Valor
Murcia,10.7
Cantabria,7.5
Galicia,7.1
Melilla,17.8
Canarias,7.9


In [13]:
m = tabla2[tabla2.Valor < 10]
m

Unnamed: 0,Valor
Cantabria,7.5
Galicia,7.1
Canarias,7.9


## Actualización de datos de un DataFrame

En muchas ocasiones los datos que se están analizando no continen toda la información  que necesitamos para nuestro análisis, o símplemente no están en el formato apropiado. En estos casos, Pandas ofrece la posibilidad de modificar los valores del `DataFrame`, borrar columnas, crear columnas con nuevos valores o incluso columnas cuyos valores se calculan a partir de los valores de otras columnas.

### Modificando valores del DataFrame

Para actualizar los datos de una columna podemos utilizar un valor concreto o un array de valores. 

In [14]:
tabla3.Tipo = 0


In [15]:
tabla3

Unnamed: 0,Desc,2004,2005,2006,Tipo
EE,Estonia,8.4,7.7,6.7,0
IE,Ireland,193.5,227.76,221.05,0
EL,Greece,1.4,1.6,1.5,0
ES,Spain,50.52,58.9,46.72,0
FR,France,415.09,423.1,400.52,0


In [16]:
tabla3.Tipo = ['D', 'D', 'D', 'E', 'F']

In [17]:
tabla3

Unnamed: 0,Desc,2004,2005,2006,Tipo
EE,Estonia,8.4,7.7,6.7,D
IE,Ireland,193.5,227.76,221.05,D
EL,Greece,1.4,1.6,1.5,D
ES,Spain,50.52,58.9,46.72,E
FR,France,415.09,423.1,400.52,F


También podemos modificar el valor de una columna aplicando una función de transformación. Por ejemplo, si queremos transformar los valores de la columna `Desc` a mayúsculas, escribimos lo siguiente:

In [18]:
tabla3.Desc = tabla3.Desc.map(lambda x :str.upper(x))


In [19]:
tabla3

Unnamed: 0,Desc,2004,2005,2006,Tipo
EE,ESTONIA,8.4,7.7,6.7,D
IE,IRELAND,193.5,227.76,221.05,D
EL,GREECE,1.4,1.6,1.5,D
ES,SPAIN,50.52,58.9,46.72,E
FR,FRANCE,415.09,423.1,400.52,F


La función `map` aplica la función `lambda` a cada uno de los valores de la columna. Si queremos modificar todos los datos de tipo numérico del `DataFrame` de forma que los datos se expresen con un único decimal, usamos la función `applymap` junto con una función `lambda` como se muestra a continuación:

In [20]:
tabla3.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, EE to FR
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Desc    5 non-null      object 
 1   2004    5 non-null      float64
 2   2005    5 non-null      float64
 3   2006    5 non-null      float64
 4   Tipo    5 non-null      object 
dtypes: float64(3), object(2)
memory usage: 412.0+ bytes


In [21]:
tabla3 = tabla3.applymap(lambda x : round(x,1) if type(x) == float else x)
tabla3

Unnamed: 0,Desc,2004,2005,2006,Tipo
EE,ESTONIA,8.4,7.7,6.7,D
IE,IRELAND,193.5,227.8,221.1,D
EL,GREECE,1.4,1.6,1.5,D
ES,SPAIN,50.5,58.9,46.7,E
FR,FRANCE,415.1,423.1,400.5,F


### Eliminar columnas en un DataFrame

El método `pop` de los `DataFrame` elimina la columna especificada y devuelve dicha columna en un objeto de tipo `Series`. Este método modifica el `DataFrame`. Por otro lado, el método `drop` permite borrar tanto filas como columnas, con la diferencia de que no devuelve los elementos borrados y no modifica el Dataframe, sino que devuelve una copia:

In [22]:
columna_tipo = tabla3.pop('Tipo')
columna_tipo

EE    D
IE    D
EL    D
ES    E
FR    F
Name: Tipo, dtype: object

In [23]:
tabla3

Unnamed: 0,Desc,2004,2005,2006
EE,ESTONIA,8.4,7.7,6.7
IE,IRELAND,193.5,227.8,221.1
EL,GREECE,1.4,1.6,1.5
ES,SPAIN,50.5,58.9,46.7
FR,FRANCE,415.1,423.1,400.5


In [24]:
type(columna_tipo)

pandas.core.series.Series

In [25]:
tabla3

Unnamed: 0,Desc,2004,2005,2006
EE,ESTONIA,8.4,7.7,6.7
IE,IRELAND,193.5,227.8,221.1
EL,GREECE,1.4,1.6,1.5
ES,SPAIN,50.5,58.9,46.7
FR,FRANCE,415.1,423.1,400.5


También es posible utilizar el método `drop` para eliminar tanto filas como columnas. Para borrar columnas con `drop`, es necesario indicarlo mediante el argumento `axis` del método:

In [26]:
nuevo_df = tabla3.drop(['IE','FR'])
nuevo_df


Unnamed: 0,Desc,2004,2005,2006
EE,ESTONIA,8.4,7.7,6.7
EL,GREECE,1.4,1.6,1.5
ES,SPAIN,50.5,58.9,46.7


In [27]:
tabla3

Unnamed: 0,Desc,2004,2005,2006
EE,ESTONIA,8.4,7.7,6.7
IE,IRELAND,193.5,227.8,221.1
EL,GREECE,1.4,1.6,1.5
ES,SPAIN,50.5,58.9,46.7
FR,FRANCE,415.1,423.1,400.5


### Insertar datos en un DataFrame

Para añadir nuevas columnas al `DataFrame`, ya sean calculadas o no, podemos usar  la notación de corchetes junto con el nombre de la nueva columna, al estilo de los diccionarios:

In [28]:
tabla3['Unidad'] = '1000 T'
tabla3

Unnamed: 0,Desc,2004,2005,2006,Unidad
EE,ESTONIA,8.4,7.7,6.7,1000 T
IE,IRELAND,193.5,227.8,221.1,1000 T
EL,GREECE,1.4,1.6,1.5,1000 T
ES,SPAIN,50.5,58.9,46.7,1000 T
FR,FRANCE,415.1,423.1,400.5,1000 T


In [29]:
tabla3['2009'] = [7.71, 188.1, 1.1, 36.7, 410.09  ]
tabla3

Unnamed: 0,Desc,2004,2005,2006,Unidad,2009
EE,ESTONIA,8.4,7.7,6.7,1000 T,7.71
IE,IRELAND,193.5,227.8,221.1,1000 T,188.1
EL,GREECE,1.4,1.6,1.5,1000 T,1.1
ES,SPAIN,50.5,58.9,46.7,1000 T,36.7
FR,FRANCE,415.1,423.1,400.5,1000 T,410.09


O podemos crear una columna nueva calculada a partir de otras columnas del `DataFrame`. Por ejemplo, para crear la columna de totales, escribimos lo siguiente:

In [30]:
tabla3['Total'] = tabla3['2004'] + tabla3['2005'] + tabla3['2006']
tabla3

Unnamed: 0,Desc,2004,2005,2006,Unidad,2009,Total
EE,ESTONIA,8.4,7.7,6.7,1000 T,7.71,22.8
IE,IRELAND,193.5,227.8,221.1,1000 T,188.1,642.4
EL,GREECE,1.4,1.6,1.5,1000 T,1.1,4.5
ES,SPAIN,50.5,58.9,46.7,1000 T,36.7,156.1
FR,FRANCE,415.1,423.1,400.5,1000 T,410.09,1238.7


## Referencias

* [Big Data. Análisis de datos con Python. Sarasa Cabezuelo, Antonio; García Ruiz, Yolanda Aditorial Garceta. ISBN: 978-84-1622-883-6](http://www.garceta.es/libro.php?ISBN=978-84-1622-883-6)

* [Python Data Analysis Library](http://pandas.pydata.org/)
* [Python for Data Analysis](http://shop.oreilly.com/product/0636920023784.do)


--------