# <center>Tablas con Pandas<center>

![Pandas en Tablas](imagenes/pandas.jpg)

In [1]:
import pandas as pd

## Lectura de un archivo con datos separados por comas

Leer un archivo de texto con los datos separados por caracteres como la *coma* es muy facil. Primero armamos el archivo copiando y pegando los datos de la tabla siguiente (esta imagen no es editable, pero el archivo pdf en el que se encuentra sí). 

![Tc99m](imagenes/tc99m.png)

Los datos los cargamos en una estructura que se llama DataFrame, que es básicamente una tabla, sobre la cual después podremos trabajar con muchas funciones.
Antes de leer un archivo vamos a generar una lista de palabras para encabezar cada columna:

In [2]:
lista_encabezados = ["Emisión", "Frecuencia", "E", "Producto"]

En la celda siguiente vemos cómo se lee un archivo CSV (comma separated values). Si no usamos el parámetro *names* para definir el nombre de las columnas, usará la primera fila que lea como título para las mismas. Cada fila de datos automáticamente recibe un número de índice, que empieza en 0 y se incrementa en pasos de 1.

In [3]:
tc99m = pd.read_csv("tc99m.csv", names=lista_encabezados)
tc99m

Unnamed: 0,Emisión,Frecuencia,E,Producto
0,ce-M γ 1,0.914,1.749E-03*,0.0016
1,ce-N+ γ 1,0.0757,2.174E-03*,0.000165
2,γ 2,0.889,1.405E-01,0.125
3,ce-K γ 2,0.0879,1.194E-01,0.0105
4,ce-L1 γ 2,0.00967,1.374E-01,0.00133
5,ce-L2 γ 2,0.00061,1.377E-01,8.4e-05
6,ce-L3 γ 2,0.000301,1.378E-01,4.1e-05
7,ce-M γ 2,0.00192,1.400E-01*,0.00027
8,ce-N+ γ 2,0.000371,1.405E-01*,5.2e-05
9,ce-K γ 3,0.00691,1.216E-01,0.000841


### DataFrames y Series

Como dijimos antes, la tabla es una estructura definida en la librería Pandas que se llama DataFrame.

In [4]:
type(tc99m)

pandas.core.frame.DataFrame

Cada columna, a su vez, es una estructura llamada Series (un vector). Las series se pueden obtener individualmente utilizando la siguiente sintaxis (va un solo par de corchetes conteniendo el nombre de la serie). Vean también el tipo de datos:

In [5]:
tc99m["Emisión"]

0      ce-M γ 1
1     ce-N+ γ 1
2           γ 2
3      ce-K γ 2
4     ce-L1 γ 2
5     ce-L2 γ 2
6     ce-L3 γ 2
7      ce-M γ 2
8     ce-N+ γ 2
9      ce-K γ 3
10    ce-L1 γ 3
11    ce-L2 γ 3
12    ce-L3 γ 3
13     ce-M γ 3
14    Kα1 X ray
15    Kα2 X ray
16    Kβ1 X ray
17    Auger-KLL
18    Auger-KLX
19    Auger-LMM
20    Auger-LMX
21    Auger-MXY
Name: Emisión, dtype: object

In [6]:
type(tc99m["Emisión"])

pandas.core.series.Series

## Selección de elementos

Si solo queremos algunos items consecutivos de la tabla, colocamos un par de corchetes con el rango de índices deseados, del siguiente modo:

> **tabla[inicio:fin]**
    
Los items incluyen el número inicial y excluyen el número final, matemáticamente lo representaríamos cerrando el rango con paréntesis (en el ejemplo siguiente el 10 cierra el rango, pero sólo se muestra hasta el índice 9).

In [7]:
tc99m[2:10]

Unnamed: 0,Emisión,Frecuencia,E,Producto
2,γ 2,0.889,1.405E-01,0.125
3,ce-K γ 2,0.0879,1.194E-01,0.0105
4,ce-L1 γ 2,0.00967,1.374E-01,0.00133
5,ce-L2 γ 2,0.00061,1.377E-01,8.4e-05
6,ce-L3 γ 2,0.000301,1.378E-01,4.1e-05
7,ce-M γ 2,0.00192,1.400E-01*,0.00027
8,ce-N+ γ 2,0.000371,1.405E-01*,5.2e-05
9,ce-K γ 3,0.00691,1.216E-01,0.000841


Si queremos sólo los elementos 2 a 10 pero queremos un DataFrame que sólo contenga las columnas Emisión, Frecuencia y Energía, la sintaxis combina lo que vimos antes:

In [8]:
tc99m[["Emisión","Frecuencia", "E"]][2:10]

Unnamed: 0,Emisión,Frecuencia,E
2,γ 2,0.889,1.405E-01
3,ce-K γ 2,0.0879,1.194E-01
4,ce-L1 γ 2,0.00967,1.374E-01
5,ce-L2 γ 2,0.00061,1.377E-01
6,ce-L3 γ 2,0.000301,1.378E-01
7,ce-M γ 2,0.00192,1.400E-01*
8,ce-N+ γ 2,0.000371,1.405E-01*
9,ce-K γ 3,0.00691,1.216E-01


De esta manera podemos referenciar cualquier elemento de la tabla, con el nombre de la columna y el rango o elemento deseado:

In [9]:
frec_a = tc99m["Frecuencia"][2]
print(frec_a)

0.889


In [10]:
frec_a = '0.889 '

## Eliminar una columna

Podemos construir nuevas estructuras con las columnas deseadas, o podemos también eliminar una columna del DataFrame existente con la función *drop*. El parámetro *axis* es 1 porque deseamos eliminar una columnas y sería 0 para eliminar filas de datos (habría que pasar el índice de las filas a eliminar, en vez del nombre de la columna):

In [11]:
tc99m = tc99m.drop("Producto", axis=1)
tc99m

Unnamed: 0,Emisión,Frecuencia,E
0,ce-M γ 1,0.914,1.749E-03*
1,ce-N+ γ 1,0.0757,2.174E-03*
2,γ 2,0.889,1.405E-01
3,ce-K γ 2,0.0879,1.194E-01
4,ce-L1 γ 2,0.00967,1.374E-01
5,ce-L2 γ 2,0.00061,1.377E-01
6,ce-L3 γ 2,0.000301,1.378E-01
7,ce-M γ 2,0.00192,1.400E-01*
8,ce-N+ γ 2,0.000371,1.405E-01*
9,ce-K γ 3,0.00691,1.216E-01


## Uso de los datos para realizar cálculos

Si usamos directamente esta variable para hacer cálculos, podemos encontrarnos con resultados inesperados:

In [12]:
frec_a*10

'0.889 0.889 0.889 0.889 0.889 0.889 0.889 0.889 0.889 0.889 '

Esto sucede porque cada elemento del DataFrame leido con la función de *pandas* **readcsv()** es una cadena de caracteres, y aún no lo convertimos en una variable numérica.

In [13]:
type(frec_a)

str

Para convertir un string en un número usamos la función *float*:

In [14]:
frec_1 = float(frec_a)

print(frec_1)
type(frec_1)

0.889


float

## Operaciones con columnas y ampliación del DataFrame

Definimos una nueva función que clasifica cada fila de acuerdo a si se trata de una partícula o un fotón. Para eso miramos los dos primeros caracteres y en función de eso podemos efectuar la clasificación. El código siguiente es autoexplicativo. Vean que las cadenas (ej: *emision*) también permite seleccionar un fragmento suyo usando rangos con corchetes:

In [15]:
tc99m

Unnamed: 0,Emisión,Frecuencia,E
0,ce-M γ 1,0.914,1.749E-03*
1,ce-N+ γ 1,0.0757,2.174E-03*
2,γ 2,0.889,1.405E-01
3,ce-K γ 2,0.0879,1.194E-01
4,ce-L1 γ 2,0.00967,1.374E-01
5,ce-L2 γ 2,0.00061,1.377E-01
6,ce-L3 γ 2,0.000301,1.378E-01
7,ce-M γ 2,0.00192,1.400E-01*
8,ce-N+ γ 2,0.000371,1.405E-01*
9,ce-K γ 3,0.00691,1.216E-01


In [16]:
# lista con partículas: electrones Auger y electrones de conversión.
particulas = ["Au", "ce"]
# lista con fotones: gammas y rayos X.
fotones = ["γ ", "Kα", "Kβ", ]

def clasifica(emision):
    '''Clasifica la emisión (ingresada como string) usando las primeras dos
    letras de su nombre. Puede ser una partícula, un fotón o si se desconoce
    se devuelve el valor "desconocida".
    '''
    item = emision[0:2]
    soy = 'desconocida'
    if item in particulas:
        soy = "partícula"
    elif item in fotones:
        soy = "fotón"
    return soy

Probemos la función con la cadena como **ce-K γ 2** (es un electrón de conversión, debería indicar que se trata de una partícula):

In [17]:
clasifica("ce-K γ 2")

'partícula'

Podemos barrer todos los elementos de la tabla y aplicar una función sobre alguna de sus columnas (Series) usando la función **apply**. Por ejemplo, la recién definida función *clasifica* sobre la columna "Emisiones". Guardamos los resultados en una nueva columna que llamaremos "Clasificación":

In [18]:
tc99m["Clasificación"] = tc99m["Emisión"].apply(clasifica)
tc99m

Unnamed: 0,Emisión,Frecuencia,E,Clasificación
0,ce-M γ 1,0.914,1.749E-03*,partícula
1,ce-N+ γ 1,0.0757,2.174E-03*,partícula
2,γ 2,0.889,1.405E-01,fotón
3,ce-K γ 2,0.0879,1.194E-01,partícula
4,ce-L1 γ 2,0.00967,1.374E-01,partícula
5,ce-L2 γ 2,0.00061,1.377E-01,partícula
6,ce-L3 γ 2,0.000301,1.378E-01,partícula
7,ce-M γ 2,0.00192,1.400E-01*,partícula
8,ce-N+ γ 2,0.000371,1.405E-01*,partícula
9,ce-K γ 3,0.00691,1.216E-01,partícula


Vamos a convertir la columna de energía para que contenga también la unidad (usando la librería **Pint**). Además, como algunos datos de energía tienen un asterisco, debemos eliminarlo para que la cantidad sea sólo numérica. Esto último lo haremos con la siguiente función, en la cual se define el rango [:-1]. Esto se entiende del siguiente modo:
1. la ausencia de número antes de los dos puntos indica que se inicia desde el primer elemento (0).
2. el último elemento del rango se define con un número negativo (-1). El signo menos indica que se cuenta desde el final (-1 es el último elemento, -2 sería el anteúltimo, etc)

In [19]:
def convertirEnergia(energia):
    '''Elimina el último caracter de la cadena energía
    si es que se trata de un asterisco'''
    if energia[-1]=='*':
        energia = energia[:-1]
    return float(energia)

Probemos con la energía del elemento 0:

In [20]:
print("Valor original: ", tc99m["E"][0])
print("Valor convertido: ", convertirEnergia(tc99m["E"][0]))

Valor original:  1.749E-03*
Valor convertido:  0.001749


In [21]:
tc99m["Energía"] = tc99m["E"].apply(convertirEnergia)
tc99m

Unnamed: 0,Emisión,Frecuencia,E,Clasificación,Energía
0,ce-M γ 1,0.914,1.749E-03*,partícula,0.001749
1,ce-N+ γ 1,0.0757,2.174E-03*,partícula,0.002174
2,γ 2,0.889,1.405E-01,fotón,0.1405
3,ce-K γ 2,0.0879,1.194E-01,partícula,0.1194
4,ce-L1 γ 2,0.00967,1.374E-01,partícula,0.1374
5,ce-L2 γ 2,0.00061,1.377E-01,partícula,0.1377
6,ce-L3 γ 2,0.000301,1.378E-01,partícula,0.1378
7,ce-M γ 2,0.00192,1.400E-01*,partícula,0.14
8,ce-N+ γ 2,0.000371,1.405E-01*,partícula,0.1405
9,ce-K γ 3,0.00691,1.216E-01,partícula,0.1216


## Filtrado de los datos

Definimos una nueva tabla sólo con las columnas deseadas

In [22]:
tc = tc99m[["Emisión", "Frecuencia", "Energía", "Clasificación"]]
tc

Unnamed: 0,Emisión,Frecuencia,Energía,Clasificación
0,ce-M γ 1,0.914,0.001749,partícula
1,ce-N+ γ 1,0.0757,0.002174,partícula
2,γ 2,0.889,0.1405,fotón
3,ce-K γ 2,0.0879,0.1194,partícula
4,ce-L1 γ 2,0.00967,0.1374,partícula
5,ce-L2 γ 2,0.00061,0.1377,partícula
6,ce-L3 γ 2,0.000301,0.1378,partícula
7,ce-M γ 2,0.00192,0.14,partícula
8,ce-N+ γ 2,0.000371,0.1405,partícula
9,ce-K γ 3,0.00691,0.1216,partícula


Podemos filtrar la tabla para mostrar sólo los datos que cumplan con algún requisito. Por ejemplo, veamos sólo las emisiones que sean *partículas*:

In [23]:
tc[tc.Clasificación=="partícula"]

Unnamed: 0,Emisión,Frecuencia,Energía,Clasificación
0,ce-M γ 1,0.914,0.001749,partícula
1,ce-N+ γ 1,0.0757,0.002174,partícula
3,ce-K γ 2,0.0879,0.1194,partícula
4,ce-L1 γ 2,0.00967,0.1374,partícula
5,ce-L2 γ 2,0.00061,0.1377,partícula
6,ce-L3 γ 2,0.000301,0.1378,partícula
7,ce-M γ 2,0.00192,0.14,partícula
8,ce-N+ γ 2,0.000371,0.1405,partícula
9,ce-K γ 3,0.00691,0.1216,partícula
10,ce-L1 γ 3,0.00117,0.1396,partícula


Veamos emisiones cuya energía sea mayor a la de cierto valor umbral:

In [24]:
tc[tc.Energía > 0.14]

Unnamed: 0,Emisión,Frecuencia,Energía,Clasificación
2,γ 2,0.889,0.1405,fotón
8,ce-N+ γ 2,0.000371,0.1405,partícula
13,ce-M γ 3,0.000419,0.1422,partícula


## Grabación de un archivo separado con comas

Podemos grabar cualquier dataframe que hayamos creado en un csv, mediante la función *to_csv()*. Es muy sencilla de usar, y los datos quedan disponibles para ser leidos en otro notebook o con otro software (es un archivo de texto plano):

In [25]:
tc.to_csv("tc-modificado.csv")