In [1]:
import numpy as np 
import scipy as sc

# 1. Pandas

Para cargar y preprocesar los archivos de registros celulares, utilizaremos **Pandas**, una de las librerías más popularmente utilizadas para la manipulación y el análisis de datos en Python.

Puedes consultar más información acerca de esta librería en:

https://pandas.pydata.org/docs/




In [2]:
import pandas as pd

Primero utilizaremos la función **.read_csv( )** de la librería Pandas para abrir el archivo que contiene los registros de impulsos celulares. Esta función lee un archivo en formato .csv y lo carga como un objeto que puede manipularse facilmente con Python.

Acontinuación, cargaremos los datos del archivo *cell_data.csv* y los guardaremos en una variable llamada *raw_data*:

In [3]:
rawdata = pd.read_csv('./cells_data.csv', # Ruta en donde se encuentra nuestro archivo
                     index_col=0)        # Índice de la tabla
rawdata

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,28,29,30,31,32,33,34,35,36,37
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
6,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
7,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
8,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
9,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0


Podemos ver que la variable *raw_data* es una tabla que contiene información del registro.  

# 2. Dataframe
 
 La variable *raw_data* es reconocida en Python como un objeto llamado **DataFrame**. Podemos verificar esto utilizando la función **type( )** de Python.

In [4]:
type(rawdata)

pandas.core.frame.DataFrame

Un **DataFrame** es basicamente un objeto en Python que contiene datos en forma de tabla y se compone de **Índices** (renglones) y **Columnas**.



# 2.1 Índices y Columnas

Para este conjunto de datos, **cada columna del DataFrame debe corresponder a la actividad de una célula diferente** y cada renglón, al registro simultáneo de la actividad en dichas células. Podemos ver el número de renglones y columnas de **raw_data** accediendo a su propiedad **.shape**:

#### 2.1 Número de renglones  y columnas:

In [5]:
nRows = rawdata.shape[0]
nCells = rawdata.shape[1]

"El número de células en el registro es %s" % (nCells),
"El número de instancias en el registro es %s" % (nRows)

'El número de instancias en el registro es 1960'

#### 2.2 Método head( )

Para ver los primeros 5 renglones del DataFrame, basta con aplicar el método **.head( )**, como se muestra acontinuación:

In [6]:
rawdata.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,28,29,30,31,32,33,34,35,36,37
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0


La primer columna de derecha a izquierda (con números en negritas) corresponde a los **Índices** del DataFrame, para nuestro caso, estos indican las mediciones simultáneas de la actividad en diferentes células.



In [7]:
rawdata.index

Int64Index([   0,    1,    2,    3,    4,    5,    6,    7,    8,    9,
            ...
            1950, 1951, 1952, 1953, 1954, 1955, 1956, 1957, 1958, 1959],
           dtype='int64', length=1960)

#### 2.3 Cambiar el nombre de las  columnas

El primer renglón de arriba a abajo corresponde a los nombres de las **Columnas** de los arreglos:

In [8]:
rawdata.columns

Index(['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12',
       '13', '14', '15', '16', '17', '18', '19', '20', '21', '22', '23', '24',
       '25', '26', '27', '28', '29', '30', '31', '32', '33', '34', '35', '36',
       '37'],
      dtype='object')

Una buena práctica es asignar a las columnas nombres que aporten información acerca de los datos que estas contienen. Es preferible que nuestras columnas tengan nombres como *'Cell1', 'Cell2',* etc, a que tengan los nombres mostrados arriba (*'0', '1', '2', '3'...*).

A continuación cambiaremos el nombre de las columnas de raw_data.

Primero crearemos un arreglo de strings que contenga los nuevos nombres:

In [9]:
num_labels = np.arange(1,nCells+1) #Etiqueta de enumaeración de cada célula
ColNames  = []
for i in range(len(num_labels)):
    label = num_labels[i]
    colname = "cell_%s" % (label)
    ColNames = np.append(ColNames,colname)
ColNames

array(['cell_1', 'cell_2', 'cell_3', 'cell_4', 'cell_5', 'cell_6',
       'cell_7', 'cell_8', 'cell_9', 'cell_10', 'cell_11', 'cell_12',
       'cell_13', 'cell_14', 'cell_15', 'cell_16', 'cell_17', 'cell_18',
       'cell_19', 'cell_20', 'cell_21', 'cell_22', 'cell_23', 'cell_24',
       'cell_25', 'cell_26', 'cell_27', 'cell_28', 'cell_29', 'cell_30',
       'cell_31', 'cell_32', 'cell_33', 'cell_34', 'cell_35', 'cell_36',
       'cell_37', 'cell_38'], dtype='<U32')

**Cambiamos los nombres de las columnas** de la siguiente forma:

In [10]:
rawdata.columns = ColNames
rawdata.head()

Unnamed: 0,cell_1,cell_2,cell_3,cell_4,cell_5,cell_6,cell_7,cell_8,cell_9,cell_10,...,cell_29,cell_30,cell_31,cell_32,cell_33,cell_34,cell_35,cell_36,cell_37,cell_38
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0


# 3. Seleccionar elementos de un DataFrame

Para acceder a los elementos de nuestro DataFrame podemos utilizar el método *.iloc()*, que nos permite hacer *tupple slicing* de la siguiente manera 

#### 3.1 Accediendo a un elemento:

In [11]:
rawdata.iloc[0,3] #Primer elemento de la cuarta columna

0

#### 3.2 Seleccionar un renglón:

In [12]:
rawdata.iloc[0,:] #Primer renglón del DataFrame

cell_1     0
cell_2     0
cell_3     0
cell_4     0
cell_5     0
cell_6     0
cell_7     0
cell_8     0
cell_9     0
cell_10    0
cell_11    1
cell_12    0
cell_13    0
cell_14    0
cell_15    0
cell_16    0
cell_17    0
cell_18    0
cell_19    0
cell_20    0
cell_21    0
cell_22    0
cell_23    0
cell_24    0
cell_25    0
cell_26    0
cell_27    0
cell_28    0
cell_29    0
cell_30    0
cell_31    0
cell_32    0
cell_33    0
cell_34    0
cell_35    0
cell_36    0
cell_37    0
cell_38    0
Name: 0, dtype: int64

### 3.3 Seleccionar columnas de un DataFrame

Podemos seleccionar columnas del DataFrame de dos formas distintas, la primera es utilizando *.iloc*:

In [13]:
#Primeros 5 renglones de la tercer columna del DataFrame
rawdata.iloc[:,2].head() 

0    0
1    0
2    0
3    0
4    0
Name: cell_3, dtype: int64

La segunda es haciendo referencia explícita al **nombre** de la columna en cuestión, esto se hace de la siguiente forma:

In [14]:
rawdata['cell_10'].head() #Primeros 5 renglones del registro de la célula 10

0    0
1    0
2    0
3    1
4    1
Name: cell_10, dtype: int64

# 4. Guardar archivos en formato .csv
Para exportar un DataFrame como un archivo en formato *.csv*, simplemente hay que uar el método **.to_csv( )**.

In [15]:
rawdata.to_csv('CellsData_pd.csv')