In [20]:
import numpy as np 
import sklearn as sk
import matplotlib.pyplot as plt
import seaborn as sns
import scipy as sc

# 1. Pandas

Para cargar y preprocesar los archivos de registros celulares, utilizaremos **Pandas**, una de las librerías más popularmente utilizadas para la manipulación y el análisis de datos en Python.

Puedes consultar más información acerca de esta librería en:

https://pandas.pydata.org/docs/




In [19]:
import pandas as pd

Primero utilizaremos la función **.read_csv( )** de la librería Pandas para abrir el archivo que contiene los registros de impulsos celulares. Esta función lee un archivo en formato .csv y lo carga como un objeto que puede manipularse facilmente con Python.

Acontinuación, cargaremos los datos del archivo *cell_data.csv* y los guardaremos en una variable llamada *raw_data*:

In [39]:
rawdata = pd.read_csv('./cells_data.csv', # Ruta en donde se encuentra nuestro archivo
                     index_col=0)        # Índice de la tabla
rawdata

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,28,29,30,31,32,33,34,35,36,37
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
6,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
7,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
8,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
9,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0


Podemos ver que la variable *raw_data* es una tabla que contiene información del registro.  

# 2. Dataframe
 
 La variable *raw_data* es reconocida en Python como un objeto llamado **DataFrame**. Podemos verificar esto utilizando la función **type( )** de Python.

In [22]:
type(rawdata)

pandas.core.frame.DataFrame

Un **DataFrame** es basicamente un objeto en Python que contiene datos en forma de tabla y se compone de **Índices** (renglones) y **Columnas**.



# 2.1 Índices y Columnas

Para este conjunto de datos, **cada columna del DataFrame debe corresponder a la actividad de una célula diferente** y cada renglón, al registro simultáneo de la actividad en dichas células. Podemos ver el número de renglones y columnas de **raw_data** accediendo a su propiedad **.shape**:

#### 2.1 Número de renglones  y columnas:

In [41]:
nRows = rawdata.shape[0]
nCells = rawdata.shape[1]

"El número de células en el registro es %s" % (nCells),
"El número de instancias en el registro es %s" % (nRows)

'El número de instancias en el registro es 1960'

#### 2.2 Método head( )

Para ver los primeros 5 renglones del DataFrame, basta con aplicar el método **.head( )**, como se muestra acontinuación:

In [42]:
data.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,28,29,30,31,32,33,34,35,36,37
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0


La primer columna de derecha a izquierda (con números en negritas) corresponde a los **Índices** del DataFrame, para nuestro caso, estos indican las mediciones simultáneas de la actividad en diferentes células.



In [43]:
data.index

Int64Index([   0,    1,    2,    3,    4,    5,    6,    7,    8,    9,
            ...
            1950, 1951, 1952, 1953, 1954, 1955, 1956, 1957, 1958, 1959],
           dtype='int64', length=1960)

#### 2.3 Cambiar el nombre de las  columnas

El primer renglón de arriba a abajo corresponde a los nombres de las **Columnas** de los arreglos:

In [44]:
data.columns

Index(['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12',
       '13', '14', '15', '16', '17', '18', '19', '20', '21', '22', '23', '24',
       '25', '26', '27', '28', '29', '30', '31', '32', '33', '34', '35', '36',
       '37'],
      dtype='object')

Una buena práctica es asignar a las columnas nombres que aporten información acerca de los datos que estas contienen. Es preferible que nuestras columnas tengan nombres como *'Cell1', 'Cell2',* etc, a que tengan los nombres mostrados arriba (*'0', '1', '2', '3'...*).

A continuación cambiaremos el nombre de las columnas de raw_data.

Primero crearemos un arreglo de strings que contenga los nuevos nombres:

In [56]:
num_labels = np.arange(1,nCells+1) #Etiqueta de enumaeración de cada célula
ColNames  = []
for i in range(len(lab)):
    label = lab[i]
    colname = "cell_%s" % (label)
    ColNames = np.append(ColNames,colname)
ColNames

array(['cell_1', 'cell_2', 'cell_3', 'cell_4', 'cell_5', 'cell_6',
       'cell_7', 'cell_8', 'cell_9', 'cell_10', 'cell_11', 'cell_12',
       'cell_13', 'cell_14', 'cell_15', 'cell_16', 'cell_17', 'cell_18',
       'cell_19', 'cell_20', 'cell_21', 'cell_22', 'cell_23', 'cell_24',
       'cell_25', 'cell_26', 'cell_27', 'cell_28', 'cell_29', 'cell_30',
       'cell_31', 'cell_32', 'cell_33', 'cell_34', 'cell_35', 'cell_36',
       'cell_37', 'cell_38'], dtype='<U32')

**Cambiamos los nombres de las columnas** de la siguiente forma:

In [57]:
rawdata.columns = ColNames
rawdata.head()

Unnamed: 0,cell_1,cell_2,cell_3,cell_4,cell_5,cell_6,cell_7,cell_8,cell_9,cell_10,...,cell_29,cell_30,cell_31,cell_32,cell_33,cell_34,cell_35,cell_36,cell_37,cell_38
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0


# 3. Seleccionar elementos de un DataFrame

Para acceder a los elementos de nuestro DataFrame podemos utilizar el método *.iloc()*, que nos permite hacer *tupple slicing* de la siguiente manera 

#### 3.1 Accediendo a un elemento:

In [46]:
data.iloc[0,3] #Primer elemento de la cuarta columna

0

#### 3.2 Seleccionar un renglón:

In [58]:
data.iloc[0,:] #Primer renglón del DataFrame

0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    1
11    0
12    0
13    0
14    0
15    0
16    0
17    0
18    0
19    0
20    0
21    0
22    0
23    0
24    0
25    0
26    0
27    0
28    0
29    0
30    0
31    0
32    0
33    0
34    0
35    0
36    0
37    0
Name: 0, dtype: int64

### 3.3 Seleccionar columnas de un DataFrame

Podemos seleccionar columnas del DataFrame de dos formas distintas, la primera es utilizando *.iloc*:

In [10]:
#Primeros 5 renglones de la tercer columna del DataFrame
rawdata.iloc[:,2].head() 

0    0
1    0
2    0
3    0
4    0
Name: 2, dtype: int64

La segunda es haciendo referencia explícita al **nombre** de la columna en cuestión, esto se hace de la siguiente forma:

In [61]:
rawdata['cell_10'].head() #Primeros 5 renglones del registro de la célula 10

0    0
1    0
2    0
3    1
4    1
Name: cell_10, dtype: int64

# 4. Guardar archivos en formato .csv
Para exportar un DataFrame como un archivo en formato *.csv*, simplemente hay que uar el método **.to_csv( )**.

In [66]:
rawdata.to_csv('SellsData_pd.csv')

# 1. Exploración inicial del DataFrame


Para acceder a la información general del DataFrame *raw_data*, utilizaremos el método **.info( )**:

In [65]:
rawdata.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1960 entries, 0 to 1959
Data columns (total 38 columns):
cell_1     1960 non-null int64
cell_2     1960 non-null int64
cell_3     1960 non-null int64
cell_4     1960 non-null int64
cell_5     1960 non-null int64
cell_6     1960 non-null int64
cell_7     1960 non-null int64
cell_8     1960 non-null int64
cell_9     1960 non-null int64
cell_10    1960 non-null int64
cell_11    1960 non-null int64
cell_12    1960 non-null int64
cell_13    1960 non-null int64
cell_14    1960 non-null int64
cell_15    1960 non-null int64
cell_16    1960 non-null int64
cell_17    1960 non-null int64
cell_18    1960 non-null int64
cell_19    1960 non-null int64
cell_20    1960 non-null int64
cell_21    1960 non-null int64
cell_22    1960 non-null int64
cell_23    1960 non-null int64
cell_24    1960 non-null int64
cell_25    1960 non-null int64
cell_26    1960 non-null int64
cell_27    1960 non-null int64
cell_28    1960 non-null int64
cell_29    1960 non-null 

## 1.4.1 DataFrame con estadísticos descriptivos de cada célula

In [None]:
description_df = workdata.describe()
VC = [workdata.iloc[:,i].value_counts() for i in range(nCells)] #A partir de 1, pues 0 corresponde al índice
description_df

## 1.4.2 Resumen descriptivo de la acividad de cada célula

In [None]:
cell_summary = [VC[i].append(description_df.iloc[:,i]) for i in range(nCells)]
pd.DataFrame(cell_summary)[0:5]

## Ahora seleccionaremos solo aquellas células que hayan pulsado al menos una vez durante el registro

In [None]:
tot_pulses = [sum(workdata.iloc[:,i]) for i in range(nCells)]
tot_pulses = np.asarray(tot_pulses)

inactiveCells = sc.where(tot_pulses==0)
activeCells = sc.where(tot_pulses>0)[0]

### Filtrando las inactivas

In [None]:
for i in inactiveCells:
    workdata_active = workdata.drop(workdata.columns[i], axis=1)

In [None]:
https://seaborn.pydata.org/

# Histograma de pulsos

In [None]:
tot_pulses

In [None]:
plt.hist([tot_pulses[i] for i in activeCells])

# Medidas de similaridad

Una forma de inferir conectividad entre un para de células es inferir relaciones funcionales a través de la similaridad de sus patrones de disparo. Una forma de hacer utilizar la correlación como medida de similaridad.

In [None]:
cormat = np.corrcoef(np.asarray(workdata_active).T)

np.arange(1,nCells)
plt.figure(figsize=(25,18))
sns.heatmap(cormat)

#plt.savefig("/Users/nelion/Desktop/corGLITCH.png")

# Medidas de similaridad para datos binarios

En la práctica de análisis de datos no es recomendable realizar medidas de similaridad con correlación para el caso de variables binarias (variables que toma  los valores de 0 ó 1). Para medir similaridades se han desarrollado coeficientes más adecuados. En este notebook nos enfocaremos en el *coeficiente de Russel-Rao*.

$J$ = $\frac{c_{TF} + c_{FT}}
        {c_{TT} + c_{FT} + c_{TF}}$
        
        
$RR$ = $\frac{n - c_{TT}}
       {n}$

where $c_{ij}$ is the number of occurrences of
$\mathtt{u[k]} = i$ and $\mathtt{v[k]} = j$ for
$k < n$.

In [None]:
from scipy.spatial.distance import jaccard
from scipy.spatial.distance import russellrao
from sklearn.metrics import confusion_matrix

In [None]:
A = []
numActive = len(workdata_active.columns)

for cell in np.arange(0,numActive):
    jac_sym1 = [1-russellrao(workdata_active.iloc[:,cell],workdata_active.iloc[:,i]) for i in range(numActive)]
    A = np.append(A,jac_sym1)

A = np.reshape(A,(numActive,numActive))
A = pd.DataFrame(A)

In [None]:
plt.style.use('default')
plt.figure(figsize=(11,7));
plt.ioff()
for cell in range(len(activeCells)):
    spikeInds = sc.where(workdata_active.iloc[:,cell]==1)[0]
    plt.plot(spikeInds, (cell)*sc.ones(len(spikeInds)),'|')

plt.ylabel('Célula')
plt.xlabel('Ventanas de registro')

ax=plt.gca()

plt.yticks(np.arange(0, numActive))
ax.set_yticklabels(workdata_active.columns)


plt.ion(); plt.draw(); 

In [None]:
import networkx as nx

In [None]:
plt.style.use(['seaborn'])
nsig = np.shape(cormat)[0]
BM = np.empty((0,nsig))

In [None]:
G = nx.from_numpy_matrix(cormat)
G = G.to_directed()
nodes = G.nodes()
edges,weights = zip(*nx.get_edge_attributes(G,'weight').items())
colors = np.asarray(weights)
    
    # drawing nodes and edges separately so we can capture collection for colobar
pos = nx.spring_layout(G)
    
    #LABELS
fog=plt.figure(figsize=(20,12))
labels1={}
for i in range (0,len(workdata_active.columns)):
    labels1[i]=workdata_active.columns[i]
nx.draw_networkx_labels(G,pos,labels1,font_size=7,font_color ="white")
    
    
    #NODES
    
    
draw_edges = nx.draw_networkx_edges(G, pos, alpha=1,width=colors*20)#,edge_color=colors)
nx.draw_networkx_nodes(G, pos, alpha=.9,nodelist=nodes, node_color='blue', 
                                with_labels=False, node_size=440)
    #plt.colorbar(draw_edges)


# Apicar TSNE

In [None]:
from sklearn.manifold import TSNE

In [None]:
tsne_model = TSNE(n_components=2, perplexity =3)
tsne_projected = tsne_model.fit_transform(workdata.T)

In [None]:
plt.figure(figsize=(25,18))

x = tsne_projected[:,0]
y = tsne_projected[:,1]
n = np.arange(0,37)

fig, ax = plt.subplots()
ax.scatter(x, y)

for i, txt in enumerate(n):
    ax.annotate(txt, (x[i], y[i]))

In [None]:
TIMEtsne_projected =tsne_model.fit_transform(workdata)

In [None]:
plt.figure(figsize=(25,18))

x = TIMEtsne_projected[:,0]
y = TIMEtsne_projected[:,1]
n = np.arange(0,nRows)

fig, ax = plt.subplots()
ax.scatter(x, y)

for i, txt in enumerate(n):
    ax.annotate(txt, (x[i], y[i]))