# Pandas

Librería espceializada en el manejo y análisis de datos estructurado, fue diseñada para ser rápida, flexible y expresiva, y permite trabajar fácilmente con datos tabulares, temporales o jerárquicos. Altamente optimizada y se integra con Numpy, matplotlib, scaborn, scikit-learn, entre otras

Que permite:
- leer
- escribir 
- filtrar
- agrupar
- transformar
- visualizar 

Admite: CSV, Excel, JSON, SQL, etc

## Series
Listas unidimensioneales con indic (listas indexadas), es un objeto completo, hay series verticales y series horizontales que pemriten realizar operaciones en filas y columnas

## Data frames
Tablas bidimensionales
Cada columna puede tener un tipo de dato distinto
Usamos un data frame cuando los datos tienen, o pueden tener una forma de tabla, gran conjunto de datos 




In [None]:
import pandas as pd

#Instanciando series de pandas
s = pd.Series([10, 20, 30], index = ['a', 'b', 'c'])
print(s)

# Solo un elemento
s['a']

In [None]:
#Creación de un data frame

data = {
    'Gene' : ['thrL', 'thrA', 'thrB' ],
    'Longitud' : ['117', '2340', '1461']
}

#Creacion default
df = pd.DataFrame(data)
print(df)

#Ajuste de Data frame 
dft = pd.DataFrame.from_dict(data, orient= 'index')
print(dft)



Pandas permite checar condiciones, es más eficiente que estar escribiendo ese código

````python
for file in datos:
    if file ['expresion'] > 1000
    guardar files


df[df['expresion']>1000]
````

## Metodos comunes

- head
- tail
- shape: Numero de filas y numero de columnas (atributo)
- columns: lista de los nombres de las columnas
- info: información general del data frame (columnas, tipos, nulos)
- describe: solo para columnas numericas
- dtypes: Para ver los tipos de datos 


- d[columnas]Se puede accedar a una columa
- d[[col1, col2]] Varias columnas, como una lista 
- d[file] Se puede acceder a una fila
- d[[fil1, fil2]] Para varias filas

- loc: acceder por tags d.loc[0, gene]
- iloc: acceder por posiciones numericas (como una matriz)

- d['nueva'] = [misma cantidad de elemento]
- drop: Eliminar columnas o fila
- rename: renombrar columnas
- apply (function): Aplizar una funcion personalizada a columnas a filas
- replace: reemplaza en filas o en columnas

- groupby: Agrupar datos por una columna y resumir
- merge: Combinar data frames
- sort_values: Ordenar datos por valores
- isnull, filline: detectar nulos, rellenarlos
- to_csv/read_csv: exportar o leer archivos


In [37]:
#generar data frame

datos = {
    'Nombre' : ['Ana', 'Luis', 'Sofia'],
    'Edad' : [28,34, 22],
    'Ciudad' : ['CDMX', 'Guadalajara', 'Monterrey']
}

dt = pd.DataFrame.from_dict(datos, orient='columns')

dt



Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,28,CDMX
1,Luis,34,Guadalajara
2,Sofia,22,Monterrey


In [None]:
dt[dt['Edad'] > 25]
dt



Unnamed: 0,Nombre,Edad,Ciudad,Ocupacion
0,Ana,28,CDMX,Medico
1,Luis,34,Guadalajara,Economista
2,Sofia,22,Monterrey,Abogado


In [40]:
dt['Ocupacion'] = ['Medico', 'Economista', 'Abogado']
dt

Unnamed: 0,Nombre,Edad,Ciudad,Ocupacion
0,Ana,28,CDMX,Medico
1,Luis,34,Guadalajara,Economista
2,Sofia,22,Monterrey,Abogado


In [62]:
genes = {
    'GeneID': ['b0001', 'b0002', 'b0003'],
    'Nombre': ['thrL', 'thrA', 'thrB'],
    'Funcion': ['regulador', 'enzima', 'enzima'],
    'Longitud': [117, 2340, 1461]
}

df_genes = pd.DataFrame(genes)
df_genes

Unnamed: 0,GeneID,Nombre,Funcion,Longitud
0,b0001,thrL,regulador,117
1,b0002,thrA,enzima,2340
2,b0003,thrB,enzima,1461


In [7]:
import pandas as pd

df = pd.read_csv(
    '../../data/genes.gff',
    sep='\t',
    comment='#',
    header=None,
    names=["seqid", "source", "type", "start", "end", "score", "strand", "phase", "attributes"]
)

df.shape

(6, 9)

In [21]:
import pandas as pd

df = pd.read_csv(
    '../../data/expresion_genica.tsv',
    sep = '\t',
    header= 'infer'
)

ediff = df[(df['cond1'] > 1000) & (df['cond2'] > 1000) & (df['cond3'] > 1000) ]

ediff ['promedios'] = ediff[['cond1', 'cond2', 'cond3']].mean(axis=1)

ordenados = ediff.sort_values(
    by = 'promedios',
    ascending= False
)

ordenados.to_csv('../../results/ordenados.csv', sep = ',', index= False, header = True)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  ediff ['promedios'] = ediff[['cond1', 'cond2', 'cond3']].mean(axis=1)


In [None]:
genes = pd.read_csv('../../data/genes.csv', sep = ',', header = 'infer')

genes.rename(mapper={'Funcion': 'Tipo_funcional'}, axis = 1, inplace = False) #Se usa para columnas e indices al mismo tiempo

organizado = genes.replace({'Función': {'enzima' : 'enzima_metabólica', 'regulador' : 'TF'}, 'Nombre' : {'thrL' : 'ThrL' }})


sin_expresion = genes.drop(columns=['Expresión'])

#genes['longitud_decimales'] = genes['Longitud'].astype(float)

def clasifica(x):
    if x > 40:
        return 'Sobreexpresado'
    elif x >= 20:
        return 'Moderado'
    else:
        return 'Subexpresado'



genes ['clasificación'] = genes['Longitud'].apply(lambda x: 'Largo' if x > 1000 else 'Corto')
genes ['Nivel_expresión'] = genes ['Expresión'].apply(clasifica)


                                                      
                                            


#Valores derivados assing (para copias)

log_expr = genes.assign(LogExpresion = lambda x: x['Expresion'].apply(lambda val: round(val ** 0.5, 2)))



Unnamed: 0,GeneID,Nombre,Función,Longitud,Expresión,clasificación,Nivel_expresión
0,b0001,thrL,regulador,117,20.5,Corto,Subexpresado
1,b0002,thrA,enzima,2340,50.2,Largo,Sobreexpresado
2,b0003,thrB,enzima,1461,45.0,Largo,Sobreexpresado
3,b0004,recA,reparación,1038,10.1,Largo,Subexpresado


### Funciones lamda

Es una forma de definir funciones pequeñas y anónimas

- lambda x: x+1 (recibir, lo que hace)

### aply

Es un metodo que aplica una función a cada elemento de una columna o fila de un DataFrame

### Metodos útiles en bioinfo

- groupby(): Agrupar filas que comparten un mismo valor en una columnas y aplicar funciones agregadas 
- agg(): Permite aplicar una o más funciones de resumen o transformacion a uno o varios campos de un DF, ya sea agrupado o no