# Análisis de datos cualitativos

## Introducción a Python

### Variables y operaciones básicas

In [None]:
var = "Bienvenidos al curso de analisis de datos cualitativos"

var1 = 12
var2 = 23

var1 + var2
var1 - var2

### Tipos de datos

En Python, los tipos de datos básicos incluyen:

- Enteros (int): Representan números enteros, positivos o negativos, sin parte decimal. Por ejemplo: 5, -10, 1000.

- Flotantes (float): Representan números reales con parte decimal. Por ejemplo: 3.14, 2.718, 10.0.

- Booleanos (bool): Representan valores de verdad, es decir, verdadero (True) o falso (False). Se utilizan en operaciones lógicas y de control de flujo.

- Cadenas de caracteres (str): Representan secuencias de caracteres, como texto. Se pueden definir utilizando comillas simples (') o dobles ("). Por ejemplo: 'Hola mundo', "Python es genial".

### Estructuras de datos

In [None]:
# Listas
lista = [1, 2, 3, 4, 5]
lista.append(6)
lista.remove(1)
a = lista[0]

# Diccionarios
data = {
    "a": 1,
    "b": 2,
    "c": 3
}
data.get("d", 0)

# Sets (conjuntos)
set1 = set([1, 2, 1, 3])
set2 = set([3, 4, 5, 6])
set3 = set2 - set1
set3

# Tuplas
tupla = (1, 2, 3)
tupla

# Las tuplas pueden ser claves en diccionarios.
d1 = {
    tupla: "mi primer tupla"
}

### Loops y condicionales

In [None]:
for a in data:
  value = data[a]
  print(f"El valor {value} esta asociado a la clave {a}")

In [None]:
for key, value in data.items():
  print(f"El valor {value} está asociado a la clave {key}")

In [None]:
for i in range(10):
  print(i)

In [None]:
var1 = 10
if var1 > 10:
  print("La variable es mayor a 10")
else:
  print("La variable es menor o igual a 10")

### Funciones y funciones anónimas

#### Funciones explicitas

In [None]:
var1 = 5

def elevar_al_cuadrado(n):
  return n**2

elevar_al_cuadrado(var1)

#### Funciones anónimas

In [None]:
fn = lambda n: n**2
fn(2)

### Clases y objetos

En la programación orientada a objetos, los objetos son entidades que:

- combinan datos y de comportamiento.
- se usan para modelar entidades complejas.

In [None]:
class Persona:
  def __init__(self, altura, peso, nombre):
    # Variables de instancia, o atributos.
    self.altura = altura
    self.peso = peso
    self.nombre = nombre
  # Métodos...
  def presentarse(self):
    print(f"Hola, mi nombre es {self.nombre}")
  def saludar(self, otra_persona):
    print(f"{self.nombre} saluda a {otra_persona.nombre}")
  def comparar_altura(self, otra_persona):
    if self.altura > otra_persona.altura:
      print(f"{self.nombre} es más alto que {otra_persona.nombre}")
    elif self.altura < otra_persona.altura:
      print(f"{self.nombre} es más bajo que {otra_persona.nombre}")
    else:
      print(f"{self.nombre} tiene la misma altura que {otra_persona.nombre}")


p1 = Persona(180, 75, "Juan")
p2 = Persona(190, 85, "Pedro")

p1.presentarse()
p2.presentarse()
p1.saludar(p2)
p1.comparar_altura(p2)

## Ejercicios de practica de python

1. Imprimir la suma del número actual y el anterior en una lista
2. Eliminar los primeros n caracteres de un string
3. Contar la cantidad de veces que aparece cada elemento en una lista
4. Imprimir los números de una lista que son divisibles por cinco
5. Imprimir el patrón, hasta una altura arbitraria:
```
       *
      * *
     * * *
    * * * *
```
6. Separar numeros pares e impares de un lista
7. Calcular el impuesto de un ingreso según estas reglas:

    1. Primeros 100000 pesos -> 0 por ciento
    2. 100000 pesos a 200000 pesos -> 5 por ciento,
       del exceso sobre tope mínimo de esta categoria,
       hasta el tope máximo de esta categoría.
       Más lo que corresponda en las categorías previas.
    3. 200000 pesos a 250000 pesos -> 10 por ciento
       del exceso sobre tope mínimo de esta categoria,
       hasta el tope máximo de esta categoría.
       Más lo que corresponda en las categorías previas.
    4. Más de 250000 -> 25 por ciento
       del exceso sobre tope mínimo de esta categoria,
       Más lo que corresponda en las categorías previas.

8. Dada una frase y posibles anagramas, elegir los correctos.
9. Dada la secuencia de una proteína, escribir una función que permita
   calcular la frecuencia de aparición de k-mers de la longitud pedida.
   El resultado debe ser diccionario.
10. Imprimir un gráfico tipo DotPlot para dos secuencias.
    Luego, solo mostrar las diagonales que tienen al menos cinco coincidencias.

### Anotaciones de tipos

En las últimas versiones de python, las variables pueden ser anotadas con el
tipo que le corresponde.

La anotación de tipos sirve para:

- Dar mayor claridad al código.
- Para que herramientas externas pueden analizar y verificar la consistencia
  de tipos en el código.

In [None]:
# por ejemplo, una variable:

var1 = 1

# su puede anotar como:

var1:int = 1

In [None]:
# una función

def eliminar_pares(numeros):
  resultado = []
  for n in numeros:
    if n%2!=0:
      resultado.append(n)
  return resultado

# Se puede anotar:

def eliminar_pares(numeros: list[int]) -> list[int]:
  resultado:list[int] = []
  for n in numeros:
    if n%2!=0:
      resultado.append(n)
  return resultado


### Construcción de listas, sets y diccionarios por comprensión.



In [None]:
# a partir de la lista1
lista1 = [1, 2, 3, 4, 5]

# quiero construir la lista de cuadrados.
cuadrados = []
for x in lista1:
  cuadrados.append(x**2)
print(cuadrados)

# Alternativamente usando comprensión de listas:
cuadrados = [x**2 for x in lista1]

In [None]:
# a partir de la lista1
lista1 = [1, 2, 3, 4, 5]

# quiero construir la lista de cuadrados de los números paras.
cuadrados_pares = []
for x in lista1:
  if x%2==0:
    cuadrados_pares.append(x**2)
print(cuadrados_pares)

# Alternativamente usando comprensión de listas:
cuadrados_pares = [x**2 for x in lista1 if x%2==0]

In [None]:
# A partir de la lista1,
lista1 = [
  ("Q01970", "1-phosphatidylinositol 4,5-bisphosphate phosphodiesterase beta-3"),
  ("P63104", "14-3-3 protein zeta/delta"),
  ("P60896", "26S proteasome complex subunit SEM1"),
  ("P55036", "26S proteasome non-ATPase regulatory subunit 4"),
]

# quiero armar un diccionario.
idrs = {}
for uniprot, nombre in lista1:
  idrs[uniprot] = nombre

# Alternativamente construyendolo por comprensión
idrs = {
  uniprot: nombre for uniprot, nombre in lista1
}

In [None]:
# A partir de estos datos
data = [
  ("P13551", "Thermus thermophilus"),
  ("P03129", "Human papillomavirus"),
  ("P14738", "Staphylococcus aureus"),
  ("P06179", "Salmonella typhimurium"),
  ("P26477", "Salmonella typhimurium"),
  ("P56206", "Thermus thermophilus")
]

# quiero obtener el conjunto de los organismos.
organismos = set()
for uniprot, orgn in data:
  organismos.add(orgn)

# alternativamente construyendo el conjunto por comprensión
organismos = {orgn for uniprot, orgn in data}

### map, filter y reduce

map(), filter() y reduce() son tres funciones que permiten manipular estructuras de
datos que pueden ser iteradas, por ejemplo las listas.




- Función map(función, iterable):

  - map() aplica una función a cada elemento de un iterable (como una lista) y
  devuelve un iterador que produce los resultados.
  - Toma dos argumentos: la función que se aplicará y el iterable sobre el cual
  se aplicará esa función.
  - La función pasada como primer argumento será aplicada a cada elemento del
  iterable, y el resultado será un nuevo iterador que produce los resultados de
  aplicar la función a cada elemento.
  - Por ejemplo:
  ```python
    lista = [1, 2, 3, 4, 5]
    cuadrados = map(lambda x: x**2, lista)
    print(list(cuadrados))  # Salida: [1, 4, 9, 16, 25]
  ```



- Función filter(función, iterable):

  - filter() crea un iterador que devuelve los elementos de un iterable para los
    cuales una función devuelve True.
  - Toma dos argumentos: la función que se aplicará y el iterable sobre el cual
    se aplicará esa función.
  - La función pasada como primer argumento debe devolver True o False. Si
    devuelve True, el elemento se incluirá en el iterador de salida; de lo
    contrario, se omitirá.
  - Por ejemplo:
  ```python
    lista = [1, 2, 3, 4, 5]
    impares = filter(lambda x: x % 2 != 0, lista)
    print(list(impares))  # Salida: [1, 3, 5]
  ```



- Función reduce(función, iterable, valor_inicial):

  - reduce() aplica repetidamente una función a los elementos del iterable,
    reduciendo así la secuencia a un solo valor.
  - Toma tres argumentos: la función que se aplicará, el iterable sobre el cual
    se aplicará esa función y un valor inicial opcional.
  - La función pasada como primer argumento debe aceptar dos argumentos y
    devolver un resultado. Este resultado se utilizará como el primer argumento
    en la próxima llamada a la función, junto con el siguiente elemento del iterable.
  - Es necesario importar reduce del módulo functools.
  - Por ejemplo:
  ```python
    from functools import reduce
    lista = [1, 2, 3, 4, 5]
    suma = reduce(lambda x, y: x + y, lista)
    print(suma)  # Salida: 15
  ```


### Piping

Piping es la transformación de datos a traves de operaciones encadenadas.
Cada operación toma los resultados de un paso previo, hace una transformacíon
y los envía a la salida de datos para que otra operación continue.


Datos de partida -> operación 1 -> operación 2 -> Resultado final.

El python los pipes no son nativos del lenguage pero se pueden utilzar con el
paquete "pipe".

In [None]:
import pipe

# data contiene datos de algunas proteinas desordenadas: El uniprot accession,
# El nombre de la proteína, la longitud de la proteína y el contenido porcentual
# de desorden
data = [
  ("P13551", "Elongation factor G", "Thermus thermophilus", 691, 8.54),
  ("P03129", "Protein E7", "Human papillomavirus type 16", 98, 52.04),
  ("P14738", "Fibronectin-binding protein A", "Staphylococcus aureus", 1018, 12.77),
  ("P06179", "Flagellin", "Salmonella typhimurium", 495, 21.21),
  ("P26477", "Negative regulator of flagellin synthesis", "Salmonella typhimurium ", 97, 100.00),
  ("P56206", "Glycine--tRNA ligase", "Thermus thermophilus", 506, 17.00),
  ("P02929", "Protein TonB", "Escherichia coli", 239, 20.50),
  ("P27001", "Phenylalanine--tRNA ligase alpha subunit", "Thermus thermophilus", 350, 28.86),
  ("P11409", "Modification methylase PvuII", "Proteus hauseri", 336, 11.31),
]

# quiero transformar estos datos:
# - eliminar las del genero Salmonella y Escherichia.
# - Calcular la cantidad de posiciones desordenadas y agregarlo a los datos existentes.
# - Finalmente eliminarlas que tengon menos de 100 posiciones desordenadas.

resultado = filter(
  lambda x: x[5]>=100,
    map(
    lambda x: (*x, round(x[3]*x[4]/100)),
    filter(
      lambda x: not any(y in x[2] for y in ["Escherichia", "Salmonella"]),
      data
    )
  )
)
list(resultado)

In [None]:
# Alternativamente

r1 = filter(
  lambda x: not any(y in x[2] for y in ["Escherichia", "Salmonella"]),
  data
)
r2 = map(lambda x: (*x, round(x[3]*x[4]/100)), r1)
resultado = filter(lambda x: x[5]>=100, r2)
list(resultado)

In [None]:
# usando pipes
from pipe import map, filter
resultado = list(
  data
    | filter(lambda x: not any(y in x[2] for y in ["Escherichia", "Salmonella"]))
    | map(lambda x: (*x, round(x[3]*x[4]/100)))
    | filter(lambda x: x[5]>=100)
)
resultado

## Introducción a Numpy

- Computación numérica
- Centrada en Arrays multidimensionales
- Referencia de la API:
  - https://numpy.org/doc/stable/reference/index.html

### Crear Arrays

- np.array
- np.zeros
- np.ones
- np.empty
- np.arange
- np.linspace
- np.identity

In [None]:
import numpy as np

arr1 = np.array([[1, 2, 3], [6,7,8]])
print(arr1)

arr2 = np.ones((2,3))
print(arr2)

print(arr2 * arr1)

print(np.empty((2, 3)))

np.arange(
  start = 1,
  stop = 20,
  step = 4
)

np.linspace(
  np.array([0, 1]),
  np.array([1, 11]),
  3
)

np.identity(4)

### Cambiar forma de un array

- reshape
- transpose



In [None]:
arr1 = (
  np.array(range(12))
    .reshape((3, 4))
    .transpose()
)
print(arr1)

### Funciones universales

- Funciones que se aplican a Arrays de cualquier dimension
- por elemento

Por ejemplo:

- numpy.add
- numpy.matmul
- numpy.multiply
- numpy.equal
- numpy.logical_and

In [None]:
arr1 = (
  np.array(range(12))
    .reshape((3, 4))
)

np.add(arr1, arr1) # igual a arr1 + arr1

np.matmul(arr1, arr1.transpose()) # igual arr1 @ arr1.transpose()

np.multiply(arr1, arr1) # arr1 * arr1

np.equal(arr1, arr1 * 0) # igual arr1 == arr1

np.logical_and(arr1>0, arr1%2==0) # igual  (arr1 > 0) & (arr1 %2==0)


### Subseteo de arrays

In [None]:
arr1 = np.array(range(12)).reshape(3,4)

print(arr1[1, 0])


In [None]:
arr1 = np.array(list("CTACTGATGCCTGACTG"))
index = [
  [0, 1, 2],
  [1, 2, 3],
  [2, 3, 4],
  [3, 4, 5]
]
arr1[index]

## Introducción a Pandas

Permite trabajar con:
- Series de datos (Series)
- Datos tabulares (Dataframe)

Referencia:
- https://pandas.pydata.org/docs/reference/index.html
- Cheat Sheet : https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

### Crear Series y DataFrame

- Dataframe
  - desde dicctionario
  - desde listas
  - desde un archivo
- Series
  - Desde una lista

In [None]:
import pandas as pd

# Crear desde un diccionario
data = {
  "uniprot": ['P13551', 'P03129', 'P14738', 'P06179', 'P26477', 'P56206', 'P02929', 'P27001', 'P11409'],
  "name": [
    'Elongation factor G', 'Protein E7', 'Fibronectin-binding protein A', 'Flagellin',
    'Negative regulator of flagellin synthesis', 'Glycine--tRNA ligase', 'Protein TonB',
    'Phenylalanine--tRNA ligase alpha subunit', 'Modification methylase PvuII'
  ],
  "species": [
    'Thermus thermophilus', 'Human papillomavirus type 16', 'Staphylococcus aureus',
    'Salmonella typhimurium', 'Salmonella typhimurium ', 'Thermus thermophilus',
    'Escherichia coli', 'Thermus thermophilus', 'Proteus hauseri'
  ],
  "length": [691, 98, 1018, 495, 97, 506, 239, 350, 336],
  "disorder_content": [8.54, 52.04, 12.77, 21.21, 100.0, 17.0, 20.5, 28.86, 11.31],
}

df = pd.DataFrame(data)

df

In [None]:
# Desde una lista
data = [
  ("P13551", "Elongation factor G", "Thermus thermophilus", 691, 8.54),
  ("P03129", "Protein E7", "Human papillomavirus type 16", 98, 52.04),
  ("P14738", "Fibronectin-binding protein A", "Staphylococcus aureus", 1018, 12.77),
  ("P06179", "Flagellin", "Salmonella typhimurium", 495, 21.21),
  ("P26477", "Negative regulator of flagellin synthesis", "Salmonella typhimurium ", 97, 100.00),
  ("P56206", "Glycine--tRNA ligase", "Thermus thermophilus", 506, 17.00),
  ("P02929", "Protein TonB", "Escherichia coli", 239, 20.50),
  ("P27001", "Phenylalanine--tRNA ligase alpha subunit", "Thermus thermophilus", 350, 28.86),
  ("P11409", "Modification methylase PvuII", "Proteus hauseri", 336, 11.31),
]

df = pd.DataFrame(data, columns=["uniprot", "name", "species", "length", "disorder_content"])
df

In [None]:
# Desde un archivo

df = pd.from_csv("nombre de archivo.csv")

In [None]:
# Crear un serie

serie1 = pd.Series(["P00404", "Protein ot founnd", "Organism not found", 0, 0])

### Cambiar la forma de un Dataframe

- shape
- melt
- pivot
- concat

#### Ver las dimensiones de un DataFrame

In [None]:
data = {
  "uniprot": ['P13551', 'P03129', 'P14738'],
  "length": [691, 98, 1018],
  "dominios": [2, 1, 4],
  "low_complexity_regions": [0, 1, 2],
}
df = pd.DataFrame(data)
display(df)

df.shape

#### Pasar de formato ancho (wide) a largo (long)

In [None]:

melted = df.melt(
  value_vars=["length", "dominios", "low_complexity_regions"],
  id_vars = "uniprot",
  var_name = "property"
)

display(melted)


In [None]:
# Pasar de formato ancho (wide) a largo (long)
df.melt(
  value_vars=["length", "dominios"],
  id_vars = ["uniprot", "low_complexity_regions"],
  var_name = "property",
)


#### Pasar de formato largo(long) a ancho(wide)

In [None]:
melted.pivot(
  index=["uniprot"],
  columns=["property"],
  values = ["value"]
)

#### Concatenar dataframes

In [None]:
df1 = pd.DataFrame(
  [
    ("P26477", "Negative regulator of flagellin synthesis", "Salmonella typhimurium ", 97, 100.00),
    ("P56206", "Glycine--tRNA ligase", "Thermus thermophilus", 506, 17.00),
    ("P02929", "Protein TonB", "Escherichia coli", 239, 20.50),
    ("P27001", "Phenylalanine--tRNA ligase alpha subunit", "Thermus thermophilus", 350, 28.86),
    ("P11409", "Modification methylase PvuII", "Proteus hauseri", 336, 11.31),
  ],
  columns=["uniprot", "name", "species", "length", "disorder_content"]
)

df2 = pd.DataFrame(
  [
    ("P13551", "Elongation factor G", "Thermus thermophilus", 691, 8.54),
    ("P03129", "Protein E7", "Human papillomavirus type 16", 98, 52.04),
    ("P14738", "Fibronectin-binding protein A", "Staphylococcus aureus", 1018, 12.77),
    ("P06179", "Flagellin", "Salmonella typhimurium", 495, 21.21),
  ],
  columns=["uniprot", "name", "species", "length", "disorder_content"]
)

display(df1)
display(df2)

In [None]:
pd.concat([df1, df2])

### Cambiar el índice de un DataFrame


In [None]:
df = df1.set_index("uniprot")
df

### Subsetting

- Seleccionar filas
- Seleccionar columas
- Seleccionar filas y columnas

In [None]:
# Seleccionar filas

## por nombre del indice
df.loc["P26477", :]

df.loc[["P26477", "P56206"], :]

## por la posición
display(df.iloc[0, :])

display(df.iloc[[0], :]) # Cual es la diferencia.


In [None]:
# Seleccionar Columnas

## Por nombre de la columna

df["name"]

df.name

df.loc[:, "name"]

df.loc[:, ["name", "length"]]

## Por posición

df.iloc[:, 0]

In [None]:
# Seleccionar filas y columnas

# por nombre
df.loc[["P26477", "P02929"], ["name", "species"]]

# por posición
df.iloc[[0, 2], [0, 2]]

# Alternativas
df.loc[["P26477", "P02929"], :].iloc[:, [0, 2]]
df.loc[["P26477", "P02929"], :][["name", "species"]]


### Combinar Dataframes

In [None]:
data1 = [
  ("P13551", "Elongation factor G", "Thermus thermophilus"),
  ("P03129", "Protein E7", "Human papillomavirus type 16"),
  ("P14738", "Fibronectin-binding protein A", "Staphylococcus aureus"),
  ("P06179", "Flagellin", "Salmonella typhimurium"),
  ("P26477", "Negative regulator of flagellin synthesis", "Salmonella typhimurium"),
  ("P56206", "Glycine--tRNA ligase", "Thermus thermophilus"),
  ("P02929", "Protein TonB", "Escherichia coli"),
  ("P27001", "Phenylalanine--tRNA ligase alpha subunit", "Thermus thermophilus"),
  ("P11409", "Modification methylase PvuII", "Proteus hauseri"),
]

df1 = pd.DataFrame(data1, columns=["uniprot", "name", "species"])
display(df1)


data2 = [
  ("P56206", 506, 17.00),
  ("P02929", 239, 20.50),
  ("P27001", 350, 28.86),
  ("P11409", 336, 11.31),
  ("P13551", 691, 8.54),
  ("P03129", 98, 52.04),
  ("P14738", 1018, 12.77),
  ("P06179", 495, 21.21),
  ("P26477", 97, 100.00),
]

df2 = pd.DataFrame(data2, columns=["uniprot", "length", "disorder_content"])
display(df2)




In [None]:
merged = pd.merge(
  df1,
  df2,
  on="uniprot",
  how="inner"
)
merged

### Agregar columnas

In [None]:
merged2 = merged


merged2["disordered_positions"] = (merged2["length"] * merged2["disorder_content"]/100).round()
merged2


In [None]:
merged3 = merged.assign(disordered_positions= lambda df: (df["length"] * df["disorder_content"]/100).round())
merged3

### Resumen de datos

- value_counts
- describe
- info

In [None]:
merged3.species.value_counts()

In [None]:
merged3.describe()

In [None]:
merged3.info()

### Agrupar datos

- groupby
- aggregate

In [None]:
(
  merged3[["species", "length", "disorder_content", "disordered_positions"]]
    .groupby(["species"])
    .max()
)

In [None]:
(
  merged3
    .groupby(["species"])
    .apply(
      lambda rows: rows["uniprot"].str.cat(sep="/")
    )
)

In [None]:
# aggregate
merged3.agg([min, max, lambda x: x.iloc[0]])


## Introducción a Matplotlib

- Creación de gráficos
- Referencia
  - https://matplotlib.org/stable/api/index.html
- Ejemplos:
  - https://matplotlib.org/stable/gallery/index.html

### Crear plots y axes

In [None]:
import matplotlib.pyplot as plt

titulos_internacionales = {
  'R. Madrid': 23,
  'Barc.': 19,
  'Liv.': 13,
  'B. Munich': 10,
  'Juve.': 9
}

names = list(titulos_internacionales.keys())
values = list(titulos_internacionales.values())

fig, axs = plt.subplots(1, 3, figsize=(16, 6), sharey=True)

axs[0].bar(names, values)
axs[1].scatter(names, values)
axs[2].plot(names, values)

fig.suptitle('Equipos con más títulos internacionales.')


### Anotar un plot

In [None]:
axs[0].annotate(
  '14 champion leagues', (0.2, 20),
  xytext=(4.5, 22),
  arrowprops=dict(facecolor='black', shrink=0.1),
  fontsize=16,
  horizontalalignment='right',
  verticalalignment='top'
)
fig

## Introducción a Scipy

- Computación científica en python.
  - Estadística
  - Métodos de optimization
  - Resolución de ecuaciones diferenciales
  - etc.
- Referencia:
  - https://docs.scipy.org/doc/scipy/reference/stats.html

- Distribuciones de probabilidad
    - continuas
    - multivariadas
    - discretas
- Estadísticos de resumen
- Correlación
- Test estadísticos
- Ajuste de datos a una distribución



## Introducción a SymPy

- Computación simbólica
- Referencia:
  - https://www.sympy.org/en/index.html


### Cálculo de derivadas

In [None]:
import sympy as sy

# Declaro varaibles que represenan simbolos matemáticos.
x, y, z = sy.symbols('x y z')


# Declaron una función
f = sy.cos(x)

# Calculo la derivada
dfdx = sy.diff(f, x)

dfdx

### Cálculo de integrales

In [None]:
f = sy.cos(x)

Sf = sy.integrate(f, x)

Sf

### Resolución de ecuaciones

In [None]:
f1 = sy.cos(x)
f2 = sy.sin(x)

eq = sy.Eq(f1, f2)

sy.solveset(eq, x)


## 