# Introducción a Google Colab y Python

Python es un lenguaje de programación de propósito general, ampliamente utilizado en análisis de datos, desarrollo web, inteligencia artificial y automatización. Su legibilidad y la vasta cantidad de bibliotecas disponibles lo hacen extremadamente popular.

Google Colaboratory (Colab) es un entorno de notebook Jupyter gratuito que se ejecuta completamente en la nube. Permite escribir y ejecutar código Python (y otros lenguajes), adjuntar archivos, compartir notebooks y colaborar en tiempo real, todo sin necesidad de configuración. Es el análogo de RStudio en el ecosistema Python, proporcionando un entorno interactivo para el desarrollo y la ejecución de código.

#Instalación y Entorno

En Google Colab, no necesitas instalar Python ni ninguna biblioteca básica, ya que todo viene preconfigurado en el entorno de la nube. Simplemente necesitas un navegador web y una cuenta de Google.

El entorno de Colab se parece mucho a un notebook Jupyter. Tendrás celdas para escribir código y celdas para texto (Markdown), lo que permite combinar explicaciones, código y resultados en un solo documento.

**Elementos de Google Colab**

1. **Celdas de Código:** Donde escribes y ejecutas tu código Python.
2. **Celdas de Texto (Markdown):** Para añadir explicaciones, títulos, listas, etc., utilizando el formato Markdown. Esto es similar a cómo usas el "Script" en RStudio para escribir tus líneas de código y comentarios.
3. **Salida de Celdas:** Debajo de cada celda de código, verás los resultados de la ejecución (impresiones, gráficos, errores). Esto es comparable a la "Consola" en RStudio.
4. **Panel Lateral Izquierdo:** Aquí encuentras:
  - **Tabla de Contenidos:** Organiza tus secciones por títulos de Markdown.
  - **Fragmentos de Código:** Ejemplos de código útiles.
  - **Archivos:** Un explorador de archivos para cargar, descargar y gestionar tus datos. Similar a la pestaña "Files" en RStudio.
  - **Variables (Entorno de Ejecución):** En las versiones más recientes de Colab, puedes inspeccionar las variables creadas durante la sesión, de forma similar al panel "Environment" en RStudio.
6. **Entorno de Ejecución (Runtime):** Te permite gestionar el tipo de hardware (CPU, GPU, TPU) y reiniciar o desconectar el entorno, lo que afectaría a los objetos en tu sesión (similar a limpiar el "Environment" en RStudio).

# Funciones de Interés en Python (Colab)

**Instalar paquetes**

En Python, los paquetes se llaman bibliotecas. Puedes instalarlas usando `pip` dentro de una celda de Colab, precediendo el comando con un `!`. Esto le indica a Colab que ejecute el comando en el shell del sistema operativo.

In [None]:
# Instalar un paquete (ejemplo: pandas para manejo de datos)
!pip install pandas



**Cargar librerías**
En Python, usas la palabra clave `import` para cargar librerías. Es común usar alias cortos para las librerías populares (ej., `pd` para pandas, `np` para numpy).

In [None]:
# Cargar librerías
import pandas as pd
import numpy as np # Para operaciones numéricas, similar a las funciones base de R

**Ayuda**

Para obtener ayuda sobre una función o un objeto en Python, puedes usar `help()` o simplemente añadir un signo de interrogación `?` después del nombre del objeto o función y ejecutar la celda.

In [None]:
# Ayuda sobre una función (ej. help de la función 'read_csv' de pandas)
help(pd.read_csv)
# O de forma abreviada
pd.read_csv?

Help on function read_csv in module pandas.io.parsers.readers:

read_csv(filepath_or_buffer: 'FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]', *, sep: 'str | None | lib.NoDefault' = <no_default>, delimiter: 'str | None | lib.NoDefault' = None, header: "int | Sequence[int] | None | Literal['infer']" = 'infer', names: 'Sequence[Hashable] | None | lib.NoDefault' = <no_default>, index_col: 'IndexLabel | Literal[False] | None' = None, usecols: 'UsecolsArgType' = None, dtype: 'DtypeArg | None' = None, engine: 'CSVEngine | None' = None, converters: 'Mapping[Hashable, Callable] | None' = None, true_values: 'list | None' = None, false_values: 'list | None' = None, skipinitialspace: 'bool' = False, skiprows: 'list[int] | int | Callable[[Hashable], bool] | None' = None, skipfooter: 'int' = 0, nrows: 'int | None' = None, na_values: 'Hashable | Iterable[Hashable] | Mapping[Hashable, Iterable[Hashable]] | None' = None, keep_default_na: 'bool' = True, na_filter: 'bool' = True, verbose: 'bool | 

# Tipos de Variables y Estructuras de Datos en Python

Python tiene tipos de datos básicos (enteros, flotantes, cadenas, booleanos) y estructuras de datos integradas como listas, tuplas, diccionarios y conjuntos. Para el análisis de datos, las librerías como `NumPy` y `Pandas` proporcionan estructuras de datos más potentes y optimizadas, que son los equivalentes a los vectores, matrices y data frames de R.

**Variables**

En Python, asignas valores a las variables usando el operador `=`. No es necesario declarar el tipo de variable; Python lo infiere.

In [None]:
# Asignación de valores a variables
x = 5
print(2 * x + 3)

pais = "Colombia"
print(len(pais)) # nchar en R es len() en Python

13
8


**Vectores (Listas y Arrays de NumPy)**

En Python, una lista es una colección ordenada y modificable de elementos que pueden ser de diferentes tipos, similar a un vector en R que puede mezclar tipos (aunque no es lo más común para análisis numérico).

Para datos numéricos y operaciones vectorizadas eficientes, se usa `NumPy arrays` (arreglos de NumPy), que son el equivalente más cercano a los vectores en R. Los arrays de NumPy son homogéneos (todos los elementos del mismo tipo).

In [None]:
import numpy as np

# Listas en Python (equivalente a un vector que permite mezclas)
edad_list = [15, 19, 13, None, 20] # None es el equivalente a NA en R
deporte_list = [True, True, None, False, True]
comic_fav_list = [None, 'Superman', 'Batman', None, 'Batman']

print("Listas:")
print(edad_list)
print(deporte_list)
print(comic_fav_list)

# NumPy Arrays (más similar a los vectores de R para datos numéricos/homogéneos)
edad_np = np.array([15, 19, 13, np.nan, 20]) # np.nan es el equivalente a NA numérico
deporte_np = np.array([True, True, np.nan, False, True], dtype=object) # Usar dtype=object para mezclar tipos o para booleanos con NaN
comic_fav_np = np.array([np.nan, 'Superman', 'Batman', np.nan, 'Batman'], dtype=object)

print("\nNumPy Arrays:")
print(edad_np)
print(deporte_np)
print(comic_fav_np)

Listas:
[15, 19, 13, None, 20]
[True, True, None, False, True]
[None, 'Superman', 'Batman', None, 'Batman']

NumPy Arrays:
[15. 19. 13. nan 20.]
[True True nan False True]
[nan 'Superman' 'Batman' nan 'Batman']


**¿Cómo extraer elementos de un vector (NumPy Array)?**

Puedes acceder a elementos usando índices. Recuerda que en Python los índices empiezan en 0.



In [None]:
# Extracción de elementos de un NumPy array
print(edad_np[2])               # Un solo elemento (el tercer elemento)
print(comic_fav_np[[1, 4]])     # Varios elementos (el segundo y quinto)
print(deporte_np[np.arange(len(deporte_np)) != 2]) # Obtener todo excepto la tercera posición
print(edad_np[[1, 3]])          # Posiciones específicas (segunda y cuarta)

13.0
['Superman' 'Batman']
[True True False True]
[19. nan]


**Matrices (NumPy Arrays de 2D)**

En Python, las matrices se representan comúnmente con arrays de NumPy de dos dimensiones. La función `np.array()` se usa para crearlas.

In [None]:
# Matrices en Python con NumPy
mimatriz = np.array(np.arange(1, 21).reshape(4, 5)) # reshape para definir dimensiones
# Si necesitas que se llene por filas (byrow=TRUE en R)
mimatriz_byrow = np.array(np.arange(1, 21)).reshape(4, 5, order='C') # 'C' para fila-principal (por defecto)
mimatriz_byrow_fortran = np.array(np.arange(1, 21)).reshape(4, 5, order='F') # 'F' para columna-principal

print("Matriz (por defecto, llena por filas):")
print(mimatriz_byrow)

Matriz (por defecto, llena por filas):
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]


**¿Cómo extraer elementos de una matriz?**

La indexación de matrices en Python (NumPy) es muy similar a R.

In [None]:
# Extracción de elementos de una matriz
print(mimatriz_byrow[2, 3])            # 3ra fila (índice 2) y 4ta columna (índice 3)
print(mimatriz_byrow[1, :])            # Toda la segunda fila (índice 1)
print(mimatriz_byrow[:, 4])            # Toda la quinta columna (índice 4)
print(mimatriz_byrow[:, [0, 2, 4]]) # Sin las columnas 2 y 4 (índices 1 y 3), seleccionando las demás

14
[ 6  7  8  9 10]
[ 5 10 15 20]
[[ 1  3  5]
 [ 6  8 10]
 [11 13 15]
 [16 18 20]]


**Arreglos (NumPy Arrays de N-dimensiones)**

Para arreglos multidimensionales (más de 2 dimensiones), sigues usando `np.array`() con la forma (`shape`) deseada.

In [None]:
# Arreglos en Python con NumPy
# Usamos string.ascii_lowercase para obtener letras de la 'a' a la 'z'
import string
miarray = np.array(list(string.ascii_lowercase[:24])).reshape((3, 4, 2))

print("Arreglo:")
print(miarray)

Arreglo:
[[['a' 'b']
  ['c' 'd']
  ['e' 'f']
  ['g' 'h']]

 [['i' 'j']
  ['k' 'l']
  ['m' 'n']
  ['o' 'p']]

 [['q' 'r']
  ['s' 't']
  ['u' 'v']
  ['w' 'x']]]


**¿Cómo extraer elementos de un arreglo?**

La lógica de indexación se extiende a más dimensiones.

In [None]:
# Extracción de elementos de un arreglo
print(miarray[0, 2, 1])  # fila 1 (índice 0) y columna 3 (índice 2) de la segunda capa (índice 1)
print(miarray[:, :, 1])   # segunda capa completa (índice 1)
print(miarray[:, 2, :])   # tercera columna (índice 2) de todas las capas

f
[['b' 'd' 'f' 'h']
 ['j' 'l' 'n' 'p']
 ['r' 't' 'v' 'x']]
[['e' 'f']
 ['m' 'n']
 ['u' 'v']]


# Marco de datos (Pandas DataFrame)

El DataFrame de Pandas es la estructura de datos más importante para el análisis de datos en Python, y es el equivalente directo y muy potente al `data.frame` de R. Permite agrupar series (equivalentes a vectores) de diferentes tipos y de la misma longitud.

In [None]:
import pandas as pd

# Creamos el DataFrame
mimarco = pd.DataFrame({
    'edad': edad_list,
    'deporte': deporte_list,
    'comic_fav': comic_fav_list
})

print("DataFrame:")
print(mimarco)

DataFrame:
   edad deporte comic_fav
0  15.0    True      None
1  19.0    True  Superman
2  13.0    None    Batman
3   NaN   False      None
4  20.0    True    Batman


¿Cómo extraer elementos de un marco de datos?

Pandas ofrece varias formas de seleccionar datos, incluyendo `.` para columnas, `[]` para selección basada en etiquetas o enteros, y `loc[]` / `iloc[]` para selección basada en etiquetas/posiciones respectivamente.


In [None]:
# Extraer una columna
print("\nColumna 'deporte':")
print(mimarco.deporte) # Usando el operador .
print(mimarco['deporte']) # Usando corchetes simples
print(mimarco[['deporte']]) # Usando corchetes dobles, devuelve un DataFrame

# Extraer una columna por índice
print("\nSegunda columna (índice 1):")
print(mimarco.iloc[:, 1])

# Variables 'deporte' y 'edad'
print("\nVariables 'deporte' y 'edad':")
print(mimarco[['deporte', 'edad']])

# Primera columna de las posiciones 2 hasta 4 (índices 1 a 3)
print("\nPrimera columna de las posiciones 2 a 4:")
print(mimarco.iloc[1:4, 0])


Columna 'deporte':
0     True
1     True
2     None
3    False
4     True
Name: deporte, dtype: object
0     True
1     True
2     None
3    False
4     True
Name: deporte, dtype: object
  deporte
0    True
1    True
2    None
3   False
4    True

Segunda columna (índice 1):
0     True
1     True
2     None
3    False
4     True
Name: deporte, dtype: object

Variables 'deporte' y 'edad':
  deporte  edad
0    True  15.0
1    True  19.0
2    None  13.0
3   False   NaN
4    True  20.0

Primera columna de las posiciones 2 a 4:
1    19.0
2    13.0
3     NaN
Name: edad, dtype: float64


**¿Cómo extraer subconjuntos de un marco de datos?**

Pandas hace esto de forma muy intuitiva usando condiciones booleanas. La función `subset()` de R se traduce a filtros directos en Pandas.

In [None]:
# Subconjunto donde deporte es TRUE
print("\nSubconjunto donde deporte es TRUE:")
print(mimarco[mimarco['deporte'] == True])

# Subconjunto donde edad es >= 17
print("\nSubconjunto donde edad es >= 17:")
print(mimarco[mimarco['edad'] >= 17])

# Subconjunto donde edad < 20, seleccionando 'deporte' y 'comic_fav'
print("\nSubconjunto donde edad < 20, seleccionando 'deporte' y 'comic_fav':")
print(mimarco.loc[mimarco['edad'] < 20, ['deporte', 'comic_fav']])

# Subconjunto donde edad < 20 Y deporte es TRUE
print("\nSubconjunto donde edad < 20 Y deporte es TRUE:")
print(mimarco[(mimarco['edad'] < 20) & (mimarco['deporte'] == True)])


Subconjunto donde deporte es TRUE:
   edad deporte comic_fav
0  15.0    True      None
1  19.0    True  Superman
4  20.0    True    Batman

Subconjunto donde edad es >= 17:
   edad deporte comic_fav
1  19.0    True  Superman
4  20.0    True    Batman

Subconjunto donde edad < 20, seleccionando 'deporte' y 'comic_fav':
  deporte comic_fav
0    True      None
1    True  Superman
2    None    Batman

Subconjunto donde edad < 20 Y deporte es TRUE:
   edad deporte comic_fav
0  15.0    True      None
1  19.0    True  Superman


# Listas (Python Lists)

Las listas de Python son muy versátiles y pueden contener elementos de diferentes tipos, incluyendo otras listas, diccionarios, NumPy arrays o Pandas DataFrames. Son el equivalente directo de las listas en R.

In [None]:
# Creación de una lista en Python
import random

random.seed(12345) # set.seed en R es random.seed en Python
mivector_p = [random.random() for _ in range(5)] # runif(n=5) en R

matriz2_p = np.array(np.arange(1, 13)).reshape(2, 6)

milista_p = {'E1': mivector_p, 'E2': matriz2_p, 'E3': mimarco}

print("Lista:")
print(milista_p)

Lista:
{'E1': [0.41661987254534116, 0.010169169457068361, 0.8252065092537432, 0.2986398551995928, 0.3684116894884757], 'E2': array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]]), 'E3':    edad deporte comic_fav
0  15.0    True      None
1  19.0    True  Superman
2  13.0    None    Batman
3   NaN   False      None
4  20.0    True    Batman}


# Operadores en Python

Python tiene operadores similares a R para aritmética, relaciones, lógica y asignación.

**Operadores de asignación**

In [None]:
a = 5.3 # Recomendado
b = 4.6
age = 25
print(f"a: {a}, b: {b}, age: {age}") # f-strings para imprimir

a: 5.3, b: 4.6, age: 25


**Operadores aritméticos**

In [None]:
print(6 + 4) # Suma

a_p = np.array([1, 3, 2])
b_p = np.array([2, 0, 1])

print(a_p + b_p) # Suma de vectores elemento a elemento
print(a_p - b_p) # Resta de vectores elemento a elemento
print(a_p * b_p) # Multiplicación de vectores elemento a elemento
print(a_p / b_p) # División de vectores elemento a elemento (cuidado con división por cero)
print(a_p ** b_p) # Potencia de vectores elemento a elemento

print(7 // 3) # División entera (equivalente a %/% en R)
print(7 % 3)  # Módulo (residuo) (equivalente a %% en R)

10
[3 3 3]
[-1  3  1]
[2 0 2]
[0.5 inf 2. ]
[1 1 2]
2
1


  print(a_p / b_p) # División de vectores elemento a elemento (cuidado con división por cero)


**Operadores relacionales**

In [None]:
print(5 < 12) # ¿Será 5 menor que 12?
print("casa" > "barco") # Comparando strings (lexicográficamente)

print(a_p > b_p)  # Comparación término a término
print(a_p == b_p) # Comparación de igualdad término a término

True
True
[False  True  True]
[False False False]


**Operadores lógicos**

Python usa `and`, `or`, `not` en lugar de `&`, `|`, `!`.

In [None]:
print(False or False)
print(False or True)
print(False and True)
print(True and True)

False
True
False
True


**Instrucciones de Control en Python**

Python también ofrece estructuras de control de flujo similares a R.

**Instrucción `if`/`elif`/`else`**

In [None]:
# Si se cumple la condición se muestra "Verdadero"
if 4 > 3:
  print("Verdadero")
else:
  print("Falso")

Verdadero


**Instrucción `if-else` (expresión ternaria)**

Python no tiene un `ifelse` directo como R. Para operaciones condicionales en una sola línea, se usa una expresión ternaria. Para operaciones vectorizadas, Pandas y NumPy ofrecen funciones o métodos específicos (como `np.where`).

In [None]:
x_p = np.array([5, 3, 2, 8, -4, 1])

# Equivalente a ifelse para arrays de NumPy
resultado_par_impar = np.where(x_p % 2 == 0, 'Es par', 'Es impar')
print(resultado_par_impar)

# Para un solo valor
valor_ejemplo = 7
estado_ejemplo = 'Es par' if valor_ejemplo % 2 == 0 else 'Es impar'
print(estado_ejemplo)

['Es impar' 'Es impar' 'Es par' 'Es par' 'Es par' 'Es impar']
Es impar


**Instrucción `for`**

El bucle `for` en Python itera sobre elementos de una secuencia (listas, tuplas, cadenas, rangos, etc.).

In [None]:
for numero in range(1, 7): # range(start, end) genera números desde start hasta end-1
  print(numero)

1
2
3
4
5
6


**Instrucción `while`**

El bucle `while` se ejecuta mientras una condición sea verdadera.

In [None]:
umbral = 5
valor = 0
while valor < umbral:
  print("Todavía no")
  valor += 1 # Equivalente a valor = valor + 1

Todavía no
Todavía no
Todavía no
Todavía no
Todavía no


# Creación de funciones en Python

**¿Qué es una función en Python?**

Una función es un bloque de código reutilizable que realiza una tarea específica. En Python, se definen usando la palabra clave `def`.

**Partes de una función en Python**

- Entradas o argumentos: Se especifican entre paréntesis después del nombre de la función.
- Cuerpo: Es el bloque de código indentado que sigue a la declaración `def`.
- Salidas: Se devuelven usando la palabra clave `return`. Una función puede devolver múltiples valores (como una tupla).

**Estructura general de una función**

In [None]:
def nombre_de_funcion(par1, par2, ...):
  # cuerpo de la función
  resultado = par1 + par2
  return resultado

**Ejemplo**

In [None]:
# Función para sumar dos números
def suma(x, y):
  resultado = x + y
  return resultado

print(suma(x=4, y=6)) # Se pueden usar argumentos con nombre

# Otra forma de escribir la misma función (funciones lambda para expresiones simples)
suma_corta = lambda x, y: x + y
print(suma_corta(x=4, y=6))

10
10
