# Resumen de la semana 1 del curso de Python para Ciencia de Datos
Autora: Denisse Fierro Arcos

## Instalación de `Python`
Para este curso decidimos instalar `Python` a través de Miniconda que es una versión ligera de Anaconda. La instalación de Miniconda es muy sencilla, solo hay que seguir los pasos que se indican en el siguiente [enlace](https://conda.io/projects/conda/en/latest/user-guide/install/index.html). Recuerda que debes descargar la versión de Miniconda que corresponda con tu sistema operativo. Esta instalación la deberás hacer una sola vez en tu computadora.  
  
**Glosario:**  
- Miniconda: Es una versión ligera de Anaconda que incluye `Python`, un administrador de paquetes llamado `conda`, así como un selecto número de paquetes de ciencias de datos disponibles para `Python`.  
- Anaconda: Es una distribución de `Python` que incluye `Python`, un administrador de paquetes llamado `conda`, así como alrededor de 1,500 de paquetes de ciencias de datos disponibles para `Python`.  
- Conda: Es un administrador de paquetes que permite instalar, actualizar y eliminar paquetes de `Python` de manera sencilla en tu computador. Conda es el administrador de paquetes que viene incluido en Miniconda y Anaconda.  

## Ambientes o entornos virtuales en Conda
A diferencia de `R`, la instalación de paquetes en `Python` suele ser un poco más compleja ya que los paquetes de `Python` suelen tener dependencias con versiones específicas de otros paquetes de `Python`. Si no se manejan bien las dependencias entre paquetes (por ej., si se instalan dos paquetes que dependen de versiones diferentes de un mismo paquete), es posible que se generen conflictos entre paquetes y que estos no funcionen correctamente. Para evitar este tipo de conflictos, es recomendable utilizar entornos virtuales.  
  
Conda permite crear ambientes virtuales de manera sencilla y de esta manera podemos aislar los paquetes de `Python` que se utilizan en un proyecto en particular. Esto permite que cada proyecto tenga sus propios paquetes de `Python` sin que estos entren en conflicto con los paquetes de otros proyectos. Esto es muy útil cuando se trabaja en varios proyectos de manera simultánea.  
  
Para crear un entorno virtual en Conda, debemos abrir el **Anaconda Prompt** y ejecutar el siguiente comando:  
  
```bash
conda create --name nombre_entorno
```

Donde `nombre_entorno` es el nombre que le queremos dar a nuestro entorno virtual. Una vez que se crea el ambiente virtual, podemos activarlo con el siguiente comando:  
    
```bash
conda activate nombre_entorno
```
  
Una vez activado, podemos instalar los paquetes de `Python` que necesitemos para nuestro proyecto. Por ejemplo, si queremos instalar el paquete `pandas` en nuestro entorno virtual, debemos ejecutar el siguiente comando:  
  
```bash
conda install -c conda-forge pandas
```
  
El parámetro `-c conda-forge` indica que queremos instalar el paquete `pandas` desde el canal `conda-forge`. Los canales son repositorios de paquetes de `Python` que permiten instalar paquetes que no están disponibles en el canal por defecto de Conda. Además, los canales permiten instalar paquetes que no generan (o al menos minimizan la posibilidad) conflictos entre sí.
  
Si queremos verificar la lista de paquetes que tenemos instalados en nuestro ambiente virtual, podemos ejecutar el siguiente comando:  
  
```bash
conda list
```
  
Una vez que hayamos instalado todos los paquetes que necesitemos, podemos exportar la lista de paquetes instalados en nuestro entorno virtual a un archivo `yml`. Esto tiene dos beneficios principales:  
1. Nos permite compartir la lista de paquetes instalados con otras personas que quieran replicar nuestro proyecto.
2. Nos permite replicar nuestro entorno virtual en otra computadora.
  
Podemos exportar la lista de paquetes en nuestro entorno con el siguiente comando:  
  
```bash
conda env export > ambiente.yml
```
  
Donde `ambiente` es el nombre del archivo que contiene la lista de paquetes instalados en nuestro entorno virtual.  
  
Para replicar nuestro entorno virtual en otra computadora, podemos hacer uso del archivo `yml` creado en el paso anterior, y luego ejecutar el siguiente comando:  
  
```bash
conda env create -n nombre_entorno -f ambiente.yml
```
  
Donde `nombre_entorno` es el nombre que le queremos dar a nuestro entorno virtual y `ambiente` es el nombre del archivo `yml` que contiene la lista de paquetes instalados en nuestro entorno virtual.  
  
Una vez que hayamos terminado de trabajar en nuestro proyecto, podemos desactivar nuestro entorno virtual con el siguiente comando:  
  
```bash
conda deactivate
```
  
Si queremos eliminar nuestro ambiente virtual de manera permanente de nuestro computador, podemos ejecutar el siguiente comando:  
  
```bash
conda remove --name nombre_entorno --all
```
  
Donde `nombre_entorno` es el nombre del entorno virtual que queremos eliminar. Nota que el entorno que quieres eliminar debe estar desactivado antes de poder eliminarlo.  
  
Por último, podemos verificar todos los ambientes virtuales que tenemos instalados en nuestro computador con el siguiente comando:  
  
```bash
conda env list
```

## ¿Cómo ejecutar `Python`?
Hemos visto cómo instalar `Python` y cómo crear ambientes virtuales en Conda en nuestro computador, pero aún no hemos ejecutado `Python`. Para ejecutar `Python` podemos hacer uso del **Anaconda Prompt**, **Terminal**, o **Command Prompt** dependiendo del sistema operativo que tengamos. Para activar `Python` en cualquiera de estos programas, debemos ejecutar el siguiente comando:  
  
```bash
python
```
  
Lo que resultará en lo siguiente:  
  
```bash
C:\Users\Usario>python
Python 3.10.9 | packaged by conda-forge | (main, Jan 11 2023, 15:15:40) [MSC v.1916 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> 
```
  
Si  queremos salir de `Python`, podemos ejecutar el siguiente comando:  
  
```bash
>>> exit()
```
  
Desde aquí podemos interactuar con `Python` y ejecutar comandos de `Python` de la misma manera como lo hicieron en la consola en las clases de `R`. Al igual que en `R`, podemos ejecutar comandos de `Python` de manera interactiva, pero no podemos guardar los comandos que estemos ejecutando. Para guardar los scripts que desarrollemos debemos crear un archivo de `Python` con extensión `.py` o un cuadernos de Jupyter con extensión `.ipynb`. El archivo `.py` puede ser ejecutado desde la consola, mientras que el cuaderno de Jupyter es similar a los archivos Markdown que hemos visto en las clases de `R`.

### Interfaces que permiten interactuar con `Python`
1. **Jupyter Notebook**
Existen varias interfaces que permiten interactuar con `Python` de manera interactiva. Una de las más populares es [Jupyter](https://jupyter.org/). Jupyter es una aplicación web que permite crear cuadernos de `Python` (archivos con extensión `.ipynb`) que pueden ser ejecutados desde un navegador (por ej., Google Chrome). Vale la pena recalcar que a pesar que un navegador es utilizado para estos cuadernos, estos cuadernos no son páginas web, sino que son archivos y paquetes disponibles en tu computador que pueden ser accedidos y ejecutados desde un navegador. Jupyter permite ejecutar comandos de `Python` de manera interactiva, pero también permite guardar los comandos que estemos ejecutando. Además, Jupyter permite incluir texto, imágenes, ecuaciones, etc. en los cuadernos de `Python`.  
  
Jupyter puede ser instalado en nuestro computador a través de Conda. Para instalar Jupyter, debemos abrir el **Anaconda Prompt** y ejecutar el siguiente comando:  
  
```bash
conda install -c conda-forge jupyterlab
```
  
Recuerda que deberás activar el ambiente virtual donde quieres instalar Jupyter antes de ejecutar el comando anterior. Una vez que Jupyter haya sido instalado, podemos ejecutar Jupyter desde el **Anaconda Prompt** con el siguiente comando:  
  
```bash
jupyter lab
```
  
Esto abrirá una página web en tu navegador desde donde podrás crear y ejecutar cuadernos de Jupyter utilizando `Python`.

2. **RStudio**
Puedes utilizar la misma interface que utilizas para interactuar con `R` para interactuar con `Python`. Para esto, debes instalar el paquete `reticulate` en `R` con el siguiente comando:  
  
```r
install.packages("reticulate")
```
  
Debes asegurarte de conectar RSudio con la versión de `Python` que instalaste en tu computador. Para esto, puedes ir al menú: *Tools > Project Options... > Python*. En este menú puedes presionar *Select...* seleccionar el ambiente virtual que quieres utilizar en tu proyecto.

3. **Workspaces de Datacamp**
Como becarias de New Dimensions tienen acceso a los Workspaces Premium en Datacamp. Pueden acceder a estos Workspaces desde el siguiente [enlace](https://app.datacamp.com/workspace/overview). Asegúrate que el perfil LIDE (New Dimensions) aparezca en la parte superior izquierda, y luego presiona el botón verde que dice *Create workspace*.  
  
Si ya has trabajado con workspaces antes, entonces presiona *Workspace* de la barra izquierda y esto te mostrará todos los workspaces que has creado. 
  
Esta es una lista pequeña de todas las interfaces disponibles para `Python`. No existe en realidad una interface que sea la mejor, sino que esto varía mucho de acuerdo a preferencias personales. No importa la interface que decidas usar, lo importante es que te sientas cómoda con ella y que te permita trabajar de manera eficiente.

## Usando paquetes de `Python`
Ya hemos instalado `Python` y hemos visto cómo crear ambientes virtuales y cómo instalar paquetes, así como opciones de cómo interactuar con `Python`. Ahora veremos cómo utilizar paquetes de `Python` en nuestros proyectos.  
  
En `Python` los paquetes se importan con el comando `import`. Por ejemplo, si queremos importar el paquete `pandas`, debemos ejecutar el siguiente comando:

In [None]:
import pandas

Esto va a importar el paquete completo de `pandas` con todas sus funciones a nuestro proyecto. Si queremos utilizar una función específica de `pandas`, debemos llamar a la función con el nombre del paquete. Por ejemplo, si queremos utilizar la función `read_csv` (que nos permite leer datos desde un archivo `.csv`) del paquete `pandas`, debemos ejecutar el siguiente comando:  

In [None]:
pandas.read_csv("data.csv")

Por suerte en este caso, el nombre del paquete es relativamente corto, pero existen otros paquetes con nombres más largos como `matplotlib` que nos permite crear gráficos. Para evitar utilizar el nombre completo del paquete cada vez que queremos utilizar una de sus funciones, podemos importar el paquete con un alias o apodo. Por ejemplo, si queremos importar el paquete `matplotlib` con el alias `mp`, debemos ejecutar el siguiente comando:



In [None]:
import matplotlib as mp

De esta manera podemos utilizar las funciones del paquete `matplotlib` utilizando el alias `mp` seguido de la función o módulo que queremos utilizar. Un módulo es un subconjunto de funciones de un paquete que tienen un propósito en común. Por ejemplo, el paquete `matplotlib` tiene un módulo llamado `colormaps` que nos permite acceder y crear paletas de colores. Si queremos utilizar la paleta de colores `viridis` del paquete `matplotlib`, debemos ejecutar el siguiente comando:

In [None]:
mp.colormaps['viridis']

Recuerda que usamos el alias `mp` en este caso porque así importamos el paquete `matplotlib`.  
  
También es posible importar un módulo específico de un paquete. Por ejemplo, si queremos importar el módulo `pyplot` que nos permite crear gráficos del paquete `matplotlib` usando un alias o apodo, debemos ejecutar el siguiente comando:

In [None]:
import matplotlib.pyplot as plt

Si quisieramos iniciar una figura, entonces podríamos utilizar la función `figure` del módulo `pyplot` del paquete `matplotlib` de la siguiente manera:

In [None]:
plt.figure()

Por último, es posible cargar una sola función de un paquete. Por ejemplo, si queremos utilizar solamente la función `DataFrame` del paquete `pandas`, podemos ejecutar el siguiente comando:

In [2]:
from pandas import DataFrame

Ahora si queremos utilizar la función `read_csv` del paquete `pandas`, podemos ejecutar el siguiente comando:

In [3]:
DataFrame({'nombre': ['Ana', 'Juan', 'Maria'],
           'edad': [23, 34, 21]})

Unnamed: 0,nombre,edad
0,Ana,23
1,Juan,34
2,Maria,21


Como ven, no hay necesidad de primero nombrar al paquete, ya que la función `DataFrame` fue importada directamente.

## Tipos de datos en `Python`
Tal como en `R`, en `Python` existen varios tipos de datos. Los tipos de datos más comunes son:
- `int`: Números enteros.
- `float`: Números decimales.
- `str`: Cadenas de caracteres.
- `bool`: Valores lógicos.
  
La función `type` nos permite saber el tipo de dato de un objeto. Por ejemplo, si queremos saber el tipo de dato del número `1` o de la cadena de caracteres `"Hola"`, podemos  ejecutar los siguientes comandos:

In [5]:
#Numeros enteros
type(1)

int

In [6]:
#Caracteres
type('Hola')

str

Los valores lógicos o booleanos son `True` y `False`. Si queremos saber el tipo de dato de `True` o `False`, podemos ejecutar los siguientes comandos:

In [7]:
print(type(True), type(False))

<class 'bool'> <class 'bool'>


Ambos son de tipo booleanos. Noten que utilizamos la función `print` para imprimir el resultado de la función `type` aplicada a `True` y `False`. Esto es porque al ejecutar la celda anterior sin esta función, solo veremos el resultado de la última línea de código ejecutada, tal como mostramos abajo. 

In [8]:
type(True); type(False)

bool

## Asignando valores a variables
En `Python` podemos asignar valores a variables utilizando el operador `=`. Por ejemplo, si queremos asignar el valor `1` a la variable `x`, podemos ejecutar el siguiente comando:

In [9]:
x = 1

Podemos verificar el valor de `x` simplemente llamando a la variable `x` en la consola:

In [10]:
x

1

Podemos también realizar operaciones aritméticas con variables. Por ejemplo, si queremos sumar `15` a `x`, podemos ejecutar el siguiente comando:

In [11]:
x+15

16

Podemos asignarle este resultado a una nueva variable

In [13]:
y = x+15
y

16

También podemos sobreescribir el valor de `x` con el resultado de la operación anterior:

In [14]:
x = 10*x
x

10

Por último, podemos realizar operaciones utilizando el contenido de dos variables. Por ejemplo, si queremos sumar el contenido de `x` y `y`, podemos ejecutar el siguiente comando:

In [15]:
x+y

26

## Concatenando cadenas de caracteres
En `Python` podemos concatenar cadenas de caracteres de varias maneras, aquí incluyo algunas de las más comunes

### Utilizando el operador `+`. 

In [16]:
nombre = 'Juan'
apellido = 'Perez'

nombre+apellido

'JuanPerez'

Podemos agregar un espacio entre las cadenas de caracteres de la siguiente manera:

In [17]:
nombre+' '+apellido

'Juan Perez'

Podemos mezclar cadenas de caracteres con números de la siguiente manera:

In [21]:
edad = 23

nombre+' '+apellido+' tiene '+str(edad)

'Juan Perez tiene 23'

Nota que transformamos la variable `edad` en una cadena de caracteres utilizando la función `str` antes de concatenarlo con las otras dos variables. De lo contrario, obtendríamos un error.

In [20]:
nombre+' '+apellido+' '+edad

TypeError: can only concatenate str (not "int") to str

Esto nos indica que no podemos concatenar cadenas de caracteres con números. Para poder concatenar cadenas de caracteres con números, definitivamente debemos transformar los números en cadenas de caracteres.

### Utilizando la función `print`
Esta es una opción un poco más flexible porque nos permite incluir datos de varios tipos en una sola línea de código. Además, incluye espacios entre los valores que concatenamos. 

In [22]:
print(nombre, apellido, edad)

Juan Perez 23


También podemos agregar otros datos directamente, sin necesidad que estén asignado a una variable.

In [24]:
print('Mi nombre es', nombre, apellido, 'y tengo', edad, 'años')

Mi nombre es Juan Perez y tengo 23 años


También podemos cambiar el separador entre los valores que concatenamos. Por ejemplo, si queremos utilizar un guión como separador, podemos ejecutar el siguiente comando:

In [26]:
print(nombre, apellido, edad, sep = '-')

Juan-Perez-23


### Utilizando F-strings
Esta es una opción que permite incluir código en Python que será evaluado antes de ser concatenado. Para utilizar F-strings, debemos incluir una `f` antes de la cadena de caracteres que queremos concatenar. Por ejemplo, si queremos crear la oración `"Hola, mi nombre es ____ y tengo ____ años"`, en donde los espacios en blanco serán reemplazados por el valor de las variables nombre y edad, podemos ejecutar el siguiente comando:

In [27]:
f'Mi nombre es {nombre} {apellido} y tengo {edad} años'

'Mi nombre es Juan Perez y tengo 23 años'

## Listas
Las listas en `Python` son similares a los vectores en `R`. Las listas en `Python` pueden contener datos de diferentes tipos. Para crear una lista en `Python`, debemos incluir los elementos de la lista entre corchetes y separados por comas. Por ejemplo, si queremos crear una lista con los números `1`, `2` y `3`, podemos ejecutar el siguiente comando:

In [28]:
[1, 2, 3]

[1, 2, 3]

Las listas pueden ser asignadas a una variable. Por ejemplo, si queremos asignar la lista anterior a la variable `x`, podemos ejecutar el siguiente comando:

In [29]:
x = [1, 2, 3]

Podemos crear una lista con datos de distinto tipo de la misma manera:

In [30]:
mi_lista = [1, 'hola', 3.14, True]
mi_lista

[1, 'hola', 3.14, True]

### Accediendo a elementos de una lista
Para esto utilizamos índices que nos indican su posición en la lista. En `Python` los índices comienzan en `0`. Por ejemplo, si queremos acceder al primer elemento de la lista `mi_lista`, podemos ejecutar el siguiente comando:

In [32]:
mi_lista[0]

1

Podemos acceder a un rango de elementos de una lista utilizando dos índices separados por dos puntos. Por ejemplo, si queremos acceder al primer y segundo elemento de la lista `mi_lista`, podemos ejecutar el siguiente comando:

In [33]:
mi_lista[0:2]

[1, 'hola']

Nota que el segundo índice no está incluido en el resultado. Esto es porque el rango de índices va desde el primer índice hasta el segundo índice menos uno. Por ejemplo, si queremos acceder al primer, segundo y tercer elemento de la lista `mi_lista`, podemos ejecutar el siguiente comando:

In [35]:
mi_lista[0:3]	

[1, 'hola', 3.14]

También podemos utilizar índices negativos. En este caso, el índice comienza en `-1` y va hacia atrás. Por ejemplo, si queremos acceder al último elemento de la lista `mi_lista`, podemos ejecutar el siguiente comando:

In [36]:
mi_lista[-1]

True

Podemos acceder a un rango de elementos de una lista utilizando dos índices negativos separados por dos puntos. Por ejemplo, si queremos acceder al último y penúltimo elemento de la lista `mi_lista`, podemos ejecutar el siguiente comando:

In [37]:
mi_lista[-3:-1]

['hola', 3.14]

Pero, ¿por qué no incluye al último elemento? Esto es porque el rango de índices va desde el primer índice hasta el segundo índice menos uno. Por ejemplo, si queremos acceder al último, penúltimo y antepenúltimo elemento de la lista `mi_lista`, podemos ejecutar el siguiente comando:

In [38]:
mi_lista[-3:] 

['hola', 3.14, True]

Si utilizamos los dos puntos sin especificar un índice, entonces `Python` asume que queremos acceder a todos los elementos de la lista. Por ejemplo, si queremos acceder a todos los elementos de la lista `mi_lista`, podemos ejecutar el siguiente comando:

In [39]:
mi_lista[:]

[1, 'hola', 3.14, True]

Todos los elementos desde el índice 2 hasta el final

In [40]:
mi_lista[2:]

[3.14, True]

Desde el tercer elemento hasta el inicio.

In [43]:
mi_lista[:-1]

[1, 'hola', 3.14]

También podemos acceder a los caracteres de una cadena de caracteres utilizando índices. Por ejemplo, si queremos acceder al primer caracter de la cadena de caracteres `"Hola"`, podemos ejecutar el siguiente comando:

In [44]:
'hola'[0]

'h'

También podemos hacer los mismo con las cadenas de caracteres dentro de una lista

In [46]:
mi_lista[1][0]

'h'