<div >
<img src = "figs/ans_banner_1920x200.png" />
</div>

# Introducción a Python

   Este *cuaderno* es un breve tutorial sobre las funciones y librerías básicas de `Python` que el lector va a necesitar para el desarrollo de buena parte de las actividades de este curso. **NO** es necesario editar el archivo o hacer una entrega. Sin embargo, es libre de modificarlo editando celdas de texto (celdas *Markdown*) o las celdas de código (`celdas con código ejecutable están en gris`). Esta puede ser una buena forma de aprender nuevas funcionalidades del cuaderno, o experimentar variaciones en los códigos de ejemplo.

## Operaciones básicas

Para comenzar, podemos usar `Python` para casi cualquier cosa de desarrollo computacional, desde operaciones algebraicas básicas hasta programas complejos.

Los operadores algebraicos básicos son:


- Suma (`+`). 

In [None]:
print(5 + 5)

- Resta (`-`).

In [None]:
print(5 - 5)

- Multiplicación (`*`).

In [None]:
print(3 * 5)

- División (`/`).

In [None]:
print(10 / 3)

- División entera (`//`).

In [None]:
print(10 // 3)

- Módulo (`%`).

In [None]:
print(18 % 7)

- Potencia (`**`).

In [None]:
print(4 ** 2)

## Variables

Para definir variables en `Python` utilizamos el símbolo  de igual (`=`). Como buena práctica de programación, cuando definimos un nombre, utilizamos guion bajo (`_`) para separar las palabras. **Nunca usamos un punto**. Adicionalmente, es recomendable no usar caracteres especiales como tildes o ñ en los nombres de los objetos que definamos.

A continuación creamos 4 variables:

- A la primer variable la llamaremos `refran` y contendrá un texto alusivo a un refrán. Todos los textos deben estar entre comillas para que `Python` sepa que son textos.

In [None]:
refran = "Al que madruga le da sueño por la tarde"

- La segunda variable la llamaremos `x` y será un número entero.

In [None]:
x = 3

- La tercera variable la llamaremos  `pi` y será una aproximación al número $\pi$.

In [None]:
pi = 3.1416

- La cuarta variable la llamaremos `condicion` y tomará el valor de vardadero (`True`).

In [None]:
condicion = True

Tengamos en cuenta que cada variable tiene un color diferente. El color está asociado al **tipo**: texto (*string*), número (*int* o *float*), o booleana (*bool*). Para verificar el tipo de una variable escribimos: `type(nombre_de_la_variable)`.

In [None]:
type(refran)

In [None]:
type(x)

In [None]:
type(pi)

In [None]:
type(condicion)

Es importante que conozcamos la clase de los objetos con los que trabajamos. Dependiendo de la misma, las operaciones y funciones a implementar cambian su resultado. Comparemos los resultados de las siguientes operaciones:

- Sumar dos números: un número entero (`int`) y un número flotante (`float`).

In [None]:
x + pi

- Combinar números y un booleano.  `Python` interpreta `condicion` como si fuera 1, debido a que `True` es una palabra clave y siempre es igual a `1`. Por el contrario, `False` es siempre igual a `0`. (Cambie en la celda el valor de `condicion` a `False` y compare los resultados).

In [None]:
pi - 2*condicion

- Negar el booleano.

In [None]:
not condicion

- Concatenar texto.

In [None]:
refran + refran

- Agregar un espacio en blanco y repetir 5 veces la variable `refran`.

In [None]:
(refran + " ")* 5

## Listas

Las listas son una forma de almacenar una secuencia de objetos. Una lista puede contener objetos de diferentes tipos e incluso puede contener otras listas. La forma más fácil de construir una lista es con dos corchetes (`[]`) y separando los elementos con una coma (`["a", "b"]`).

A modo de ejemplo, creemos 4 listas:

In [None]:
beatles = ["John", "Paul", "George", "Ringo"]
print(beatles)
print(type(beatles)) 

In [None]:
notas_taller1 = [4.2, 3.8, 4.5, 2, 5]
print(notas_taller1)


In [None]:
random_list = ['mytext', 3.0, 7, [10, 20]]
print(random_list)


In [None]:
lista_vacia = []
print(lista_vacia)

Cada elemento de una lista se encuentra en una posición. En `Python` se le conoce como *index* y **la primera posición es el 0**, la segunda es el 1 y así sucesivamente hasta llegar a la última posición que es **$n - 1$**.

Con las listas, al igual que en las variables, podemos hacer diferentes operaciones. Veamos como podemos acceder y extraer elementos de las listas:


- Acceder al primer elemento

In [None]:
print(beatles[0])

- Acceder el segundo elemento.

In [None]:
print(beatles[1])

- Acceder al último elemento (tenga en cuenta que es -1 y no -0).

In [None]:
print(beatles[-1]) 

- Acceder al n-ésimo - 1 elemento.

In [None]:
print(beatles[-2]) 

Si queremos acceder o extraer más de un elemento, podemos usar los siguientes atajos. Debemos tener en cuenta que los corchetes en `Python` son inclusivos por la izquierda, pero exclusivos por la derecha. 

Para ello, creemos una nueva lista:

In [None]:
example = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] 

- Extraer los primeros 5 elementos.

In [None]:
print(example[0:5])

- De los primeros 5 elementos, extraer los últimos 4.

In [None]:
print(example[1:5]) 

- Extraer el tercer elemento, sin incluir el cuarto.

In [None]:
print(example[2:3]) 

- Extraer desde el primero al tercer elemento. Notemos que es excluyente a la derecha.

In [None]:
print(example[:3]) 


- Extraer desde el cuarto elemento hasta el final de la lista. Notemos que es incluyente a la izquierda.

In [None]:
print(example[3:]) 


- Extraer de 2 en dos desde el elemento 1 hasta el elemento 10. Sintaxis: `nombre_lista[indice_inicial:indice_final:tamaño_paso]`.

In [None]:
print(example[0:9:2]) 

- Extraer toda la lista de 2 en 2.

In [None]:
print(example[::2]) 


- Invertir el orden de la lista.

In [None]:
print(example[::-1]) 

- Modificar la lista.

In [None]:
example[0] = "Hola" 
print(example)

### tuplas

Las `tuplas` son un conjunto ordenado e inmutable de elementos del mismo o diferente tipo. Las tuplas se escriben entre paréntesis  y separadas por comas.

In [None]:
tupla1= (2, "Darth Vader", 3.1415)
tupla1

In [None]:
tupla_vacia = ()
tupla_vacia

## Condiciones

`Python` soporta distintos tipos de condiciones que retornan valores de verdadero (`True`) o falso (`False`) dependiendo si se cumplen o no. Estas condiciones son útiles para controlar el flujo del código.

- Igual (`==`)

In [None]:
x = 2
condicion1 = x == 2 
condicion1

- No es igual (`!=`)


In [None]:
condicion2 = x == 3 
condicion2

- Menor que y Menor o igual que (`<` y `<=`) 

In [None]:
condicion3 = x < 3
condicion3 

- Mayor que y Mayor o igual que (`>` y `>=`)

In [None]:
condicion4 = x>5
condicion4

- y (`and`, `&`)

In [None]:
condicion1 and condicion2 # V & F -> F

In [None]:
condicion2 and condicion1 # F & V -> F

- o (`or`, `|`)

In [None]:
condicion1 or condicion2 # V | F -> V

In [None]:
condicion2 or condicion1 # F | V -> V

- Negación (`not`, `~`)

In [None]:
not condicion2

### Sentencias `if`, `else` y `elif`

Para controlar el flujo (*control flows*) de un programa podemos utilizar las funciones `if`, `else` y `elif`, junto con las condiciones que describimos anteriormente. Por ejemplo:

```
if condicion1:
    # Si la condición es verdadera (True) se ejecuta esta porción de código
    print("condicion1 es verdadera")
elif condicion2:
    # Si la condición 1 es falsa (False) y la condición 2 es verdadera (True), se ejecuta esta porción
    print("condicion1 es falsa y la condicion2 es verdadera")
else:
    # Si la condición 1 y 2 son falsas, se ejecuta esta porción
    print("condicion1 y la condicion2 son falsas")
```

Notemos que luego de la condición sólo debemos incluir el símbolo de dos puntos (`:`) y el código debajo e indentado por 4 espacios (un tab).

Algunos ejemplos:

In [None]:
lado_oscuro = "Anakin Skywalker"
hijo = "Luke Skywalker"

if lado_oscuro == "Anakin Skywalker": 
    print("Darth Vader")

if lado_oscuro == hijo:
    print("Luke, no te rindas al odio. Eso lleva al lado oscuro")

In [None]:
if lado_oscuro == hijo:
    print("Luke, no te rindas al odio. Eso lleva al lado oscuro")
else: 
    print(lado_oscuro + " es el padre de " + hijo)

In [None]:
padre = lado_oscuro

if lado_oscuro == hijo:
    print("Luke, no te rindas al odio. Eso lleva al lado oscuro")
elif padre == "Anakin Skywalker":
    print("Yo soy tu padre!")
else: 
    print(lado_oscuro + " es el padre de " + hijo)

### Bucles (Loops)

Un bucle (loop) es una estructura de control que repite una porción de codigo un número prederminado de veces.  Existen dos tipos de bucles:

- *for loops* en donde se itera sobre una lista de elementos.
- *while loops* en donde se itera mientras que cierta condición se cumple.

Algunos ejemplos:

- Iterar sobre los números del 0 al 4.

In [None]:
for x in range(0, 5):
    print(x)

- Iterar sobre los números del 3 al 7 de dos en dos.

In [None]:
for x in range(3, 8, 2):
    print(x)

- Iterar sobre texto (string).

In [None]:
for x in "Python":
   print(x)

- Agregar un freno (`break`), detiene la iteración.

In [None]:
mago = ["Harry", "Hermione", "Ron", "Voldemort", "Dumbledore"]
for x in mago:
    if x == "Voldemort":
        break #detiene la iteración
    print(x)

- Detener la iteración y continuar con la siguiente.

In [None]:
for x in mago:
    if x == "Voldemort":
        continue # continue con la siguiente
    print(x)

- Iterar hasta que `x` sea menor al valor 5.

In [None]:
x = 1
while x < 5: 
    print(x)
    x += 1

#### Bucles (loops) de una sola línea

Los bucles o *loops* de una sola línea típicamente se usan para definir listas de una manera exhaustiva a partir de un iterable (características en común, operaciones sobre el iterable, etc). 

Por ejemplo:

 - Una lista cuyos elementos son las letras de la palabra **tiburon**.

In [None]:
lista_tiburon = [letra for letra in 'tiburon']
lista_tiburon

- Una lista con los cuadrados de los números múltiplos de 3 menores a 30.

In [None]:
lista_numeros = [x**2 for x in range(30) if x%3==0]
lista_numeros

## Funciones



Una de las fortalezas de `Python` es que podemos crear funciones. En realidad, muchas de las funciones de `Python` son funciones de funciones.

Las funciones se inician con la sentencia `def` y siguen la siguiente estructura básica:

```python
def nombre_funcion(parametro1, parametro2, ...):
    """
    Descripción de lo que hace la función

    Parameters:
        parametro1 (clase_parametro1): Descripción del primer parámetro. 
        parametro2 (clase_parametro2): Descripción del segundo parámetro.

    Returns:
        output1 (clase_output): Descripción de lo que es el producto y qué valores puede tomar.
    """

    # Bloque de código
    
    return(resultado)
```

Por ejemplo, una función que suma dos números `a` y `b` la definimos de la siguiente manera:

In [None]:
def suma_dos_numeros(a, b):
    """
    Esta función toma dos números y entrega la suma de estos.

    Parameters:
        a (float): número a sumar.
        b (float): número a sumar.

    Returns:
        resultado (float): suma de a + b
    """
    
    resultado = a + b

    return(resultado)

In [None]:
suma_dos_numeros(2, 3)

Es importante documentar adecuadamente una función para que sea útil a otros usuarios. Así, otros usuarios interesados podrán acceder a la documentación de la función por medio del signo de interrogación (`?`). 

In [None]:
?suma_dos_numeros

# Introducción a Pandas

`Pandas` es quizas la librería más famosa de `Python` para la manipulación de bases de datos. En Pandas existen tres tipos de estructuras: 

- Series: data en un arreglo 1D, etiquetada, homogénea e inmutable de tamaño.
- Data Frames: arreglo 2D, tamaño mutable, columnas heterogéneas, etiquetadas.
- Panel: arreglo 3D, tamaño mutable.

Para corroborar si `Pandas` está instalada escribimos `!pip show pandas`. Si la librería está instalada debería retornar un mensaje similar al que se ve a continuación.

In [1]:
!pip show pandas

Name: pandas
Version: 1.3.1
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: https://pandas.pydata.org
Author: The Pandas Development Team
Author-email: pandas-dev@python.org
License: BSD-3-Clause
Location: /Users/iggy/opt/anaconda3/lib/python3.7/site-packages
Requires: numpy, pytz, python-dateutil
Required-by: statsmodels, seaborn, osmnx, metriculous, geopandas


En caso contrario es necesario instalarla con el comando `!pip install pandas`. El comando `pip` permite instalar cualquier libreria.

Una vez instalada es necesario llamar la libreria `Pandas` usando el comando `import`. Opcionalmente podemos declarar una abreviación para `Pandas`, la forma más usada es `pd`.

In [2]:
import pandas as pd

## Creación de Data Frames 

`Dataframe` es una de las estructuras mas utilizadas en analisis de datos. Para ilustrar como generar y operar sobre estos, partamos de 4 listas:

In [3]:
nombres = ['Lucas', 'Juliana', 'Juan', 'Carla']
sexo = ['M', 'F', 'M', None]
edad = [23, 21, 25, 30]
notas = [4.5, 2, 3.25, 4]

In [4]:
diccionario = {'names': nombres, 'sex': sexo, 'age': edad, 'grades': notas}
diccionario

{'names': ['Lucas', 'Juliana', 'Juan', 'Carla'],
 'sex': ['M', 'F', 'M', None],
 'age': [23, 21, 25, 30],
 'grades': [4.5, 2, 3.25, 4]}

Finalmente un `dataframe` con la función `DataFrame`:

In [5]:
data = pd.DataFrame(diccionario)
data

Unnamed: 0,names,sex,age,grades
0,Lucas,M,23,4.5
1,Juliana,F,21,2.0
2,Juan,M,25,3.25
3,Carla,,30,4.0


 Este objeto tiene atributos a ,los que podemos acceder de la siguiente forma: el nombre de nuestra base, un punto (.), y el nombre del atributo que queremos visitar, es decir, `dataframe.atributo`. 

Los principales atributos de un `dataframe` son los siguientes:


- _info()_. Información básica del `dataframe`: número de observaciones, columnas, clases de cada columna, y cuántos valores completos tiene.


In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   names   4 non-null      object 
 1   sex     3 non-null      object 
 2   age     4 non-null      int64  
 3   grades  4 non-null      float64
dtypes: float64(1), int64(1), object(2)
memory usage: 256.0+ bytes


- _index_. El índice es un identificador de las filas. Generalmente se numeran las filas de  0 a n - 1, sin embargo se pueden cambiar los índices para que sean una palabra o una sequencia de números, lo importante es que no se repitan los índices .

In [7]:
data.index 

RangeIndex(start=0, stop=4, step=1)

- _columns_. Nombre de las columnas.

In [8]:
data.columns 

Index(['names', 'sex', 'age', 'grades'], dtype='object')

- _shape_. Dimensiones del `dataframe` (filas, columnas).

In [9]:
data.shape

(4, 4)

- _size_. Cantidad de datos (retorna el número total de elementos: el producto del número de filas por columnas).

In [10]:
data.size 

16

- _count_. Cantidad de datos **no** nulos.

In [11]:
data.count

<bound method DataFrame.count of      names   sex  age  grades
0    Lucas     M   23    4.50
1  Juliana     F   21    2.00
2     Juan     M   25    3.25
3    Carla  None   30    4.00>

- _values_. Valores en el `dataframe`.

In [12]:
data.values

array([['Lucas', 'M', 23, 4.5],
       ['Juliana', 'F', 21, 2.0],
       ['Juan', 'M', 25, 3.25],
       ['Carla', None, 30, 4.0]], dtype=object)

- _T_. Trasponer. Notemos que los índices del `dataframe` son los nombres de las columnas del `dataframe` sin trasponer.

In [13]:
data.T 

Unnamed: 0,0,1,2,3
names,Lucas,Juliana,Juan,Carla
sex,M,F,M,
age,23,21,25,30
grades,4.5,2.0,3.25,4.0


- _dtypes_. Tipos de cada variable.

In [14]:
data.dtypes

names      object
sex        object
age         int64
grades    float64
dtype: object

### Filtrar datos 

Existen diferentes métodos para filtrar `dataframes`.

Para filtrar utilizando el nombre que identifica a la fila o a la columna usamos  `.loc`.

Por ejemplo:

- Extraer la columna `names`.

In [15]:
data.loc[:,'names'] 

0      Lucas
1    Juliana
2       Juan
3      Carla
Name: names, dtype: object

- Extraer las columnas `names` y `sex`.

In [16]:
data.loc[:, ['names', 'sex']] 

Unnamed: 0,names,sex
0,Lucas,M
1,Juliana,F
2,Juan,M
3,Carla,


- Extraer columnas unicamente, obviando el comando `loc` y usando corchetes.

In [17]:
data[['names', 'sex']]

Unnamed: 0,names,sex
0,Lucas,M
1,Juliana,F
2,Juan,M
3,Carla,


Del mismo modo, para acceder a una columna y el nombre de esta no tiene espacios ni caracteres especiales, podemos acceder utilizando el comando `nombre_base.nombre_columna`.

In [18]:
data.names

0      Lucas
1    Juliana
2       Juan
3      Carla
Name: names, dtype: object

Para acceder a la posición de la fila o la columna, usamos el método `iloc`. Es importante recordar que `Python` denota la primera posición con 0.

Por ejemplo:


- Extraer el primer elemento.

In [19]:
data.iloc[:,0] 

0      Lucas
1    Juliana
2       Juan
3      Carla
Name: names, dtype: object

- Extraer la tercera y cuarta fila del `dataframe`.

In [20]:
data.iloc[2:4,]

Unnamed: 0,names,sex,age,grades
2,Juan,M,25,3.25
3,Carla,,30,4.0


El comando `.loc` permite filtrar la base utilizando condicionales. Por ejemplo, para filtrar los individuos con `sex` igual a `F` podemos utilizar un condicional para marcar las filas: en donde hay un `F` con `True` y  donde no lo hay con `False`.


In [21]:
filtro = data["sex"] == "F"
filtro 

0    False
1     True
2    False
3    False
Name: sex, dtype: bool

In [22]:
data.loc[filtro,] 

Unnamed: 0,names,sex,age,grades
1,Juliana,F,21,2.0


### Crear una columna

Para crear una nueva columna hacemos lo siguiente:
`nombre_base['nombre_columna'] = contenido_columna`.

In [23]:
data['rescaled_grades'] = data.grades*100/5

##  Estadísticas Descriptivas

Para describir los datos de un `dataframe` se pueden utilizar distintas funciones contenidas en `Pandas`.

Algunos ejemplos son:

- _describe()_. Muestra estadísticas descriptivas básicas de las variables numéricas.

In [24]:
data.describe() 

Unnamed: 0,age,grades,rescaled_grades
count,4.0,4.0,4.0
mean,24.75,3.4375,68.75
std,3.86221,1.087332,21.746647
min,21.0,2.0,40.0
25%,22.5,2.9375,58.75
50%,24.0,3.625,72.5
75%,26.25,4.125,82.5
max,30.0,4.5,90.0


- _sum()_. Suma.

In [25]:
data.sum()

  """Entry point for launching an IPython kernel.


names              LucasJulianaJuanCarla
age                                   99
grades                             13.75
rescaled_grades                    275.0
dtype: object

- _min()_. Mínimo.

In [None]:
data.min()

- _max()_. Máximo.

In [None]:
data.max()

- _idxmin()_. Índice de la posición del valor mínimo.

In [None]:
data.age.idxmin()

- _idxmax()_. Índice de la posición del valor máximo.

In [None]:
data.grades.idxmax()

- _mean()_. Media.

In [None]:
data.mean()

- _median()_. Mediana.

In [None]:
data.median()

## Importar datos
Para importar datos debemos definir primero el directorio de trabajo. Esto se hace a través del módulo `os`, que llamamos con la función `import`.

In [27]:
import os

Obtenemos el directorio actual con:

In [28]:
os.getcwd()

'/Users/iggy/Dropbox/Teaching/2022/MIAD/Unsupervised_Learning_MIAD/Tutoriales/Week0'

Para cambiar el directorio escribimos entre paréntesis la ruta de la carpeta en donde están ubicados los archivos:

In [29]:
os.chdir('Data')

FileNotFoundError: [Errno 2] No such file or directory: 'Data'

Para examinar qué archivos están en el directorio:

In [30]:
os.listdir()

['S0_N1_Algebra_Lineal.ipynb',
 '.DS_Store',
 'EX20-LaboratorioSinCalificacion copy.docx',
 '00_Aprendizaje_No_Supervisado_y_Supervisado.ipynb',
 '.ipynb_checkpoints',
 'S0_N1b_Algebra_Lineal_Solucion_form.docx',
 'S0_LSC3',
 'S0_N1_Algebra_Lineal_form.docx',
 'S0_LSC2',
 'S0_N1b_Algebra_Lineal_Solucion.ipynb',
 'S0_LSC2_Introduccion_Python.ipynb']

Para cargar un archivo en formato csv usamos la función `pd.read_csv()`:

In [31]:
accidentes = pd.read_csv('info_accidentes.csv')
accidentes.head()

FileNotFoundError: [Errno 2] No such file or directory: 'info_accidentes.csv'

La función `pd.read_csv` puede tomar multiples argumentos que ayudan en la lectura de los archivos. Para conocer estos argumentos y sus detalles utilizamos la función `ayuda` denotada por el signo de interrogación `?`.

In [None]:
?pd.read_csv

Para cargar un archivo de Excel usamos la función `pd.read_excel()`

In [None]:
accidentes2 = pd.read_excel('info_accidentes.xlsx')
accidentes2.info()

 # Conclusión
 
 En este *cuaderno* hicimos un breve resumen de las funciones básicas y de las librerias `Pandas` y `Os` de `Python`. Estas van a ser algunas de las funciones necesitaremos para el desarrollo de buena parte de las actividades de este curso. Al ser un resumen, no es exhaustivo, por lo que lo invitamos a a explorar por si mismo y leer las documentaciones de [`Python`](https://python-docs-es.readthedocs.io/es/3.9/index.html), [`Pandas`](https://pandas.pydata.org/docs/user_guide/index.html#user-guide) y [`Os`](https://docs.python.org/es/3/library/os.html#module-os).