# Python basic

**Python** es un lenguaje simple, fácil de manejar, *open source* y que tiene una gran versatilidad. Ahora mismo es el lenguaje más usado en *data analysis*, hay muchísima documentación ([python.docs](https://docs.python.org/3/), dudas resueltas en [stackoverflow](https://stackoverflow.com) y otros). También podrás encontrar muchos paquetes y código compartido. 

Aquí hacemos un pequeño resumen de las generalidades de **Python** y los tipos de estructuras básicos que hay. Al final hay unos ejercicios para practicar. 

<ul style="list-style-type:none">
    <li><a href='#1.-Generalidades'>1. Generalidades</a></li>
    <li><a href='#2.-Tipos-de-datos'>2. Tipos de datos</a></li>
    <ul style="list-style-type:none">
        <li><a href="#2.1-Tipos-numéricos">2.1. Tipos numéricos</a></li>
        <li><a href="#2.2-Strings">2.2. Strings </a></li>
        <li><a href="#2.3-Variables-lógicas">2.3. Variables lógicas</a></li>
        <li><a href="#2.4-Listas">2.4. Listas</a></li>
        <li><a href="#2.5-Tuplas">2.5. Tuplas</a></li>
        <li><a href="#2.6-Diccionarios">2.6. Diccionarios </a></li>
    </ul>
    <li><a href="#3.-Ejercicios-para-practicar">3. Ejercicios </a></li>
    <ul style="list-style-type:none">
</ul>


# 1. Generalidades

Para escribir código en **Python** se puede hacer desde un archivo plano con extension .py, con una notebook o con un IDE (entorno de escritorio integrado) como **PyCharm** o **Spider**. 



### Espíritu de Python. 
La filosofía de los principales desarrolladores de **Python** es escribir código de manera **simple**, **comprensible** y **estéticamente agradable**. Para mantener un código limpio y leíble es **importante** usar espacios coherentemente, usar nombre de variables facilmente identificables, usar módulos y funciones, documentar bien el código... Para poder ser facilmente **compartido**. 

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


El **sangrado** en **Python** es muy importante. 

In [3]:
x = 2
 y = 3 + x
z = y * 2
print(z)

IndentationError: unexpected indent (1882069862.py, line 2)

Además existe una guía de estilo aceptada por la comunidad: la PEP8, podéis ver las reglas [aquí](https://www.python.org/dev/peps/pep-0008/) con información como (identación, longitud de las líneas, espaciado, ... ). 

In [97]:
x=x+y
x = x + y

### Comentarios

Las líneas se ejecutan en orden secuencial dentro de una celda. Si **no** queremos que se ejecute alguna línea ponemos `#` delante. Todo lo que hay detrás de una almohadilla no se ejecuta. Muy útil para comentar el código

In [98]:
# Sumamos dos valores
5 + 3 

8

In [99]:
x + 3   # y= 3+2

38

### Funciones
Para escribir por pantalla usamos print. Cualquier función en python se ejecuta con el nombre de la función y paréntesis: nombre_funcion()

In [4]:
print("hello world")

hello world


In [121]:
help(print)

Help on built-in function print in module builtins:

print(...)
    print(value, ..., sep=' ', end='\n', file=sys.stdout, flush=False)
    
    Prints the values to a stream, or to sys.stdout by default.
    Optional keyword arguments:
    file:  a file-like object (stream); defaults to the current sys.stdout.
    sep:   string inserted between values, default a space.
    end:   string appended after the last value, default a newline.
    flush: whether to forcibly flush the stream.



In [6]:
x = 4 
help(x)

Help on int object:

class int(object)
 |  int([x]) -> integer
 |  int(x, base=10) -> integer
 |  
 |  Convert a number or string to an integer, or return 0 if no arguments
 |  are given.  If x is a number, return x.__int__().  For floating point
 |  numbers, this truncates towards zero.
 |  
 |  If x is not a number or if base is given, then x must be a string,
 |  bytes, or bytearray instance representing an integer literal in the
 |  given base.  The literal can be preceded by '+' or '-' and be surrounded
 |  by whitespace.  The base defaults to 10.  Valid bases are 0 and 2-36.
 |  Base 0 means to interpret the base from the string as an integer literal.
 |  >>> int('0b100', base=0)
 |  4
 |  
 |  Built-in subclasses:
 |      bool
 |  
 |  Methods defined here:
 |  
 |  __abs__(self, /)
 |      abs(self)
 |  
 |  __add__(self, value, /)
 |      Return self+value.
 |  
 |  __and__(self, value, /)
 |      Return self&value.
 |  
 |  __bool__(self, /)
 |      self != 0
 |  
 |  __ceil_

[Aquí](https://docs.python.org/3/library/functions.html) podéis ver la lista de funciones predefinidas (built-in functions) de Python. 

### Errores 
Si algo falla sale un error que suele ir acompañado de una explicación y la linea donde está el error. Esto simplifica el *debugging*.

In [7]:
a = 2 * 3
print(a) # Suma de dos numeros

NameError: name 'pritn' is not defined

In [8]:
b = 12
a = b * 2
a / 0

ZeroDivisionError: division by zero

# 2. Data types
Hay distintas estructuras para guardar datos en **Pyhton**. Aquí vemos las más comunes: 

## 2.1 Tipos numéricos
Tipos númericos hay **enteros**, **floats** (o reales de doble precisión) y **complejos**. En este caso podemos hacer operaciones matemáticas básicas:

In [9]:
# Tenemos enteros, reales y complejos
x = 1
y = 2.3
z = complex(2, 3)
# detecta tipo automáticamente
type(x), type(y), type(z)

(float, float, complex)

In [106]:
print(x + y)
# dividr / multplicar * exponente **, con print escribimos
print(x / y)
print(y * x)
print(y ** 2)


3.3
0.4347826086956522
2.3
5.289999999999999
(4+6j)


In [107]:
# podemos pasar de entero a real y al revés
print('x es {} y tipo {}'.format(float(x), type(float(x))))
print('y es {} y tipo {}'.format(int(y), type(int(y))))

x es 1.0 y tipo <class 'float'>
y es 2 y tipo <class 'int'>


## 2.2 Strings 
Las strings son variables de texto, útiles para cabeceras, análisis de texto, etc. Y se escriben entre comillas, simples o dobles. 

In [108]:
z = 'Santander'

Pero no operan como las variables númericas:

In [109]:
print(2 * z)

SantanderSantander


In [110]:
# podemos acceder a cada uno de los carácteres
print(z[0])

S


También podemos tener frases y tenemos distintos métodos para tratarlas. Lo que será útil para NLP

In [111]:
text = 'En Santander hay mar.'

In [112]:
text.split()

['En', 'Santander', 'hay', 'mar.']

In [113]:
text.replace('Santander', 'Torrelavega') + " ;-)"


'En Torrelavega hay mar. ;-)'

Podéis ver todos los métodos de la clase *string* [aquí](https://www.w3schools.com/python/python_ref_string.asp).

## 2.3 Variables lógicas
Las variables lógicas tienen valores **True** o **False**, muy útiles cuando establecemos condiciones:

In [114]:
# variables lógicas
x = 3

y = 4 > x
print(y)

z = 1.5 > x
print(z)

# y, z son variables lógicas, que serán útiles para establecer condiciones

True
False


## 2.4 Listas

Las listas son una estrucutras **heterogéneas**, **ordenadas** y **mutables** (se pueden cambiar sus valores). Los elementos están indexados dels el 0 a N-1. 


In [13]:
# las listas se escriben entre corchetes

lista = []  # lista vacía

print(type(lista))

<class 'list'>


In [14]:
l = [4, 2, 3] # lista con valores
print(l)
print(type(l))

[4, 2, 3]
<class 'list'>


Las listas son estructuras **heterogéneas**, es decir, que pueden contener valores de distintos tipos:

In [15]:
a_list = [1, 1, 3.5, "algun string", [None, 4]] # lista hereogenea ser heterogeneas 

print("The list is:\n\t{}".format(a_list))

The list is:
	[1, 1, 3.5, 'algun string', [None, 4]]


Las listas son estructuras **ordenadas** es decir que podemos acceder a un elemento por su posición. En **Python** la primera posición de cualquier estructura ordenada siempre es la 0. 

In [16]:
print('lista entera', a_list)
print('primer elemento es --> ',a_list[0])
print('cuarto elemento es --> ', a_list[3])
print('último elemento es --> ', a_list[-1])  # con -1 accedemos al último elemento (N-1)

lista entera [1, 1, 3.5, 'algun string', [None, 4]]
primer elemento es -->  1
cuarto elemento es -->  algun string
último elemento es -->  [None, 4]


In [17]:
b_list = [1, 'algun string', 3.5, 1, [None, 4]]
b_list is a_list   # equivalente b_list == a_list

False

Una lista es una estructura **mutable**, es decir que su contenido se puede cambiar. Para eso hay varios métodos implementados para listas. Por ejemplo, podemos añadir elementos de una lista al final con `append`, en cualquier posición con `insert`. 

In [18]:
# Añadirmos un valor al final de la lista
a_list.append('casa')
print("After appending 'casa':\n\t{}".format(a_list))

After appending 'casa':
	[1, 1, 3.5, 'algun string', [None, 4], 'casa']


También podemos eliminar elemento de una lista con `remove`. 

In [19]:
# Eliminem el elemento "algun string"
a_list.remove("algun string")
print("After removing 'algun string':\n\t{}".format(a_list))

After removing 'algun string':
	[1, 1, 3.5, [None, 4], 'casa']


Podéis ver todos los métodos para listas [aquí](https://docs.python.org/3/tutorial/datastructures.html#more-on-lists) o bien escribe el nombre de dicha variable seguida de un `.` y usa el tabulador. ¿Qué métodos aparecen en cada caso?

In [11]:
a_list.

SyntaxError: invalid syntax (563970765.py, line 1)

## Slicing --> Podemos acceder a trozos de una lista 

In [21]:
# List slicing
lista = ['madrid', 'barcelona', 'santander', 'bilbao', 'valencia']
print(lista[0:3]) # también se puede poner como lista[:3] 
print(lista[2:4])
print(lista[2:])

['madrid', 'barcelona', 'santander']
['santander', 'bilbao']
['santander', 'bilbao', 'valencia']


## 2.5 Tuplas
Las tuplas son agrupaciones **ordenadas** de elementos, **hetereogeneas** pero son **immutables**. No podemos modificar sus elementos, ni eliminar ni añadir. Son más eficientes computacionalmente (iteraciones más rápidas, consumen menos memoria y menos suscepitble a errores) pero es poco flexible para operar y tiene pocas métodos asociados. 

In [26]:
# Se define usando paréntesis 
a_tuple = ()
a_tuple = (1, 1, 3.5, "algun string", [None, 4])
print("The tuple is:\n\t{}".format(a_tuple))


The tuple is:
	(1, 1, 3.5, 'algun string', [None, 4])


In [23]:
# También se pueden omitir los paréntesis pero es menos usual
the_same_tuple = 1, 1, 3.5, "algun string", [None, 4]

print("La tupla es:\n\t{}".format(the_same_tuple))
print("Son iguales?:\n\t{}".format(a_tuple == the_same_tuple))

La tupla es:
	(1, 1, 3.5, 'algun string', [None, 4])
Son iguales?:
	True


Son **ordenadas**, podemos acceder por la posición, y dos tuplas con los mismo elementos en orden distintos no son iguales

In [24]:
# accedemos con los mismos indices:
print("First element is:\n\t{}".format(a_tuple[0]))
print("Second and third elements are:\n\t{}".format(a_tuple[1:3]))
print("The last element is:\n\t{}".format(a_tuple[-1]))

First element is:
	1
Second and third elements are:
	(1, 3.5)
The last element is:
	[None, 4]


Son **inmutables**, no se puede modificar

In [25]:
# pero no podemos cambiar la tupla. No podemos añadir, quitar o modificar elementos:
a_tuple[0] = 2 

TypeError: 'tuple' object does not support item assignment

In [None]:
a_tuple.

## 2.6 Diccionarios
Los diccionarios en Python son colecciones **heterogeneas**, **sin orden**, **mutables** y **sin elementos duplicados**. 

Son colecciones con parejas valor-clave. Las claves solo pueden aparecer una única vez y tienen un valor asociado. Son mutables con sus correspondientes operaciones básicas ya implementadas. Son muy útiles para guardar datos y se usan en muchos formatos, ej. `json`.


In [27]:
# se definen con llaves {}
# Creamos un diccionario
dict_0 = {"a": 1, "b": 1, "c": 2}
dict_0

{'a': 1, 'b': 1, 'c': 2}

pueden ser **heterogeneos**

In [28]:
dict_0 = {"a" : 3.4, "b" : "barca", "c" : [2, 3, -12]}
dict_0

{'a': 3.4, 'b': 'barca', 'c': [2, 3, -12]}

**No importa el orden**, accedemos a ellos no mediante posición, si no mediante el nombre de la clave:

In [29]:

# los diccionarios no tienen orden
dict_1 = {"a": 0, "b": 1, "c": 2}
dict_2 = {"b": 1, "a": 0, "c": 2}
# dict_1 y dict_2 son iguales
print(dict_1 == dict_2)

True


Son **mutables** por lo que podemos añadir y eliminar elementos. 

In [66]:
# Añadimos elemento con llave d y valor 40
dict_0["d"] = 40
print("After adding d, dict_0 is:\n\t{}".format(dict_0))

After adding d, dict_0 is:
	{'a': 2, 'b': 1, 'd': 40}


In [67]:
# Actualizamos uno de los elementos ya definimos:
dict_0['a'] = -5
print("After updating a, dict_0 is:\n\t{}".format(dict_0))

After updating a, dict_0 is:
	{'a': -5, 'b': 1, 'd': 40}


Podemos recuperar todas las claves de un diccionario con `keys`, los valores con `values`y ambos con `items`:

In [30]:
print("dict_0 keys are:\n\t{}".format(dict_0.keys()))

print("dict_0 values are:\n\t{}".format(dict_0.values()))

print("dict_0 items are:\n\t{}".format(dict_0.items()))

dict_0 keys are:
	dict_keys(['a', 'b', 'c'])
dict_0 values are:
	dict_values([3.4, 'barca', [2, 3, -12]])
dict_0 items are:
	dict_items([('a', 3.4), ('b', 'barca'), ('c', [2, 3, -12])])


In [None]:
dict_0.

Para ver en detalle todos los métodos implementados para diccionarios podéis verlo [aquí](https://docs.python.org/3.8/library/stdtypes.html#dict).

Aquí hemos visto los tipos típicos de python. Luego hay paquetes que tienen sus propios tipos como por ejemplo vectores (o arrays) en **NumPy**, dataframes en **Pandas**.

# 3. Ejercicios para practicar
Os dejamos aquí unos cuantos ejercicios, se pueden hacer con lo que acabamos de ver y/o mirando los links que se dan en este notebook. 


**1.**- Tomamos los datos de temperatura del mes pasado de la AEMET.  Vas a hacer algunas pruebas pero no quieres que se modifique nada. ¿Qué estructura usarías para cargarlos? 

datos -->  6.4902453,
 6.0602455,
 5.5602455,
 4.630245,
 3.6602454,
 3.8802452,
 'nan',
 3.6502452,
 3.1102452,
 2.7302456,
 2.5102453,
 2.4402454,
 4.2502456,
 6.5302453,
 8.290245,
 10.090245,
 11.3102455,
 12.100245,
 10.530245,
 'nan',
 7.3002453

Queremos operar con los datos y quitar los 'nan' numbers. ¿Qué procedimiento seguirías?

In [4]:
# escribe el código

# Propuesta de solución
# Guardaría los datos en una tupla
datos = (6.4902453,
 6.0602455,
 5.5602455,
 4.630245,
 3.6602454,
 3.8802452,
 'nan',
 3.6502452,
 3.1102452,
 2.7302456,
 2.5102453,
 2.4402454,
 4.2502456,
 6.5302453,
 8.290245,
 10.090245,
 11.3102455,
 12.100245,
 10.530245,
 'nan',
 7.3002453) 

# Al modificarlos generaría una lista

datos_mod = list(datos)
while 'nan' in datos_mod:
    datos_mod.remove('nan')
datos_mod

[6.4902453,
 6.0602455,
 5.5602455,
 4.630245,
 3.6602454,
 3.8802452,
 3.6502452,
 3.1102452,
 2.7302456,
 2.5102453,
 2.4402454,
 4.2502456,
 6.5302453,
 8.290245,
 10.090245,
 11.3102455,
 12.100245,
 10.530245,
 7.3002453]

**2.**- Escribe un diccionario con 5 ciudades y su número de habitantes. 

2.1 Añade dos ciudades más 

2.2 Muestra sólo las ciudades del diccionario. 

In [34]:
# Escribe código

# Propuesta de solución

ciudades={"Madrid": 4500000, "Santander": 450000, "Cartes": 8000, "Torrelavega": 50000, "Bilbao": 1500000}
ciudades["Valencia"] = 3000000
ciudades["León"] = 300000
ciudades.keys() 

dict_keys(['Madrid', 'Santander', 'Cartes', 'Torrelavega', 'Bilbao', 'Valencia', 'León'])

**3.**- Opera en la lista_1 para obtener lista_2


In [1]:

lista_1 = ['Rojo', 'Verde', 'Blanco', 'Rosa', 'Amarillo']
lista_2 = ['Verde', 'Blanco', 'Negro']
 
# Propuesta solución 1
lista_3 = []
for item in lista_1:
    if item in lista_2:
        lista_3.append(item)
        
lista_3.append('Negro')
print(lista_3)    

lista_1 = ['Rojo', 'Verde', 'Blanco', 'Rosa', 'Amarillo']
lista_2 = ['Verde', 'Blanco', 'Negro']


# Propuesta solución 2
lista1 = ['Rojo', 'Verde', 'Blanco', 'Rosa', 'Amarillo']
lista2 = lista1[1:3]
lista2.append('Negro')
print(lista2)

['Verde', 'Blanco', 'Negro']
['Verde', 'Blanco', 'Negro']


**4.** Tenéis una serie de información sobre distintas frutas y verduras, su precio, su calidad y su procedencia. Que estructura usarías para guardar esos datos? De tal manera que sea la más óptima para luego acceder a la información?

Datos:

  **Fruta, precio (€/kg), calidad, procedencia**

    Naranjas, 1.12, normal, españa
    Tomate pera, 1.5, baja, sudáfrica
    Tomate ensalada, 2.9, alta, españa
    Patata, 1.7, normal, españa
    Anchoas, 8, alta, españa
    
Puede contestar con código que calidad tiene el tomate de ensalada

In [None]:
# lo mejor es diccionario de diccionarios

**5.**- Une los siguientes diccionarios en uno, muestra las claves y los valores por separado (se concatena con `update`, pero busca en la documentación como hacerlo)

In [40]:
dic1 = {"uno" : 10, "dos" : 20}
dic2 = {"tres" : 30, "cuatro" : 40}
dic3 = {"cinco" : 50, "seis" : 60}

# concatena el diccionario

dic1 = {"uno" : 10, "dos" : 20}
dic2 = {"tres" : 30, "cuatro" : 40}
dic3 = {"cinco" : 50, "seis" : 60}



dic1.update(dic2)
dic1.update(dic3)
print("Claves después de añadir:\n\t{}".format(dic1.keys()))
print("Claves después de añadir:\n\t{}".format(dic1.values()))

Claves después de añadir:
	dict_keys(['uno', 'dos', 'tres', 'cuatro', 'cinco', 'seis'])
Claves después de añadir:
	dict_values([10, 20, 30, 40, 50, 60])
