# Ciencia de Datos enfocada en Información Geográfica

jesus.mendoza@nucleares..unam.mx
dirac86@gmail.com

# **TEMARIO**

>I. Introducción a la programación en Python
* 1.1 Tipos y operadores
* 1.2 Control de flujo
* 1.3 Colecciones
* 1.4 Funciones
* 1.5 Programación funcional*
* 1.6 Métodos y atributos

>II. Pandas y Ciencia de datos
* 2.1 Introducción a la ciencia de datos
* 2.2 Numpy
* 2.3 DataSerie, DataFrame
* 2.4 Indexación y selección
* 2.5 Limpieza de datos
* 2.6 Groupby
* 2.7 Join, merged y concatenate
* 2.8 Tablas pivot
* 2.9 Apply
* 2.10 Distribuciones
* 2.11 Testeo de hipótesis en python
* 2.12 Series de tiempo

>III. Visualización
* 3.1 Matplotlib
* 3.2 Visualización en Pandas
* 3.3 Seaborn

>IV. Geopandas
* 4.1 Entrada-Salida de información geográfica
* 4.2 Indexación espacial - Rtree
* 4.3 GeoSeries
* 4.4 GeoDataFrame
* 4.5 Manipulación de datos geográficos
* 4.6 Administración de proyecciones
* 4.7 Dissolve
* 4.8 sJoin

>V. Aplicaciones de Machine Learning en Python
* 5.1 Una aplicación de los conocimientos adquiridos a un proyecto relacionado con el campo de estudios de los participantes.


# 1.0 ¿Qué es Python?

Un lenguaje de programación que es:

* **Strongly typed** Que cualquier dato debe ser de un tipo predefinidos por **Python** (`float, int, string, bool`), de manera usual no operan entre ellos.

* **Dynamically** No se declara el tipo de las variables, por lo cual hay que conocer las jerarquias al operar valores de distintos tipos.

* **Case sensitive** Ditingue `A` y `a` como variables distintas.

* **Object-oriented** Todo en python es un *object*.


In [1]:
print('Hello world!') # Esto es un comentario. Python simplemente no evalua lo que esta despues del simbolo #

Hello world!


Utilizaremos el entorno de **Jupyter**, por ser mucho más interactivo en el desarrollo de código. También poseé extensiones utiles que nos permite documentar, comentar y referenciar de manera muy sencilla.

Si desean conocer todas las caracteristicas de **Jupyter** pueden seguir este link http://jupyter.org/documentation o dar click la seccion del menú `Help`

# 1.1 Tipos y operadores

### Algunos tipos son: `float, int, bool, str`

In [2]:
#float: Flotantes
15.3

15.3

In [3]:
#int: Enteros
10000+1 

10001

In [4]:
# Tanto los enteros como los flotantes son representaciones
# de los números reales, quienes por estar representados de forma finita
# tendran el problema de redondeo

# Por ejemplo, sumar numeros con ordenes de magnitud muy distintos (1e31 y 1e1)
# conlleva a que el error por redondeo genere un error por redondeo
10000000000000000000000000000000.+15

1e+31

In [5]:
# Tambien existe una representacion para los numeros complejos
1+5j

(1+5j)

In [6]:
# Para conocer el tipo de un valor podemos utilizar la función: type()
type(1+5j)

complex

In [7]:
type(5)

int

In [8]:
type(5.)

float

In [9]:
# Otros tipos son:
type(True)

bool

In [10]:
type(False)

bool

In [11]:
'Hola mundo!'

'Hola mundo!'

In [12]:
type('Buen dia a todos') # las cadenas de caracteres o strings se abrevian como str

str

Existe una jerarquia entre **operadores algebraicos** entre cuales operaciones son evaluados con mayor prioridad a otras.


| Operator        | Jerarquia          |
| :-------------: |:-------------:| 
| **      | mayor | 
| -     |     |   
| *,/,//,% |      |    
| +,- | menor     | 

Utilizando `()` podemos hacer explicito el orden al evaluar las expresiones, evaluando de los parentesis internos a los externos

In [13]:
# Esta jerarquia nos lleva a que la exponenciación
-2**4
# no de los resultados esperados

-16

In [14]:
(-2)**2 # Con () hacemos explicito que evaluemos primero la expresion entre parentesis

4

**Quiz 1**: Conviertan 68.5$^o$F a la escala celcius. Recuerden que $$T_C = (T_F -32) \times \left(\frac{5}{9}\right)$$

In [15]:
68.5-32*5./9 # Es común comenter errores de este tipo

50.72222222222222

In [16]:
(68.5-32)*(5./9)

20.27777777777778

In [17]:
# Para ver por que obtuvimos 50.72 en la primera evaluacion, 
# podmos ocupar la tabla de jeraquias en las operaciones
# Primero se evalua 
5./9

0.5555555555555556

In [18]:
# Este valor se guarda en el simbolo _
# Despues hace la multiplicacion
32*_

17.77777777777778

In [19]:
# Y al final realiza la resta
68.5 - _

50.72222222222222

In [20]:
_

50.72222222222222

In [21]:
# Python por default tiene definidas operaciones entre tipos, que en otros lenguajes
# no existen

'Hola a todos' * 5

'Hola a todosHola a todosHola a todosHola a todosHola a todos'

In [22]:
1+5j +8.99999 #complejo mas un entero

(9.99999+5j)

In [23]:
# Por supuesto, si la operacion no esta definida arrojará un error!

'Hola a todos' * 5.5

TypeError: can't multiply sequence by non-int of type 'float'

In [24]:
'Hola a todos' + '5'

'Hola a todos5'

In [25]:
'Hola'**2

TypeError: unsupported operand type(s) for ** or pow(): 'str' and 'int'

In [26]:
(1+1j)**5

(-4-4j)

In [27]:
(1+1j)**5.5

(-2.5743770116223352-6.2150958961201495j)

### Operadores lógicos: ``>,<,==, >=,<=, is, not``

In [28]:
#Los operadores logicos son binarios y su evaluacion devuelve un tipo bool
1==1

True

In [29]:
15 > 5

True

In [30]:
15 < 5

False

In [31]:
15>=15

True

In [32]:
9<=8.9999999999999999999

True

In [33]:
9<=8.999999999

False

In [34]:
'8 is 15' is '8 is 15 '

False

In [35]:
not False

True

In [36]:
not True

False

### Variables y el operador de asignación =
```python
                        var = 15*5**6/5
```
                        
    Paso 1. Evalua la expresion del lado derecho del operador =
    Paso 2. Asigna la dirección en memoria de la variable definida (var).
    
    
> Las variables pueden contener números, letras y el simbolo `_`, pero sólo pueden comenzar con letras o `_`. Cualquier otro es susecptible de generar errores.

In [37]:
1k5 = 15 # Un error de syntaxis quiere decir que Python no reconoce la expresion a evaluar como una expresion valida
# Es como si le hablaras en chino, a alguien que no sabe chino!

SyntaxError: invalid syntax (<ipython-input-37-0b37d19e3840>, line 1)

In [38]:
_1k5 = 15

In [39]:
# Un error típico es utilizar una variable que no hemos defino aún
var1

NameError: name 'var1' is not defined

In [40]:
# Al operador = se le llama de asignacion por que asigna la evaluacion del lado derecho (su direccion en realidad) 
# Y la guarda dentro de nuestra variable
var1=15+9*8.6**99

In [41]:
var1

2.9484188734873697e+93

In [42]:
# Una manera de ver que hace Python al crear variables es utilizando la funcion id()
id(var1)

140139749708760

In [43]:
var1=1+15j

In [44]:
id(var1) # Python guarda en la variables la direccion a una direccion en memoria 
# Y al asignar un nuevo valor, solo cambia la direccion a la que hace referencia al crea una nueva variable

140139961201360

In [45]:
15 = var1

SyntaxError: can't assign to literal (<ipython-input-45-26608ca456d7>, line 1)

La idea de dejar los errores en el Notebook, es aprender de ellos y entender como resolverlos.

# 1.2 Control de flujo

`if, elif, else, for, while, break, continue`

*Ojo: Los bloques de codigo definen el inicio y fin del bucle o condición a evaluar. Este bloque se define por `:` inicial y una separcion de la linea constante, que por convencion debe ser igual a cuatro espacios aunque no es necesario.

In [46]:
age = 15
if age > 18: # A esta estructura de codigo se le llama un condicional
    print('Puedes tomar alcohol hasta morir!') # Boque de codigo que se evalua
elif age >= 17.99:
    print('Puedes tomar alcohol, pero no hasta morir')
else:
    print('Ve por tu lechita!')

Ve por tu lechita!


In [47]:
age = 17.99
if age > 18:
    print('Puedes tomar alcohol hasta morir!') # Boque de codigo que se evalua
elif age >= 17.99:
    print('Puedes tomar alcohol, pero no hasta morir')
else:
    print('Ve por tu lechita!')

Puedes tomar alcohol, pero no hasta morir


In [48]:
age = 59
if age > 18:
    print('Puedes tomar alcohol hasta morir!') # Boque de codigo que se evalua
elif age >= 17.99:
    print('Puedes tomar alcohol, pero no hasta morir')
else:
    print('Ve por tu lechita!')

Puedes tomar alcohol hasta morir!


In [49]:
# Para realizar iteraciones o tareas que se repiten podemos utilizar los bucles
for i in range(5):
    print(i)
# range() es una función que en Python 2 devuelve una lista
# y que en Python 3 devuelve un iterador

0
1
2
3
4


In [50]:
for k in range(5):
    print(k) # es la variable que toma valores en range(5), un conjunto de valores a iterar
print(k) # k se vuelve una variable

0
1
2
3
4
4


In [51]:
for k in range(5):
    print(k) # es la variable que toma valores en range(5), un conjunto de valores a iterar
    print(k**2) # k se vuelve una variable

0
0
1
1
2
4
3
9
4
16


In [52]:
for k in range(5):
    print('Esto está en el bucle') # es la variable que toma valores en range(5), un conjunto de valores a iterar
print('Esto ya no')

Esto está en el bucle
Esto está en el bucle
Esto está en el bucle
Esto está en el bucle
Esto está en el bucle
Esto ya no


In [53]:
# La funcion range() se puede usar como
range(10) # Los indices en Python arrancan en 0

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [54]:
range(1,6)

[1, 2, 3, 4, 5]

In [55]:
range(0,100,10)

[0, 10, 20, 30, 40, 50, 60, 70, 80, 90]

In [56]:
# Una lista es:
lista = [1,6,8,9,'jlskfgjs', True]
# Una coleccion de distintos datos que pueden o no tener un tipo disitinto

In [57]:
lista

[1, 6, 8, 9, 'jlskfgjs', True]

In [58]:
# Podemos acceder a los elementos de una lista mediante
lista[3] # su indice o posicion en la lista

9

In [59]:
lista[3:5] # un rango de indices

[9, 'jlskfgjs']

In [60]:
lista[3:]

[9, 'jlskfgjs', True]

In [61]:
lista[-1] # contando las posiciones de forma inversa

True

In [62]:
lista[::2] # saltando una posición

[1, 8, 'jlskfgjs']

**Quiz 1**: Impriman los primero quince numeros pares

In [63]:
for i in range(1,16):
    print(2*i)

2
4
6
8
10
12
14
16
18
20
22
24
26
28
30


**Quiz 2**: Impriman los primero quince numeros impares

In [64]:
for i in range(1,16):
    print(2*i-1)

1
3
5
7
9
11
13
15
17
19
21
23
25
27
29


In [65]:
# En cambio, el bucle while se ejecuta hasta que la condicion que evalua se vuelve falsa
condicion = True

while condicion:
    print('Verdadera')
    condicion = False
    
condicion

Verdadera


False

In [66]:
age = 0
while age <= 18:
    print('Muy joven para tomar!')
    age = age + 1
age

Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!


19

In [67]:
# Tambien podemos mezclar bucles con condicionee
age = 0
while age < 18:
    print('Muy joven para tomar!')
    age = age + 1
    if age == 18: print('Buno, ahora puedes') # Si la condicion solo es de una linea se puede hacer asi
age

Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Muy joven para tomar!
Buno, ahora puedes


18

**Hard Quiz1:** Generen los numeros primos entre $[2,50] \in \mathbb{N}$


**Hard Quiz2:** Generen los numeros primos entre $[2,n] \in \mathbb{N}$

In [68]:
# Solucion
for i in range(2,50+1):
    isDiv = 0
    for j in range(2,i):
        if i%j==0: isDiv+=1
    if isDiv==0: print(i)

2
3
5
7
11
13
17
19
23
29
31
37
41
43
47


In [69]:
# Solucion
n = 80
for i in range(2,n+1):
    isDiv = 0
    for j in range(2,i):
        if i%j==0: isDiv+=1
    if isDiv==0: print(i)

2
3
5
7
11
13
17
19
23
29
31
37
41
43
47
53
59
61
67
71
73
79


In [70]:
%%timeit
n = 8000
for i in range(2,n+1):
    isDiv = 0
    for j in range(2,i):
        if i%j == 0: isDiv+=1
    #if isDiv==0: print(i)
# Una forma sencilla de ver la eficiencia de lo que programamos es mediante las celdas magicas de Jupyter

1 loop, best of 3: 1.55 s per loop


In [71]:
%%timeit
n = 8000
for i in range(2,n+1):
    isDiv = 0
    for j in range(2,i):
        isDiv += (i%j==0)
    #if isDiv==0: print(i)
# Una forma sencilla de ver la eficiencia de lo que programamos es mediante las celdas magicas de Jupyter

1 loop, best of 3: 2.02 s per loop


# Referencias:

> http://jupyter.org/documentation

> https://en.support.wordpress.com/markdown-quick-reference/

> https://www.learnpython.org/

> https://realpython.com/learn/python-first-steps/


# Material adicional:

> https://www.sololearn.com/

> https://www.programiz.com/python-programming/examples