# Data Analysis

## Instalación
- Instalar usando Conda o manualmente.
- Crear un entorno virtual.
- Instalar los paquetes escenciales: pandas, jupyter, matplotlib y numpy.

### Conceptos básicos

### IPython
Usar `?` después de una variable mostrara información general sobre el objeto.
A esto se le conoce como instrospección de objetos, también puede ser usado en funciones y métodos de instancia.

In [1]:
def add_number(a, b):
    """
    Add two numbers together
    
    Return
    ------
    the sum: type of arguments
    """
    return a + b

In [2]:
# usar ? con la función
add_number?

Utilizar con los módulos para obtener una lista de las funciones disponibles:

In [3]:
import numpy as np

np.*load*?

### Python

`isinstance()` permite pasar una tupla (además de su cualidades habituales).

In [4]:
a = 5
b = 5.4

isinstance(a, (int, float)), isinstance(b, (int, float))

(True, True)

Verificar si un objeto es iterable: podría usar el médotod mágico `__iter__` o en su lugar
la función `iter()`.

In [5]:
def isiterable(obj):
    try:
        iter(obj)
        return True
    except TypeError:
        return False

a = isiterable("a string") # True
b = isiterable([1,2,3,4]) # True
c = isiterable(1) # False
a, b, c

(True, True, False)

Importanción de módulos

In [6]:
# some_module.py
PI = 3.14159

def f(x):
    return x + 2


def g(a, b):
    return a + b

Acceder a las variables desde otro módulo.

In [7]:
import some_module

result = some_module.f(5)
pi = some_module.PI
result

7

In [8]:
# o alternativamente
from some_module import g, PI

result = g(5, PI)
result

8.14159

`None` también es un valor predeterminado común para argumentos de función:

In [9]:
def add_and_maybe_multiplay(a, b, c=None):
    result = a + b
    
    if c is not None:
        result *= c # is same: result = result * c
    return result

ab = add_and_maybe_multiplay(1, 2)
abc = add_and_maybe_multiplay(1, 2, 3)
ab, abc

(3, 9)

Fechas y horarios: `datetime` combina la información almacenada en `date` y `time`.

In [10]:
from datetime import datetime

dt = datetime(2011, 10, 29, 20, 30, 21)
print(dt.day)
print(dt.minute)

# extraer la fecha
print(dt.date())

# extraer el tiempo
print(dt.time())

29
30
2011-10-29
20:30:21


Usar `strftime()`.

In [11]:
dt.strftime("%Y-%m-%d %H:%m")

'2011-10-29 20:10'

Convertir una cadena a un objeto `strptime`.

In [12]:
datetime.strptime("20091031", "%Y%m%d")

datetime.datetime(2009, 10, 31, 0, 0)

Es útil reemplazar los campos de minutos y segundos a ceros.

In [13]:
dt_hour = dt.replace(minute=0, second=0)
dt_hour

datetime.datetime(2011, 10, 29, 20, 0)

`datetime` produce objetos inmutables.

In [14]:
dt2 = datetime(2011, 11, 15, 22, 30)
delta = dt - dt
print(delta)
print(type(delta))
dt + delta
print(dt)

0:00:00
<class 'datetime.timedelta'>
2011-10-29 20:30:21


In [15]:
secuence = [1, 2, None, 4, None, 5]
total = 0

for value in secuence:
    if value is None:
        continue
    total += value

total

12

In [16]:
# alternativamente
secuence = [1, 2, None, 4, None, 5]
total = 0

for value in secuence:
    if value is not None:
        total += value

total

12