# Introducción al análisis de datos con Python

#### Alberto Torres Barrán

### Stack científico de Python

Principalmente, contiene las librerías [https://www.scipy.org/](https://www.scipy.org/):
 * **numpy**, clase `ndarray` y operaciones con los mismos
 * **pandas**, clase `DataFrame` y operaciones con los mismos
 * **matplotlib**, gráficos
 * **scipy**, herramientas varias de cálculo científico (*clustering*, integración, análisis Fourier, álgebra lineal, optimización, estadística, procesamiento de señal y geometría)
 * **scikit-learn**, para modelos de aprendizaje automático
 * Otras: en este curso veremos **statsmodels** y **seaborn**
 
 <img src=https://miro.medium.com/max/1200/0*iSzegaypmOzKDJu3.png width=500>

### Python 3.6

Un prerequisito es tener conocimientos intermedios de Python 3.6. En concreto:
 * Colecciones de datos inmutables: *strings* y tuplas
 * Colecciones de datos mutables: listas y diccionarios
 * Bucles `for` y `while`
 * Condicionales `if-else`
 * Definir funciones (`def` y `lambda`)

### Jupyter notebook

Entorno de desarrollo que combina código y texto. Dos tipos principales de celdas, `Code` y `Markdown`. Las primeras se pueden ejecutar como si se tratara de un intérprete de Python y en la segundas se puede escribir usando las sintáxis de [*markdown*](https://help.github.com/articles/basic-writing-and-formatting-syntax/)

Referencia: [http://nbviewer.jupyter.org/github/ipython/ipython/blob/3.x/examples/Notebook/Index.ipynb](http://nbviewer.jupyter.org/github/ipython/ipython/blob/3.x/examples/Notebook/Index.ipynb)

Introspección de objetos:

In [1]:
a = [1, 2, 3]
?a

In [2]:
def mifun():
    print("Hola")
    
??mifun

Acceder a la ayuda

In [3]:
help(list)

Help on class list in module builtins:

class list(object)
 |  list() -> new empty list
 |  list(iterable) -> new list initialized from iterable's items
 |  
 |  Methods defined here:
 |  
 |  __add__(self, value, /)
 |      Return self+value.
 |  
 |  __contains__(self, key, /)
 |      Return key in self.
 |  
 |  __delitem__(self, key, /)
 |      Delete self[key].
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __getitem__(...)
 |      x.__getitem__(y) <==> x[y]
 |  
 |  __gt__(self, value, /)
 |      Return self>value.
 |  
 |  __iadd__(self, value, /)
 |      Implement self+=value.
 |  
 |  __imul__(self, value, /)
 |      Implement self*=value.
 |  
 |  __init__(self, /, *args, **kwargs)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |  
 |  __iter__(self, /)
 |      Implement iter(self).
 |  
 |  __l

Interactuar con el sistema operativo:

In [4]:
# Ejecutar un comando
!ls

00-intro.ipynb	     05-statsmodels.ipynb   intro_python.pptx  script.py
00-python.ipynb      06-scikit-learn.ipynb  model.pkl	       small.csv
01-numpy.ipynb	     07-seaborn.ipynb	    myfile.csv	       stats_python.md
02-matplotlib.ipynb  hist.pdf		    prueba.txt	       titanic.ipynb
03-pandas.ipynb      img		    rand.csv
04-scipy.ipynb	     intro_python.pdf	    r.csv


In [5]:
# Se puede almacenar en una variable
flist = !ls
for fname in flist:
    if fname.endswith('.ipynb'):
        print(fname)

00-intro.ipynb
00-python.ipynb
01-numpy.ipynb
02-matplotlib.ipynb
03-pandas.ipynb
04-scipy.ipynb
05-statsmodels.ipynb
06-scikit-learn.ipynb
07-seaborn.ipynb
titanic.ipynb


In [6]:
# _ hace referencia a la última salida
_

''

In [22]:
In[3]

'help(list)'

In [8]:
Out[7]

'help(list)'

#### Comandos mágicos

[https://ipython.readthedocs.io/en/stable/interactive/magics.html](https://ipython.readthedocs.io/en/stable/interactive/magics.html)

Ejecutar script de Python:

In [9]:
!cat script.py

b = 5
print(b)


In [10]:
%run script.py

5


Acceder al historial:

In [11]:
%history

a = [1, 2, 3]
?a
def mifun():
    print("Hola")
    
??mifun
help(list)
# Ejecutar un comando
!ls
# Se puede almacenar en una variable
flist = !ls
for fname in flist:
    if fname.endswith('.ipynb'):
        print(fname)
# _ hace referencia a la última salida
_
In[3]
Out[7]
!cat script.py
%run script.py
%history


Medir tiempo de ejecución:

In [12]:
import numpy as np
# una linea
%time np.random.normal(size=1000000)

CPU times: user 31.2 ms, sys: 15.6 ms, total: 46.9 ms
Wall time: 48.2 ms


array([-0.24534012, -0.81624156, -1.14300238, ..., -2.02671992,
       -0.33527833, -0.07143199])

In [13]:
%%time
# toda la celda
r = np.random.normal(size=1000000)
r * r

CPU times: user 62.5 ms, sys: 31.2 ms, total: 93.8 ms
Wall time: 71.9 ms


También existe [%timeit](https://ipython.readthedocs.io/en/stable/interactive/magics.html?highlight=magic#magic-timeit), que permite un control más avanzado (repetir la ejecución múltiples veces, desactivar el recolector de basura, etc.)

Depurar código:

In [14]:
def suma(x, y):
    return x + y

suma(5, 'test')

TypeError: unsupported operand type(s) for +: 'int' and 'str'

In [15]:
%debug

> [0;32m<ipython-input-14-579ba6fe096b>[0m(2)[0;36msuma[0;34m()[0m
[0;32m      1 [0;31m[0;32mdef[0m [0msuma[0m[0;34m([0m[0mx[0m[0;34m,[0m [0my[0m[0;34m)[0m[0;34m:[0m[0;34m[0m[0m
[0m[0;32m----> 2 [0;31m    [0;32mreturn[0m [0mx[0m [0;34m+[0m [0my[0m[0;34m[0m[0m
[0m[0;32m      3 [0;31m[0;34m[0m[0m
[0m[0;32m      4 [0;31m[0msuma[0m[0;34m([0m[0;36m5[0m[0;34m,[0m [0;34m'test'[0m[0;34m)[0m[0;34m[0m[0m
[0m
ipdb> x
5
ipdb> y
'test'
ipdb> q


Profiling:

In [16]:
from time import sleep
def foo(): sleep(1)
def bar(): sleep(2)
def baz(): foo(), bar()

In [23]:
%prun baz()

 

Referencia:

In [18]:
%quickref