# Introducción al análisis de datos con Python

#### Alberto Torres Barrán

### Stack científico de Python

Principalmente, contiene las librerías [https://www.scipy.org/](https://www.scipy.org/):
 * **numpy**, clase `ndarray` y operaciones con los mismos
 * **pandas**, clase `DataFrame` y operaciones con los mismos
 * **matplotlib**, gráficos
 * **scipy**, herramientas varias de cálculo científico (*clustering*, integración, análisis Fourier, álgebra lineal, optimización, estadística, procesamiento de señal y geometría)
 * **scikit-learn**, para modelos de aprendizaje automático
 * Otras: en este curso veremos **statsmodels** y **seaborn**
 
 <img src=https://miro.medium.com/max/1200/0*iSzegaypmOzKDJu3.png width=500>

Esto realiza la suma entre dos números:

In [1]:
4 + 5

9

### Python 3.9

Un prerequisito es tener conocimientos intermedios de Python 3.9. En concreto:
 * Colecciones de datos inmutables: *strings* y tuplas
 * Colecciones de datos mutables: listas y diccionarios
 * Bucles `for` y `while`
 * Condicionales `if-else`
 * Definir funciones (`def` y `lambda`)

### Jupyter notebook

Entorno de desarrollo que combina código y texto. Dos tipos principales de celdas, `Code` y `Markdown`. Las primeras se pueden ejecutar como si se tratara de un intérprete de Python y en la segundas se puede escribir usando las sintáxis de [*markdown*](https://help.github.com/articles/basic-writing-and-formatting-syntax/)

Referencia: [http://nbviewer.jupyter.org/github/ipython/ipython/blob/3.x/examples/Notebook/Index.ipynb](http://nbviewer.jupyter.org/github/ipython/ipython/blob/3.x/examples/Notebook/Index.ipynb)

Introspección de objetos:

In [2]:
a = [1, 2, 3]
?a

In [3]:
def mifun():
    print("Hola")
    
??mifun

Acceder a la ayuda

In [4]:
help(list)

Help on class list in module builtins:

class list(object)
 |  list(iterable=(), /)
 |  
 |  Built-in mutable sequence.
 |  
 |  If no argument is given, the constructor creates a new empty list.
 |  The argument must be an iterable if specified.
 |  
 |  Methods defined here:
 |  
 |  __add__(self, value, /)
 |      Return self+value.
 |  
 |  __contains__(self, key, /)
 |      Return key in self.
 |  
 |  __delitem__(self, key, /)
 |      Delete self[key].
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __getitem__(...)
 |      x.__getitem__(y) <==> x[y]
 |  
 |  __gt__(self, value, /)
 |      Return self>value.
 |  
 |  __iadd__(self, value, /)
 |      Implement self+=value.
 |  
 |  __imul__(self, value, /)
 |      Implement self*=value.
 |  
 |  __init__(self, /, *args, **kwargs)
 |      Initialize self.  See help(type(self))

Interactuar con el sistema operativo:

In [5]:
# Ejecutar un comando
!ls

00-intro.ipynb	01-python.ipynb  script.py


In [6]:
# Se puede almacenar en una variable
flist = !ls
for fname in flist:
    if fname.endswith('.ipynb'):
        print(fname)

00-intro.ipynb
01-python.ipynb


In [7]:
# _ hace referencia a la última salida
_

9

In [8]:
In[3]

'def mifun():\n    print("Hola")\n    \nget_ipython().run_line_magic(\'pinfo2\', \'mifun\')'

In [9]:
Out[7]

9

#### Comandos mágicos

[https://ipython.readthedocs.io/en/stable/interactive/magics.html](https://ipython.readthedocs.io/en/stable/interactive/magics.html)

Ejecutar script de Python:

In [10]:
!cat script.py

print("Hola mundo")


In [11]:
%run script.py

Hola mundo


Acceder al historial:

In [12]:
%history

4 + 5
a = [1, 2, 3]
?a
def mifun():
    print("Hola")
    
??mifun
help(list)
# Ejecutar un comando
!ls
# Se puede almacenar en una variable
flist = !ls
for fname in flist:
    if fname.endswith('.ipynb'):
        print(fname)
# _ hace referencia a la última salida
_
In[3]
Out[7]
!cat script.py
%run script.py
%history


Medir tiempo de ejecución:

In [13]:
import numpy as np
# una linea
%time np.random.normal(size=1000000)

CPU times: user 143 ms, sys: 278 ms, total: 420 ms
Wall time: 35.3 ms


array([-0.86024663,  0.78273178,  1.64081173, ..., -0.31348672,
        0.34563404, -0.02673208])

In [16]:
%%time
# toda la celda
r = np.random.normal(size=1000000)
r * r

CPU times: user 19 ms, sys: 0 ns, total: 19 ms
Wall time: 17.6 ms


array([0.68430933, 0.01095676, 0.20917172, ..., 0.05778643, 0.35943892,
       0.13726988])

También existe [%timeit](https://ipython.readthedocs.io/en/stable/interactive/magics.html?highlight=magic#magic-timeit), que permite un control más avanzado (repetir la ejecución múltiples veces, desactivar el recolector de basura, etc.)

Depurar código:

In [17]:
def suma(x, y):
    return x + y

suma(5, 'test')

TypeError: unsupported operand type(s) for +: 'int' and 'str'

In [18]:
%debug

> [0;32m/tmp/ipykernel_377/3493901655.py[0m(2)[0;36msuma[0;34m()[0m
[0;32m      1 [0;31m[0;32mdef[0m [0msuma[0m[0;34m([0m[0mx[0m[0;34m,[0m [0my[0m[0;34m)[0m[0;34m:[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m----> 2 [0;31m    [0;32mreturn[0m [0mx[0m [0;34m+[0m [0my[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m      3 [0;31m[0;34m[0m[0m
[0m[0;32m      4 [0;31m[0msuma[0m[0;34m([0m[0;36m5[0m[0;34m,[0m [0;34m'test'[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0m
ipdb> q


Profiling:

In [None]:
from time import sleep
def foo(): sleep(1)
def bar(): sleep(2)
def baz(): foo(), bar()

In [None]:
%prun baz()

Referencia:

In [20]:
%quickref