# Python para científicos

Como hablamos al principio del curso, Python es un lenguaje de propósito general. Esto significa que servie para distintos menesteres: Hacer webs, scripings de administración y por su puesto ciencia.

# Scipy

![](img/scipy.png)
<center>https://www.scipy.org/</center>

> SciPy (pronounced “Sigh Pie”) is a Python-based ecosystem of open-source software for mathematics, science, and engineering.

Scipy es el proyecto para hacer python un lenguaje apto para la ciencia, bajo este paraguas se encuentran varias librerías de gran uso: NumPy, pandas, Sympy y Scipy que es a su vez una librería también.

En muchos problemas científicos la *performance* es muy importante es por ello que muchas de estas librerías usan C y FORTRAN para los procesos más pesados y de este modo consiguen velocidades muy buenas sin dejar de usar un lenguaje sencillo y moderno como es Python.

Veamos algunas de las cosas que se pueden hacer con Scipy:

```
scipy.linalg: ATLAS LAPACK and BLAS libraries

scipy.stats: distributions, statistical functions...

scipy.integrate: integration of functions and ODEs

scipy.optimization: local and global optimization, fitting, root finding...

scipy.interpolate: interpolation, splines...

scipy.fftpack: Fourier trasnforms

scipy.signal, scipy.special, scipy.io
```

#### Optimizaciones numéricas

In [1]:
from scipy import optimize

$$
3x^2 + 2x - 10 = 0
$$

Sus raices son ([ver](https://www.wolframalpha.com/input/?i=3+*+x**2+%2B+2+*+x+-+10)):

$$
-\frac 13  \pm \frac{\sqrt{31}}{3}
$$

In [2]:
f = lambda x: 3 * x**2 + 2 * x - 10

In [3]:
sol = optimize.root(f,0)

In [4]:
sol

    fjac: array([[-1.]])
     fun: array([0.])
 message: 'The solution converged.'
    nfev: 11
     qtf: array([2.22716245e-09])
       r: array([-11.1355336])
  status: 1
 success: True
       x: array([1.52258812])

In [5]:
print("""Hemos encontrado una raíz de f: {x}
Se cumple que f({x})={y}""".format(x=round(sol.x[0],6),y=f(sol.x[0])))

Hemos encontrado una raíz de f: 1.522588
Se cumple que f(1.522588)=0.0


In [6]:
-1.0/3 + 31**0.5/3

1.5225881209433405

#### Distribuciones de probabilidad

![](img/pnormal.png)

In [7]:
import scipy.stats as st
import random

In [8]:
st.norm.ppf(.95) ##valor de x que de un area de 95%

1.6448536269514722

In [11]:
aleatorio = [random.gauss(0,1) for i in range(1000)] #crea 10000 numeros aleatorios de gauss

In [10]:
st.kstest(aleatorio,st.uniform.cdf) 

KstestResult(statistic=0.5028080809556703, pvalue=1.7193180815821128e-234)

In [12]:
st.kstest(aleatorio,st.norm.cdf)

KstestResult(statistic=0.030947555541088273, pvalue=0.2885252655397583)

## Numpy (NUMerical PYthon)

![](img/numpy_project_page.jpg)

Numpy es el paquete fundamental de Python para cálculo científico. Está muy enfocado al trabajo con vectores (`arrays`), con una aproximación similar a herramientas de análisis matemático como Matlab.

### Ndarrays

El objeto fundamentan de Numpy es el `ndarray`, se trata de un array n-dimensional: vector, matriz...   
La manera canónica de cargar la librería es:

In [7]:
import numpy as np

In [8]:
x = np.array([1, 2, 3])

In [9]:
x

array([1, 2, 3])

In [10]:
type(x)

numpy.ndarray

In [11]:
np.array(('a', 'b'))

array(['a', 'b'], dtype='<U1')

In [12]:
np.array([10,10.0])

array([10., 10.])

In [13]:
vector = np.array([10,10.0,'saturno'])

In [14]:
vector

array(['10', '10.0', 'saturno'], dtype='<U32')

In [21]:
vector.dtype

dtype('<U32')

Como vimos las listas y tuplas podían tener distintos tipos, sin embargo los `ndarray` necesitan que todos los elementos sean del mismo tipo (convierte al vuelo como hemos visto).

También podemos crear `ndarray` con funciones propias de NumPy:

* `np.arange()`
* `np.ones()`
* `np.zeroes()`
* `np.eye()`
* `np.random.rand()`

In [15]:
np.zeros(10000).shape #dice el tamano de la matriz que es 1000x1

(10000,)

In [16]:
unidad = np.eye(10,10) #matriz unidad

In [17]:
unidad

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]])

In [27]:
unidad.shape #tamano de la matriz

(10, 10)

### Performance
Vamos a comprar la *performance* de algunas funciones realizándolas con los tipos que ya hemos visto y con Numpy

In [18]:
my_list  = list(range(500000))
my_array = np.arange(500000)
print(len(my_list))
print(len(my_array))

500000
500000


In [20]:
%timeit sum(my_list)

11 ms ± 180 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [31]:
%timeit np.sum(my_array) #un % para que lea lo que hay acontinuacion

332 µs ± 3.4 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [19]:
%%timeit #dos para que lea las lineas de abajo
final = []
for i in range(500000):
    final.append(i ** 2)

194 ms ± 403 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [33]:
%timeit [i ** 2 for i in range(500000)]

134 ms ± 297 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [34]:
%timeit np.arange(500000) ** 2

1.05 ms ± 1.92 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


### Indexacion de ndarrays

La indexación y *slicing* funciona igual que hemos visto en listas y tuplas pero usando los n-índices necesarios dependiendo de la dimensionalidad.

In [21]:
a = np.random.rand(10,10)
print(a.shape)
print(a.ndim) #tengo dos dimensiones (filas y columnas)
a

(10, 10)
2


array([[0.2719469 , 0.8929405 , 0.82496455, 0.41576812, 0.63768678,
        0.30514714, 0.8804146 , 0.34826425, 0.03261105, 0.3442342 ],
       [0.95354061, 0.41207869, 0.76433927, 0.79474507, 0.9224818 ,
        0.51409845, 0.1079093 , 0.85159699, 0.38715485, 0.91099354],
       [0.9183521 , 0.16138603, 0.67343081, 0.9234302 , 0.68835586,
        0.24854742, 0.39126102, 0.43511125, 0.27787993, 0.6410082 ],
       [0.27637701, 0.56504965, 0.96047689, 0.31827444, 0.64242903,
        0.41850156, 0.06015733, 0.06784245, 0.33725548, 0.34765746],
       [0.8055376 , 0.75224823, 0.73656825, 0.94098591, 0.27269756,
        0.36251847, 0.99046532, 0.09136394, 0.71736843, 0.80957077],
       [0.69174887, 0.69055812, 0.01774035, 0.04193451, 0.13499336,
        0.50637895, 0.07816445, 0.18400455, 0.93618786, 0.76215196],
       [0.42598589, 0.69631793, 0.16451992, 0.1803349 , 0.63532955,
        0.66846603, 0.80142099, 0.83443561, 0.8656272 , 0.68804418],
       [0.52401309, 0.41597388, 0.3526256

In [22]:
print(a[0, 0])
print(a[0, :])
print(a[1:3, 2:10:2]) #IMPRIME FILAS DE LA 1 A LA 3 Y COLUMNAS DE LA 2 A LA 1O DE DOS EN DOS

0.2719468973348538
[0.2719469  0.8929405  0.82496455 0.41576812 0.63768678 0.30514714
 0.8804146  0.34826425 0.03261105 0.3442342 ]
[[0.76433927 0.9224818  0.1079093  0.38715485]
 [0.67343081 0.68835586 0.39126102 0.27787993]]


Los `narrays` nos permite hacer operaciones de manera vectorial, por ejemplo comparaciones:

In [24]:
a > .5 #QUE ELEMENTOS SON > 0.5

array([[False,  True,  True, False, False,  True,  True,  True,  True,
        False],
       [False,  True,  True, False, False, False, False, False,  True,
         True],
       [False, False,  True, False, False,  True, False, False, False,
         True],
       [ True,  True, False, False,  True, False, False,  True,  True,
         True],
       [ True,  True, False, False,  True, False,  True, False,  True,
        False],
       [ True,  True,  True, False,  True,  True, False,  True, False,
         True],
       [False,  True, False,  True, False, False,  True, False, False,
         True],
       [False, False, False, False, False,  True, False,  True, False,
        False],
       [False,  True,  True, False, False, False,  True,  True, False,
        False],
       [False,  True, False,  True, False, False, False,  True, False,
         True]])

Y usar este vector de booleanos para filtrar (muy al estilo de `R`)

In [25]:
a[a > 0.5] #FILTRA

array([0.70338405, 0.69695567, 0.59306197, 0.76877178, 0.89219577,
       0.98865883, 0.82405729, 0.63788186, 0.76588343, 0.8951412 ,
       0.5251844 , 0.98538795, 0.63389454, 0.80323159, 0.83126456,
       0.51352827, 0.80131838, 0.65095488, 0.92526685, 0.83622472,
       0.89539669, 0.9304966 , 0.74526092, 0.67121653, 0.68658732,
       0.67988787, 0.83829233, 0.8749269 , 0.95983563, 0.56180441,
       0.98067637, 0.91602448, 0.85073073, 0.68441177, 0.65661224,
       0.52729705, 0.51894174, 0.9020065 , 0.94834675, 0.70952479,
       0.84227966, 0.50677319, 0.65045147, 0.77810691, 0.66695721])

### Operaciones vectoriales

Veamos más ejemplo de cómo operar con vectores de Numpy, en general las operaciones se hacen elemento a elemento:

In [39]:
l = [1, 2, 3]
ll = l * 3 #CON LISTAS ESTO REPLICA TRES VECES
print(ll)

[1, 2, 3, 1, 2, 3, 1, 2, 3]


In [40]:
a = np.array(l) #PASAMOS LA L A UN NUMPY ARRAY
aa = a * 3 #ASI SI MULTIPLICA POR TRESS
print(aa)

[3 6 9]


In [23]:
a / 0.0

  """Entry point for launching an IPython kernel.


array([[inf, inf, inf, inf, inf, inf, inf, inf, inf, inf],
       [inf, inf, inf, inf, inf, inf, inf, inf, inf, inf],
       [inf, inf, inf, inf, inf, inf, inf, inf, inf, inf],
       [inf, inf, inf, inf, inf, inf, inf, inf, inf, inf],
       [inf, inf, inf, inf, inf, inf, inf, inf, inf, inf],
       [inf, inf, inf, inf, inf, inf, inf, inf, inf, inf],
       [inf, inf, inf, inf, inf, inf, inf, inf, inf, inf],
       [inf, inf, inf, inf, inf, inf, inf, inf, inf, inf],
       [inf, inf, inf, inf, inf, inf, inf, inf, inf, inf],
       [inf, inf, inf, inf, inf, inf, inf, inf, inf, inf]])

In [24]:
a = np.arange(10) #CREA UN ARRAY DEL 0 AL 9
b = np.arange(10,20) #CREA UN ARRAY DEL 1O AL 19
print(a)
print(b)

[0 1 2 3 4 5 6 7 8 9]
[10 11 12 13 14 15 16 17 18 19]


Si los sumamos no se concatenan como ocurría con las listas sino que se suman los elementos de los arrays (tienen que tener la misma dimensión)

In [43]:
ab = a + b #LOS SUMA
print(ab)

[10 12 14 16 18 20 22 24 26 28]


In [27]:
np.sqrt(a)

array([[0.64953319, 0.83867994, 0.83483871, 0.39422587, 0.49704884,
        0.77010517, 0.87679632, 0.94456115, 0.99431324, 0.0273213 ],
       [0.22188249, 0.90777602, 0.79867507, 0.19089345, 0.55013986,
        0.55953694, 0.53653274, 0.2657848 , 0.87514766, 0.94611902],
       [0.37754364, 0.64697948, 0.72469608, 0.67372909, 0.49488315,
        0.99266709, 0.6595484 , 0.64409594, 0.69857704, 0.79617494],
       [0.89623188, 0.91173711, 0.59679682, 0.44843707, 0.71660887,
        0.20649353, 0.17910829, 0.89516388, 0.80681775, 0.96190792],
       [0.91445324, 0.94625403, 0.59890829, 0.54692631, 0.96462252,
        0.58878998, 0.86328496, 0.67992856, 0.81927805, 0.45722694],
       [0.82860565, 0.82455313, 0.91558305, 0.30436589, 0.93537527,
        0.97971201, 0.44907625, 0.74953613, 0.45638745, 0.99029105],
       [0.67142358, 0.95709168, 0.63535538, 0.92235065, 0.40576539,
        0.02781425, 0.82729183, 0.05317425, 0.46205629, 0.81031614],
       [0.47111154, 0.42988255, 0.7017941

In [28]:
malos = np.sqrt(-a)

  """Entry point for launching an IPython kernel.


In [29]:
malos

array([[nan, nan, nan, nan, nan, nan, nan, nan, nan, nan],
       [nan, nan, nan, nan, nan, nan, nan, nan, nan, nan],
       [nan, nan, nan, nan, nan, nan, nan, nan, nan, nan],
       [nan, nan, nan, nan, nan, nan, nan, nan, nan, nan],
       [nan, nan, nan, nan, nan, nan, nan, nan, nan, nan],
       [nan, nan, nan, nan, nan, nan, nan, nan, nan, nan],
       [nan, nan, nan, nan, nan, nan, nan, nan, nan, nan],
       [nan, nan, nan, nan, nan, nan, nan, nan, nan, nan],
       [nan, nan, nan, nan, nan, nan, nan, nan, nan, nan],
       [nan, nan, nan, nan, nan, nan, nan, nan, nan, nan]])

In [46]:
np.isnan(malos)

array([False,  True,  True,  True,  True,  True,  True,  True,  True,
        True])

In [48]:
np.absolute(np.arange(-10,10))

array([10,  9,  8,  7,  6,  5,  4,  3,  2,  1,  0,  1,  2,  3,  4,  5,  6,
        7,  8,  9])

Como ya hemos visto antes, también existen funciones que podemos usar directamente en el objeto:

In [28]:
a = np.random.rand(3,5) #random numbers en una matrix 3x5
print(a)

[[0.07551335 0.8127996  0.17619343 0.679454   0.52431625]
 [0.9653476  0.16007236 0.00132419 0.13820562 0.5308671 ]
 [0.61697119 0.47024927 0.61094932 0.66782774 0.1411785 ]]


In [29]:
a.sum() #suma TODOS LOS ELEMENTOS

6.571269533109905

In [30]:
a

array([[0.07551335, 0.8127996 , 0.17619343, 0.679454  , 0.52431625],
       [0.9653476 , 0.16007236, 0.00132419, 0.13820562, 0.5308671 ],
       [0.61697119, 0.47024927, 0.61094932, 0.66782774, 0.1411785 ]])

In [31]:
a.max()

0.9653476045218485

In [32]:
a.argmax() #posicion del maximo (0,1,2)

5

In [33]:
a.flatten() #Return a copy of the array collapsed into one dimension

array([0.07551335, 0.8127996 , 0.17619343, 0.679454  , 0.52431625,
       0.9653476 , 0.16007236, 0.00132419, 0.13820562, 0.5308671 ,
       0.61697119, 0.47024927, 0.61094932, 0.66782774, 0.1411785 ])

In [34]:
a.flatten().shape #15x1

(15,)

In [35]:
a.sort()

In [36]:
a

array([[0.07551335, 0.17619343, 0.52431625, 0.679454  , 0.8127996 ],
       [0.00132419, 0.13820562, 0.16007236, 0.5308671 , 0.9653476 ],
       [0.1411785 , 0.47024927, 0.61094932, 0.61697119, 0.66782774]])

Cuando hay más de una dimensiones podemos hacer varias funciones por columnas/filas/ejes:

In [37]:
a.max(axis=1) #max por fila

array([0.8127996 , 0.9653476 , 0.66782774])

O por columna:

In [61]:
a.max(axis=0) #max por columna

array([0.28235778, 0.54975741, 0.55655595, 0.71283008, 0.9102867 ])

In [38]:
a1 = np.array([1, 2, 3])
a2 = np.array([6, 7, 8])

In [39]:
a1.dot(a2) #elementwise mas suma

44

In [19]:
print(np.vstack([a1, a2]))

[[1 2 3]
 [6 7 8]]


In [65]:
print(np.hstack([a1, a2]))

[1 2 3 6 7 8]




# Pandas

![](img/pandas_logo.png)

La librería `pandas` es el complemento perfecto para el análisis de datos. Introduce el objeto `DataFrame` muy parecido a los de R. Está basado en `NumPy` así que además es muy eficiente.

### Pandas: Series

La "Series" de pandas es un array unidimensional, homogéneo, que soporta objetos de cualquier tipo soportado en numpy, al igual que con los ndarrays los podemos crear a partir de colecciones básicas de Python, o a partir de numpy arrays unidimensionales

In [41]:
import pandas as pd
mi_serie = pd.Series([10, 20, 30])
mi_serie

0    10
1    20
2    30
dtype: int64

En un objeto de tipo Serie además de los valores (que son un `1-array`) también hay un índice

In [2]:
mi_serie.values #LAS COLUMNAS SE GUARDAN COMO NUMPY ARRAY

array([10, 20, 30], dtype=int64)

In [3]:
mi_serie.index

RangeIndex(start=0, stop=3, step=1)

In [4]:
mi_serie.index = ['Salamanca', 'Valladolid', 'Ávila']
print(mi_serie)

Salamanca     10
Valladolid    20
Ávila         30
dtype: int64


In [42]:
mi_serie2 = pd.Series([10, 20, 30], index=['A', 'B', 'C'])
print(mi_serie2)

A    10
B    20
C    30
dtype: int64


In [47]:
type(mi_serie[0])

numpy.int64

In [44]:
print(mi_serie[-1])

KeyError: -1

In [45]:
print(mi_serie[:2])

0    10
1    20
dtype: int64


In [48]:
type(mi_serie[:2])

pandas.core.series.Series

También podemos usar el índice:

In [9]:
mi_serie['Ávila']

30

### Pandas: DataFrame

Los `DataFrame` de `pandas` son Series como la que acabamos de ver formando una tabla de datos (cada columna tiene que ser del mismo tipo).

In [50]:
mi_df = pd.DataFrame({
    'poblacion': [50, 300, 200],
    'extension': [20, 22, 25],
    'hospitales': [1,3,2]}, 
     index=['Ávila', 'Valladolid', 'Salamanca']
)
print(type(mi_df))
mi_df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,poblacion,extension,hospitales
Ávila,50,20,1
Valladolid,300,22,3
Salamanca,200,25,2


#### Indexación

El `DataFrame` está pensado para trabajar con las columnas y la indexación es en ese sentido por defecto:

In [51]:
mi_df['extension']

Ávila         20
Valladolid    22
Salamanca     25
Name: extension, dtype: int64

In [52]:
mi_df.extension

Ávila         20
Valladolid    22
Salamanca     25
Name: extension, dtype: int64

In [53]:
mi_df[['extension', 'poblacion']]

Unnamed: 0,extension,poblacion
Ávila,20,50
Valladolid,22,300
Salamanca,25,200


Podemos usar `iloc` para utilizar una indexación tipo `NumPy`

In [54]:
mi_df.iloc[0,0]

50

In [55]:
mi_df.iloc[0:2, 2]

Ávila         1
Valladolid    3
Name: hospitales, dtype: int64

In [56]:
mi_df.iloc[0:2, :2]

Unnamed: 0,poblacion,extension
Ávila,50,20
Valladolid,300,22


Con `loc` podemos hacer lo mismo pero usando los nombres de las columnas/filas:

In [57]:
mi_df.loc['Ávila':'Valladolid',['poblacion','hospitales']]

Unnamed: 0,poblacion,hospitales
Ávila,50,1
Valladolid,300,3


#### Indexación con expresiones lógicas

In [58]:
mi_df.hospitales > 1

Ávila         False
Valladolid     True
Salamanca      True
Name: hospitales, dtype: bool

In [59]:
mi_df[mi_df.hospitales > 1]

Unnamed: 0,poblacion,extension,hospitales
Valladolid,300,22,3
Salamanca,200,25,2


In [60]:
mi_df[(mi_df.hospitales > 1) & (mi_df.poblacion > 250)]

Unnamed: 0,poblacion,extension,hospitales
Valladolid,300,22,3


### Modificar un `DataFrame`

Los `DataFrame` son mutables y podemos editarlos como hacíamos por ejemplo con las listas

In [61]:
mi_df

Unnamed: 0,poblacion,extension,hospitales
Ávila,50,20,1
Valladolid,300,22,3
Salamanca,200,25,2


In [62]:
mi_df.loc['Ávila', 'extension'] = 21
mi_df.loc['Valladolid':'Salamanca', 'extension'] = 26

In [63]:
mi_df

Unnamed: 0,poblacion,extension,hospitales
Ávila,50,21,1
Valladolid,300,26,3
Salamanca,200,26,2


También podemos crear nuevas columnas:

In [64]:
mi_df['densidad'] = mi_df.poblacion / mi_df.extension
mi_df['ccaa'] = 'Castilla y Leon'
mi_df['colegios'] = range(10,13)
mi_df['borrame'] = 'HOLAAA'

In [65]:
mi_df

Unnamed: 0,poblacion,extension,hospitales,densidad,ccaa,colegios,borrame
Ávila,50,21,1,2.380952,Castilla y Leon,10,HOLAAA
Valladolid,300,26,3,11.538462,Castilla y Leon,11,HOLAAA
Salamanca,200,26,2,7.692308,Castilla y Leon,12,HOLAAA


### Operaciones

Se pueden hacer operaciones de dos `DataFrames` como si fueran matrices, con la peculiaridad de que se harán teniendo en cuenta los valores del índice (como si fuese un `join` de SQL).

In [27]:
df_hospitales = pd.DataFrame({'camas': [150, 200], 'empleados': [15, 20]}, index=['Ávila', 'Valladolid'])
df_hospitales

Unnamed: 0,camas,empleados
Ávila,150,15
Valladolid,200,20


In [28]:
df_ampliacion = pd.DataFrame({'camas': [10, 15, 8]}, index=['Ávila', 'Salamanca', 'Valladolid'])
df_ampliacion

Unnamed: 0,camas
Ávila,10
Salamanca,15
Valladolid,8


In [29]:
df_hospitales + df_ampliacion #Hace ampliacion por indices EN LOS CAMPOS COMUNES, en los no comunes NaN
##USAR EN EJERCICIOS

Unnamed: 0,camas,empleados
Salamanca,,
Valladolid,208.0,
Ávila,160.0,


Cuando el índice/columna existe solo en uno de los DataFrames pero no en el otro, la celda aparecerá en el `DataFrame` resultante con valor `NaN`

In [30]:
df_hospitales.add? #NOS DA INFO SOBRE ESTA FUNCION

In [31]:
df_hospitales_ampliados = df_hospitales.add(df_ampliacion, fill_value=0) #PONE UN CERO PARA PODER SUMAR DONDE NO HAY VALOR
df_hospitales_ampliados

Unnamed: 0,camas,empleados
Salamanca,15.0,
Valladolid,208.0,20.0
Ávila,160.0,15.0


** Nota: Panda guarda todo de manera columnal (Analitica el 99% se usan columnas). Como guardar en parquet

También podemos hacer operaciones sobre una o varias columnas:

In [32]:
df_hospitales_ampliados.apply(max) ##FUNCIONA POR COLUMNAS

camas        208.0
empleados      NaN
dtype: float64

In [38]:
df_hospitales_ampliados.loc["Ávila",'empleados'] = 1000

In [39]:
df_hospitales_ampliados.apply(max, axis=1) ##PARA HACERLO POR FILAS!!!

Salamanca       15.0
Valladolid     208.0
Ávila         1000.0
dtype: float64

También podemos usar funciones `lambda`:

In [42]:
df_hospitales_ampliados.apply(lambda x: np.sum(x ** 0.5)) #ELEVAR ELEMENTO A ELEMENTO Y SUMAR LA COLUMNA

camas        30.944299
empleados    36.094913
dtype: float64

### Analizando un  `DataFrame`
Veamos algunas funciones que vienen muy bien a la hora de analizar los datos que contiene un `Dataframe` y así poder hacer nuestros análisis descriptivos.

In [44]:
mi_df.head() #Devuelve 6 primeras filas

Unnamed: 0,poblacion,extension,hospitales,densidad,ccaa,colegios,borrame
Ávila,50,21,1,2.380952,Castilla y Leon,10,HOLAAA
Valladolid,300,26,3,11.538462,Castilla y Leon,11,HOLAAA
Salamanca,200,26,2,7.692308,Castilla y Leon,12,HOLAAA


In [45]:
mi_df.describe(include='all') #DESCRIPCION ESTADISTICA - como el summary de R

Unnamed: 0,poblacion,extension,hospitales,densidad,ccaa,colegios,borrame
count,3.0,3.0,3.0,3.0,3,3.0,3
unique,,,,,1,,1
top,,,,,Castilla y Leon,,HOLAAA
freq,,,,,3,,3
mean,183.333333,24.333333,2.0,7.203907,,11.0,
std,125.830574,2.886751,1.0,4.598249,,1.0,
min,50.0,21.0,1.0,2.380952,,10.0,
25%,125.0,23.5,1.5,5.03663,,10.5,
50%,200.0,26.0,2.0,7.692308,,11.0,
75%,250.0,26.0,2.5,9.615385,,11.5,


In [46]:
mi_df.corr()  #MATRIX DE CORRELACIONES

Unnamed: 0,poblacion,extension,hospitales,densidad,colegios
poblacion,1.0,0.917663,0.993399,0.999739,0.59604
extension,0.917663,1.0,0.866025,0.908346,0.866025
hospitales,0.993399,0.866025,1.0,0.99576,0.5
densidad,0.999739,0.908346,0.99576,1.0,0.577541
colegios,0.59604,0.866025,0.5,0.577541,1.0


### Agregaciones

También podemos hacer agregaciones con los `Dataframe`. Es similar al '`GROUP BY`' en SQL pero mucho más flexible.


In [47]:
mi_df = pd.DataFrame({
        'poblacion': [100, 150, 400, 500, 50, 300],
        'hospitales': [2, 2, 3, 6, 1, 2],
        'ccaa': ['cyl', 'cyl', 'cat', 'mad', 'cat', 'ext']},
        index = ['av', 'sa', 'bcn', 'mad', 'gir', 'bad']
    )
mi_df

Unnamed: 0,poblacion,hospitales,ccaa
av,100,2,cyl
sa,150,2,cyl
bcn,400,3,cat
mad,500,6,mad
gir,50,1,cat
bad,300,2,ext


In [48]:
comunidades = mi_df.groupby('ccaa')
type(comunidades)

pandas.core.groupby.generic.DataFrameGroupBy

In [49]:
comunidades.poblacion.sum() #agrupado por ccaa la poblacion sumada DEVUELVE UN PANDA SERIES

ccaa
cat    450
cyl    250
ext    300
mad    500
Name: poblacion, dtype: int64

In [None]:
comunidades.poblacion.agg(np.mean) #CON AGG PUEDES PONER LA FUNCION QUE TU QUIERAS (lambda, numpy...)

In [50]:
comunidades.sum() #si no pones variables suma todas las columnas y devuelve un DATAFRAME

Unnamed: 0_level_0,poblacion,hospitales
ccaa,Unnamed: 1_level_1,Unnamed: 2_level_1
cat,450,4
cyl,250,4
ext,300,2
mad,500,6


In [51]:
mi_df.groupby('ccaa').sum()

Unnamed: 0_level_0,poblacion,hospitales
ccaa,Unnamed: 1_level_1,Unnamed: 2_level_1
cat,450,4
cyl,250,4
ext,300,2
mad,500,6


In [52]:
mi_df.groupby('ccaa').agg(np.mean)

Unnamed: 0_level_0,poblacion,hospitales
ccaa,Unnamed: 1_level_1,Unnamed: 2_level_1
cat,225,2
cyl,125,2
ext,300,2
mad,500,6


In [53]:
comunidades.poblacion.apply(lambda x: ",".join(str(i) for i in x)) #Une con comas las columnas (tipo string)

ccaa
cat     400,50
cyl    100,150
ext        300
mad        500
Name: poblacion, dtype: object

### Input/Output en `pandas`
Leer y escribir ficheros en `pandas` es realmente fácil

In [54]:
lectura = pd.read_csv("files/iris.txt",sep=" ",header=None) #CSV es texto plano separado por algun caracter (POR DEFECTO ES ,)

In [55]:
type(lectura)

pandas.core.frame.DataFrame

In [56]:
lectura.head()

Unnamed: 0,0,1,2,3,4
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [57]:
lectura.describe()

Unnamed: 0,0,1,2,3
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [58]:
lectura.dtypes #DICE LOS TIPOS DE COLUMNAS (INFIERE EL TIPO EN LA LECTURA)

0    float64
1    float64
2    float64
3    float64
4     object
dtype: object

In [59]:
pelis = pd.read_json("files/imdb.json")

In [60]:
pelis #POR DEFECTO EL DISPLAY NO MUESTRA NI TODAS LAS COLUMNAS NI TODAS LAS FILAS

Unnamed: 0,Actors,Awards,BoxOffice,Country,DVD,Director,Genre,Language,Metascore,Plot,...,Response,Runtime,Title,Type,Website,Writer,Year,imdbID,imdbRating,imdbVotes
0,"Mark Hamill, Harrison Ford, Carrie Fisher, Pet...",Won 6 Oscars. Another 50 wins & 28 nominations.,,USA,21 Sep 2004,George Lucas,"Action, Adventure, Fantasy",English,92,Luke Skywalker joins forces with a Jedi Knight...,...,True,121 min,Star Wars: Episode IV - A New Hope,movie,http://www.starwars.com/episode-iv/,George Lucas,1977,tt0076759,8.7,999345
1,"Felicity Jones, Diego Luna, Alan Tudyk, Donnie...",Nominated for 2 Oscars. Another 20 wins & 78 n...,"$532,171,696",USA,04 Apr 2017,Gareth Edwards,"Action, Adventure, Sci-Fi",English,65,The Rebel Alliance makes a risky move to steal...,...,True,133 min,Rogue One,movie,http://www.starwars.com/,"Chris Weitz (screenplay), Tony Gilroy (screenp...",2016,tt3748528,7.9,359487


Por defecto `pandas` no muestra todas las columnas para evitar hacer `print` muy grandes

In [63]:
pd.options.display.max_columns #por defecto hace print de 20 cols

999

In [61]:
pd.options.display.max_columns = 999

In [62]:
pelis

Unnamed: 0,Actors,Awards,BoxOffice,Country,DVD,Director,Genre,Language,Metascore,Plot,Poster,Production,Rated,Ratings,Released,Response,Runtime,Title,Type,Website,Writer,Year,imdbID,imdbRating,imdbVotes
0,"Mark Hamill, Harrison Ford, Carrie Fisher, Pet...",Won 6 Oscars. Another 50 wins & 28 nominations.,,USA,21 Sep 2004,George Lucas,"Action, Adventure, Fantasy",English,92,Luke Skywalker joins forces with a Jedi Knight...,https://images-na.ssl-images-amazon.com/images...,20th Century Fox,PG,"[{'Source': 'Internet Movie Database', 'Value'...",25 May 1977,True,121 min,Star Wars: Episode IV - A New Hope,movie,http://www.starwars.com/episode-iv/,George Lucas,1977,tt0076759,8.7,999345
1,"Felicity Jones, Diego Luna, Alan Tudyk, Donnie...",Nominated for 2 Oscars. Another 20 wins & 78 n...,"$532,171,696",USA,04 Apr 2017,Gareth Edwards,"Action, Adventure, Sci-Fi",English,65,The Rebel Alliance makes a risky move to steal...,https://images-na.ssl-images-amazon.com/images...,Walt Disney Pictures,PG-13,"[{'Source': 'Internet Movie Database', 'Value'...",16 Dec 2016,True,133 min,Rogue One,movie,http://www.starwars.com/,"Chris Weitz (screenplay), Tony Gilroy (screenp...",2016,tt3748528,7.9,359487


In [64]:
pelis.columns

Index(['Actors', 'Awards', 'BoxOffice', 'Country', 'DVD', 'Director', 'Genre',
       'Language', 'Metascore', 'Plot', 'Poster', 'Production', 'Rated',
       'Ratings', 'Released', 'Response', 'Runtime', 'Title', 'Type',
       'Website', 'Writer', 'Year', 'imdbID', 'imdbRating', 'imdbVotes'],
      dtype='object')

In [65]:
pelis.Ratings

0    [{'Source': 'Internet Movie Database', 'Value'...
1    [{'Source': 'Internet Movie Database', 'Value'...
Name: Ratings, dtype: object

In [67]:
type(pelis.Ratings)

pandas.core.series.Series

In [69]:
type(pelis.Ratings[0]) #para cada fila, ratigs es una lista con cosas anidas

list

In [73]:
pelis.Ratings[0]

[{'Source': 'Internet Movie Database', 'Value': '8.7/10'},
 {'Source': 'Rotten Tomatoes', 'Value': '93%'},
 {'Source': 'Metacritic', 'Value': '92/100'}]

In [72]:
pelis.Ratings[0][0]

{'Source': 'Internet Movie Database', 'Value': '8.7/10'}

In [74]:
mi_df.to_csv("files/poblaciones.csv")

In [None]:
!head files/poblaciones.csv

In [75]:
mi_df.to_excel("files/poblaciones.xlsx")