# Python para científicos

Como hablamos al principio del curso, Python es un lenguaje de propósito general. Esto significa que servie para distintos menesteres: Hacer webs, scripings de administración y por su puesto ciencia.

# Scipy

![](img/scipy.png)
<center>https://www.scipy.org/</center>

> SciPy (pronounced “Sigh Pie”) is a Python-based ecosystem of open-source software for mathematics, science, and engineering.

Scipy es el proyecto para hacer python un lenguaje apto para la ciencia, bajo este paraguas se encuentran varias librerías de gran uso: NumPy, pandas, Sympy y Scipy que es a su vez una librería también.

En muchos problemas científicos la *performance* es muy importante es por ello que muchas de estas librerías usan C y FORTRAN para los procesos más pesados y de este modo consiguen velocidades muy buenas sin dejar de usar un lenguaje sencillo y moderno como es Python.

Veamos algunas de las cosas que se pueden hacer con Scipy:

```
scipy.linalg: ATLAS LAPACK and BLAS libraries

scipy.stats: distributions, statistical functions...

scipy.integrate: integration of functions and ODEs

scipy.optimization: local and global optimization, fitting, root finding...

scipy.interpolate: interpolation, splines...

scipy.fftpack: Fourier trasnforms

scipy.signal, scipy.special, scipy.io
```

#### Optimizaciones numéricas

In [1]:
from scipy import optimize

$$
3x^2 + 2x - 10 = 0
$$

Sus raices son ([ver](https://www.wolframalpha.com/input/?i=3+*+x**2+%2B+2+*+x+-+10)):

$$
-\frac 13  \pm \frac{\sqrt{31}}{3}
$$

In [2]:
f = lambda x: 3 * x**2 + 2 * x - 10

In [3]:
sol = optimize.root(f,0)

In [4]:
sol

    fjac: array([[-1.]])
     fun: array([0.])
 message: 'The solution converged.'
    nfev: 11
     qtf: array([2.22716245e-09])
       r: array([-11.1355336])
  status: 1
 success: True
       x: array([1.52258812])

In [5]:
print("""Hemos encontrado una raíz de f: {x}
Se cumple que f({x})={y}""".format(x=round(sol.x[0],6),y=f(sol.x[0])))

Hemos encontrado una raíz de f: 1.522588
Se cumple que f(1.522588)=0.0


In [6]:
-1.0/3 + 31**0.5/3

1.5225881209433405

#### Distribuciones de probabilidad

![](img/pnormal.png)

In [7]:
import scipy.stats as st
import random

In [8]:
st.norm.ppf(.95)

1.6448536269514722

In [9]:
aleatorio = [random.gauss(0,1) for i in range(1000)]

In [10]:
st.kstest(aleatorio,st.uniform.cdf)

KstestResult(statistic=0.51, pvalue=9.790148807870128e-242)

In [11]:
st.kstest(aleatorio,st.norm.cdf)

KstestResult(statistic=0.031081170520477736, pvalue=0.2837558459791886)

## Numpy (NUMerical PYthon)

![](img/numpy_project_page.jpg)

Numpy es el paquete fundamental de Python para cálculo científico. Está muy enfocado al trabajo con vectores (`arrays`), con una aproximación similar a herramientas de análisis matemático como Matlab.

### Ndarrays

El objeto fundamentan de Numpy es el `ndarray`, se trata de un array n-dimensional: vector, matriz...   
La manera canónica de cargar la librería es:

In [12]:
import numpy as np

In [13]:
x = np.array([1, 2, 3])

In [14]:
x

array([1, 2, 3])

In [15]:
type(x)

numpy.ndarray

In [16]:
np.array(('a', 'b'))

array(['a', 'b'], dtype='<U1')

In [17]:
np.array([10,10.0])

array([10., 10.])

In [18]:
vector = np.array([10,10.0,'saturno'])

In [19]:
vector

array(['10', '10.0', 'saturno'], dtype='<U32')

In [20]:
vector.dtype

dtype('<U32')

Como vimos las listas y tuplas podían tener distintos tipos, sin embargo los `ndarray` necesitan que todos los elementos sean del mismo tipo (convierte al vuelo como hemos visto).

También podemos crear `ndarray` con funciones propias de NumPy:

* `np.arange()`
* `np.ones()`
* `np.zeroes()`
* `np.eye()`
* `np.random.rand()`

In [21]:
np.arange(10, 20)

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19])

In [22]:
np.zeros(10000)

array([0., 0., 0., ..., 0., 0., 0.])

In [23]:
unidad = np.eye(10,10)

In [24]:
unidad

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]])

In [25]:
unidad.shape

(10, 10)

### Performance
Vamos a comprar la *performance* de algunas funciones realizándolas con los tipos que ya hemos visto y con Numpy

In [26]:
my_list  = list(range(500000))
my_array = np.arange(500000)
print(len(my_list))
print(len(my_array))

500000
500000


In [27]:
%timeit sum(my_list)

6.28 ms ± 547 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [28]:
%timeit np.sum(my_array)

544 µs ± 23.6 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [29]:
%%timeit
final = []
for i in range(500000):
    final.append(i ** 2)

246 ms ± 2.51 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [30]:
%timeit [i ** 2 for i in range(500000)]

219 ms ± 1.31 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [31]:
%timeit np.arange(500000) ** 2

1.51 ms ± 23.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


### Indexacion de ndarrays

La indexación y *slicing* funciona igual que hemos visto en listas y tuplas pero usando los n-índices necesarios dependiendo de la dimensionalidad.

In [32]:
a = np.random.rand(10,10)
print(a.shape)
print(a.ndim)
a

(10, 10)
2


array([[0.72317346, 0.38209507, 0.20837726, 0.28091861, 0.59659899,
        0.62597739, 0.93480733, 0.9797727 , 0.20402398, 0.03962676],
       [0.90873818, 0.21130217, 0.3095187 , 0.09286132, 0.22689747,
        0.00759721, 0.35791371, 0.03830798, 0.97109257, 0.35845165],
       [0.87789863, 0.82635104, 0.33705608, 0.09217087, 0.48019834,
        0.52971079, 0.11284023, 0.3156616 , 0.68593869, 0.17434872],
       [0.43228473, 0.6976379 , 0.80608886, 0.55905191, 0.08763343,
        0.89153217, 0.25962249, 0.50662046, 0.92822321, 0.97328175],
       [0.60216758, 0.50021888, 0.70050524, 0.48554507, 0.61196907,
        0.84883906, 0.57309295, 0.08673356, 0.90863579, 0.12762482],
       [0.01379319, 0.13433137, 0.61365342, 0.43906885, 0.3189965 ,
        0.63318942, 0.2463029 , 0.08280941, 0.98608824, 0.85178576],
       [0.17815778, 0.9799656 , 0.35209265, 0.82472654, 0.98535858,
        0.39760778, 0.67448846, 0.07793346, 0.87950647, 0.97424372],
       [0.77910313, 0.59897326, 0.2902137

In [33]:
print(a[0, 0])
print(a[0, :])
print(a[1:3, 2:10:2])

0.7231734587044254
[0.72317346 0.38209507 0.20837726 0.28091861 0.59659899 0.62597739
 0.93480733 0.9797727  0.20402398 0.03962676]
[[0.3095187  0.22689747 0.35791371 0.97109257]
 [0.33705608 0.48019834 0.11284023 0.68593869]]


Los `narrays` nos permite hacer operaciones de manera vectorial, por ejemplo comparaciones:

In [34]:
a > .5

array([[ True, False, False, False,  True,  True,  True,  True, False,
        False],
       [ True, False, False, False, False, False, False, False,  True,
        False],
       [ True,  True, False, False, False,  True, False, False,  True,
        False],
       [False,  True,  True,  True, False,  True, False,  True,  True,
         True],
       [ True,  True,  True, False,  True,  True,  True, False,  True,
        False],
       [False, False,  True, False, False,  True, False, False,  True,
         True],
       [False,  True, False,  True,  True, False,  True, False,  True,
         True],
       [ True,  True, False,  True, False,  True,  True, False, False,
        False],
       [False,  True, False,  True,  True,  True,  True, False,  True,
        False],
       [False,  True, False, False,  True, False, False,  True,  True,
        False]])

Y usar este vector de booleanos para filtrar (muy al estilo de `R`)

In [35]:
a[a > 0.5]

array([0.72317346, 0.59659899, 0.62597739, 0.93480733, 0.9797727 ,
       0.90873818, 0.97109257, 0.87789863, 0.82635104, 0.52971079,
       0.68593869, 0.6976379 , 0.80608886, 0.55905191, 0.89153217,
       0.50662046, 0.92822321, 0.97328175, 0.60216758, 0.50021888,
       0.70050524, 0.61196907, 0.84883906, 0.57309295, 0.90863579,
       0.61365342, 0.63318942, 0.98608824, 0.85178576, 0.9799656 ,
       0.82472654, 0.98535858, 0.67448846, 0.87950647, 0.97424372,
       0.77910313, 0.59897326, 0.51757344, 0.84951592, 0.91601492,
       0.52721861, 0.91521638, 0.71342545, 0.66521232, 0.85655658,
       0.70102756, 0.63914839, 0.55312056, 0.60563588, 0.7361835 ])

### Operaciones vectoriales

Veamos más ejemplo de cómo operar con vectores de Numpy, en general las operaciones se hacen elemento a elemento:

In [36]:
l = [1, 2, 3]
ll = l * 3
print(ll)

[1, 2, 3, 1, 2, 3, 1, 2, 3]


In [37]:
a = np.array(l)
aa = a * 3
print(aa)

[3 6 9]


In [38]:
a / 0.0

  """Entry point for launching an IPython kernel.


array([inf, inf, inf])

In [39]:
a = np.arange(10)
b = np.arange(10,20)
print(a)
print(b)

[0 1 2 3 4 5 6 7 8 9]
[10 11 12 13 14 15 16 17 18 19]


Si los sumamos no se concatenan como ocurría con las listas sino que se suman los elementos de los arrays (tienen que tener la misma dimensión)

In [40]:
ab = a + b
print(ab)

[10 12 14 16 18 20 22 24 26 28]


In [41]:
np.sqrt(a)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

In [42]:
malos = np.sqrt(-a)

  """Entry point for launching an IPython kernel.


In [43]:
np.isnan(malos)

array([False,  True,  True,  True,  True,  True,  True,  True,  True,
        True])

In [44]:
np.absolute(np.arange(-10,10))

array([10,  9,  8,  7,  6,  5,  4,  3,  2,  1,  0,  1,  2,  3,  4,  5,  6,
        7,  8,  9])

Como ya hemos visto antes, también existen funciones que podemos usar directamente en el objeto:

In [45]:
a = np.random.rand(3,5)

In [46]:
a.sum()

7.970092901493973

In [47]:
a.cumsum()

array([0.7266537 , 0.94834023, 1.65617226, 2.61074526, 2.62043443,
       3.03102586, 3.3732799 , 4.29586913, 4.70804303, 5.59981846,
       6.12006354, 6.2918226 , 6.71602598, 7.29734823, 7.9700929 ])

In [48]:
a.max()

0.9545729934732428

In [49]:
a.argmax()

3

In [50]:
a.flatten().shape

(15,)

In [51]:
a.sort()

In [52]:
a

array([[0.00968918, 0.22168653, 0.70783203, 0.7266537 , 0.95457299],
       [0.34225404, 0.41059143, 0.4121739 , 0.89177542, 0.92258923],
       [0.17175906, 0.42420338, 0.52024508, 0.58132225, 0.67274467]])

Cuando hay más de una dimensiones podemos hacer varias funciones por columnas/filas/ejes:

In [53]:
a.max(axis=1)

array([0.95457299, 0.92258923, 0.67274467])

O por columna:

In [54]:
a.max(axis=0)

array([0.34225404, 0.42420338, 0.70783203, 0.89177542, 0.95457299])

In [55]:
a1 = np.array([1, 2, 3])
a2 = np.array([6, 7, 8])

In [56]:
a1.dot(a2)

44

In [57]:
print(np.vstack([a1, a2]))

[[1 2 3]
 [6 7 8]]


In [58]:
print(np.hstack([a1, a2]))

[1 2 3 6 7 8]




# Pandas

![](img/pandas_logo.png)

La librería `pandas` es el complemento perfecto para el análisis de datos. Introduce el objeto `DataFrame` muy parecido a los de R. Está basado en `NumPy` así que además es muy eficiente.

### Pandas: Series

La "Series" de pandas es un array unidimensional, homogéneo, que soporta objetos de cualquier tipo soportado en numpy, al igual que con los ndarrays los podemos crear a partir de colecciones básicas de Python, o a partir de numpy arrays unidimensionales

In [1]:
import pandas as pd
mi_serie = pd.Series([10, 20, 30])
mi_serie

0    10
1    20
2    30
dtype: int64

In [60]:
type(mi_serie)

pandas.core.series.Series

En un objeto de tipo Serie además de los valores (que son un `1-array`) también hay un índice

In [61]:
mi_serie.values

array([10, 20, 30])

In [62]:
mi_serie.index

RangeIndex(start=0, stop=3, step=1)

In [63]:
mi_serie.index = ['Salamanca', 'Valladolid', 'Ávila']
print(mi_serie)

Salamanca     10
Valladolid    20
Ávila         30
dtype: int64


In [64]:
mi_serie2 = pd.Series([10, 20, 30], index=['A', 'B', 'C'])
print(mi_serie2)

A    10
B    20
C    30
dtype: int64


In [65]:
print(mi_serie[0])

10


In [66]:
print(mi_serie[-1])

30


In [67]:
print(mi_serie[:2])

Salamanca     10
Valladolid    20
dtype: int64


También podemos usar el índice:

In [68]:
mi_serie['Ávila']

30

### Pandas: DataFrame

Los `DataFrame` de `pandas` son Series como la que acabamos de ver formando una tabla de datos (cada columna tiene que ser del mismo tipo).

In [15]:
mi_df = pd.DataFrame({
    'poblacion': [50, 300, 200],
    'extension': [20, 22, 25],
    'hospitales': [1,3,2]}, 
     index=['Ávila', 'Valladolid', 'Salamanca']
)
print(type(mi_df))
mi_df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,poblacion,extension,hospitales
Ávila,50,20,1
Valladolid,300,22,3
Salamanca,200,25,2


#### Indexación

El `DataFrame` está pensado para trabajar con las columnas y la indexación es en ese sentido por defecto:

In [16]:
mi_df['extension']

Ávila         20
Valladolid    22
Salamanca     25
Name: extension, dtype: int64

In [17]:
mi_df.extension

Ávila         20
Valladolid    22
Salamanca     25
Name: extension, dtype: int64

In [72]:
mi_df[['extension', 'poblacion']]

Unnamed: 0,extension,poblacion
Ávila,20,50
Valladolid,22,300
Salamanca,25,200


Podemos usar `iloc` para utilizar una indexación tipo `NumPy`

In [73]:
mi_df.iloc[0,0]

50

In [74]:
mi_df.iloc[0:2, 2]

Ávila         1
Valladolid    3
Name: hospitales, dtype: int64

In [75]:
mi_df.iloc[0:2, :2]

Unnamed: 0,poblacion,extension
Ávila,50,20
Valladolid,300,22


Con `loc` podemos hacer lo mismo pero usando los nombres de las columnas/filas:

In [76]:
mi_df.loc['Ávila':'Valladolid',['poblacion','hospitales']]

Unnamed: 0,poblacion,hospitales
Ávila,50,1
Valladolid,300,3


#### Indexación con expresiones lógicas

In [77]:
mi_df.hospitales > 1

Ávila         False
Valladolid     True
Salamanca      True
Name: hospitales, dtype: bool

In [78]:
mi_df[mi_df.hospitales > 1]

Unnamed: 0,poblacion,extension,hospitales
Valladolid,300,22,3
Salamanca,200,25,2


In [79]:
mi_df[(mi_df.hospitales > 1) & (mi_df.poblacion > 250)]

Unnamed: 0,poblacion,extension,hospitales
Valladolid,300,22,3


### Modificar un `DataFrame`

Los `DataFrame` son mutables y podemos editarlos como hacíamos por ejemplo con las listas

In [80]:
mi_df

Unnamed: 0,poblacion,extension,hospitales
Ávila,50,20,1
Valladolid,300,22,3
Salamanca,200,25,2


In [81]:
mi_df.loc['Ávila', 'extension'] = 21
mi_df.loc['Valladolid':'Salamanca', 'extension'] = 26

In [82]:
mi_df

Unnamed: 0,poblacion,extension,hospitales
Ávila,50,21,1
Valladolid,300,26,3
Salamanca,200,26,2


También podemos crear nuevas columnas:

In [83]:
mi_df['densidad'] = mi_df.poblacion / mi_df.extension
mi_df['ccaa'] = 'Castilla y Leon'
mi_df['colegios'] = range(10,13)
mi_df['borrame'] = 'HOLAAA'

In [84]:
mi_df

Unnamed: 0,poblacion,extension,hospitales,densidad,ccaa,colegios,borrame
Ávila,50,21,1,2.380952,Castilla y Leon,10,HOLAAA
Valladolid,300,26,3,11.538462,Castilla y Leon,11,HOLAAA
Salamanca,200,26,2,7.692308,Castilla y Leon,12,HOLAAA


### Operaciones

Se pueden hacer operaciones de dos `DataFrames` como si fueran matrices, con la peculiaridad de que se harán teniendo en cuenta los valores del índice (como si fuese un `join` de SQL).

In [2]:
df_hospitales = pd.DataFrame({'camas': [150, 200], 'empleados': [15, 20]}, index=['Ávila', 'Valladolid'])
df_hospitales

Unnamed: 0,camas,empleados
Ávila,150,15
Valladolid,200,20


In [3]:
df_ampliacion = pd.DataFrame({'camas': [10, 15, 8]}, index=['Ávila', 'Salamanca', 'Valladolid'])
df_ampliacion

Unnamed: 0,camas
Ávila,10
Salamanca,15
Valladolid,8


In [4]:
df_hospitales + df_ampliacion

Unnamed: 0,camas,empleados
Salamanca,,
Valladolid,208.0,
Ávila,160.0,


Cuando el índice/columna existe solo en uno de los DataFrames pero no en el otro, la celda aparecerá en el `DataFrame` resultante con valor `NaN`

In [5]:
df_hospitales_ampliados = df_hospitales.add(df_ampliacion, fill_value=0)
df_hospitales_ampliados

Unnamed: 0,camas,empleados
Salamanca,15.0,
Valladolid,208.0,20.0
Ávila,160.0,15.0


También podemos hacer operaciones sobre una o varias columnas:

In [6]:
df_hospitales_ampliados.apply(max)

camas        208.0
empleados      NaN
dtype: float64

In [7]:
df_hospitales_ampliados.loc["Ávila",'empleados'] = 1000

In [22]:
df_hospitales_ampliados.apply(max, axis=1)

Salamanca       15.0
Valladolid     208.0
Ávila         1000.0
dtype: float64

También podemos usar funciones `lambda`:

In [13]:
df_hospitales_ampliados.apply(lambda x: np.sum(x ** 0.5))

camas        30.944299
empleados    36.094913
dtype: float64

### Analizando un  `DataFrame`
Veamos algunas funciones que vienen muy bien a la hora de analizar los datos que contiene un `Dataframe` y así poder hacer nuestros análisis descriptivos.

In [18]:
mi_df.head()

Unnamed: 0,poblacion,extension,hospitales
Ávila,50,20,1
Valladolid,300,22,3
Salamanca,200,25,2


In [19]:
mi_df.describe(include='all')

Unnamed: 0,poblacion,extension,hospitales
count,3.0,3.0,3.0
mean,183.333333,22.333333,2.0
std,125.830574,2.516611,1.0
min,50.0,20.0,1.0
25%,125.0,21.0,1.5
50%,200.0,22.0,2.0
75%,250.0,23.5,2.5
max,300.0,25.0,3.0


In [20]:
mi_df.corr()

Unnamed: 0,poblacion,extension,hospitales
poblacion,1.0,0.5,0.993399
extension,0.5,1.0,0.39736
hospitales,0.993399,0.39736,1.0


In [23]:
mi_df.dtypes

poblacion     int64
extension     int64
hospitales    int64
dtype: object

### Agregaciones

También podemos hacer agregaciones con los `Dataframe`. Es similar al '`GROUP BY`' en SQL pero mucho más flexible.


In [25]:
mi_df = pd.DataFrame({
        'poblacion': [100, 150, 400, 500, 50, 300],
        'hospitales': [2, 2, 3, 6, 1, 2],
        'ccaa': ['cyl', 'cyl', 'cat', 'mad', 'cat', 'ext']},
        index = ['av', 'sa', 'bcn', 'mad', 'gir', 'bad']
    )
mi_df

Unnamed: 0,poblacion,hospitales,ccaa
av,100,2,cyl
sa,150,2,cyl
bcn,400,3,cat
mad,500,6,mad
gir,50,1,cat
bad,300,2,ext


In [26]:
comunidades = mi_df.groupby('ccaa')
type(comunidades)

pandas.core.groupby.generic.DataFrameGroupBy

In [27]:
comunidades.poblacion.sum()

ccaa
cat    450
cyl    250
ext    300
mad    500
Name: poblacion, dtype: int64

In [28]:
comunidades.poblacion.agg(np.mean)

ccaa
cat    225
cyl    125
ext    300
mad    500
Name: poblacion, dtype: int64

In [100]:
comunidades.sum()

Unnamed: 0_level_0,poblacion,hospitales
ccaa,Unnamed: 1_level_1,Unnamed: 2_level_1
cat,450,4
cyl,250,4
ext,300,2
mad,500,6


In [101]:
mi_df.groupby('ccaa').sum()

Unnamed: 0_level_0,poblacion,hospitales
ccaa,Unnamed: 1_level_1,Unnamed: 2_level_1
cat,450,4
cyl,250,4
ext,300,2
mad,500,6


In [102]:
mi_df.groupby('ccaa').agg(np.mean)

Unnamed: 0_level_0,poblacion,hospitales
ccaa,Unnamed: 1_level_1,Unnamed: 2_level_1
cat,225,2
cyl,125,2
ext,300,2
mad,500,6


In [103]:
comunidades.poblacion.apply(lambda x: ",".join(str(i) for i in x))

ccaa
cat     400,50
cyl    100,150
ext        300
mad        500
Name: poblacion, dtype: object

### Input/Output en `pandas`
Leer y escribir ficheros en `pandas` es realmente fácil

In [29]:
lectura = pd.read_csv("files/iris.txt",sep=" ",header=None)

In [30]:
type(lectura)

pandas.core.frame.DataFrame

In [31]:
lectura.head()

Unnamed: 0,0,1,2,3,4
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [32]:
lectura.describe()

Unnamed: 0,0,1,2,3
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [108]:
lectura.dtypes

0    float64
1    float64
2    float64
3    float64
4     object
dtype: object

In [33]:
pelis = pd.read_json("files/imdb.json")

Por defecto `pandas` no muestra todas las columnas para evitar hacer `print` muy grandes

In [34]:
pelis

Unnamed: 0,Actors,Awards,BoxOffice,Country,DVD,Director,Genre,Language,Metascore,Plot,...,Response,Runtime,Title,Type,Website,Writer,Year,imdbID,imdbRating,imdbVotes
0,"Mark Hamill, Harrison Ford, Carrie Fisher, Pet...",Won 6 Oscars. Another 50 wins & 28 nominations.,,USA,21 Sep 2004,George Lucas,"Action, Adventure, Fantasy",English,92,Luke Skywalker joins forces with a Jedi Knight...,...,True,121 min,Star Wars: Episode IV - A New Hope,movie,http://www.starwars.com/episode-iv/,George Lucas,1977,tt0076759,8.7,999345
1,"Felicity Jones, Diego Luna, Alan Tudyk, Donnie...",Nominated for 2 Oscars. Another 20 wins & 78 n...,"$532,171,696",USA,04 Apr 2017,Gareth Edwards,"Action, Adventure, Sci-Fi",English,65,The Rebel Alliance makes a risky move to steal...,...,True,133 min,Rogue One,movie,http://www.starwars.com/,"Chris Weitz (screenplay), Tony Gilroy (screenp...",2016,tt3748528,7.9,359487


In [35]:
pd.options.display.max_columns = 999

In [36]:
type(pelis.Ratings[0])

list

In [37]:
mi_df.to_csv("files/poblaciones.csv")

In [38]:
mi_df.to_csv("files/poblaciones.csv", index=False)

In [39]:
!head files/poblaciones.csv

"head" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [116]:
mi_df.to_excel("files/poblaciones.xlsx")