# Mini Reto 003 del grupo Python para Trading

## Guardar un dataframe por trozos en varios ficheros excel


Partimos del dataframe `data` que se obtiene con el código recogido más abajo, que tiene más de 23.000 lineas.

El reto consiste en conseguir **trocearlo** en varios dataframe de **2.000 lineas como máximo** y guardar cada trozo en un **archivo excel**, con un nombre que **identifique el periodo de fechas** que contiene cada fichero.

### Esos si, ¡ usando **una sola linea de código** !

In [1]:
import yfinance as yf

data = yf.download("^GSPC")
data

[*********************100%***********************]  1 of 1 completed


Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1927-12-30,17.660000,17.660000,17.660000,17.660000,17.660000,0
1928-01-03,17.760000,17.760000,17.760000,17.760000,17.760000,0
1928-01-04,17.719999,17.719999,17.719999,17.719999,17.719999,0
1928-01-05,17.549999,17.549999,17.549999,17.549999,17.549999,0
1928-01-06,17.660000,17.660000,17.660000,17.660000,17.660000,0
...,...,...,...,...,...,...
2020-10-07,3384.560059,3426.260010,3384.560059,3419.439941,3419.439941,3807830000
2020-10-08,3434.280029,3447.280029,3428.149902,3446.830078,3446.830078,3856190000
2020-10-09,3459.669922,3482.340088,3458.070068,3477.139893,3477.139893,3939060000
2020-10-12,3500.020020,3549.850098,3499.610107,3534.219971,3534.219971,3428970000


## Solución propuesta.

In [2]:
import pandas as pd
import numpy as np
import os

Creamos la carpeta que contendrá los ficheros de salida y fijamos el número rows por fichero

In [3]:
os.mkdir('output')
rows = 2000

In [4]:
[d.to_excel('output/file_%s.xlsx'%str(d.index[-1]).split(' ')[0]) for d in np.split(data, range(0,len(data),rows), axis=0)[1:rows]]

[None, None, None, None, None, None, None, None, None, None, None, None]

In [5]:
sorted(os.listdir('output'))

['file_1936-01-09.xlsx',
 'file_1944-01-04.xlsx',
 'file_1952-01-09.xlsx',
 'file_1959-12-21.xlsx',
 'file_1967-11-30.xlsx',
 'file_1975-12-12.xlsx',
 'file_1983-11-10.xlsx',
 'file_1991-10-10.xlsx',
 'file_1999-09-10.xlsx',
 'file_2007-08-24.xlsx',
 'file_2015-08-05.xlsx',
 'file_2020-10-13.xlsx']

In [6]:
os.system('rm -rf output')

0

## Explicamos cada paso

Vamos a crear un dataframe mas pequeño para entender mejor los pasos

In [7]:
os.mkdir('output')
rows = 5
df = pd.DataFrame(np.random.rand(20, 6), columns=list('abcdef'))
df

Unnamed: 0,a,b,c,d,e,f
0,0.589948,0.460775,0.381636,0.734224,0.430491,0.813828
1,0.41236,0.954703,0.901119,0.838794,0.701926,0.919696
2,0.05371,0.292131,0.095166,0.300081,0.191135,0.367199
3,0.844239,0.903555,0.552149,0.234901,0.755134,0.672232
4,0.003051,0.09968,0.846428,0.318876,0.874966,0.595613
5,0.711139,0.794857,0.693231,0.846337,0.876457,0.483218
6,0.8532,0.869299,0.141882,0.139633,0.219479,0.896984
7,0.034835,0.111387,0.574497,0.561105,0.156729,0.684751
8,0.310979,0.90993,0.609327,0.967931,0.768299,0.594631
9,0.711545,0.305043,0.075207,0.123764,0.047524,0.167965


Dividimos en `rows` el dataframe. La función split nos devuelve una lista con los dataframe a partir del elemento 1.

In [8]:
np.split(df, range(0,len(df),rows), axis=0)

[Empty DataFrame
 Columns: [a, b, c, d, e, f]
 Index: [],
           a         b         c         d         e         f
 0  0.589948  0.460775  0.381636  0.734224  0.430491  0.813828
 1  0.412360  0.954703  0.901119  0.838794  0.701926  0.919696
 2  0.053710  0.292131  0.095166  0.300081  0.191135  0.367199
 3  0.844239  0.903555  0.552149  0.234901  0.755134  0.672232
 4  0.003051  0.099680  0.846428  0.318876  0.874966  0.595613,
           a         b         c         d         e         f
 5  0.711139  0.794857  0.693231  0.846337  0.876457  0.483218
 6  0.853200  0.869299  0.141882  0.139633  0.219479  0.896984
 7  0.034835  0.111387  0.574497  0.561105  0.156729  0.684751
 8  0.310979  0.909930  0.609327  0.967931  0.768299  0.594631
 9  0.711545  0.305043  0.075207  0.123764  0.047524  0.167965,
            a         b         c         d         e         f
 10  0.773761  0.037396  0.496910  0.844923  0.347703  0.502734
 11  0.404959  0.830559  0.245349  0.285886  0.119097  0

El elemento 0 es información sobre la división realizada. Por lo que habría que trabajar con `[1:rows]` para quitar el primer elemento.

In [9]:
np.split(df, range(0,len(df),rows), axis=0)[1:rows]

[          a         b         c         d         e         f
 0  0.589948  0.460775  0.381636  0.734224  0.430491  0.813828
 1  0.412360  0.954703  0.901119  0.838794  0.701926  0.919696
 2  0.053710  0.292131  0.095166  0.300081  0.191135  0.367199
 3  0.844239  0.903555  0.552149  0.234901  0.755134  0.672232
 4  0.003051  0.099680  0.846428  0.318876  0.874966  0.595613,
           a         b         c         d         e         f
 5  0.711139  0.794857  0.693231  0.846337  0.876457  0.483218
 6  0.853200  0.869299  0.141882  0.139633  0.219479  0.896984
 7  0.034835  0.111387  0.574497  0.561105  0.156729  0.684751
 8  0.310979  0.909930  0.609327  0.967931  0.768299  0.594631
 9  0.711545  0.305043  0.075207  0.123764  0.047524  0.167965,
            a         b         c         d         e         f
 10  0.773761  0.037396  0.496910  0.844923  0.347703  0.502734
 11  0.404959  0.830559  0.245349  0.285886  0.119097  0.663866
 12  0.517999  0.524753  0.227373  0.387764  0.837

Usaremos el indice del último elemento de cada grupo para enumerar cada fichero.

In [10]:
np.split(df, range(0,len(df),rows), axis=0)[2].index[-1]

9

Como lo que obtenemos de `.split()` es una lista de DataFrame, y hay que hacerlo en una línea, vamos a usar la funcionalidad de Python para crear una lista de valores, a partir de iterar una lista:

```python
[x for x in listavalores]
```

Dónde x sería cada dataframe dividido en 2000 rows.

Para obtener la fecha que le da nombre, en este caso, basta con usar el numero del indice, pero el ejemplo del enunciado, como el indice es una fecha, se usa el `.split` de `str()` para separar la fecha de la hora y coger solo la fecha.

In [11]:
[d.to_excel('output/file_%s.xlsx'%str(d.index[-1])) for d in np.split(df, range(0,len(df),rows), axis=0)[1:rows]]

[None, None, None, None]

En varias líneas, sería esto:
```python
for d in np.split(df, range(0,len(df),rows), axis=0)[1:rows]:
    d.to_excel('output/file_%03i.xlsx'%(df.index.get_loc(d.index[-1])/rows))
```

In [12]:
sorted(os.listdir('output'))

['file_14.xlsx', 'file_19.xlsx', 'file_4.xlsx', 'file_9.xlsx']

In [13]:
os.system('rm -rf output')

0