# Mini Reto 003 del grupo Python para Trading

## Guardar un dataframe por trozos en varios ficheros excel


Partimos del dataframe `data` que se obtiene con el código recogido más abajo, que tiene más de 23.000 lineas.

El reto consiste en conseguir **trocearlo** en varios dataframe de **2.000 lineas como máximo** y guardar cada trozo en un **archivo excel**, con un nombre que **identifique el periodo de fechas** que contiene cada fichero.

### Esos si, ¡ usando **una sola linea de código** !

In [4]:
import yfinance as yf

data = yf.download("^GSPC")
data

[*********************100%***********************]  1 of 1 completed


Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1927-12-30,17.660000,17.660000,17.660000,17.660000,17.660000,0
1928-01-03,17.760000,17.760000,17.760000,17.760000,17.760000,0
1928-01-04,17.719999,17.719999,17.719999,17.719999,17.719999,0
1928-01-05,17.549999,17.549999,17.549999,17.549999,17.549999,0
1928-01-06,17.660000,17.660000,17.660000,17.660000,17.660000,0
...,...,...,...,...,...,...
2020-10-07,3384.560059,3426.260010,3384.560059,3419.439941,3419.439941,3807830000
2020-10-08,3434.280029,3447.280029,3428.149902,3446.830078,3446.830078,3856190000
2020-10-09,3459.669922,3482.340088,3458.070068,3477.139893,3477.139893,3939060000
2020-10-12,3500.020020,3549.850098,3499.610107,3534.219971,3534.219971,3428970000


## Solución propuesta.

In [1]:
import pandas as pd
import numpy as np
import os

Creamos la carpeta que contendrá los ficheros de salida y fijamos el número rows por fichero

In [2]:
os.mkdir('output')
rows = 2000

In [5]:
[d.to_excel('output/file_%03i.xlsx'%(data.index.get_loc(d.index[-1])/rows)) for d in np.split(data, range(0,len(data),rows), axis=0)[1:rows]]

[None, None, None, None, None, None, None, None, None, None, None, None]

In [7]:
os.listdir('output')

['file_010.xlsx',
 'file_005.xlsx',
 'file_009.xlsx',
 'file_003.xlsx',
 'file_011.xlsx',
 'file_001.xlsx',
 'file_008.xlsx',
 'file_000.xlsx',
 'file_002.xlsx',
 'file_004.xlsx',
 'file_006.xlsx',
 'file_007.xlsx']

## Explicamos cada paso

Vamos a crear un dataframe mas pequeño para entender mejor los pasos

In [93]:
rows = 5
df = pd.DataFrame(np.random.rand(20, 6), columns=list('abcdef'))
df

Unnamed: 0,a,b,c,d,e,f
0,0.284263,0.733329,0.587485,0.203228,0.661512,0.290166
1,0.911779,0.322007,0.921876,0.11963,0.204113,0.878597
2,0.284739,0.246404,0.084297,0.710639,0.422911,0.207464
3,0.458969,0.779905,0.941474,0.219769,0.780959,0.151404
4,0.409226,0.260293,0.730312,0.359406,0.649133,0.590322
5,0.453101,0.377299,0.934548,0.171726,0.848146,0.608347
6,0.177736,0.956729,0.289489,0.090274,0.84653,0.330139
7,0.308548,0.339217,0.899279,0.060093,0.970809,0.930146
8,0.049664,0.177715,0.199053,0.373955,0.400834,0.114931
9,0.750845,0.463485,0.804371,0.658249,0.390435,0.399792


Dividimos en `rows` el dataframe. La función split nos devuelve una lista con los dataframe a partir del elemento 1.

In [94]:
np.split(df, range(0,len(df),rows), axis=0)

[Empty DataFrame
 Columns: [a, b, c, d, e, f]
 Index: [],
           a         b         c         d         e         f
 0  0.284263  0.733329  0.587485  0.203228  0.661512  0.290166
 1  0.911779  0.322007  0.921876  0.119630  0.204113  0.878597
 2  0.284739  0.246404  0.084297  0.710639  0.422911  0.207464
 3  0.458969  0.779905  0.941474  0.219769  0.780959  0.151404
 4  0.409226  0.260293  0.730312  0.359406  0.649133  0.590322,
           a         b         c         d         e         f
 5  0.453101  0.377299  0.934548  0.171726  0.848146  0.608347
 6  0.177736  0.956729  0.289489  0.090274  0.846530  0.330139
 7  0.308548  0.339217  0.899279  0.060093  0.970809  0.930146
 8  0.049664  0.177715  0.199053  0.373955  0.400834  0.114931
 9  0.750845  0.463485  0.804371  0.658249  0.390435  0.399792,
            a         b         c         d         e         f
 10  0.304285  0.288588  0.547375  0.105621  0.299820  0.428585
 11  0.205498  0.069995  0.385421  0.095242  0.433080  0

El elemento 0 es información sobre la división realizada. Por lo que habría que trabajar con `[1:rows]` para quitar el primer elemento.

In [95]:
np.split(df, range(0,len(df),rows), axis=0)[1:rows]

[          a         b         c         d         e         f
 0  0.284263  0.733329  0.587485  0.203228  0.661512  0.290166
 1  0.911779  0.322007  0.921876  0.119630  0.204113  0.878597
 2  0.284739  0.246404  0.084297  0.710639  0.422911  0.207464
 3  0.458969  0.779905  0.941474  0.219769  0.780959  0.151404
 4  0.409226  0.260293  0.730312  0.359406  0.649133  0.590322,
           a         b         c         d         e         f
 5  0.453101  0.377299  0.934548  0.171726  0.848146  0.608347
 6  0.177736  0.956729  0.289489  0.090274  0.846530  0.330139
 7  0.308548  0.339217  0.899279  0.060093  0.970809  0.930146
 8  0.049664  0.177715  0.199053  0.373955  0.400834  0.114931
 9  0.750845  0.463485  0.804371  0.658249  0.390435  0.399792,
            a         b         c         d         e         f
 10  0.304285  0.288588  0.547375  0.105621  0.299820  0.428585
 11  0.205498  0.069995  0.385421  0.095242  0.433080  0.081561
 12  0.196677  0.721623  0.299313  0.393078  0.003

Usaremos el indice del último elemento de cada grupo para enumerar cada fichero.

In [96]:
np.split(df, range(0,len(df),rows), axis=0)[2].index[-1]

9

Como lo que obtenemos de `.split()` es una lista de DataFrame, y hay que hacerlo en una línea, vamos a usar la funcionalidad de Python para crear una lista de valores, a partir de iterar una lista:

```python
[x for x in listavalores]
```

Dónde x sería cada dataframe dividido en 2000 rows.

Para obtener el numero que le da nombre, hacemos una simple operación que divide el numero del ultimo elemento, entre `rows`. Para saber que lugar ocupa, usamos `.get_loc` que dado un indice, te dice que lugar ocupa del DataFrame inicial.

In [97]:
[d.to_excel('output/file_%03i.xlsx'%(df.index.get_loc(d.index[-1])/rows)) for d in np.split(df, range(0,len(df),rows), axis=0)[1:rows]]

[None, None, None, None]

En varias líneas, sería esto:
```python
for d in np.split(df, range(0,len(df),rows), axis=0)[1:rows]:
    d.to_excel('output/file_%03i.xlsx'%(df.index.get_loc(d.index[-1])/rows))
```