# Creación de un DataFrame de cero

Muchas veces nos vamos a ver en la necesidad de ir armando nuestros DataFrames a veces de cero e ir llenándolos, y a veces partiendo de listas, diccionarios o estructuras similares, empecemos a ver algunos casos.

### Creación de un DataFrame a partir de una lista de listas

Supongamos que partimos a partir de esta lista de datos:


In [177]:
data = [["ALUA", 19.15], ["BBAR", 73.70], ["BMA", 144.4], ["BYMA", 234]]

Y ahora quiero armar un DataFrame en la variable "tabla" con esta estructura que tiene tickers y sus precios.

Bien, es tan sencillo como esto:

1. Asignamos a la variable "tabla" el objeto pandas.DataFrame
2. Pasamos como primer argumento del DataFrame los datos (variable "data")
3. Le indicamos en el primer argumento "columns" los nombres de las columnas


In [178]:
import pandas as pd
data = [["ALUA", 19.15], ["BBAR", 73.70], ["BMA", 144.4], ["BYMA", 234]]
tabla=pd.DataFrame(data, columns=["Ticker", "Precio"])
tabla

Unnamed: 0,Ticker,Precio
0,ALUA,19.15
1,BBAR,73.7
2,BMA,144.4
3,BYMA,234.0


También podemos crear el DataFrame de forma muy sencilla a partir de un diccionario. En este caso ni siquiera hace falta que le pasemos los nombres de las columnas ya que los toma del mismo diccionario


### Creación de DataFrames a partir de Diccionarios


In [179]:
import pandas as pd
data = {'Tickers': ['ALUA', 'BBAR', 'BMA', 'BYMA'], 
        'Precios': [19.15, 73.70, 144.40, 234.00]}
tabla=pd.DataFrame(data)
tabla

Unnamed: 0,Tickers,Precios
0,ALUA,19.15
1,BBAR,73.7
2,BMA,144.4
3,BYMA,234.0


Asimismo, le podemos pasar un indice personalizado (una lista de elementos que tenga la misma cantidad de elementos que "data")


In [180]:
data = {'Tickers': ['ALUA', 'BBAR', 'BMA', 'BYMA'], 
        'Precios': [19.15, 73.70, 144.40, 234.00]}
tabla = pd.DataFrame(data, index=["activo_1", "activo_2", "activo_3", "activo_4"])
tabla

Unnamed: 0,Tickers,Precios
activo_1,ALUA,19.15
activo_2,BBAR,73.7
activo_3,BMA,144.4
activo_4,BYMA,234.0


### Creación a partir de una lista de diccionarios

Esta estructura de entrada es mas rara, pero también es posible recibir datos de esta forma algún dia y por suerte pandas se encarga de transformar todo esto en un DataFrame de la misma forma sencilla


In [181]:
data = [{"ticker": "ALUA", 'Precio': 19.75, "Tipo": "Acción"},
        {"ticker": "BBAR", 'Precio': 73.7, "Tipo": "Acción"},
        {"ticker": "BMA", 'Precio': 144.4},
        {"ticker": "BYMA", 'Precio': 234, "Tipo": "Acción"},
        ]

tabla = pd.DataFrame(data)
tabla

Unnamed: 0,ticker,Precio,Tipo
0,ALUA,19.75,Acción
1,BBAR,73.7,Acción
2,BMA,144.4,
3,BYMA,234.0,Acción


También puedo al crearla definir que columnas quiero


In [182]:
data = [{"ticker": "ALUA", 'Precio': 19.75, "Tipo": "Acción"},
        {"ticker": "BBAR", 'Precio': 73.7, "Tipo": "Acción"},
        {"ticker": "BMA", 'Precio': 144.4},
        {"ticker": "BYMA", 'Precio': 234, "Tipo": "Acción"},
        ]

tabla = pd.DataFrame(data, columns=["ticker", "Precio"])
tabla

Unnamed: 0,ticker,Precio
0,ALUA,19.75
1,BBAR,73.7
2,BMA,144.4
3,BYMA,234.0


### Creación a partir de otro DataFrame

Partiendo de un DataFrame se puede armar otro con las columnas especificas que le pasemos e incluso en la misma linea podemos definir cual va a ser el indice del DataFrame nuevo


In [183]:
data = pd.read_excel('AAPL.xlsx', sheet_name="Hoja1")
copia = data[['timestamp', 'open', 'close']].copy().set_index("timestamp")

copia.head(4)

Unnamed: 0_level_0,open,close
timestamp,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-03-06,282.0,289.03
2020-03-05,295.52,292.92
2020-03-04,296.44,302.74
2020-03-03,303.67,289.32


Algo idéntico produce el método .filter(), al que le pasamos como argumento la lista de columnas.

In [184]:
data = pd.read_excel('AAPL.xlsx', sheet_name="Hoja1")
copia = data.filter(['timestamp', 'open', 'close']).set_index("timestamp")

copia.head(4)

Unnamed: 0_level_0,open,close
timestamp,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-03-06,282.0,289.03
2020-03-05,295.52,292.92
2020-03-04,296.44,302.74
2020-03-03,303.67,289.32


Algo parecido pero "al revés" sería crear la copia a partir del original MENOS las columnas que no queremos.

In [185]:
data = pd.read_excel('AAPL.xlsx', sheet_name="Hoja1")
copia = data.drop(['high', 'low', 'adjusted_close'], axis=1)

copia.head()

Unnamed: 0,timestamp,open,close,volume
0,2020-03-06,282.0,289.03,56544246
1,2020-03-05,295.52,292.92,46893219
2,2020-03-04,296.44,302.74,54794568
3,2020-03-03,303.67,289.32,79868852
4,2020-03-02,282.28,298.81,85349339


### Ejercicios

1- Abrir el archivo AAPL.xlsx, generar un DataFrame igual agregando una columna que contenga la variación porcentual intradiaria (entre precio de apertura y cierre sobre el precio de apertura)

In [186]:
import pandas as pd

# Cargar el archivo Excel
archivo_excel = 'AAPL.xlsx'
df = pd.read_excel(archivo_excel)

# Calcular la variación porcentual intradiaria
df['Variación Intradiaria (%)'] = ((df['close'] - df['open']) / df['open']) * 100


2- Mostrar la tabla en pantalla, de manera que solo muestre 2 decimales de la columna calculada, y que solo muestre las dos primeras y las dos ultimas filas.


In [187]:
import pandas as pd

# Cargar el archivo Excel
archivo_excel = 'AAPL.xlsx'
df = pd.read_excel(archivo_excel)

# Calcular la variación porcentual intradiaria
df['Variación Intradiaria (%)'] = ((df['close'] - df['open']) / df['open']) * 100

# Redondear la columna calculada a 2 decimales
df['Variación Intradiaria (%)'] = df['Variación Intradiaria (%)'].round(2)

# Mostrar las dos primeras y dos últimas filas
resultado = pd.concat([df.head(2), df.tail(2)])
print(resultado)


      timestamp    open    high     low   close  adjusted_close    volume  \
0    2020-03-06  282.00  290.82  281.23  289.03          289.03  56544246   
1    2020-03-05  295.52  299.55  291.41  292.92          292.92  46893219   
5031 2000-03-07  126.44  127.44  121.12  122.87            3.81   2437600   
5032 2000-03-06  126.00  129.13  125.00  125.69            3.90   1880000   

      Variación Intradiaria (%)  
0                          2.49  
1                         -0.88  
5031                      -2.82  
5032                      -0.25  


3- Guardar la tabla en un archivo llamado AAPL_ej.xlsx en la hoja llamada Ej3, y guardar solo las columnas de la fecha y la variación intradiaria que acabamos de calcular.
Ayuda: Para indicarle al método to_excel que columnas quiero guardar puedo usar el atributo "columns"

In [188]:
import pandas as pd

# Cargar el archivo Excel
archivo_excel = 'AAPL.xlsx'
df = pd.read_excel(archivo_excel)

# Calcular la variación porcentual intradiaria
df['Variación Intradiaria (%)'] = ((df.close - df.open) / df.open) * 100

# Redondear la columna calculada a 2 decimales
df['Variación Intradiaria (%)'] = df['Variación Intradiaria (%)'].round(2)

# Seleccionar solo las columnas de la fecha y la variación intradiaria
# df_resultado = df[['timestamp', 'Variación Intradiaria (%)']]

# Guardar el DataFrame en un nuevo archivo Excel
# df_resultado.to_excel('AAPL_ej.xlsx', sheet_name='Ej3', index=False)

df.to_excel('AAPL_ej.xlsx', sheet_name='Ej3', index=False, columns=['timestamp', 'Variación Intradiaria (%)'])