# Creación de un DataFrame de cero

Muchas veces nos vamos a ver en la necesidad de ir armando nuestros DataFrames a veces de cero e ir llenándolos, y a veces partiendo de listas, diccionarios o estructuras similares, empecemos a ver algunos casos.

### Creación de un DataFrame a partir de una lista de listas

Supongamos que partimos a partir de esta lista de datos:


In [1]:
data = [["ALUA", 19.15], ["BBAR", 73.70], ["BMA", 144.4], ["BYMA", 234]]

Y ahora quiero armar un DataFrame en la variable "tabla" con esta estructura que tiene tickers y sus precios.

Bien, es tan sencillo como esto:

1. Asignamos a la variable "tabla" el objeto pandas.DataFrame
2. Pasamos como primer argumento del DataFrame los datos (variable "data")
3. Le indicamos en el primer argumento "columns" los nombres de las columnas


In [2]:
import pandas as pd
data = [["ALUA", 19.15], ["BBAR", 73.70], ["BMA", 144.4], ["BYMA", 234]]
tabla=pd.DataFrame(data, columns=["Ticker", "Precio"])
tabla

Unnamed: 0,Ticker,Precio
0,ALUA,19.15
1,BBAR,73.7
2,BMA,144.4
3,BYMA,234.0


También podemos crear el DataFrame de forma muy sencilla a partir de un diccionario. En este caso ni siquiera hace falta que le pasemos los nombres de las columnas ya que los toma del mismo diccionario


### Creación de DataFrames a partir de Diccionarios


In [3]:
import pandas as pd
data = {'Tickers': ['ALUA', 'BBAR', 'BMA', 'BYMA'], 
        'Precios': [19.15, 73.70, 144.40, 234.00]}
tabla=pd.DataFrame(data)
tabla

Unnamed: 0,Tickers,Precios
0,ALUA,19.15
1,BBAR,73.7
2,BMA,144.4
3,BYMA,234.0


Asimismo, le podemos pasar un indice personalizado (una lista de elementos que tenga la misma cantidad de elementos que "data")


In [4]:
data = {'Tickers': ['ALUA', 'BBAR', 'BMA', 'BYMA'], 
        'Precios': [19.15, 73.70, 144.40, 234.00]}
tabla = pd.DataFrame(data, index=["activo_1", "activo_2", "activo_3", "activo_4"])
tabla

Unnamed: 0,Tickers,Precios
activo_1,ALUA,19.15
activo_2,BBAR,73.7
activo_3,BMA,144.4
activo_4,BYMA,234.0


### Creación a partir de una lista de diccionarios

Esta estructura de entrada es mas rara, pero también es posible recibir datos de esta forma algún dia y por suerte pandas se encarga de transformar todo esto en un DataFrame de la misma forma sencilla


In [5]:
data = [{"ticker": "ALUA", 'Precio': 19.75, "Tipo": "Acción"},
        {"ticker": "BBAR", 'Precio': 73.7, "Tipo": "Acción"},
        {"ticker": "BMA", 'Precio': 144.4},
        {"ticker": "BYMA", 'Precio': 234, "Tipo": "Acción"},
        ]

tabla = pd.DataFrame(data)
tabla

Unnamed: 0,ticker,Precio,Tipo
0,ALUA,19.75,Acción
1,BBAR,73.7,Acción
2,BMA,144.4,
3,BYMA,234.0,Acción


También puedo al crearla definir que columnas quiero


In [6]:
data = [{"ticker": "ALUA", 'Precio': 19.75, "Tipo": "Acción"},
        {"ticker": "BBAR", 'Precio': 73.7, "Tipo": "Acción"},
        {"ticker": "BMA", 'Precio': 144.4},
        {"ticker": "BYMA", 'Precio': 234, "Tipo": "Acción"},
        ]

tabla = pd.DataFrame(data, columns=["ticker", "Precio"])
tabla

Unnamed: 0,ticker,Precio
0,ALUA,19.75
1,BBAR,73.7
2,BMA,144.4
3,BYMA,234.0


### Creación a partir de otro DataFrame

Partiendo de un DataFrame se puede armar otro con las columnas especificas que le pasemos e incluso en la misma linea podemos definir cual va a ser el indice del DataFrame nuevo


In [7]:
data = pd.read_excel('AAPL.xlsx', sheet_name="Hoja1")
copia = data[['timestamp', 'open', 'close']].copy().set_index("timestamp")

copia.head(4)

Unnamed: 0_level_0,open,close
timestamp,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-03-06,282.0,289.03
2020-03-05,295.52,292.92
2020-03-04,296.44,302.74
2020-03-03,303.67,289.32


Algo idéntico produce el método .filter(), al que le pasamos como argumento la lista de columnas.

In [8]:
data = pd.read_excel('AAPL.xlsx', sheet_name="Hoja1")
copia = data.filter(['timestamp', 'open', 'close']).set_index("timestamp")

copia.head(4)

Unnamed: 0_level_0,open,close
timestamp,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-03-06,282.0,289.03
2020-03-05,295.52,292.92
2020-03-04,296.44,302.74
2020-03-03,303.67,289.32


Algo parecido pero "al revés" sería crear la copia a partir del original MENOS las columnas que no queremos.

In [9]:
data = pd.read_excel('AAPL.xlsx', sheet_name="Hoja1")
copia = data.drop(['high', 'low', 'adjusted_close'], axis=1)

copia.head()

Unnamed: 0,timestamp,open,close,volume
0,2020-03-06,282.0,289.03,56544246
1,2020-03-05,295.52,292.92,46893219
2,2020-03-04,296.44,302.74,54794568
3,2020-03-03,303.67,289.32,79868852
4,2020-03-02,282.28,298.81,85349339


### Ejercicios

1- Abrir el archivo AAPL.xlsx, generar un DataFrame igual agregando una columna que contenga la variación porcentual intradiaria (entre precio de apertura y cierre sobre el precio de apertura)

In [10]:
import pandas as pd

# Cargar el archivo Excel
archivo_excel = 'AAPL.xlsx'
df = pd.read_excel(archivo_excel)

# Calcular la variación porcentual intradiaria
df['Variación Intradiaria (%)'] = ((df['close'] - df['open']) / df['open']) * 100


2- Mostrar la tabla en pantalla, de manera que solo muestre 2 decimales de la columna calculada, y que solo muestre las dos primeras y las dos ultimas filas.


In [11]:
import pandas as pd

# Cargar el archivo Excel
archivo_excel = 'AAPL.xlsx'
df = pd.read_excel(archivo_excel)

# Calcular la variación porcentual intradiaria
df['Variación Intradiaria (%)'] = ((df['close'] - df['open']) / df['open']) * 100

# Redondear la columna calculada a 2 decimales
df['Variación Intradiaria (%)'] = df['Variación Intradiaria (%)'].round(2)

# Mostrar las dos primeras y dos últimas filas
resultado = pd.concat([df.head(2), df.tail(2)])
print(resultado)


      timestamp    open    high     low   close  adjusted_close    volume  \
0    2020-03-06  282.00  290.82  281.23  289.03        289.0300  56544246   
1    2020-03-05  295.52  299.55  291.41  292.92        292.9200  46893219   
5031 2000-03-07  126.44  127.44  121.12  122.87          3.8086   2437600   
5032 2000-03-06  126.00  129.13  125.00  125.69          3.8960   1880000   

      Variación Intradiaria (%)  
0                          2.49  
1                         -0.88  
5031                      -2.82  
5032                      -0.25  


3- Guardar la tabla en un archivo llamado AAPL_ej.xlsx en la hoja llamada Ej3, y guardar solo las columnas de la fecha y la variación intradiaria que acabamos de calcular.
Ayuda: Para indicarle al método to_excel que columnas quiero guardar puedo usar el atributo "columns"

In [12]:
import pandas as pd

# Cargar el archivo Excel
archivo_excel = 'AAPL.xlsx'
df = pd.read_excel(archivo_excel)

# Calcular la variación porcentual intradiaria
df['Variación Intradiaria (%)'] = ((df.close - df.open) / df.open) * 100

# Redondear la columna calculada a 2 decimales
df['Variación Intradiaria (%)'] = df['Variación Intradiaria (%)'].round(2)

# Seleccionar solo las columnas de la fecha y la variación intradiaria
# df_resultado = df[['timestamp', 'Variación Intradiaria (%)']]

# Guardar el DataFrame en un nuevo archivo Excel
# df_resultado.to_excel('AAPL_ej.xlsx', sheet_name='Ej3', index=False)

df.to_excel('AAPL_ej.xlsx', sheet_name='Ej3', index=False, columns=['timestamp', 'Variación Intradiaria (%)'])

## Lectura de DataFrame y sus atributos
### Acceso a datos de la tabla
#### Head(n) / Tail(n)
Estos metodos nos permiten ver los primeros/ultimos "n" valores de una tabla respectivamente.

In [13]:
import pandas as pd
pd.options.display.max_rows = 8
data = pd.read_excel('AAPL.xlsx', sheet_name='Hoja1')
data.head(3)

Unnamed: 0,timestamp,open,high,low,close,adjusted_close,volume
0,2020-03-06,282.0,290.82,281.23,289.03,289.03,56544246
1,2020-03-05,295.52,299.55,291.41,292.92,292.92,46893219
2,2020-03-04,296.44,303.4,293.13,302.74,302.74,54794568


Si en lugar de head usamos tail, obviamente vamos a acceder a la cola de los datos.

In [14]:
data.tail(4)

Unnamed: 0,timestamp,open,high,low,close,adjusted_close,volume
5029,2000-03-09,120.87,125.0,118.25,122.25,3.7894,2470700
5030,2000-03-08,122.87,123.94,118.56,122.0,3.7816,2421700
5031,2000-03-07,126.44,127.44,121.12,122.87,3.8086,2437600
5032,2000-03-06,126.0,129.13,125.0,125.69,3.896,1880000


#### Métodos loc e iloc

Con estos métodos accederemos a cualquier elemento o rango de elementos de un DataFrame.
La estructura es la siguiente: data.iloc[filas, columnas]
La diferencia entre "loc" e "iloc" es que "iloc" llama a los indices y "loc" llama a los nombres de los elementos.
Por lo general a las filas se las accede con indices numéricos o en su defecto de fechas mientras que las columnas pueden llamarse de ambas formas.
Empecemos por las filas
*Seleccionamos un solo elemento*
Para seleccionar un solo elemento usamos la locacion concreta a la que queremos referirnos.
La locación loc es el valor del indice
La locación iloc es el numero de elemento (fila) del dataframe, empezando a contar desde el 0.

In [15]:
data.loc[2]

timestamp         2020-03-04 00:00:00
open                           296.44
high                            303.4
low                            293.13
close                          302.74
adjusted_close                 302.74
volume                       54794568
Name: 2, dtype: object

In [16]:
data.iloc[2]

timestamp         2020-03-04 00:00:00
open                           296.44
high                            303.4
low                            293.13
close                          302.74
adjusted_close                 302.74
volume                       54794568
Name: 2, dtype: object

Como podemos ver, la locacion loc y la locacion del valor indice iloc en este caso coincide. Esto es asi porque nuestro indice es un indice numerico.
Para entender mejor la diferencia entre loc e iloc vamos a crear una tabla o DataFrame igual a la anterior, pero le vamos a poner como indice la fecha en lugar del indice numérico con que viene la tabla original.

In [17]:
import pandas as pd
pd.options.display.max_rows = 8
data = pd.read_excel("AAPL.xlsx", sheet_name="Hoja1")
dataIndiceFecha = data.set_index("timestamp")
dataIndiceFecha

Unnamed: 0_level_0,open,high,low,close,adjusted_close,volume
timestamp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-03-06,282.00,290.82,281.23,289.03,289.0300,56544246
2020-03-05,295.52,299.55,291.41,292.92,292.9200,46893219
2020-03-04,296.44,303.40,293.13,302.74,302.7400,54794568
2020-03-03,303.67,304.00,285.80,289.32,289.3200,79868852
...,...,...,...,...,...,...
2000-03-09,120.87,125.00,118.25,122.25,3.7894,2470700
2000-03-08,122.87,123.94,118.56,122.00,3.7816,2421700
2000-03-07,126.44,127.44,121.12,122.87,3.8086,2437600
2000-03-06,126.00,129.13,125.00,125.69,3.8960,1880000


Ahora vamos a acceder al tercer valor de la serie, el 5 de marzo, con los metodos loc e iloc respectivamente.

En el caso del iloc sigue siendo igual que antes, ya que este método llama al "n" elemento de la tabla, y no depende del indice.

Ahora al referirnos a la locacion del indice, como cambiamos al indice ya no puedo llamar al elemento "2" porque ese elemento ya no existe, porque va a ir a buscar ese elemento al indice y se va a encontrar con solo con valores de fecha, entonces aca le tengo que poner la fecha exacta que quiero que me devuelva

In [18]:
dataIndiceFecha.loc["2020-03-04"]

open                   296.44
high                   303.40
low                    293.13
close                  302.74
adjusted_close         302.74
volume            54794568.00
Name: 2020-03-04 00:00:00, dtype: float64

In [19]:
dataIndiceFecha.iloc[2]

open                   296.44
high                   303.40
low                    293.13
close                  302.74
adjusted_close         302.74
volume            54794568.00
Name: 2020-03-04 00:00:00, dtype: float64

### Seleccionamos algunos elementos cualquiera de la tabla

Para ello le pedimos un listado de elementos separados con coma, como todo listado lo ponemos entre [] 

In [20]:
data.iloc[[2,4]]

Unnamed: 0,timestamp,open,high,low,close,adjusted_close,volume
2,2020-03-04,296.44,303.4,293.13,302.74,302.74,54794568
4,2020-03-02,282.28,301.44,277.72,298.81,298.81,85349339


### Seleccionamos un rango de filas dentro de una tabla

Para ello, indicamos el rango como desde:hasta

In [21]:
data.loc[2:4]

Unnamed: 0,timestamp,open,high,low,close,adjusted_close,volume
2,2020-03-04,296.44,303.4,293.13,302.74,302.74,54794568
3,2020-03-03,303.67,304.0,285.8,289.32,289.32,79868852
4,2020-03-02,282.28,301.44,277.72,298.81,298.81,85349339


El metodo loc llama a los nombres, es decir, llama a todos los elementos que se llaman 2, 3 o 4, pero el metodo iloc llama a los indices, y ahi aplica un criterio numérico que es desde inclusive hasta no inclusive

In [22]:
data.iloc[2:4]

Unnamed: 0,timestamp,open,high,low,close,adjusted_close,volume
2,2020-03-04,296.44,303.4,293.13,302.74,302.74,54794568
3,2020-03-03,303.67,304.0,285.8,289.32,289.32,79868852


Y como seria algo asi con iloc si tenemos como indice una fecha?

In [23]:
dataIndiceFecha.loc["2020-03-04":"2020-03-02"]

KeyError: 'Value based partial slicing on non-monotonic DatetimeIndexes with non-existing keys is not allowed.'