# Pandas - Dataframes

* Es un array bidimensional (la tabla completa)

In [85]:
import pandas as pd

In [86]:
datos = {
  "calorias": [420, 380, 390],
  "duracion": [50, 40, 45]
}

In [87]:
# Dataframe a partir de un diccionario con etiquetas por default mediante número de índice
df = pd.DataFrame(datos)
df

Unnamed: 0,calorias,duracion
0,420,50
1,380,40
2,390,45


In [88]:
# seleccionar un elemento por etiqueta
df.loc[0, 'calorias']

420

In [89]:
# seleccionar un elemento por número
df.iloc[0, 0]

420

In [90]:
# seleccionar por columna
df['calorias']

0    420
1    380
2    390
Name: calorias, dtype: int64

In [91]:
# seleccionar por fila
df.iloc[0]

calorias    420
duracion     50
Name: 0, dtype: int64

In [92]:
# seleccionar dos filas
df.iloc[[0, 1]]

Unnamed: 0,calorias,duracion
0,420,50
1,380,40


In [93]:
# seleccionar por condición booleana
df[df['calorias'] > 385]

Unnamed: 0,calorias,duracion
0,420,50
2,390,45


In [94]:
# ordenar columna ascendente
df.sort_values('calorias', ascending=True)

Unnamed: 0,calorias,duracion
1,380,40
2,390,45
0,420,50


In [95]:
# ordenar columna descendente
df.sort_values('calorias', ascending=False)

Unnamed: 0,calorias,duracion
0,420,50
2,390,45
1,380,40


In [96]:
# ordenar columnas por dos valores
df.sort_values(['calorias', 'duracion'], ascending=[True, False])

Unnamed: 0,calorias,duracion
1,380,40
2,390,45
0,420,50


In [97]:
# Dataframe a partir de un diccionario con etiquetas definidas
df = pd.DataFrame(datos, index = ["dia1", "dia2", "dia3"])
df

Unnamed: 0,calorias,duracion
dia1,420,50
dia2,380,40
dia3,390,45


In [98]:
# seleccionar fila por etiqueta definida
df.loc['dia2']

calorias    380
duracion     40
Name: dia2, dtype: int64

In [99]:
# Dataframe a partir de un archivo csv (archivos separadas por comas). Importar
df = pd.read_csv('/Users/ppando/Materias/python/doc/data/pandas_datos.csv', sep=',')
df # invoca al método __str__ (mostrando por default las primeras 5 filas y las últimas 5 filas)

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0
5,60,102,127,300.5
6,60,110,136,374.0
7,45,104,134,253.3
8,30,109,133,195.1
9,60,98,124,269.0


In [100]:
df.to_string()  # muestra el df completo

'     Duration  Pulse  Maxpulse  Calories\n0          60    110       130     409.1\n1          60    117       145     479.0\n2          60    103       135     340.0\n3          45    109       175     282.4\n4          45    117       148     406.0\n5          60    102       127     300.5\n6          60    110       136     374.0\n7          45    104       134     253.3\n8          30    109       133     195.1\n9          60     98       124     269.0\n10         60    103       147     329.3\n11         60    100       120     250.7\n12         60    106       128     345.3\n13         60    104       132     379.3\n14         60     98       123     275.0\n15         60     98       120     215.2\n16         60    100       120     300.0\n17         45     90       112       NaN\n18         60    103       123     323.0\n19         45     97       125     243.0\n20         60    108       131     364.2\n21         45    100       119     282.0\n22         60    130       101   

In [101]:
pd.options.display.max_rows = 9999  # aumento número de filas a mostrar

In [102]:
df

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0
5,60,102,127,300.5
6,60,110,136,374.0
7,45,104,134,253.3
8,30,109,133,195.1
9,60,98,124,269.0


In [103]:
# Dataframe a partir de un archivo json (texto simple con formato de un objeto, mismo formato que los diccionarios de Python)
df = pd.read_json('/Users/ppando/Materias/python/doc/data/pandas_datos.json')
df

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0
5,60,102,127,300.5
6,60,110,136,374.0
7,45,104,134,253.3
8,30,109,133,195.1
9,60,98,124,269.0
