# Pandas

Importación de la biblioteca, verificación de la instalación y prueba

In [232]:
import pandas as pd

In [233]:
# verificación de la versión instalada
pd.__version__

'1.0.1'

## Estructuras de datos en Pandas.

### Series

"A Series is a one-dimensional array-like object containing a sequence of values (of similar types to NumPy types) and an associated array of data labels, called its index."

In [234]:
obj = pd.Series([4, 7, -5, 3])
print(obj)

0    4
1    7
2   -5
3    3
dtype: int64


In [235]:
obj_A= pd.Series(['Hola','Mundo'])
print(obj_A)

0     Hola
1    Mundo
dtype: object


In [236]:
# mostrar la serie en formato array
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [237]:
# Obtención del índice de la serie
print(obj.index)

RangeIndex(start=0, stop=4, step=1)


In [238]:
# Creación de una serie especificando el índice
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
print(obj2)

d    4
b    7
a   -5
c    3
dtype: int64


In [239]:
# Comprobar la representación y el tipo de dato del índice
print(obj2.index)

Index(['d', 'b', 'a', 'c'], dtype='object')


### Acceso a datos de series a través de etiquetas

In [240]:
print(obj2['a'])
print(obj2['b'])
print(obj2['c'])
print(obj2['d'])

-5
7
3
4


In [241]:
print(obj2[0])
print(obj2[1])
print(obj2[2])
print(obj2[3])

4
7
-5
3


### Acceso a varios datos de forma simultanea, mediante sus índices (lista de índices) [ [ ] ]

In [242]:
print(obj2[['a', 'b', 'c', 'd']])

a   -5
b    7
c    3
d    4
dtype: int64


### Filtrado de datos

In [243]:
print(obj2[obj2 > 0])

d    4
b    7
c    3
dtype: int64


### Operaciones con Series

In [244]:
obj2*2

d     8
b    14
a   -10
c     6
dtype: int64

In [245]:
obj2*-1

d   -4
b   -7
a    5
c   -3
dtype: int64

### Potencia

In [246]:
print(obj2.pow(2))

d    16
b    49
a    25
c     9
dtype: int64


In [247]:
# Relleno de valores inexistentes NaN con ceros u otro valor
print(obj2.pow(2,fill_value=0))

d    16
b    49
a    25
c     9
dtype: int64


In [248]:
# axis{0 == ‘row’, 1 == ‘columns’}
obj2.pow(2,axis=0)

d    16
b    49
a    25
c     9
dtype: int64

In [249]:
# Comprobación de índices de forma similar al uso de diccionarios
print('b' in obj2)
print('z' in obj2)
print('a' in obj2)
print(1 in obj2)

True
False
True
False


In [250]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

### Creación de series a partir de un diccionario

In [251]:
dic_data = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

In [252]:
cities= pd.Series(dic_data)
print(cities)

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64


**Nota:** Cuando se usa un diccionario como entrada de una serie, esta tomará como índice las claves del diccionario ordenadas
Podemos sobreescribir este comportamiento pasando las claves del diccionario en el orden en que queramos que aparezcan.
Es decir, podemos crear nuestro propio índice en el momento de la ejecución

In [253]:
states = ['Utah', 'Ohio', 'Oregon', 'Texas']
cities2 = pd.Series(cities, index=states)
cities2

Utah       5000
Ohio      35000
Oregon    16000
Texas     71000
dtype: int64

In [254]:
states_A = ['Texas', 'Ohio', 'Oregon', 'California']
cities2_A=pd.Series(cities,index=states_A)
cities2_A

Texas         71000.0
Ohio          35000.0
Oregon        16000.0
California        NaN
dtype: float64

**Nota:** al no existir California al momento de crear el indice a partir del objeto cities, se completa como NaN

### Comprobación de valores inexistentes en Pandas con las funciones isnull y notnull.

In [255]:
print(pd.isnull(cities2_A))

Texas         False
Ohio          False
Oregon        False
California     True
dtype: bool


In [256]:
print(pd.notnull(cities2_A))

Texas          True
Ohio           True
Oregon         True
California    False
dtype: bool


En operaciones aritméticas, las series se alinean automáticamente siguiendo el índice. Algo parecido a las operaciones "join" de las bases de datos relacionales.

In [257]:
print(cities2)

Utah       5000
Ohio      35000
Oregon    16000
Texas     71000
dtype: int64


In [258]:
print(cities2_A)

Texas         71000.0
Ohio          35000.0
Oregon        16000.0
California        NaN
dtype: float64


In [259]:
print(cities2+cities2_A)

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64


### Asignación de un nombre a la serie y a su índice

In [260]:
cities2.name = 'population'
cities2.index.name = 'state'
print(cities2)

state
Utah       5000
Ohio      35000
Oregon    16000
Texas     71000
Name: population, dtype: int64


### Modificación del índice de una serie en el momento de la ejecución

In [261]:
print(obj)

0    4
1    7
2   -5
3    3
dtype: int64


In [262]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
print(obj)

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64


## **DataFrames**

### Definición:

"DataFrame is a 2-dimensional labeled data structure with columns of potentially different types. "

Hay muchas formas de construir un dataframe en Pandas, pero quizás la más común, es a partir de un diccionario, compuesto por listas con el mismo número de elementos,(longitud) o arrays de Numpy

In [263]:
# Ejemplo de creación de un dataframe a partir de un diccionario
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

In [264]:
frame = pd.DataFrame(data)

In [265]:
print(frame)

    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2


### Restricción del número de elementos que queremos visualizar. Funciones head() y tail()

In [266]:
print(frame.head(2))

  state  year  pop
0  Ohio  2000  1.5
1  Ohio  2001  1.7


In [267]:
print(frame.tail(2))

    state  year  pop
4  Nevada  2002  2.9
5  Nevada  2003  3.2


En DataFrames de gran tamaño (o sino especificamos el número), el método "head", sólo muestra las cinco primeras filas

In [268]:
print(frame.head())

    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9


### Mostrar las columnas que nos interesan y en el orden deseado
pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

In [269]:
print(pd.DataFrame(data))

    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2


In [270]:
#cambiando el orden de las columnas
print(pd.DataFrame(data, columns=['pop','year','state']))

   pop  year   state
0  1.5  2000    Ohio
1  1.7  2001    Ohio
2  3.6  2002    Ohio
3  2.4  2001  Nevada
4  2.9  2002  Nevada
5  3.2  2003  Nevada


### Si solicitamos una columna que no existe, se autocompleta con NaN

In [271]:
print(pd.DataFrame(data, columns=['pop','year','state','sales']))

   pop  year   state sales
0  1.5  2000    Ohio   NaN
1  1.7  2001    Ohio   NaN
2  3.6  2002    Ohio   NaN
3  2.4  2001  Nevada   NaN
4  2.9  2002  Nevada   NaN
5  3.2  2003  Nevada   NaN


### Recuperar datos de columna(s) específica(s)

In [272]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'], 
                      index=['one', 'two', 'three', 'four', 'five', 'six'])

In [273]:
# Recuparación de datos en formato/notación serie
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [274]:
# Recuparación de datos en formato/notación diccionario
frame2.state

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

### Modificación de los valores de las columnas mediante asignación

dataframe['nombre_columna'] = valor/'valor'

In [275]:
frame2['debt']=16.5

In [276]:
print(frame2)

       year   state  pop  debt
one    2000    Ohio  1.5  16.5
two    2001    Ohio  1.7  16.5
three  2002    Ohio  3.6  16.5
four   2001  Nevada  2.4  16.5
five   2002  Nevada  2.9  16.5
six    2003  Nevada  3.2  16.5


### Asignando listas o arrays a una columna de un dataframe

**Nota**: Si se asigna una serie a una columna, sus etiquetas serán reordenadas exactamente igual que las etiquetas del dataframe, insertando NaN en aquellas que no existan.

In [277]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


In [278]:
val = pd.Series([-1.2, -1.5, -1.7], index=['one', 'two', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,-1.2
two,2001,Ohio,1.7,-1.5
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


### Método del

In [279]:
frame2['western'] = 'California'
frame2

Unnamed: 0,year,state,pop,debt,western
one,2000,Ohio,1.5,-1.2,California
two,2001,Ohio,1.7,-1.5,California
three,2002,Ohio,3.6,,California
four,2001,Nevada,2.4,,California
five,2002,Nevada,2.9,-1.7,California
six,2003,Nevada,3.2,,California


In [280]:
del frame2['western']
print(frame2)

       year   state  pop  debt
one    2000    Ohio  1.5  -1.2
two    2001    Ohio  1.7  -1.5
three  2002    Ohio  3.6   NaN
four   2001  Nevada  2.4   NaN
five   2002  Nevada  2.9  -1.7
six    2003  Nevada  3.2   NaN


### Crear una copia de un objeto con su índice y datos
La modificación insitu de los datos de una serie de un dataframe modifica el mismo. Por seguridad, mejor realizar copias, si no se está seguro.

In [281]:
frame2_copy = frame2.copy()
frame2_copy

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,-1.2
two,2001,Ohio,1.7,-1.5
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


### Creación de un dataframe a partir de un diccionario de diccionarios

Cuando se emplea un diccionario de diccionarios para crear un dataframe, Pandas interpreta las claves exteriores del diccionario [Nevada, Ohio] como columnas y las claves interiores de los diccionarios [2000, 2001, 2002] como índices de las filas.

In [282]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9}, 
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [283]:
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [284]:
cantidad_kilometros = {'Kms': {2020: 150, 2021: 200}, 
       'Tiempo': {2020: 30, 2021: 40, 2022:50}}

In [285]:
cantidad_kilometros=pd.DataFrame(cantidad_kilometros)
print(cantidad_kilometros)

        Kms  Tiempo
2020  150.0      30
2021  200.0      40
2022    NaN      50


### Trasponer un dataframe

In [286]:
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


In [287]:
frame3.T.T

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


### Establecer los nombres (etiquetas) del índice y columnas de un dataframes

In [288]:
frame3.index.name = 'year'; frame3.columns.name = 'state'

In [289]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


Mostrar los datos de un dataframe en formato array o matricial

In [290]:
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

### Reindexado en Pandas

In [291]:
# Nota que estamos indexando en oden no alfabético a propósito 'd', 'b', 'a', 'c'
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])

In [292]:
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [293]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])

In [294]:
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [295]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])

In [296]:
obj3

0      blue
2    purple
4    yellow
dtype: object

In [297]:
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

### Reindexación de columnas

In [298]:
data = [[4.5, 7.2, -5.3], [5.5, 8.2, -6.3],[6.5, 9.2, -7.3]]
frame = pd.DataFrame(data, index=['a', 'c', 'd'], 
                     columns=['Ohio', 'Texas', 'California'])

In [299]:
frame

Unnamed: 0,Ohio,Texas,California
a,4.5,7.2,-5.3
c,5.5,8.2,-6.3
d,6.5,9.2,-7.3


In [300]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])

In [301]:
frame2

Unnamed: 0,Ohio,Texas,California
a,4.5,7.2,-5.3
b,,,
c,5.5,8.2,-6.3
d,6.5,9.2,-7.3


### Pandas y Numpy

In [302]:
import numpy as np

In [303]:
# arrange -- Return evenly spaced values within a given interval.
#El valor del parámetro ha de ser igual a la longitud del índice
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])

In [304]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

#### Eliminando una fila a través de su índice

In [305]:
new_obj = obj.drop('c')

In [306]:
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [307]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'], 
                    columns=['one', 'two', 'three', 'four'])

In [308]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


#### Eliminación de índices de fila

In [309]:
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


#### Eliminación de índices de columna

In [310]:
data.drop('two', axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [311]:
data.drop(['two', 'four'], axis='columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


In [312]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


### Indexado, Selección y filtrado

En Pandas se pueden emplear listas de índices para indexar, no sólo enteros, como ocurre en otras bibliotecas

In [313]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [314]:
# Selección por etiqueta
obj['b']

1.0

In [315]:
# Selección por índice
obj[1]

1.0

In [316]:
# Selección por rango de índices
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [317]:
obj[3:4]

d    3.0
dtype: float64

In [318]:
obj['a':'b']

a    0.0
b    1.0
dtype: float64

### Selección y filtrado

In [319]:
# Los elementos menores de 2
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

In [320]:
obj[: 2]

a    0.0
b    1.0
dtype: float64

### Los métodos loc e iloc

 Permiten realizar selección a través de etiquetas (loc) y selección mediante enteros(iloc)

In [321]:
#Selección de múltiples filas y múltiples columnas a través de sus etiquetas
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [322]:
#una columna y dos filas mediante loc
data.loc['Utah',['one','four']]

one      8
four    11
Name: Utah, dtype: int32

In [323]:
#lo anterior pero con iloc
data.iloc[2,[0,3]]

one      8
four    11
Name: Utah, dtype: int32

In [324]:
data.loc[['Ohio','Colorado'],['one','two']]

Unnamed: 0,one,two
Ohio,0,1
Colorado,4,5


In [325]:
data.iloc[[0,1],[0,1]]

Unnamed: 0,one,two
Ohio,0,1
Colorado,4,5


In [326]:
#trae las dos primeras filas
data.iloc[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [327]:
data.iloc[[1, 2], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,4,5
Utah,11,8,9


In [328]:
data.loc[:'Utah', :'two']

Unnamed: 0,one,two
Ohio,0,1
Colorado,4,5
Utah,8,9


In [329]:
data.iloc[:3,:2]

Unnamed: 0,one,two
Ohio,0,1
Colorado,4,5
Utah,8,9


In [330]:
#selección y filtrado 
data.iloc[:, :3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,4,5,6
Utah,8,9,10
New York,12,13,14


In [331]:
data.iloc[:,:2][data.two > 1]

Unnamed: 0,one,two
Colorado,4,5
Utah,8,9
New York,12,13


In [332]:
data.iloc[:,:][data.four > 10 ]

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


### Aplicación de funciones a datas de una serie o dataframe (mapping)

In [333]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),  
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.424892,-0.662156,-1.085492
Ohio,-0.614083,-1.401365,1.903306
Texas,-0.24883,0.243314,-1.817914
Oregon,0.065069,-1.082591,-1.012867


In [334]:
# Calculamos el valor absoluto de todos los miembros del dataframe
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.424892,0.662156,1.085492
Ohio,0.614083,1.401365,1.903306
Texas,0.24883,0.243314,1.817914
Oregon,0.065069,1.082591,1.012867


In [335]:
np.power(frame,2)

Unnamed: 0,b,d,e
Utah,0.180533,0.438451,1.178292
Ohio,0.377098,1.963825,3.622573
Texas,0.061916,0.059202,3.304813
Oregon,0.004234,1.172002,1.025899


In [336]:
np.power(2,frame)

Unnamed: 0,b,d,e
Utah,1.342472,0.631933,0.471232
Ohio,0.653345,0.378571,3.740693
Texas,0.841579,1.183709,0.283631
Oregon,1.046135,0.47218,0.495561


In [337]:
#encontrar el máximo (por defecto se aplica a cada columna si no especificamos)
f1 = lambda x: x.max()

In [338]:
frame.apply(f1)

b    0.424892
d    0.243314
e    1.903306
dtype: float64

In [339]:
#axis=1 fila
frame.apply(f1,axis=1)

Utah      0.424892
Ohio      1.903306
Texas     0.243314
Oregon    0.065069
dtype: float64

In [340]:
#axis=0 columna
frame.apply(f1,axis=0)

b    0.424892
d    0.243314
e    1.903306
dtype: float64

In [341]:
f2=lambda x:min(x)
frame.apply(f2,axis='columns')

Utah     -1.085492
Ohio     -1.401365
Texas    -1.817914
Oregon   -1.082591
dtype: float64

In [342]:
f3=lambda x: max(x)-min(x)
frame.apply(f3)

b    1.038975
d    1.644679
e    3.721220
dtype: float64

In [343]:
#lo mismo que la anterior
f = lambda x: x.max() - x.min()
frame.apply(f)

b    1.038975
d    1.644679
e    3.721220
dtype: float64

### Ordenación de valores

In [344]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj

d    0
a    1
b    2
c    3
dtype: int64

In [345]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

###  Ordenar mediante ambos ejes (fila, columna)

In [346]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=['three', 'one'],
                     columns=['d', 'a', 'b', 'c'])

In [347]:
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [348]:
# Por defecto ordena por fila
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [349]:
# Ordena por columna ascendente (defecto)
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [350]:
# Ordena por columna descendente
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


### Ordernar una serie por sus valores

In [351]:
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

Los valores NaN, por defecto, los ordena al final

In [352]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])

In [353]:
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

### Leyendo datos externos y escribiendo datos en formato texto

In [354]:
url = 'https://www.stats.govt.nz/assets/Uploads/Annual-enterprise-survey/Annual-enterprise-survey-2019-financial-year-provisional/Download-data/annual-enterprise-survey-2019-financial-year-provisional-csv.csv'
df1 = pd.read_csv(url)

In [355]:
df1.head(10)

Unnamed: 0,Year,Industry_aggregation_NZSIOC,Industry_code_NZSIOC,Industry_name_NZSIOC,Units,Variable_code,Variable_name,Variable_category,Value,Industry_code_ANZSIC06
0,2019,Level 1,99999,All industries,Dollars (millions),H01,Total income,Financial performance,728239,ANZSIC06 divisions A-S (excluding classes K633...
1,2019,Level 1,99999,All industries,Dollars (millions),H04,"Sales, government funding, grants and subsidies",Financial performance,643809,ANZSIC06 divisions A-S (excluding classes K633...
2,2019,Level 1,99999,All industries,Dollars (millions),H05,"Interest, dividends and donations",Financial performance,62924,ANZSIC06 divisions A-S (excluding classes K633...
3,2019,Level 1,99999,All industries,Dollars (millions),H07,Non-operating income,Financial performance,21505,ANZSIC06 divisions A-S (excluding classes K633...
4,2019,Level 1,99999,All industries,Dollars (millions),H08,Total expenditure,Financial performance,634710,ANZSIC06 divisions A-S (excluding classes K633...
5,2019,Level 1,99999,All industries,Dollars (millions),H09,Interest and donations,Financial performance,35250,ANZSIC06 divisions A-S (excluding classes K633...
6,2019,Level 1,99999,All industries,Dollars (millions),H10,Indirect taxes,Financial performance,7458,ANZSIC06 divisions A-S (excluding classes K633...
7,2019,Level 1,99999,All industries,Dollars (millions),H11,Depreciation,Financial performance,20977,ANZSIC06 divisions A-S (excluding classes K633...
8,2019,Level 1,99999,All industries,Dollars (millions),H12,Salaries and wages paid,Financial performance,112960,ANZSIC06 divisions A-S (excluding classes K633...
9,2019,Level 1,99999,All industries,Dollars (millions),H13,Redundancy and severance,Financial performance,206,ANZSIC06 divisions A-S (excluding classes K633...


### Mostrar el numero de filas

In [356]:
len(df1.index)

32445

In [357]:
len(df1)

32445

In [362]:
df1.shape

(32445, 10)

In [None]:
# fin 