In [1]:
import pandas as pd
import numpy as np

O DataFrame é uma estrutura muito similar a Series, porém pode possuir mais de uma coluna. Ele pode ser construído através de um dicionário.

In [2]:
df = pd.DataFrame({'name': ['anne', 'john', 'kate'], 'key': [1,2,3], 'age': [21,33,14]})
df

Unnamed: 0,name,key,age
0,anne,1,21
1,john,2,33
2,kate,3,14


Para se consultar as colunas de um dataframe, pode-se usar uma sintaxe semelhante ao slicing, porém, passando o nome da coluna. Por exemplo, se quisermos saber todos os nomes na coluna "name".

In [3]:
df['name']

0    anne
1    john
2    kate
Name: name, dtype: object

### Atributos do DataFrame

In [4]:
# Verificar o tipo de dado presente nas colunas do dataframe
df.dtypes

name    object
key      int64
age      int64
dtype: object

In [5]:
# Verificar o index do dataframe
df.index

RangeIndex(start=0, stop=3, step=1)

In [6]:
# Verificar o nome das colunas do dataframe
df.columns

Index(['name', 'key', 'age'], dtype='object')

In [7]:
# Verifica o formato do dataframe
df.shape

(3, 3)

### Métodos do DataFrame

Para demonstrar alguns métodos do DataFrame, importaremos um arquivo csv com a função `read_csv()`

In [8]:
salarios = pd.read_csv('salarios.csv')

In [18]:
salarios.shape

(32181, 4)

O método head() fornece uma visão do início do DataFrame, sendo o número default de linhas 5. É possível passar o número de linhas na chamada do método.

In [9]:
salarios.head()

Unnamed: 0,Name,Position Title,Department,Employee Annual Salary
0,"AARON, ELVIA J",WATER RATE TAKER,WATER MGMNT,$88965.00
1,"AARON, JEFFERY M",POLICE OFFICER,POLICE,$80778.00
2,"AARON, KARINA",POLICE OFFICER,POLICE,$80778.00
3,"AARON, KIMBERLEI R",CHIEF CONTRACT EXPEDITER,GENERAL SERVICES,$84780.00
4,"ABAD JR, VICENTE M",CIVIL ENGINEER IV,WATER MGMNT,$104736.00


Devido ao fato de existirem alguns valores NaN dentro do nosso dataset, para este caso, iremos remover as linhas que contenham esses valores

In [12]:
salarios.dropna(inplace=True)

Verificando o tipo de dado de cada coluna do DataFrame.

In [15]:
salarios.dtypes

Name                       object
Position Title             object
Department                 object
Employee Annual Salary    float64
dtype: object

### Queries dentro de um DataFrame

Para fazermos a consulta, precisamos converter os dados da coluna referente ao salário anual do empregado do tipo str para float.

In [None]:
salarios['Employee Annual Salary'] = salarios['Employee Annual Salary'].apply(lambda x: float(x[1:]))

Checando novamente os tipos de dados do DataFrame.

In [17]:
salarios.dtypes

Name                       object
Position Title             object
Department                 object
Employee Annual Salary    float64
dtype: object

Para realizar consultas (queries) dentro de um DataFrame, podemos utilizar do artifício conhecido como mascaramento booleano. Para demonstrá-lo, vamos consultar os registros de pessoas que trabalham no departamento de polícia e recebem mais que 85 mil dólares anuais.

In [16]:
salarios[(salarios['Department'] == 'POLICE') & (salarios['Employee Annual Salary'] > 85000)]

Unnamed: 0,Name,Position Title,Department,Employee Annual Salary
9,"ABBATE, TERRY M",POLICE OFFICER,POLICE,86520.0
24,"ABEJERO, JASON V",POLICE OFFICER,POLICE,86520.0
34,"ABRAMS, HENRY L",POLICE OFFICER,POLICE,92316.0
44,"ABRON, FLOYD",POLICE OFFICER,POLICE,86520.0
46,"ABSTON, KATHY A",POLICE OFFICER,POLICE,89718.0
...,...,...,...,...
32144,"ZULLO, GREGORY G",POLICE OFFICER,POLICE,89718.0
32154,"ZUNIGA, RONALD",POLICE OFFICER,POLICE,86520.0
32164,"ZURAWSKI, MARY E",POLICE OFFICER,POLICE,89718.0
32177,"ZYGOWICZ, PETER J",POLICE OFFICER,POLICE,86520.0


Segundo o resultado do DataFrame, dos 32181 registros, 6747 são policiais e recebem mais do que 85 mil dólares anuais. As possibilidades para obtenção de insights dos mais variados tendem ao infinito (ou quem sabe próximo dele).

### Indexação de DataFrames

É possível visualizar qual coluna representa o índice do DataFrame com `df.index`.

In [21]:
salarios.index

Int64Index([    0,     1,     2,     3,     4,     5,     6,     7,     8,
                9,
            ...
            32171, 32172, 32173, 32174, 32175, 32176, 32177, 32178, 32179,
            32180],
           dtype='int64', length=32181)

É possível atribuir uma lista de colunas para o "papel" de índice, através da passagem de uma lista de colunas existentes para o método `df.set_index()`, estando essa lista em ordem de hierarquia.

In [22]:
salarios = salarios.set_index(['Department', 'Position Title'])

In [24]:
salarios.head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,Name,Employee Annual Salary
Department,Position Title,Unnamed: 2_level_1,Unnamed: 3_level_1
WATER MGMNT,WATER RATE TAKER,"AARON, ELVIA J",88965.0
POLICE,POLICE OFFICER,"AARON, JEFFERY M",80778.0
POLICE,POLICE OFFICER,"AARON, KARINA",80778.0
GENERAL SERVICES,CHIEF CONTRACT EXPEDITER,"AARON, KIMBERLEI R",84780.0
WATER MGMNT,CIVIL ENGINEER IV,"ABAD JR, VICENTE M",104736.0
CITY COUNCIL,ASST TO THE ALDERMAN,"ABARCA, ANABEL",70764.0
STREETS & SAN,GENERAL LABORER - DSS,"ABARCA, EMMANUEL",40560.0
AVIATION,ELECTRICAL MECHANIC,"ABBATACOLA, ROBERT J",91520.0
FIRE,FIRE ENGINEER,"ABBATEMARCO, JAMES J",90456.0
POLICE,POLICE OFFICER,"ABBATE, TERRY M",86520.0


### Tratando valores missing