## Leitura do arquivo e primeiras informações sobre o dataset

In [4]:
import pandas as pd

In [5]:
df = pd.read_csv('exemplo1.csv', index_col = 0, header = 0)

#header = 0 --> transforma a primeira linha do seu dataframe no indice das colunas
#index_col = 0 --> transforma a primeira coluna do seu dataframe no indice das linhas

In [6]:
df

Unnamed: 0,col1,col2,col3,col4
a,1,5,1.2,um
b,2,6,2.3,dois
c,3,6,3.4,tres
d,4,7,4.5,quatro
e,4,3,5.6,um
f,3,2,6.7,dois
g,3,3,7.8,tres


Agora que você já leu seu dataframe, vamos dar uma olhada melhor nele.

In [7]:
df.head() #mostra as 5 primeiras linhas do seu dataframe

Unnamed: 0,col1,col2,col3,col4
a,1,5,1.2,um
b,2,6,2.3,dois
c,3,6,3.4,tres
d,4,7,4.5,quatro
e,4,3,5.6,um


In [8]:
df.tail(1) #mostra as 5 ultimas linhas do seu dataframe

Unnamed: 0,col1,col2,col3,col4
g,3,3,7.8,tres


In [9]:
df.sample(6) #escolhe uma linha aleatoria do seu dataframe

Unnamed: 0,col1,col2,col3,col4
g,3,3,7.8,tres
e,4,3,5.6,um
c,3,6,3.4,tres
d,4,7,4.5,quatro
f,3,2,6.7,dois
a,1,5,1.2,um


In [10]:
df.info() #mostra o numero de itens do seu dataframe e o tipo dos valores de cada coluna 

<class 'pandas.core.frame.DataFrame'>
Index: 7 entries, a to g
Data columns (total 4 columns):
col1    7 non-null int64
col2    7 non-null int64
col3    7 non-null float64
col4    7 non-null object
dtypes: float64(1), int64(2), object(1)
memory usage: 280.0+ bytes


In [11]:
df.describe() #mostra algumas estatísticas das colunas do seu dataset

Unnamed: 0,col1,col2,col3
count,7.0,7.0,7.0
mean,2.857143,4.571429,4.5
std,1.069045,1.902379,2.376272
min,1.0,2.0,1.2
25%,2.5,3.0,2.85
50%,3.0,5.0,4.5
75%,3.5,6.0,6.15
max,4.0,7.0,7.8


## Operações em colunas

In [12]:
df.nunique() #retorna quantos valores diferentes existem em cada coluna

col1    4
col2    5
col3    7
col4    4
dtype: int64

In [13]:
df['col1'] #seleciona uma coluna do seu dataframe

a    1
b    2
c    3
d    4
e    4
f    3
g    3
Name: col1, dtype: int64

In [14]:
df['col1'].nunique() #retorna o numero de valores diferentes (unicos) da coluna especificada

4

Há 4 valores diferentes na coluna 'a'. Agora posso usar unique() para ver quais são esses valores e value_counts() para ver quantas vezes cada um deles aparece.

In [15]:
df['col1'].unique() #retorna os valores diferentes (unicos) da coluna especificada

array([1, 2, 3, 4])

In [16]:
df['col1'].value_counts() #retorna o numero de ocorrencia dos valores unicos de cada coluna

3    3
4    2
2    1
1    1
Name: col1, dtype: int64

In [17]:
df['col1'].sum() #retorna a soma dos valores da coluna

20

In [18]:
df.sort_values(by='col3') #reorganiza as linhas do dataframe de acordo com uma coluna

Unnamed: 0,col1,col2,col3,col4
a,1,5,1.2,um
b,2,6,2.3,dois
c,3,6,3.4,tres
d,4,7,4.5,quatro
e,4,3,5.6,um
f,3,2,6.7,dois
g,3,3,7.8,tres


In [19]:
df['col1'].mean() #retorna a media dos valores da coluna

2.857142857142857

In [20]:
df['col1'].median()

3.0

In [21]:
df.dropna() #remoção dos valores nulos de um dataframe, como no exemplo não há nenhum valor nulo, não fará diferença

Unnamed: 0,col1,col2,col3,col4
a,1,5,1.2,um
b,2,6,2.3,dois
c,3,6,3.4,tres
d,4,7,4.5,quatro
e,4,3,5.6,um
f,3,2,6.7,dois
g,3,3,7.8,tres


In [22]:
df['col1'].mode() 

0    3
dtype: int64

## Seleção de dados de um data frame

In [23]:
df['col1'] #seleção de uma coluna do dataframe como series

a    1
b    2
c    3
d    4
e    4
f    3
g    3
Name: col1, dtype: int64

In [24]:
df[['col1']] #seleção de uma coluna como dataframe

Unnamed: 0,col1
a,1
b,2
c,3
d,4
e,4
f,3
g,3


In [25]:
df[['col1', 'col2']] #seleção de mais de uma coluna

Unnamed: 0,col1,col2
a,1,5
b,2,6
c,3,6
d,4,7
e,4,3
f,3,2
g,3,3


Criação de uma nova coluna

In [26]:
#crio a coluna soma, que é a soma das colunas a e b


df['soma'] = df['col1'] + df['col2']
df

Unnamed: 0,col1,col2,col3,col4,soma
a,1,5,1.2,um,6
b,2,6,2.3,dois,8
c,3,6,3.4,tres,9
d,4,7,4.5,quatro,11
e,4,3,5.6,um,7
f,3,2,6.7,dois,5
g,3,3,7.8,tres,6


Remoção de uma coluna

In [27]:
df.drop(labels = ['soma'], axis = 1) #axis = 1 remove coluna e axis = 0 remove linha

Unnamed: 0,col1,col2,col3,col4
a,1,5,1.2,um
b,2,6,2.3,dois
c,3,6,3.4,tres
d,4,7,4.5,quatro
e,4,3,5.6,um
f,3,2,6.7,dois
g,3,3,7.8,tres


In [28]:
df

Unnamed: 0,col1,col2,col3,col4,soma
a,1,5,1.2,um,6
b,2,6,2.3,dois,8
c,3,6,3.4,tres,9
d,4,7,4.5,quatro,11
e,4,3,5.6,um,7
f,3,2,6.7,dois,5
g,3,3,7.8,tres,6


IMPORTANTE! No pandas, as operações não são feitas no dataframe original, ele sempre cria uma cópia do dataframe. Então, se você for ver o seu dataframe agora, ele ainda vai ter a coluna que foi dropada na linha anterior.

In [29]:
df

Unnamed: 0,col1,col2,col3,col4,soma
a,1,5,1.2,um,6
b,2,6,2.3,dois,8
c,3,6,3.4,tres,9
d,4,7,4.5,quatro,11
e,4,3,5.6,um,7
f,3,2,6.7,dois,5
g,3,3,7.8,tres,6


Para contornar esse problema, é comum substituir a variável do seu dataframe com esse novo ou especificar que a operação será feita "inplace".

In [30]:
df = df.drop(labels = ['soma'], axis = 1) #axis = 1 remove coluna e axis = 0 remove linha

In [31]:
df

Unnamed: 0,col1,col2,col3,col4
a,1,5,1.2,um
b,2,6,2.3,dois
c,3,6,3.4,tres
d,4,7,4.5,quatro
e,4,3,5.6,um
f,3,2,6.7,dois
g,3,3,7.8,tres


In [32]:
df.drop('f', axis = 0, inplace = True)

In [33]:
df

Unnamed: 0,col1,col2,col3,col4
a,1,5,1.2,um
b,2,6,2.3,dois
c,3,6,3.4,tres
d,4,7,4.5,quatro
e,4,3,5.6,um
g,3,3,7.8,tres


## Seleção de linhas (loc e iloc)

O loc é usado para selecionar linhas a partir do seu "nome"

In [34]:
df.loc['a'] #seleção de uma linha

col1      1
col2      5
col3    1.2
col4     um
Name: a, dtype: object

Posso usar loc para selecionar um valor especifico em uma linha e uma coluna.

In [35]:
df.loc['a', 'col2']

5

Também pode ser usado para selecionar um subset (um conjunto) de linhas e colunas

In [36]:
df.loc[['a','b'],['col1','col2']]

Unnamed: 0,col1,col2
a,1,5
b,2,6


O iloc é semelhante ao loc, mas eu seleciono a partir do índice ao invés do nome (por isso o i)

In [37]:
df.iloc[0]

col1      1
col2      5
col3    1.2
col4     um
Name: a, dtype: object

In [38]:
df.loc['a']

col1      1
col2      5
col3    1.2
col4     um
Name: a, dtype: object

## Seleção condicional

A seleção condicional para usar entradas de acordo com seu valor, contanto que elas satisfaçam alguma condição

In [39]:
df['col1'] > 2 #mostro quais valores da coluna a do meu dataframe sao maiores ou menores que 2

a    False
b    False
c     True
d     True
e     True
g     True
Name: col1, dtype: bool

In [40]:
#ao passar esssa tabela para o meu dataframe, consigo apenas os valores que sao True
df[df['col1'] > 2]

Unnamed: 0,col1,col2,col3,col4
c,3,6,3.4,tres
d,4,7,4.5,quatro
e,4,3,5.6,um
g,3,3,7.8,tres


In [41]:
df[df['col1'] == 2]

Unnamed: 0,col1,col2,col3,col4
b,2,6,2.3,dois


In [42]:
df[df['col1'] > 2]['col2'] #seleciono a coluna b do de cima

c    6
d    7
e    3
g    3
Name: col2, dtype: int64

In [43]:
df[df['col1'] > 2][['col2','col4']] #selecao de duas colunas com a condicao

Unnamed: 0,col2,col4
c,6,tres
d,7,quatro
e,3,um
g,3,tres


Também posso selecionar com mais de uma condição, usando or | e and &

In [44]:
df[(df['col1'] > 3) & (df['col3'] > 2)] #coluna a maior que 2 E coluna b maior que 5

Unnamed: 0,col1,col2,col3,col4
d,4,7,4.5,quatro
e,4,3,5.6,um


In [45]:
df[(df['col1'] > 4) | (df['col3'] > 2)] #coluna a maior que 2 E coluna b maior que 5

Unnamed: 0,col1,col2,col3,col4
b,2,6,2.3,dois
c,3,6,3.4,tres
d,4,7,4.5,quatro
e,4,3,5.6,um
g,3,3,7.8,tres


## Groupby

O groupby permite que você agrupe dados para calcular funções em cima deles

O groupby pode ser usado para agrupar linhas baseado em uma coluna.

In [46]:
groupby = df.groupby('col1')
groupby


<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x7f3f1334be80>

In [47]:
groupby.mean() #encontra a media dos valores de a nas colunas b, c e d

Unnamed: 0_level_0,col2,col3
col1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,5.0,1.2
2,6.0,2.3
3,4.5,5.6
4,5.0,5.05


In [48]:
groupby.std() #desvio padrao

Unnamed: 0_level_0,col2,col3
col1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,,
2,,
3,2.12132,3.11127
4,2.828427,0.777817


In [49]:
groupby.describe()

Unnamed: 0_level_0,col2,col2,col2,col2,col2,col2,col2,col2,col3,col3,col3,col3,col3,col3,col3,col3
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
col1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
1,1.0,5.0,,5.0,5.0,5.0,5.0,5.0,1.0,1.2,,1.2,1.2,1.2,1.2,1.2
2,1.0,6.0,,6.0,6.0,6.0,6.0,6.0,1.0,2.3,,2.3,2.3,2.3,2.3,2.3
3,2.0,4.5,2.12132,3.0,3.75,4.5,5.25,6.0,2.0,5.6,3.11127,3.4,4.5,5.6,6.7,7.8
4,2.0,5.0,2.828427,3.0,4.0,5.0,6.0,7.0,2.0,5.05,0.777817,4.5,4.775,5.05,5.325,5.6


In [50]:
col12 = df.groupby(['col1', 'col2']) #groupby com duas colunas

In [51]:
col12.mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,col3
col1,col2,Unnamed: 2_level_1
1,5,1.2
2,6,2.3
3,3,7.8
3,6,3.4
4,3,5.6
4,7,4.5
