# Pandas

Pandas é uma biblioteca que tem como principal objetivo trabalhar com os dados de forma simples, atráves de funções já prontas, e com eficiencia, por causa da sua implementação.

In [1]:
import numpy as np
import pandas as pd

In [2]:
# Lendo um arquivo csv
df = pd.read_csv('titanic.csv') # Nome df vem de DataFrame

In [4]:
# Imprime as primeiras linhas do dataframe
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Quais são as features do nosso conjunto de dados?

In [39]:
# Colunas do dataframe
df.columns 

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Embarked', 'FaixaEtaria'],
      dtype='object')

Quais são os tipos de cada uma das features?

In [40]:
# Tipo de cada uma das colunas
df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Embarked        object
FaixaEtaria     object
dtype: object

Qual o formato da nossa matriz de dados?

In [5]:
# Formato do dataframe (mesma notação que no numpy)
df.shape

(891, 12)

Agora vamos procurar saber um pouco mais sobre os nossos dados, vamos tentar ter uma ideia de como eles estão distribuidos

In [6]:
# Retorna algumas informações estatísticas de cada coluna
df.describe()

# count -> número de linhas não nulas
# mean -> média dos valores
#std -> desvio padrão
# min -> valor mínimo de uma linha
# 25% -> valor achado ao ordenar as linhas e pegar o elemento em 25% (1/4)
# 50% -> valor achado ao ordenar as linhas e pegar o elemento em 50% (1/2)
# 75% -> valor achado ao ordenar as linhas e pegar o elemento em 75% (3/4)
# max -> valor máximo de uma linha


Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### Indexando o Dataframe

Para mostrar como podemos selecionar uma coluna do DataFrame vamos selecionar a coluna idade e descobrir a idade média das pessoas no Titanic

In [7]:
# Colocando a coluna desejada
age = df['Age']
age.head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

In [8]:
type(age)

pandas.core.series.Series

In [10]:
print("Idade média:", age.mean())

Idade média: 29.69911764705882


Também podemos selecionar mais de uma coluna, criando um outro DataFrame. Vamos criar uma tabela apenas com a idade do passageiro a informação se ele sobreviveu ou não.

In [44]:
cols = ['Age', 'Survived']
# Colocando uma lista de colunas desejada
df_idade = df[cols] 
df_idade.head()

Unnamed: 0,Age,Survived
0,22.0,0
1,38.0,1
2,26.0,1
3,35.0,1
4,35.0,0


Outra forma de indexação é a por booleanos, assim como no Numpy. Vamos usar essa indexação na tabela que acabamos de criar para descobrir a idade média dos mortos e dos sobreviventes

In [45]:
# Series com True ou False
sobreviventes = df_idade['Survived'] == 1
mortos = df_idade['Survived'] == 0

df_sobreviventes = df_idade[sobreviventes]
df_mortos = df_idade[mortos]

In [13]:
print('Vivos: ' , df_sobreviventes['Age'].mean())
print('Mortos: ', df_mortos['Age'].mean())

Vivos:  28.343689655172415
Mortos:  30.62617924528302


Também podemos fazer um slicing das linhas do Dataframe

In [10]:
# Se fizer o slicing ele retorna o slice de linhas do Dataframe
df[10:15]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
12,13,0,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.05,,S
13,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.275,,S
14,15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S


Mas a gente pode ver que esse método de indexação é muito limitado, não podemos selecionar uma linha, nem uma lista de linhas e nem fazer slicing em colunas. Para isso existem **loc** e **iloc**!

### Indexando loc e iloc

![Indexing](https://shanelynnwebsite-mid9n9g1q9y8tt.netdna-ssl.com/wp-content/uploads/2016/10/Pandas-selections-and-indexing-768x549.png, "indexing")

#### loc

In [47]:
# Indices 1, 2, 3, 4 e colunas Survived e PClass
df.loc[1:4, ['Survived', 'Pclass']]

Unnamed: 0,Survived,Pclass
1,1,1
2,1,3
3,1,1
4,0,3


In [48]:
#Todos os indices e só a coluna age
age = df.loc[:, 'Age']
age.head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

** IMPORTANTE: ** O primeiro valor (o antes da virgula) não é a linha que vai ser selecionada, sim os indices que devem ser selecionados. Nesse caso os indices são iguais as linhas. Mas vamos ver caso isso não seja verdade

In [13]:
# Gerando um dataframe diferente, não precisa entender isso agora
df_2 = df.groupby('Age').mean()[['Parch', 'Fare']] 
df_2.head(10)

Unnamed: 0_level_0,Parch,Fare
Age,Unnamed: 1_level_1,Unnamed: 2_level_1
0.42,1.0,8.5167
0.67,1.0,14.5
0.75,1.0,19.2583
0.83,1.5,23.875
0.92,2.0,151.55
1.0,1.571429,30.005957
2.0,1.3,37.53625
3.0,1.333333,25.78195
4.0,1.4,29.54333
5.0,1.25,22.7177


Agora o indice são valores que não correspondem com a linha

In [12]:
# Indice 1 e todas as colunas
df_2.loc[1, :]

Parch     1.571429
Fare     30.005957
Name: 1.0, dtype: float64

Como podemos ver esses valores não são da linha 1 da dataframe, mas sim da linha com o indice 1

#### iloc

In [14]:
# Linhas 1, 2, 3 e colunas 0, 1
df.iloc[1:4, :2] 

Unnamed: 0,PassengerId,Survived
1,2,1
2,3,1
3,4,1


In [18]:
# Linhas 1, 2, 3, 4, 5, 6 e todas as colunas
df.iloc[1:7, :] 

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S


In [54]:
# Todas as linhas e coluna 3
col3 = df.iloc[:, 3]
col3

0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
5                                       Moran, Mr. James
6                                McCarthy, Mr. Timothy J
7                         Palsson, Master. Gosta Leonard
8      Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)
9                    Nasser, Mrs. Nicholas (Adele Achem)
10                       Sandstrom, Miss. Marguerite Rut
11                              Bonnell, Miss. Elizabeth
12                        Saundercock, Mr. William Henry
13                           Andersson, Mr. Anders Johan
14                  Vestrom, Miss. Hulda Amanda Adolfina
15                      Hewlett, Mrs. (Mary D Kingcome) 
16                                  Rice, Master. Eugene
17                          Wil

Voltando para o caso que o indice não corresponde com a linha

In [19]:
df_2.head(10)

Unnamed: 0_level_0,Parch,Fare
Age,Unnamed: 1_level_1,Unnamed: 2_level_1
0.42,1.0,8.5167
0.67,1.0,14.5
0.75,1.0,19.2583
0.83,1.5,23.875
0.92,2.0,151.55
1.0,1.571429,30.005957
2.0,1.3,37.53625
3.0,1.333333,25.78195
4.0,1.4,29.54333
5.0,1.25,22.7177


In [20]:
# O iloc pegua a linha 1 do dataframe, não a linha de indice 1
df_2.iloc[1, :]

Parch     1.0
Fare     14.5
Name: 0.67, dtype: float64

### Adicionando nova coluna

Podemos adicionar uma nova coluna a nossa tabela. Vamos adicionar uma coluna com valores aleatorios em nosso DataFrame

In [21]:
df.loc[:, 'RandomCol']  = np.random.randint(100, size=df.shape[0])
df.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,RandomCol
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,30
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,76


### Removendo uma coluna

Como essa coluna aleatória não serve para nada vamos remove-la do nosso DataFrame 

In [23]:
df.drop('RandomCol', axis=1)
df.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,RandomCol
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,30
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,76


In [24]:
df.drop('RandomCol', axis=1, inplace=True)
df.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


Passamos o parametro **axis=1** para fazermos a remoção de uma coluna, se quisessemos remover uma linha usariamos axis=0

In [25]:
drop0 = df.drop(0)
drop0.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


### Valores Nulos

Uma das coisas mais comuns que encontramos em bases de dados é a presença de valores nulos. Eles podem ser erros, valores não coletados ou a feature em questão pode não se aplicar a algumas das instâncias.

Primeiramente vamos descobrir quantos valores nulos nossa base tem

In [37]:
df_na = df.isna() # Retorna um Dataframe do tamanho da base indicando se é ou não nulo em booleanos
df_na.sum() # Com o sum() nos automaticamente somamos em cada coluna (True = 1 e False = 0)

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Agora vamos ver o que podemos fazer para acabar com esses valores nulos

Nossa tabela possui 891 exemplos, então a feature **Cabin possui mais de 75% de valores nulos**. O mais indicado aqui é **descartar toda a coluna**, já que com essa quantidade de valores nulos ela não é muito útil (Em outras aulas veremos que podemos usar essa informação, o grande número de nulos, como uma feature, mas por enquanto vamos ignorá-la)

In [29]:
# Já aprendemos como descartar uma coluna por inteiro
df.drop(columns=['Cabin'], inplace=True)

Já a coluna **Embarked possui apenas 2 valores nulos**, podemos simplesmente **descartar esses dois exemplos** da nossa base

In [41]:
#Subset indica as colunas que estamos levando em consideração para remover as linhas
df.dropna(subset=['Embarked'], inplace=True) 

Por fim a coluna **Age** possui 177 valores nulos, ou seja, aproximademente 20% da base. Para não perdermos toda a informação presente na coluna podemos **mantê-la e substituir os valores nulos pela média** das idades presentes.

In [39]:
media_idade = df['Age'].mean()
# A função fillna() subtitui os valores nulos por um valor passado
df.loc[:, 'Age'] = df['Age'].fillna(media_idade)

Vamos ver se todos os valores nulos foram de fato removidos

In [42]:
df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         0
dtype: int64

### Aplicando uma função a todos os valores de uma coluna

Agora vamos gerar uma nova feature mais útil que os valores aleatórios. Vamos criar uma função que recebe um idade e retorna a faixa etária

In [33]:
def faixa_etaria(idade):
    if idade < 13:
        return 'Criança'
    elif idade < 18:
        return 'Adolescente'
    elif idade < 60:
        return 'Adulto'
    else:
        return 'Idoso'

Poderiamos fazer um laço e ir acessando as idades utilizado iloc, mas isso seria muito demorado. Para aplicar funções sobre o Series utilizamos a função **apply**

In [34]:
df.loc[:, 'FaixaEtaria'] = df['Age'].apply(faixa_etaria)
df.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked,FaixaEtaria
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,S,Adulto
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C,Adulto


### Salvando o dataframe

In [35]:
df.to_csv('arquivo_saida.csv', index=False) #Index = False faz com que não seja adicionada uma coluna com o indice