# Introdução à Data Science com Python - Data ICMC-USP

Esse material foi desenvolvido pelo Data, grupo de extensão de aprendizado e ciência de dados compostos por alunos do Instituto de Ciências Matemáticas e de Computação da USP.

Esse notebook é acompanhado de um curso em video, que pode ser encontrado em [aqui](https://www.youtube.com/playlist?list=PLFE-LjWAAP9SfEuLXf3qrpw4szKWjlYq9)

Para saber mais sobre as atividades do Data entre no nosso site e nos siga e nossas redes sociais:
- [Site](http://data.icmc.usp.br/)
- [Twitter](https://twitter.com/data_icmc)
- [LinkedIn](https://www.linkedin.com/school/data-icmc/)
- [Facebook](https://www.facebook.com/dataICMC/)

Aproveite o material!


## Pandas

Pandas é uma biblioteca para manipulação de dados tabelados. Possuindo várias funções para manipular arquivos `.csv`, `.xls`, `.json`, entre outros. Pandas tem uma integração natural com NumPy, além de possuir um funcionamento análogo em vários sentidos. Assim como NumPy a biblioteca também é bem completa, então iremos passar pelos conceitos básicos e é muito recomendado conferir a documentação oficial em https://pandas.pydata.org/docs/

In [None]:
import numpy as np
# É comum importar pandas como pd
import pandas as pd

### Leitura de arquivos

Dados podem vir em arquivos com diferentes formatos, e para a maioria deles o Pandas fornece alternativas para sua leitura. Vamos trabalhar com arquivos `.csv` no decorrer do curso, pois é o tipo mais comum de arquivo.

In [None]:
# Assim que fazemos a leitura de arquivos csv
df = pd.read_csv('data/titanic.csv')

In [None]:
# Vamos ver o tipo desse dado que acabamos de ler
type(df)

pandas.core.frame.DataFrame

### DataFrame

Um DataFrame é o principal elemento do Pandas. Ele é basicamente a representação de uma planilha/tabela, porém com muitas funções que permitem inspeção e manipulação.

In [None]:
# Podemos observar as primeiras linhas do DataFrame com .head()
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [None]:
# DataFrames possuem shape, assim como arrays
df.shape

(891, 12)

In [None]:
# Podemos acessar as colunas do DataFrame
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [None]:
# Podemos conferir o tipo de dado de cada coluna
df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

Essa é uma boa hora para revisarmos algumas estatísticas descritivas (para um conteúdo mais aprofundado sobre o assunto acesse http://www.portalaction.com.br/estatistica-basica/estatisticas-descritivas)

#### Funções de agregação
Assim como no NumPy podemos aplicar diversas funções de agregação aos dados. Essas funções são por padrão aplicadas a cada coluna

In [None]:
# Soma
df.sum()

PassengerId                                               397386
Survived                                                     342
Pclass                                                      2057
Name           Braund, Mr. Owen HarrisCumings, Mrs. John Brad...
Sex            malefemalefemalefemalemalemalemalemalefemalefe...
Age                                                      21205.2
SibSp                                                        466
Parch                                                        340
Ticket         A/5 21171PC 17599STON/O2. 31012821138033734503...
Fare                                                     28693.9
dtype: object

In [None]:
# Média
df.mean()

PassengerId    446.000000
Survived         0.383838
Pclass           2.308642
Age             29.699118
SibSp            0.523008
Parch            0.381594
Fare            32.204208
dtype: float64

#### Conferindo o número de valores nulos

Valores nulos são entradas da tabela que estão vazias (pense em uma celula do Excel sem nenhum valor dentro). O fato de um campo não estar preenchido pode ter motivos diferentes, cabe ao ciêntista de dados saber com cada caso.

É importante saber que a maioria dos algoritmos de aprendizado de máquina não trabalham com valores nulos, então é importante tratá-los na preparação dos dados.

In [None]:
# Podemos usar a funçã isna e somar para ver o numero de nulos em cada coluna
df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

#### Observando estatísticas do DataFrame
Podemos observar as estatísticas de cada coluna do DataFrame utilizando o método `.describe()`

In [None]:
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### Indexando DataFrames

In [None]:
#Para essa parte iremos definir um DataFrame simples por questões didáticas
df_toy = pd.DataFrame(data=np.random.randint(20, size=(8, 4)),
                      index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'],
                      columns=['Col 1', 'Col 2', 'Col 3', 'Col 4'])

df_toy

Unnamed: 0,Col 1,Col 2,Col 3,Col 4
a,4,15,15,6
b,10,10,18,7
c,5,5,18,8
d,16,14,18,14
e,13,18,12,9
f,12,8,18,15
g,17,7,5,6
h,5,17,3,17


#### Indexação simples

In [None]:
# Podemos selecionar uma das colunas do nosso DataFrame
coluna_um = df_toy['Col 1']
coluna_um

a     4
b    10
c     5
d    16
e    13
f    12
g    17
h     5
Name: Col 1, dtype: int64

In [1]:
# Cada coluna é um objeto do tipo Series
type(coluna_um)

NameError: ignored

In [None]:
# Ao inves de selecionar um unica coluna podemos pegar um conjunto usado uma lista
coluna_um_quatro = df_toy[['Col 1', 'Col 4']]
coluna_um_quatro

Unnamed: 0,Col 1,Col 4
a,4,6
b,10,7
c,5,8
d,16,14
e,13,9
f,12,15
g,17,6
h,5,17


In [None]:
# Usando slices dentro dos [] selecionamos um conjunto de linhas
df_toy[2:6]

Unnamed: 0,Col 1,Col 2,Col 3,Col 4
c,5,5,18,8
d,16,14,18,14
e,13,18,12,9
f,12,8,18,15


In [None]:
# Podemos selecionar linhas usando booleanos
df_toy[[True, True, False, True, False, False, False, True]]

Unnamed: 0,Col 1,Col 2,Col 3,Col 4
a,4,15,15,6
b,10,10,18,7
d,16,14,18,14
h,5,17,3,17


In [None]:
# Isso permite manipulaçoes interessantes
col1_maior_10 = df_toy['Col 1'] > 10
df_toy[col1_maior_10]

Unnamed: 0,Col 1,Col 2,Col 3,Col 4
d,16,14,18,14
e,13,18,12,9
f,12,8,18,15
g,17,7,5,6


Essas são as formas simples de indexar um DataFrame, mas como é possível ver acaba deixando de lado muitas possibilidades, para isso temos `.loc` e `.iloc`. Vamos ver um pouco sobre cada uma delas.

#### *.loc* (indexando por label)
O index é a label de cada linha, enquanto o nome das colunas é o label de cada coluna. Podemos usar esses labels para indexar conjuntos de valores específicos do DataFrame.

In [None]:
# Podemos selecionar uma linha pela sua label
df_toy.loc['a', :]

Col 1     4
Col 2    15
Col 3    15
Col 4     6
Name: a, dtype: int64

In [None]:
# Podemos também selecionar colunas
df_toy.loc[:, 'Col 2']

a    15
b    10
c     5
d    14
e    18
f     8
g     7
h    17
Name: Col 2, dtype: int64

In [None]:
# Podemos fazer cortes de qualquer forma
df_toy.loc[['a', 'd', 'e'], ['Col 1', 'Col 3']]

Unnamed: 0,Col 1,Col 3
a,4,15
d,16,18
e,13,12


#### *.iloc* (indexando por posição)
Já no iloc a identificação de linhas e colunas é feita pela sua posição, agora sim 1ª, 2ª,... colunas e linhas. Vamos fazer exatamente as mesmas seleções do loc mas usando o iloc.

In [None]:
# Vamos selecionar a primeira linha
df_toy.iloc[0, :]

Col 1     4
Col 2    15
Col 3    15
Col 4     6
Name: a, dtype: int64

In [None]:
# Vamos selecionar a segunda coluna
df_toy.iloc[:, 1]

a    15
b    10
c     5
d    14
e    18
f     8
g     7
h    17
Name: Col 2, dtype: int64

In [None]:
# Também podemos fazer cortes de qualquer forma
df_toy.iloc[[0, 3, 4], [0, 2]]

Unnamed: 0,Col 1,Col 3
a,4,15
d,16,18
e,13,12


Tanto loc quanto iloc permitem seleção de colunas utilizando booleanos

In [None]:
# Selecionando colunas com bool
df_toy.iloc[:, [True, False, False, True]]

Unnamed: 0,Col 1,Col 4
a,4,6
b,10,7
c,5,8
d,16,14
e,13,9
f,12,15
g,17,6
h,5,17


A documentação oficial do Pandas tem uma página detalhada sobre o funcionamento da indexação: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html

### Operações em DataFrames

Certo, agora que já sabemos como manipular DataFrames podemos começar a manipular os dados que temos para fazer descobertas ou para prepará-los para um modelo de aprendizado de máquina.

In [None]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


#### Adicionando/Removendo colunas e linhas

- Adicionar coluna

A recomendação do Pandas é que sempre que se for alterar valores do DataFrame, seja adicionando uma coluna inteira como estamos fazendo ou mudando um único valor, devemos usar os comandos `.loc` e `.iloc`. Isso se dá ao fato de nem sempre o que é retornado de uma indexação é uma view para o valor original, em algumas situações pode ser uma cópia. Leia mais na documentação: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy 

In [None]:
df.loc[:, 'Coluna Aleatoria'] = np.random.randint(100, size=(df.shape[0],))
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Coluna Aleatoria
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,85
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,24
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,12
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,13
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,51


- Remover linha

In [None]:
# Removendo uma linha (identificamos a linha pela label)
df.drop(0) # Removendo a linha
df.head() # Vendo o resultado

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Coluna Aleatoria
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,85
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,24
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,12
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,13
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,51


Ops... A linha que queriamos remover ainda está lá, isso é porque a operação de remoção (e várias operações em DataFrames) não realizam a alteração no DataFrame original, elas retornam um novo DataFrame com as alterações feitas. Podemos salvar esse retorno numa variável (até mesmo na mesma variavel que o DataFrame original) ou passar um parâmetro especial para o DataFrame dizendo para ele realizar as mudanças no próprio DataFrame.

In [None]:
# Salvando na variavel
df = df.drop(0)

# Ou podemos indicar com o padrametro in_place
# df.drop(0, inplace=True)

- Remover coluna

In [None]:
# Para remover uma coluna precisamos avisar que estamos querendo remover uma coluna
df = df.drop(columns=['Coluna Aleatoria'])
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q


#### Tratando valores nulos
Vimos que podem existir valores nulos em nossos dados, mas não vimos o que fazer com eles. Temos basicamente três opções de como lidar com esses dados faltantes:
    - Podemos remover as linhas que possuirem dados faltantes
    - Podemos remover as colunas que possuirem dados faltantes
    - Podemos substituir dados faltantes por algum valor (a média, por exemplo)
    
Vamos analisar nosso DataFrame e ver que tipo de medida podemos adotar

In [None]:
# Vamos ver quantos valores nulos temos em cada coluna
df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          686
Embarked         2
dtype: int64

In [None]:
# Talvez seja interessante saber qual porcentagem dos valores é nulo
df.isna().sum() / df.shape[0]

PassengerId    0.000000
Survived       0.000000
Pclass         0.000000
Name           0.000000
Sex            0.000000
Age            0.198876
SibSp          0.000000
Parch          0.000000
Ticket         0.000000
Fare           0.000000
Cabin          0.770787
Embarked       0.002247
dtype: float64

Temos 3 colunas que apresentam valores nulos, porém cada uma delas será tratada de uma diferente.

- **Age**: Cerca de 20% dos valores dessa coluna são nulos, então vamos substituir os dados faltantes pela média dos valores da coluna
- **Cabin**: Essa coluna não possui 77% dos seus valores, portanto não há muito o que pode ser feito, vamos jogar ela toda fora.
- **Embarked**: Nesse caso só 0.2% das linhas possuem dados faltantes, vamos simplesmente remover essas linhas dos nossos dados

Temos dois métodos que vão nos ajudar a lidar com nulos `.fillna()` e `.dropna()`

`.fillna()` vai gerar uma cópia do que foi passado substituindo os valores nulos por um valor passado como parâmetro

In [None]:
# Vamos calcular a média das idades
idade_media  = df['Age'].mean()

# Substituindo a coluna pela coluna com NaN sustituidos
df.loc[:, 'Age'] = df['Age'].fillna(idade_media)

In [None]:
# Vamos ver se até agora aconteceu o que queriamos
df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          686
Embarked         2
dtype: int64

`.dropna()` retorna um DataFrame sem as colunas ou linhas que possuem valores nulos. 

Temos parâmetros importantes: `axis` indica se deseja remover linhas (0) ou colunas (1), `subset` indica as labels do outro eixo que podem ser consideradas para remoção, `thresh` indica o número minimo de nulos para ser removida e `inplace` indica se a operação deve ser realizada no próprio DataFrame ou uma cópia deve ser retornada.

In [None]:
# Vamos começar removendo a coluna Cabin
df.dropna(axis=1, thresh=600, inplace=True)
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,S
5,6,0,3,"Moran, Mr. James",male,29.709916,0,0,330877,8.4583,Q


In [None]:
# Agora vamos remover as linhas que possuem Embarked nulo
df.dropna(axis=0, subset=['Embarked'], inplace=True)

In [None]:
# Conferindo se limpamos tudo
df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       0
dtype: int64

#### Aplicando funções em colunas
Em várias situações queremos aplicar funções em colunas, nas maioria das vezes para gerar novas colunas. Vamos ver qual é o jeito certo de fazer isso. Mas antes vamos dar uma olhada no que <span style="color:red;">não deve ser feito</span>.

Vamos supor que queremos criar uma coluna chamada 'Faixa etária' que é construida baseada na coluna 'Age'.

In [None]:
# Vamos criar uma função que faz essa transformação
def calc_faixa_etaria(idade):
    if idade < 13:
        return 'Criança'
    elif idade < 18:
        return 'Adolescente'
    elif idade < 60:
        return 'Adulto'
    else:
        return 'Idoso'

In [None]:
# A primeira ideia pode ser fazer algo assim
faixas_etarias = []
for i in range(df.shape[0]):
    idade = df.iloc[i, 5] # Age é a coluna 5
    faixa = calc_faixa_etaria(idade)
    faixas_etarias.append(faixa)

faixas_etarias[8:14]

['Adolescente', 'Criança', 'Adulto', 'Adulto', 'Adulto', 'Adolescente']

Mas isso é extremamente ineficiente quando o tamanho do DataFrame é grande!

A solução correta é usar o método `.apply()`, que aplica uma função em cada uma das entradas e retorna um `pd.Series` com todos os resultados.

In [None]:
faixas_etarias = df['Age'].apply(calc_faixa_etaria)
faixas_etarias.iloc[8:14]

9     Adolescente
10        Criança
11         Adulto
12         Adulto
13         Adulto
14    Adolescente
Name: Age, dtype: object

In [None]:
df.loc[:, 'Faixa etaria'] = faixas_etarias
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked,Faixa etaria
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C,Adulto
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,S,Adulto
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,S,Adulto
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,S,Adulto
5,6,0,3,"Moran, Mr. James",male,29.709916,0,0,330877,8.4583,Q,Adulto


#### Salvando DataFrames

In [None]:
# Usamos index=False para não salvarmos a coluna de index
df.to_csv('data/dados_editados.csv', index=False)

NameError: ignored