# Manipulação de Dados

Este é o primeiro notebook de três notebooks criados na intenção de facilitar e ajudar seus estudos com Aprendizado de Máquina. Esperamos que a leitura seja proveitosa e seus estudos esclarecedores. Antes de começarmos vamos entender o que exatamente é a manipulação de dados, é se não o mais importante, é um dos mais importantes tópicos deste assunto. Para se ter uma noção a maior parte de sua vida em Aprendizado de Máquina vai ser aqui, manipulando dados para depois conseguir usa-los propriamente. 

A manipulação de dados é aonde você vai aprender a analisar e modificar uma base de dado para prepará-la para o processamento. Este notebook irá ensinar o básico de como utilizar as bibliotecas Pandas e Numpy do Python, muito importantes na manipulação de dados, e alguns passos de como manipular com um conjunto de dados real.

```bash
sudo pip3 install numpy pandas
```

# Numpy

O [Numpy](https://numpy.org/) é uma [biblioteca excelente](https://medium.com/ensina-ai/entendendo-a-biblioteca-numpy-4858fde63355) de [Python](https://www.python.org/) que implementa funções matemáticas excelentes, além de criar listas multidimensionais fáceis de manipular e analisar. Outro fator que diferencia essa biblioteca é a sua velocidade computacional que em aprendizado de máquina faz toda a diferença.

In [1]:
import numpy as np

In [2]:
num_items = 1000

python_array = range(num_items)
%timeit -n 100 [i**2 for i in python_array]

327 µs ± 97.1 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [3]:
numpy_array = np.arange(num_items)
%timeit -n 100 numpy_array**2

4.43 µs ± 1.79 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Aqui temos uma demonstração da velocidade de numpy em comparação a python comum. E como podemos ver é 103vezes mais rápido que python comum.

# Criação de vetor

A biblioteca numpy adiciona diversas formas de criar vetores para atender as suas necessidades e em seguida serão mostradas as principais formas de gerar vetores.

### np.array

A forma mais simples de formar vetores da numpy e com [**np.array**](https://docs.scipy.org/doc/numpy/reference/generated/numpy.array.html), que é uma função onde recebe uma lista ou tupla de objetos cujo tipo é definido a partir dos termos pertencentes e com essas informações forma um vetor. Essa operação pode ser representada da seguinte forma:

In [4]:
a = np.array([1, 2, 3, 4, 5])

b = np.array([[1], [2], [3], [4], [5]])

c = np.array([[1, 2], [3, 4], [5, 6]])

print(a)
print(b)
print(c)

[1 2 3 4 5]
[[1]
 [2]
 [3]
 [4]
 [5]]
[[1 2]
 [3 4]
 [5 6]]


### np.arrange

Outra forma de criar vetores é utilizando a [**np.arrange**](https://docs.scipy.org/doc/numpy/reference/generated/numpy.arange.html) que funciona de maneira parecida a função range. Ela recebe três parâmetros, o valor inicial, o valor final e o espaçamento entre cada elemento:

In [5]:
d = np.arange(10, 30, 2)

e = np.arange(0,2, 0.2)

print(d)
print(e)

[10 12 14 16 18 20 22 24 26 28]
[0.  0.2 0.4 0.6 0.8 1.  1.2 1.4 1.6 1.8]


### np.linspace

O [**np.linspace**](https://docs.scipy.org/doc/numpy/reference/generated/numpy.linspace.html) é uma função muito parecido com np.arange, porém o linspace funciona de uma forma diferente. Ele tem os limites definidos pelas duas primeiras variáveis como np.arange, mas enquanto np.arange define o espaço entre os termos, o linspace faz isso sozinho,  recebendo o número de termos desejados ele divide o espaço igualmente para que cada termo dentro do intervalo como mostrado a seguir:

In [6]:
h = np.linspace (0, 20, 2) 

i = np.linspace (20, 30, 5)

print(h)
print(i)

[ 0. 20.]
[20.  22.5 25.  27.5 30. ]


### np.zeros e np.ones

Outras funções de criar vetores são [**np.zeros**](https://docs.scipy.org/doc/numpy/reference/generated/numpy.zeros.html) e [**np.ones**](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ones.html) que funcionam da mesma forma criando matrizes de dimensão definida, mas iniciadas com todos os valores 0 no caso de np.zeros e 1 no da np.ones e podem ter o tipo de número definido com dtype como mostrado a seguir:

In [7]:
f = np.zeros((3, 4)) 

g = np.ones((2,3,4), dtype=np.int16)

print(g)
print(f)

[[[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]

 [[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]]
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


## Operações

# Numpy

O [Numpy](https://numpy.org/) é uma [biblioteca excelente](https://medium.com/ensina-ai/entendendo-a-biblioteca-numpy-4858fde63355) de [Python](https://www.python.org/) que implementa funções matemáticas excelentes, além de criar listas multidimensionais fáceis de manipular e analisar. Outra fator que diferencia essa biblioteca é a sua velocidade computacional que em aprendizado de maquina faz toda a diferença.

In [8]:
print(f) 

print(f.sum()) 

print(a) 

print(a.sum())

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
0.0
[1 2 3 4 5]
15


### np.min e np.max

As funções [**np.min**](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.min.html) e [**np.max**](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.max.html) retornam o menor e o maior valor da matriz, respectivamente:

In [9]:
print(a) 

print('menor:', a.min())
print('maior:', a.max()) 

print(i) 

print('menor:', i.min())
print('maior:', i.max()) 

[1 2 3 4 5]
menor: 1
maior: 5
[20.  22.5 25.  27.5 30. ]
menor: 20.0
maior: 30.0


### np.dtype

O [**np.dtype**](https://docs.scipy.org/doc/numpy/reference/generated/numpy.dtype.html) retorna o nome do tipo de dado presente na matriz (ou o que o programa conseguiu identificar):

In [10]:
print(a) 

print(a.dtype) 

print(e) 

print(e.dtype)

[1 2 3 4 5]
int64
[0.  0.2 0.4 0.6 0.8 1.  1.2 1.4 1.6 1.8]
float64


### Matemáticas (+, -, /, \*, \*\*, @)

A biblioteca numpy aceita operações entre vetores com os próprios operadores matemáticos do python como por exemplo. 

In [11]:
print(a,i)

print(a-i)  # Subtração de vetores 

print(a+i)  # Soma de vetores 

print(a**2)  # Potenciação 

print(a*2)  # Multiplicação escalar 

print(i/2)  # Divisão escalar 

print(a@b)  # Produto vetorial

[1 2 3 4 5] [20.  22.5 25.  27.5 30. ]
[-19.  -20.5 -22.  -23.5 -25. ]
[21.  24.5 28.  31.5 35. ]
[ 1  4  9 16 25]
[ 2  4  6  8 10]
[10.   11.25 12.5  13.75 15.  ]
[55]


### Comparação (<, >, ==)

As operações de comparação são aplicadas item a item no array, e retornam um array de booleanos (de mesmas dimensões do array utilizado), que indicam para cada elemento se aquela condição foi verdadeira ou falsa:

In [12]:
print(a>3)

print(b==2)

[False False False  True  True]
[[False]
 [ True]
 [False]
 [False]
 [False]]


### Funções matemáticas e constantes

A Numpy conta com algumas funções matemáticas como o **seno** ([**np.sin**](https://docs.scipy.org/doc/numpy/reference/generated/numpy.sin.html)) e o **cosseno** ([**np.cos**](https://docs.scipy.org/doc/numpy/reference/generated/numpy.cos.html#numpy.cos)), assim como algumas [constantes matemáticas](https://docs.scipy.org/doc/numpy/reference/constants.html) como o **Pi** (**np.pi**) entre outras:

In [13]:
print(np.sin(np.pi/2))

print(np.e)

1.0
2.718281828459045


## Indexação

Para acessar os elementos do array, utiliza-se dos operadores “**[ ]**”:

In [14]:
print(a[0])  # Primeiro elemento. 

print(a[2])  # Terceiro elemento. 

1
3


Para arrays (vetores) com mais de uma dimensão, utiliza-se uma virgula para separar os índices de cada uma das dimensões: 

In [15]:
print(c[0, 0])  # Primeira linha, primeira coluna. 

print(c[2, 1])  # Terceira linha, segunda coluna. 

1
6


Índices negativos podem ser utilizados para acessar elementos na ordem inversa: 

In [16]:
print(a[-1])  # Último elemento. 

print(a[-3])  # Antepenúltimo elemento. 

5
3


## Slicing

Para fatiar um vetor (acessar um intervalo) utiliza-se do operador “:”, que sozinho significa "tudo", contudo quando combinado com valores inteiros pode representar um intervalo: 

In [17]:
print(a[:])  # Todo o array, similar a a[0:5]. 

print(a[1:])  # Intervalo do índice 1 até o final. 

print(a[:4])  # Intervalo do início até o índice 3. 

print(a[1:4])  # Intervalo do índice 1 até o índice 3. 

[1 2 3 4 5]
[2 3 4 5]
[1 2 3 4]
[2 3 4]


De forma semelhante, para arrays com mais de uma dimensão utiliza-se uma virgula para separar os intervalos das dimensões:

In [18]:
print(c[1:3, :]) # A primeira e a segunda linha de todas as colunas. 

[[3 4]
 [5 6]]


Um vetor com os índices que se deseja também pode ser utilizado: 

In [19]:
print(a[[0, 1, 4]])

[1 2 5]


Existe também uma outra forma utilizando um vetor de booleanos, do mesmo tamanho do vetor, onde cada booleano indica se o elemento será selecionado ou não:

In [20]:
indices = [True, True, False, False, True]  # Seleciona o primeiro, o segundo e o quinto. 

print(a[indices])

[1 2 5]


## Iteração

Para iterar pelos elementos de um array, utiliza-se um laço de repetição “for”: 

In [21]:
for element in a: 
    print(element) 

1
2
3
4
5


In [22]:
for row in c:
    print(row) 

[1 2]
[3 4]
[5 6]


## Condicionais

Ao aplicarmos uma operação condicional no array, recebemos de volta um vetor booleano (de mesmas dimensões do array), onde cada booleano representa o resultado da operação para cada elemento do array. Utilizando a indexação com vetor de booleanos, é possível agrupar elementos que satisfazem uma condição dada: 

In [23]:
indices = (a < 4) # Vetor de booleanos. 

menores_que_quatro = a[indices]  # Elementos de a menores que 4. 

print(indices)

print(menores_que_quatro)

[ True  True  True False False]
[1 2 3]


In [24]:
indices = (a % 2 == 1) # Vetor de booleanos. 

impares = a[indices]  # Elementos ímpares de a. 

print(indices) 

print(impares) 

[ True False  True False  True]
[1 3 5]


## Formatação

### np.ravel

A função [**np.ravel**](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ravel.html) serve para transformar uma matriz de n dimensões em um vetor unidimensional:

In [25]:
print(c) 

print(c.ravel())

[[1 2]
 [3 4]
 [5 6]]
[1 2 3 4 5 6]


### np.resize

A função [**np.resize**](https://docs.scipy.org/doc/numpy/reference/generated/numpy.resize.html) permite definir o formato da matriz alterando o conteúdo original da matriz:

In [26]:
print(d) 

d.resize(2, 3) 

print(d)

[10 12 14 16 18 20 22 24 26 28]
[[10 12 14]
 [16 18 20]]


### np.reshape

A função [**np.reshape**](https://docs.scipy.org/doc/numpy/reference/generated/numpy.reshape.html) retorna a matriz remodelada sem modificar seu conteúdo: 

In [27]:
print(c.reshape(2,3))

[[1 2 3]
 [4 5 6]]


### np.shape

A função [**np.shape**](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.shape.html) mostra o formato da matriz em suas dimensões:

In [28]:
print(c)

print("Dimensões: ",c.shape)

[[1 2]
 [3 4]
 [5 6]]
Dimensões:  (3, 2)


### np.T

A função [**np.T**](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.T.html) transpõe a matriz inteira:

In [29]:
print(c) 

print(c.T)

[[1 2]
 [3 4]
 [5 6]]
[[1 3 5]
 [2 4 6]]


## Stacking

### np.vstack e np.hstack

As funções [**np.vstack**](https://docs.scipy.org/doc/numpy/reference/generated/numpy.vstack.html) e [**np.hstack**](https://docs.scipy.org/doc/numpy/reference/generated/numpy.hstack.html) juntam duas ou mais pilhas ou matrizes, horizontalmente na hstack e verticalmente na vstack. As dimensões na coordenada de junção devem ser iguais nas duas matrizes.

In [30]:
A = [0, 1, 2]

B = [4, 5, 6]

C = np.vstack((A, B))

D = np.hstack((A, B))

print(C)

print(D)

[[0 1 2]
 [4 5 6]]
[0 1 2 4 5 6]


### np.column_stack

A função [**np.column_stack**](https://docs.scipy.org/doc/numpy/reference/generated/numpy.column_stack.html) junta duas ou mais matrizes e transforma elas em colunas de uma nova matriz.

In [31]:
E = np.column_stack((A, B)) 

print(E) 

[[0 4]
 [1 5]
 [2 6]]


# Pandas

[Pandas](https://pandas.pydata.org/docs/) é a biblioteca para manipulação de dados, enquanto numpy é uma biblioteca mais geral que implementa matemática e a criação de excelentes listas e de como manipulá-las, pandas usa destas implementações mais essenciais e universais de numpy para criar funções mais interessantes para nós no caso para estudar aprendizado de máquina. Pandas implementa trabalhos com banco de dados mais complexos e que facilitam sua manipulação e visualização. Vamos agora entender melhor como ela funciona.

In [32]:
import pandas as pd

## Criar, ler e escrever


### DataFrame e Series 

A Pandas possui dois objetos principais que serão muito utilizados na manipulação de dados.

O **dataframe** é uma tabela, onde cada linha representa um elemento, e cada coluna representa os atributos desse elemento.

In [33]:
pd.DataFrame({0: [0, 0, 0], 1: [0, 1, 2], 2:[0, 2, 4]}, index=[0,1,2])

# Este dataframe é uma matriz que representa a multiplicação dos dois índices.

Unnamed: 0,0,1,2
0,0,0,0
1,0,1,2
2,0,2,4


**Series** são um conjunto de valores com títulos agregados a cada valor (não necessariamente numérico), entre outras características.

In [34]:
pd.Series([1, 2, 4, 8, 16], index=['0', '1', '2', '3', '4'], name='potências de 2')

# Aqui o necessário são apenas os valores, o índice e o nome são opcionais, e lembre-se que existem muitos outros
# parâmetros que não vamos nos aprofundar aqui.

0     1
1     2
2     4
3     8
4    16
Name: potências de 2, dtype: int64

### pd.read_csv

Mas isso tudo é básico, a criação de um dataset não será feita por nós, mas sim por maquinas, sensores e uma infinidade de possibilidades. Nós iremos apenas trabalhar em cima deles e descobrir que segredos eles escondem. Ou seja, os data frames serão apenas acessados por nós, em sua maioria serão em arquivos .csv. Mas eles não são naturalmente de fácil manipulação, mas graças aos pandas temos a função **read.csv** que abre os arquivos csv e interpreta eles como dataframes para nós.

In [35]:
titanic = pd.read_csv('titanic.csv') 

Com o dataset em mãos, podemos visualizar alguns de seus elementos para ter uma ideia previa dos dados:

In [36]:
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Agora conseguimos analisar a data frame, bem aqui temos apenas as 5 primeiras colunas dele, mas já é um começo. 

Existem muitas outras funções que ajudam nesse início, e todas elas estão na documentação de pandas e outras abordagens, serão descritas mais abaixo. 

Lembre-se de dar uma olhada na documentação de todas as funções, lá você encontrará todas as informações que precisa.

## Indexação, selecionamento e atribuição

### Acessar coluna 

A informação de uma data frame pode ser acessada de diversas formas entre elas estão a chamada pelo título de uma coluna, posição em coordenadas ou índice.

In [37]:
print(titanic.Name)  # Chamada por título. 

print(titanic['Name'])

print(titanic['Name'][0])

0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Mr. Karl Howell
890                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object
0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
                             ...                 

### loc e iloc

**Loc** e **iloc** são funções feitas para acessar a informação de uma maneira mais precisa que mostrado anteriormente e cada uma tem seus objetivos com a iloc funcionando a partir somente das coordenadas da informação e loc a partir dos títulos e índices:

In [38]:
print(titanic.loc[0:10, ['Name', 'Age']])

print(titanic.iloc[[0, 1, 2], 0])

                                                 Name   Age
0                             Braund, Mr. Owen Harris  22.0
1   Cumings, Mrs. John Bradley (Florence Briggs Th...  38.0
2                              Heikkinen, Miss. Laina  26.0
3        Futrelle, Mrs. Jacques Heath (Lily May Peel)  35.0
4                            Allen, Mr. William Henry  35.0
5                                    Moran, Mr. James   NaN
6                             McCarthy, Mr. Timothy J  54.0
7                      Palsson, Master. Gosta Leonard   2.0
8   Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)  27.0
9                 Nasser, Mrs. Nicholas (Adele Achem)  14.0
10                    Sandstrom, Miss. Marguerite Rut   4.0
0    1
1    2
2    3
Name: PassengerId, dtype: int64


### Condicionais

Como vimos anteriormente na parte da biblioteca numpy ao fazer uma comparação com um vetor dessa biblioteca era possível fazer a comparação de um vetor com uma condição e receber um vetor de booleanos, e como pandas e baseado em Numpy isso também e verdade aqui, o que libera algumas mecânicas interessantes: 

In [39]:
print(titanic.Age >= 18)  

titanic.loc[titanic.Age >= 18] # Mostra informação de todos maiores de idade.

0       True
1       True
2       True
3       True
4       True
       ...  
886     True
887     True
888    False
889     True
890     True
Name: Age, Length: 891, dtype: bool


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Existem valores lógicos também imbuídos a biblioteca como **isin()** que retorna se ele pertence ou não a certa informação:

In [40]:
titanic.loc[titanic.Pclass.isin([1])]  # Mostra informação de todos da primeira classe.

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
23,24,1,1,"Sloper, Mr. William Thompson",male,28.0,0,0,113788,35.5000,A6,S
...,...,...,...,...,...,...,...,...,...,...,...,...
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


### Assign

Atribuir dados para um dataset é simples, com pandas é claro, ele serve para corrigirmos algo no dataset, incluir algo que posso estar errado ou apenas facilitar o nosso trabalho.

In [41]:
titanic['altura'] = "unknown"
titanic.head()
# Aqui criamos um novo atributo chamado altura e atribuímos a ele unknown para todos os indivíduos. 

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,altura
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,unknown
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,unknown
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,unknown
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,unknown
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,unknown


## Funções de sumário e mapeamento

### Funções de sumário

Algumas funções do Pandas podem trazer um maior entendimento em relação a coleção de dados que está sendo analisado. Um exemplo é a função **describe**, que mostra uma séria de informações estatísticas em relação aos valores de um atributo:

In [42]:
print(titanic.Age.describe())

titanic.Name.describe()

count    714.000000
mean      29.699118
std       14.526497
min        0.420000
25%       20.125000
50%       28.000000
75%       38.000000
max       80.000000
Name: Age, dtype: float64


count                    891
unique                   891
top       Rice, Master. Eric
freq                       1
Name: Name, dtype: object

Percebe-se que as informações apresentadas quando os dados são numéricos são diferentes de quando os dados são strings. Essas informações podem ser acessadas individualmente: 

In [43]:
titanic.Age.median() # Retorna a mediana.

28.0

### pd.unique

É possível acessar apenas os elementos não repetidos de um atributo, utilizando a função **unique**: 

In [74]:
nomes_unicos = titanic.Name.unique()

print(nomes_unicos[:10])  # Mostra apenas alguns dos nomes como exemplo.

['Braund, Mr. Owen Harris'
 'Cumings, Mrs. John Bradley (Florence Briggs Thayer)'
 'Heikkinen, Miss. Laina' 'Futrelle, Mrs. Jacques Heath (Lily May Peel)'
 'Allen, Mr. William Henry' 'McCarthy, Mr. Timothy J'
 'Palsson, Master. Gosta Leonard'
 'Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)'
 'Nasser, Mrs. Nicholas (Adele Achem)' 'Sandstrom, Miss. Marguerite Rut']


### pd.value_counts

Para verificar quantas vezes cada um desses elementos não repetidos aparece, utiliza-se a função **value_counts**:

In [45]:
titanic.Name.value_counts()

Rice, Master. Eric                                    1
Collyer, Miss. Marjorie "Lottie"                      1
Ilett, Miss. Bertha                                   1
McEvoy, Mr. Michael                                   1
Stanley, Mr. Edward Roland                            1
                                                     ..
Faunthorpe, Mrs. Lizzie (Elizabeth Anne Wilkinson)    1
Drazenoic, Mr. Jozef                                  1
Goodwin, Master. Harold Victor                        1
Eitemiller, Mr. George Floyd                          1
Todoroff, Mr. Lalio                                   1
Name: Name, Length: 891, dtype: int64

### Mapeamento

A função de mapeamento serve para, a partir de um conjunto de valores, mapeá-los para outro conjunto de valores, como um dicionário em python. Por exemplo, suponha que ouve um erro na coleta de dados, e todas as idades estão maiores que as reais em exatamente 2 anos:

In [46]:
titanic.Age.map(lambda p: p - 2) # Mapear um valor p para p - 2.

0      20.0
1      36.0
2      24.0
3      33.0
4      33.0
       ... 
886    25.0
887    17.0
888     NaN
889    24.0
890    30.0
Name: Age, Length: 891, dtype: float64

O pandas também possibilita utilizar operações para mapear dados:

In [47]:
titanic.Age - 2 # Diminui em 2 todos os valores de idade. 

0      20.0
1      36.0
2      24.0
3      33.0
4      33.0
       ... 
886    25.0
887    17.0
888     NaN
889    24.0
890    30.0
Name: Age, Length: 891, dtype: float64

In [48]:
titanic.Name + ' - ' + titanic.Ticket # Concatena as duas strings com um espaço entre elas. 

0                    Braund, Mr. Owen Harris - A/5 21171
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2              Heikkinen, Miss. Laina - STON/O2. 3101282
3      Futrelle, Mrs. Jacques Heath (Lily May Peel) -...
4                      Allen, Mr. William Henry - 373450
                             ...                        
886                       Montvila, Rev. Juozas - 211536
887                Graham, Miss. Margaret Edith - 112053
888    Johnston, Miss. Catherine Helen "Carrie" - W./...
889                       Behr, Mr. Karl Howell - 111369
890                         Dooley, Mr. Patrick - 370376
Length: 891, dtype: object

## Agrupamento e ordenação 

### Agrupar

Existem diversas maneiras de se agrupar valores pela biblioteca pandas e uma delas e a **value_counts()** que e uma função que retorna uma serie com todos os valores únicos de um atributo e quantas vezes ele aparece, porem existem mais opções de análise para agrupamentos utilizando a função **groupby()** que permite a utilização de outras funções além contar:

In [49]:
titanic.groupby('Age').Age.count()

# Somatório da quantidade de pessoas de cada idade, que e o mesmo da função value_counts()

Age
0.42     1
0.67     1
0.75     2
0.83     2
0.92     1
        ..
70.00    2
70.50    1
71.00    2
74.00    1
80.00    1
Name: Age, Length: 88, dtype: int64

Existem outras funções imbuídas no groupby como min e max que já sabemos como funciona, porem  a groupby suporta utilizar nossas próprias funções no data frame também pelo meio da função **apply**. Por exemplo pegar somente as pessoas mais velhas de cada classe. 

In [50]:
titanic.groupby('Pclass').apply(lambda df: df.loc[df.Age.idxmax()]) 

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,altura
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0,A23,S,unknown
2,673,0,2,"Mitchell, Mr. Henry Michael",male,70.0,0,0,C.A. 24580,10.5,,S,unknown
3,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.775,,S,unknown


Outra forma e a utilização da função **agg** que permite várias funções serem aplicadas de uma vez. 

In [51]:
titanic.groupby(['Pclass']).Age.agg([len, min, max])

# Quantidade e idade da pessoa mais velha e da mais jovem de cada classe. 

Unnamed: 0_level_0,len,min,max
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,216.0,0.92,80.0
2,184.0,0.67,70.0
3,491.0,0.42,74.0


Outra utilidade de **groupby** e ao agrupamento em vários níveis ao mandar uma lista de atributos a função faz como se fosse um agrupamento hierárquico.

In [52]:
Classe_sexo=titanic.groupby(['Sex', 'Pclass']).Name.agg([len])  

# Quantidade de pessoas de cada sexo em cada classe. 

Classe_sexo

Unnamed: 0_level_0,Unnamed: 1_level_0,len
Sex,Pclass,Unnamed: 2_level_1
female,1,94
female,2,76
female,3,144
male,1,122
male,2,108
male,3,347


### Ordenação

A função de ordenação mais importante da pandas e a **sort_values()** que permite ordenar valores a partir de algum agrupamento ou ordem.

In [53]:
Classe_sexo.sort_values(by='len', ascending=False) 

# Mostra em ordem decrescente a quantidade de pessoas por sexo e classe. 

Unnamed: 0_level_0,Unnamed: 1_level_0,len
Sex,Pclass,Unnamed: 2_level_1
male,3,347
female,3,144
male,1,122
male,2,108
female,1,94
female,2,76


E também pode ser ordenado por mais de um valor para separar empates.

In [54]:
Classe_sexo.sort_values(by=['Sex', 'len'])

# Mostra em ordem crescente a quantidade de pessoas separado por sexo. 

Unnamed: 0_level_0,Unnamed: 1_level_0,len
Sex,Pclass,Unnamed: 2_level_1
female,2,76
female,1,94
female,3,144
male,2,108
male,1,122
male,3,347


## Tipos de dados e falta de dados 

### Tipos de dados 

Para acessar o tipo do dado de um elemento, utiliza-se o método **dtype**: 

In [55]:
titanic.Age.dtype # Retorna o tipo de dado.

dtype('float64')

In [56]:
titanic.dtypes # Retorna uma lista com o tipo de cada atributo.

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
altura          object
dtype: object

Para mudar o tipo de dado de um elemento, utiliza-se a função **astype**: 

In [57]:
titanic.Age.astype('float64') 

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64

### Dados ausentes 

Na grande maioria das bases de dados existem dados ausentes, que são algumas informações que não foram coletadas a respeito de um elemento. Essa ausência de informação pode ser um grande problema na fase de processamento e deve ser tratada na manipulação de dados.
Os dados ausentes são representados pelo valor **NaN** ([Not a number](https://en.wikipedia.org/wiki/NaN)), usado para representar um valor numérico indefinido ou irrepresentável em diversas linguagens de programação.

Para saber sobre os dados ausentes em um atributo, utiliza-se a função [**isnull**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isnull.html), que retorna uma lista de booleanos informando quais elementos possuem dado ausentes para aquele atributo:

In [58]:
titanic[pd.isnull(titanic.Age)]

# Retorna apenas os elementos que não possuem informação no atributo Age. 

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,altura
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,unknown
17,18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,244373,13.0000,,S,unknown
19,20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,2649,7.2250,,C,unknown
26,27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,2631,7.2250,,C,unknown
28,29,1,3,"O'Dwyer, Miss. Ellen ""Nellie""",female,,0,0,330959,7.8792,,Q,unknown
...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,860,0,3,"Razi, Mr. Raihed",male,,0,0,2629,7.2292,,C,unknown
863,864,0,3,"Sage, Miss. Dorothy Edith ""Dolly""",female,,8,2,CA. 2343,69.5500,,S,unknown
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5000,,S,unknown
878,879,0,3,"Laleff, Mr. Kristo",male,,0,0,349217,7.8958,,S,unknown


A função [**notnull**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.notnull.html) funciona de forma análoga.  

Para preencher todos os dados ausentes com alguma informação, utiliza-se a função [**fillna**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html):

In [59]:
titanic.Cabin.fillna("Desconhecido")

0      Desconhecido
1               C85
2      Desconhecido
3              C123
4      Desconhecido
           ...     
886    Desconhecido
887             B42
888    Desconhecido
889            C148
890    Desconhecido
Name: Cabin, Length: 891, dtype: object

## Renomeando e combinando 

### Renomear

Para renomear os nomes das colunas ou do índice, utiliza-se a função [**rename**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rename.html), que muitas vezes pode ser bem útil, já que muitos datasets vem com nomes em outra língua, ou que não expressão bem a informação do atributo:

In [60]:
titanic.rename(index={0: 'Primeiro passageiro'}, columns={'Pclass': 'Classe'})  

# Renomeia o índice do primeiro elemento e renomeia o atributo 'Pclass' para 'Classe'.

Unnamed: 0,PassengerId,Survived,Classe,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,altura
Primeiro passageiro,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,unknown
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,unknown
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,unknown
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,unknown
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,unknown
...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,unknown
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,unknown
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,unknown
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,unknown


É possível também alterar um valor em específico de todos os elementos de um atributo, para isso existe a função [**replace**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html):

In [61]:
titanic.Name.replace("Braund, Mr. Owen Harris", "Braund, Sr. Owen Harris")

# Altera apenas as ocorrências dessa string.

0                                Braund, Sr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Mr. Karl Howell
890                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object

Utilizando **[expressão regular](https://docs.python.org/3/howto/regex.html)** é possível alterar todos os pronomes de tratamento:

In [62]:
titanic.Name.replace(to_replace=r'Mr.', value='Sr.', regex=True)

# Altera todas as ocorrências da substring "Mr." para "Sr.".

0                                Braund, Sr. Owen Harris
1      Cumings, Sr.. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Sr.. Jacques Heath (Lily May Peel)
4                               Allen, Sr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Sr. Karl Howell
890                                  Dooley, Sr. Patrick
Name: Name, Length: 891, dtype: object

A função replace retorna um DataFrame com as alterações, mas não altera o DataFrame original:

In [63]:
print(titanic.Name)

# As mudanças não foram salvas no titanic.

0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Mr. Karl Howell
890                                  Dooley, Mr. Patrick
Name: Name, Length: 891, dtype: object


O replace possui um parâmetro booleano chamado **implace**, por padrão passado como falso, que salva as alterações no DataFrame original:

In [64]:
titanic.Name.replace(to_replace=r'Mr.', value='Sr.', regex=True, inplace=True)

print(titanic.Name)

0                                Braund, Sr. Owen Harris
1      Cumings, Sr.. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Sr.. Jacques Heath (Lily May Peel)
4                               Allen, Sr. William Henry
                             ...                        
886                                Montvila, Rev. Juozas
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
889                                Behr, Sr. Karl Howell
890                                  Dooley, Sr. Patrick
Name: Name, Length: 891, dtype: object


### Combinar

Existem duas funções principais para combinar dois dataframes, o **concat**, e o **join**. 

O [**concat**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html) é utilizado para unir dataframes que possuam os mesmos atributos (colunas), concatenando-os verticalmente:

In [65]:
A = titanic.loc[titanic.Pclass.isin([1])]

B = titanic.loc[titanic.Pclass.isin([2])]

pd.concat([A, B])

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,altura
1,2,1,1,"Cumings, Sr.. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,unknown
3,4,1,1,"Futrelle, Sr.. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,unknown
6,7,0,1,"McCarthy, Sr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S,unknown
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S,unknown
23,24,1,1,"Sloper, Sr. William Thompson",male,28.0,0,0,113788,35.5000,A6,S,unknown
...,...,...,...,...,...,...,...,...,...,...,...,...,...
866,867,1,2,"Duran y More, Miss. Asuncion",female,27.0,1,0,SC/PARIS 2149,13.8583,,C,unknown
874,875,1,2,"Abelson, Sr.. Samuel (Hannah Wizosky)",female,28.0,1,0,P/PP 3381,24.0000,,C,unknown
880,881,1,2,"Shelley, Sr.. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0000,,S,unknown
883,884,0,2,"Banfield, Sr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5000,,S,unknown


A função [**join**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html) é utilizado para unir Dataframes com atributos diferentes, mas com os mesmos índices, concatenando-os horizontalmente:

In [66]:
left = A.set_index(['PassengerId']) 

right = B.set_index(['PassengerId']) 

left.join(right, lsuffix='_A', rsuffix='_B') 

Unnamed: 0_level_0,Survived_A,Pclass_A,Name_A,Sex_A,Age_A,SibSp_A,Parch_A,Ticket_A,Fare_A,Cabin_A,...,Name_B,Sex_B,Age_B,SibSp_B,Parch_B,Ticket_B,Fare_B,Cabin_B,Embarked_B,altura_B
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2,1,1,"Cumings, Sr.. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,...,,,,,,,,,,
4,1,1,"Futrelle, Sr.. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,...,,,,,,,,,,
7,0,1,"McCarthy, Sr. Timothy J",male,54.0,0,0,17463,51.8625,E46,...,,,,,,,,,,
12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,...,,,,,,,,,,
24,1,1,"Sloper, Sr. William Thompson",male,28.0,0,0,113788,35.5000,A6,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
872,1,1,"Beckwith, Sr.. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,...,,,,,,,,,,
873,0,1,"Carlsson, Sr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,...,,,,,,,,,,
880,1,1,"Potter, Sr.. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,...,,,,,,,,,,
888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,...,,,,,,,,,,


## Manipulação dos atributos

Muitas vezes um passo importante na manipulação e pré-processamento dos dados é a transformação dos dados categóricos (que definem categorias), que podem atrapalhar no processamento desses dados. Esses dados podem ser transformados em dados binários ou numéricos para facilitar seu processamento. Algumas funções interessantes nesse contexto são a **pd.get_dummies** e a **pd.factorize**:

### np.get_dummies

A função [**get_dummies**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html#pandas.get_dummies) transforma um atributo categórico em atributos binários, gerando uma coluna binária para cada string única do atributo, informando se aquele elemento era daquela categoria: 

In [67]:
pd.get_dummies(titanic.Sex, prefix='Sex')  # O ‘prefix’ e opcional e só altera o nome da coluna.

# Separa o atributo Sex em dois atributos binários male e female.

Unnamed: 0,Sex_female,Sex_male
0,0,1
1,1,0
2,1,0
3,1,0
4,0,1
...,...,...
886,0,1
887,1,0
888,1,0
889,0,1


### pd.factorize
A função [**pd.factorize**]( https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.factorize.html) transforma um atributo categórico em um atributo numérico, sem se importar com uma ordem entre as categorias:

In [68]:
valores, unicos = pd.factorize(titanic.Sex)

# Retorna os novos valores codificados e o que cada valor significa separadamente.

print(unicos)
print(valores)

Index(['male', 'female'], dtype='object')
[0 1 1 1 0 0 0 0 1 1 1 1 0 0 1 1 0 0 1 1 0 0 1 0 1 1 0 0 1 0 0 1 1 0 0 0 0
 0 1 1 1 1 0 1 1 0 0 1 0 1 0 0 1 1 0 0 1 0 1 0 0 1 0 0 0 0 1 0 1 0 0 1 0 0
 0 0 0 0 0 1 0 0 1 0 1 1 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 1 0
 1 0 1 1 0 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 1 1 0 0 1 0 0 0 1 1 1 0 0 0 0 1
 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 1
 0 1 0 0 0 1 0 1 0 1 1 0 0 1 1 0 0 0 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0 0
 0 0 0 0 0 0 0 1 1 0 0 1 0 1 0 1 0 0 1 1 0 0 0 0 1 1 0 0 0 1 0 0 1 1 1 1 1
 1 0 0 0 0 1 0 0 0 1 1 0 0 1 0 1 1 1 0 0 1 0 0 0 0 0 0 0 0 0 1 1 1 0 1 0 0
 0 1 0 1 1 0 0 1 0 0 1 1 0 1 1 1 1 0 0 1 1 0 1 1 0 0 1 1 0 1 0 1 1 1 1 0 0
 0 1 0 0 1 0 0 0 1 0 0 0 1 1 1 0 0 0 0 0 0 0 0 1 1 1 1 0 0 1 0 0 0 1 1 1 1
 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 0 0 1 0 1 0 0 0 1 1 0 1 0 0 1 0 0 1 0 1 0 0
 0 0 1 0 0 1 0 0 1 1 1 0 1 0 0 0 1 0 0 1 1 0 0 0 1 1 0 0 1 1 1 0 0 1 0 0 1
 0 0 1 0 1 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 1 0 0 1

# Pré-processamento

O pré-processamento consiste em formatar os dados e selecionar características de interesse para o processamento. Esse é o objetivo daqui, é lhe ensinar como polir seus dados para assim poder processa-los de maneira mais eficaz. 

Muitas bases de dados como vocês podem saber, podem possuir, e possuem dados faltando, ruído, dados errados, valores incoerentes e possivelmente repetidos. Tudo isso precisa ser resolvido antes dos dados serem processados. 

Antes de começarmos lembrem que essa etapa é tão longa quando o trabalho de aprendizado de máquina, no sentido de que você estará sempre realizando pré-processamento de dado. A rotina é sempre pré-processar de alguma maneira, processa, algo deu errado ou viu que algo pode mudar, etc., então reprocessá-la de novo, para processar mais uma vez, e isso por muito tempo, até os resultados estarem rasuráveis. Então lembrem-se de não se frustrar tanto nem se penalizar demais ao realizar esta etapa inúmeras vezes.

## Extração de dados

A extração de dados consiste na primeira etapa do pré-processamento, onde os dados serão obtidos de um arquivo, ou banco de dados, dentre outras formas. O kaggle disponibiliza os dados das questões na forma de um arquivo CSV, que pode ser aberto utilizando a função read_csv() da biblioteca pandas. 

In [69]:
titanic=pd.read_csv('titanic.csv') 

## Tansformação dos dados

### Junção de dados

Geralmente quando se vai fazer uma análise de dados a informação pode ser recebida de diversas fontes diferentes para adquirir uma base mais ampla e consistente com um problema real. E essas fontes podem acabar por não entregar os dados de um mesmo formato, por exemplo receber informações em csv e arff, e isso causa problemas por que esses arquivos não são compatíveis, porem e possível facilmente transforma-los em data frames da bibliografia pandas que com comandos como join e concat podem ser facilmente integrados em um só data frame. 

### Dados ausentes

A maioria dos conjuntos de dados analisados possuem dados ausentes, muitas vezes por conta do processo de coleta. Lidar com essas informações ausentes é um dos passos do pré-processamento, necessário para que informações conclusivas sejam construídas a partir desses dados na parte de processamento. Uma das opções por exemplo é retirar os exemplos com dados ausentes do conjunto de dados, ou preenche-los com alguma informação específica. 

In [70]:
titanic=titanic.drop(columns=['Cabin'])
# Removemos a coluna Cabin pois era uma informação desnecessária onde quatro quintos dos exemplos não tinham valor.
titanic.dropna(inplace=True)
# Removemos todas as linhas que tem algum valor nulo.
titanic.head(-1)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,S
...,...,...,...,...,...,...,...,...,...,...,...
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.0500,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,S


### Simplificar dados

Ao processar a informação e recomendado a simplificação dos dados que consiste em tradução e normalização, pois é possível que a forma desejada de processamento necessite que os dados estejam em um formato especifico como categórico ao invés de numérico e vice-versa para tradução ou juntar a informação de hora minutos e segundos para por exemplo porcentagem do dia diminuindo a quantidade de atributos a serem processados e deixando a informação mais relevante. 

In [71]:
titanic.Sex=titanic.Sex.replace(['male', 'female'], [1, 0])
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",1,22.0,1,0,A/5 21171,7.25,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",0,26.0,0,0,STON/O2. 3101282,7.925,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,35.0,1,0,113803,53.1,S
4,5,0,3,"Allen, Mr. William Henry",1,35.0,0,0,373450,8.05,S


### Seleção de características

Alguns dos atributos existentes no conjunto de dados podem ou não ser relevantes para a análise dos dados, e a seleção desses atributos é um dos passos do pré-processamento. Atributos como nome ou id são empiricamente irrelevantes para prever se um passageiro do Titanic sobreviveu, e devem ser removidos para não, atrapalhar o processamento. Contudo nem sempre é tão fácil enxergar a relação entre as características e o resultado final, e por isso a seleção das características é um passo muito importante e demorado do processo. 

In [72]:
titanic=titanic.drop(columns=['PassengerId','Ticket'])
# Retiramos o PassengerId e o Ticket pois não contem informações relevantes.
# Porém deixamos o nome para reconhecimento dos passageiros.

## Carregamento dos dados

Para armazenar o seu progresso na manipulação de dados, é possível salvar um conjunto de dados em um arquivo **CSV**, utilizando a função **to_csv()** da biblioteca pandas. Esse arquivo pode ser aberto novamente utilizando a função **read_csv()**.

In [73]:
titanic.to_csv('titanicnovo.csv') 

## Links úteis

Agora que você já leu um pouco a respeito do assunto, e já tem certa noção do que está acontecendo, pelo menos na teoria, gostaríamos que você desse uma olhada nos cursos gratuitos a baixo, que são bem intuitivos e excelentes para sua aprendizagem teórica e prática dos assuntos aqui abordados:

* [Numpy Quick Start](https://numpy.org/devdocs/user/quickstart.html)

* [Curso de Pandas no Kaggle](https://www.kaggle.com/learn/pandas)

* [Resumo de Aprendizado de Maquina](https://www.datageeks.com.br/aprendizado-de-maquina/)

* [Repositorio de Datasets](http://archive.ics.uci.edu/ml/datasets.php) 

* [Aplicações de IA](https://stefanini.com/pt-br/trends/artigos/as-7-principais-aplicacoes-de-inteligencia-artificial-nas-empres)