## Nesse material vamos ver exemplos de manipulação de uma tabela de dados utilizando o Pandas. 

Os arquivos utilizados foram extraídos do site: https://www.kaggle.com/competitions/titanic/data

O Kaggle é uma subsidiária da Google LLC, sendo uma comunidade on-line de cientistas de dados e praticantes de aprendizado de máquina



## Importar o Pandas

In [1]:
import pandas as pd

## Ler DataFrame de arquivo CSV

In [2]:
data = pd.read_csv('titanic/train.csv') # Comma Separated Values - Valores Separados Por Vírgula

## Ler as primeiras linhas

In [4]:
data.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


## Ler as últimas linhas

In [5]:
data.tail(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


## Verificar as informações do dataframe

In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


## Podemos ver um resumo estatístico desses dados (dados numéricos)

In [8]:
data.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


## Também podemos verificar um resumo estatístico de campos categóricos

O include = 'O', extrai os atributos dtypes dos objetos e mostra sua contagem/frequência/max/quartis.

In [9]:
data.describe(include='O')

Unnamed: 0,Name,Sex,Ticket,Cabin,Embarked
count,891,891,891,204,889
unique,891,2,681,147,3
top,"Ward, Miss. Anna",male,1601,C23 C25 C27,S
freq,1,577,7,4,644


## Como assim categóricos? Vamos analisar o campo Sexo

In [10]:
data['Sex']

0        male
1      female
2      female
3      female
4        male
        ...  
886      male
887    female
888    female
889      male
890      male
Name: Sex, Length: 891, dtype: object

## E o campo Cabine

In [11]:
data['Cabin']

0       NaN
1       C85
2       NaN
3      C123
4       NaN
       ... 
886     NaN
887     B42
888     NaN
889    C148
890     NaN
Name: Cabin, Length: 891, dtype: object

## Após verificar os dados, podemos começar manipulá-los. Uma das primeiras operações, a fim de facilitar o uso das colunas, é renomeá-las.

In [12]:
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## Para tanto, um novo dicionário é passado como argumento em rename. Veja de Name vai para Nome. De Sex é renomeado para Sexo.

- axis=1 (or axis='columns') é o eixo vertical
- inplace = True, usado para fazer a atualização permanente.

In [13]:
data.rename({'Name': 'Nome', 'Sex': 'Sexo'}, axis=1, inplace=True)

## Realizando somente a leitura das colunas, temos:

In [14]:
data.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Nome', 'Sexo', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

## E se eu quiser renomear todas as colunas de uma só vez? Posso criar uma lista de nomes de colunas. 

In [15]:
data.columns = ['IdPassageiro', 'Sobreviveu', 'Classe', 'Nome', 'Sexo', 'Idade', 
                'IrmaosConjuge','PaisFilhos', 'Bilhete', 'Tarifa', 'Cabine', 'Embarque']

In [16]:
data.head(2)

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,IrmaosConjuge,PaisFilhos,Bilhete,Tarifa,Cabine,Embarque
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [17]:
data.columns

Index(['IdPassageiro', 'Sobreviveu', 'Classe', 'Nome', 'Sexo', 'Idade',
       'IrmaosConjuge', 'PaisFilhos', 'Bilhete', 'Tarifa', 'Cabine',
       'Embarque'],
      dtype='object')

## Suponha que voce tenha um dataset muito grande, com várias colunas. No entanto, voce gostaria de visualizar apenas algumas delas. 

Voce passa uma lista de nomes em data[]. Veja que é data[[...]].head()

In [18]:
data[['Nome', 'Sexo', 'Classe', 'Tarifa', 'Idade', 'Sobreviveu']].head()

Unnamed: 0,Nome,Sexo,Classe,Tarifa,Idade,Sobreviveu
0,"Braund, Mr. Owen Harris",male,3,7.25,22.0,0
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,1,71.2833,38.0,1
2,"Heikkinen, Miss. Laina",female,3,7.925,26.0,1
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,1,53.1,35.0,1
4,"Allen, Mr. William Henry",male,3,8.05,35.0,0


## Selecionando apenas uma coluna para visualização

In [19]:
data['Idade'].head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Idade, dtype: float64

## Podemos fazer algumas operações matemáticas com esses dados. Vamos relembrar:


* Média:
A média aritmética simples é a somatória de todos os elementos dividido pelo número de elmentos:

$$\bar{X} = \frac{x_{1} + x_{2} + x_{3} +\cdots + x_{n}}{n}$$

* Desvio padrão: Se $\bar{X}$ é a média aritmética de uma amostra de números x1, x2, … , xn, chama-se desvio absoluto médio o número:

$$STD= \frac{\left | x_{1} - \bar{X} \right | + \left | x_{2} - \bar{X} \right | + \left | x_{3} - \bar{X} \right | + \cdots \left | x_{n} - \bar{X} \right |}{n}$$

* Mediana: 
É o valor que divide o conjunto em dois subconjuntos, em que estes subconjuntos formados terão exatamente a mesma quantidade de elementos.


* Moda: é o valor mais frequente em determinado conjunto




In [21]:
data['Idade'].std() #desvio padrão da idade

14.526497332334044

In [22]:
data['Idade'].mean() #media das idades

29.69911764705882

In [23]:
data['Idade'].sum() #soma das idades

21205.17

In [24]:
data['Idade'].count() #número de linhas que possuem dados de Idade

714

In [25]:
data['Idade'].median() #mediana da Idade

28.0

In [26]:
data['Idade'].mode() #Moda da idade

0    24.0
dtype: float64

In [27]:
data['Idade'].max() #o valor máximo de idade

80.0

In [28]:
data['Idade'].min() #o valor mínimo de idade. Voce pode multiplicar por 12 para ver em anos.

0.42

In [29]:
data['Idade'].idxmin() #Qual o índice da pessoa mais nova. 

803

In [30]:
data['Idade'].idxmax() #Qual o índice da pessoa mais velha

630

## Podemos também verificar a média, soma, mediana de todas as colunas do dataset

In [31]:
data.mean()

IdPassageiro     446.000000
Sobreviveu         0.383838
Classe             2.308642
Idade             29.699118
IrmaosConjuge      0.523008
PaisFilhos         0.381594
Tarifa            32.204208
dtype: float64

In [32]:
data.sum()

IdPassageiro                                                397386
Sobreviveu                                                     342
Classe                                                        2057
Nome             Braund, Mr. Owen HarrisCumings, Mrs. John Brad...
Sexo             malefemalefemalefemalemalemalemalemalefemalefe...
Idade                                                     21205.17
IrmaosConjuge                                                  466
PaisFilhos                                                     340
Bilhete          A/5 21171PC 17599STON/O2. 31012821138033734503...
Tarifa                                                  28693.9493
dtype: object

In [33]:
data.median()

IdPassageiro     446.0000
Sobreviveu         0.0000
Classe             3.0000
Idade             28.0000
IrmaosConjuge      0.0000
PaisFilhos         0.0000
Tarifa            14.4542
dtype: float64

In [34]:
data.min()

IdPassageiro                       1
Sobreviveu                         0
Classe                             1
Nome             Abbing, Mr. Anthony
Sexo                          female
Idade                           0.42
IrmaosConjuge                      0
PaisFilhos                         0
Bilhete                       110152
Tarifa                           0.0
dtype: object

## Selecionando pelo Index 

No pandas temos duas maneiras muito interessantes de resgatar os dados que queremos, são elas:

* loc;
* iloc;

Eles são usados para fatiar dados no DataFrame pandas. Eles ajudam na seleção conveniente de dados do DataFrame. Eles são usados para filtrar os dados de acordo com algumas condições.

## Quando usar loc ou iloc?
Basicamente os dois métodos servem para resgatar dados, mas possuem características distintas na hora que vamos utilizá-los.

Vamos entender agora quais são as particularidades deles e os casos de uso para cada um.

## loc:

É o método de seleção de dados baseado em rótulo, o que significa que temos que passar o nome da linha ou coluna que queremos selecionar. Este método inclui o último elemento do intervalo passado nele. Este método é primariamente baseado nas labels da colunas, porém podemos utilizar com um array booleano também.

Uma informação importante sobre loc é: quando nenhum item é encontrado ele retorna um KeyError.


O método funciona desta maneira:

`df.loc[linhas, colunas]`



Primeiro argumento são as linhas e o segundo as colunas a serem buscadas.

In [37]:
#podemos chamar uma linha pelo seu índice
data.loc[5]

IdPassageiro                    6
Sobreviveu                      0
Classe                          3
Nome             Moran, Mr. James
Sexo                         male
Idade                         NaN
IrmaosConjuge                   0
PaisFilhos                      0
Bilhete                    330877
Tarifa                     8.4583
Cabine                        NaN
Embarque                        Q
Name: 5, dtype: object

In [38]:
#ou com um array de índices
data.loc[[0,1,2]] 

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,IrmaosConjuge,PaisFilhos,Bilhete,Tarifa,Cabine,Embarque
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [39]:
# uma fatia, do quarto ao sétimo elemento (note que diferente do python puro, neste método a chave inicial e final estarão presente no resultado)
data.loc[4:8]

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,IrmaosConjuge,PaisFilhos,Bilhete,Tarifa,Cabine,Embarque
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S


## iloc
Há outros casos de uso de loc, porém aqui conseguimos ver os principais, ou melhor dizendo, as maneiras que podem nos levar aos demais usos,

Vamos para o iloc!

* iloc:

O indexador iloc é um tanto mais simples, ele seleciona por números inteiros das linhas, arrays ou por slice.
É um método de seleção baseado em indexação, o que significa que temos que passar um índice inteiro no método para selecionar uma linha/coluna específica. Este método não inclui o último elemento do intervalo passado, ao contrário do loc(). iloc() não aceita os dados booleanos ao contrário loc().

Como o loc, ele funciona desta maneira:

`df.iloc[<linhas>, <colunas>]`

Os dois argumentos são: linhas e colunas,

Podemos concluir que o iloc seleciona linhas e colunas por números, esta é uma boa definição para o recurso.

In [44]:
# Linhas:
data.iloc[0]  # Selecionado a primeira linha do dataset


IdPassageiro                           1
Sobreviveu                             0
Classe                                 3
Nome             Braund, Mr. Owen Harris
Sexo                                male
Idade                               22.0
IrmaosConjuge                          1
PaisFilhos                             0
Bilhete                        A/5 21171
Tarifa                              7.25
Cabine                               NaN
Embarque                               S
Name: 0, dtype: object

In [45]:
data.iloc[-1] # Selecionando a última linha

IdPassageiro                     891
Sobreviveu                         0
Classe                             3
Nome             Dooley, Mr. Patrick
Sexo                            male
Idade                           32.0
IrmaosConjuge                      0
PaisFilhos                         0
Bilhete                       370376
Tarifa                          7.75
Cabine                           NaN
Embarque                           Q
Name: 890, dtype: object

In [47]:
data.iloc[630] #selecinando o passageiro do índice 630

IdPassageiro                                      631
Sobreviveu                                          1
Classe                                              1
Nome             Barkworth, Mr. Algernon Henry Wilson
Sexo                                             male
Idade                                            80.0
IrmaosConjuge                                       0
PaisFilhos                                          0
Bilhete                                         27042
Tarifa                                           30.0
Cabine                                            A23
Embarque                                            S
Name: 630, dtype: object

In [48]:
data.iloc[803] ##selecinando o passageiro do índice 803

IdPassageiro                                 804
Sobreviveu                                     1
Classe                                         3
Nome             Thomas, Master. Assad Alexander
Sexo                                        male
Idade                                       0.42
IrmaosConjuge                                  0
PaisFilhos                                     1
Bilhete                                     2625
Tarifa                                    8.5167
Cabine                                       NaN
Embarque                                       C
Name: 803, dtype: object

In [50]:
data.iloc[[803]] #transformando a busca para exibir como dataframe

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,IrmaosConjuge,PaisFilhos,Bilhete,Tarifa,Cabine,Embarque
803,804,1,3,"Thomas, Master. Assad Alexander",male,0.42,0,1,2625,8.5167,,C


In [51]:
data.iloc[[630]]

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,IrmaosConjuge,PaisFilhos,Bilhete,Tarifa,Cabine,Embarque
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0,A23,S


In [53]:
data.iloc[[630,70,803,80]] #realizando uma busca de 4 passageiros pelos seus índices

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,IrmaosConjuge,PaisFilhos,Bilhete,Tarifa,Cabine,Embarque
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0,A23,S
70,71,0,2,"Jenkin, Mr. Stephen Curnow",male,32.0,0,0,C.A. 33111,10.5,,S
803,804,1,3,"Thomas, Master. Assad Alexander",male,0.42,0,1,2625,8.5167,,C
80,81,0,3,"Waelens, Mr. Achille",male,22.0,0,0,345767,9.0,,S


In [55]:
data.iloc[2:5] #selecionando os índices 2 a 4

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,IrmaosConjuge,PaisFilhos,Bilhete,Tarifa,Cabine,Embarque
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [56]:
data['Nome'].iloc[2] #selecionando o nome do índice 2

'Heikkinen, Miss. Laina'

In [57]:
data['Idade'].iloc[630] #selecionando a idade do passageiro de indice 630

80.0

In [58]:
data['Idade'].iloc[803] ##selecionando a idade do passageiro de indice 803

0.42

## Operações avançadas com loc

podemos combinar operadores lógicos para chegar no resultado que queremos.

### Selecionar os passageiros e as colunas idade, sexo, tarifa, classe e sobreviveu quando a idade for maior que 70

In [59]:
data[['Idade', 'Sexo', 'Tarifa', 'Classe', 'Sobreviveu']].loc[data['Idade']>70]

Unnamed: 0,Idade,Sexo,Tarifa,Classe,Sobreviveu
96,71.0,male,34.6542,1,0
116,70.5,male,7.75,3,0
493,71.0,male,49.5042,1,0
630,80.0,male,30.0,1,1
851,74.0,male,7.775,3,0


### Selecionar os passageiros, apresentando as colunas Idade, sexo, tarifa, classe, sobreviveu, quando sexo for igual a female (feminino). 

In [60]:
data[['Idade', 'Sexo', 'Tarifa', 'Classe', 'Sobreviveu']].loc[data['Sexo']=='female'].head()

Unnamed: 0,Idade,Sexo,Tarifa,Classe,Sobreviveu
1,38.0,female,71.2833,1,1
2,26.0,female,7.925,3,1
3,35.0,female,53.1,1,1
8,27.0,female,11.1333,3,1
9,14.0,female,30.0708,2,1


Se tirar o .head() do comando ele mostra todos os selecionados.

In [61]:
data[['Idade', 'Sexo', 'Tarifa', 'Classe', 'Sobreviveu']].loc[data['Sexo']=='female']

Unnamed: 0,Idade,Sexo,Tarifa,Classe,Sobreviveu
1,38.0,female,71.2833,1,1
2,26.0,female,7.9250,3,1
3,35.0,female,53.1000,1,1
8,27.0,female,11.1333,3,1
9,14.0,female,30.0708,2,1
...,...,...,...,...,...
880,25.0,female,26.0000,2,1
882,22.0,female,10.5167,3,0
885,39.0,female,29.1250,3,0
887,19.0,female,30.0000,1,1


## Selecionando com múltiplas condições

Selecione os passageiros retornando Idade, sexo, tarifa, classe, sobreviveu, quando a idade for maior que 3 e menor que 10, e que não sobreviveram.

In [62]:
data[['Idade', 'Sexo', 'Tarifa', 'Classe', 'Sobreviveu']]\
.loc[(data['Idade']>=3) & (data['Idade']<=10) & ~(data['Sobreviveu']==1)]

Unnamed: 0,Idade,Sexo,Tarifa,Classe,Sobreviveu
24,8.0,female,21.075,3,0
50,7.0,male,39.6875,3,0
63,4.0,male,27.9,3,0
147,9.0,female,34.375,3,0
171,4.0,male,29.125,3,0
182,9.0,male,31.3875,3,0
278,7.0,male,29.125,3,0
374,3.0,female,21.075,3,0
419,10.0,female,24.15,3,0
480,9.0,male,46.9,3,0


In [63]:
data[['Idade', 'Sexo', 'Tarifa', 'Classe', 'Sobreviveu']]\
.loc[(data['Idade']>=3) & (data['Idade']<=10) & ~(data['Sobreviveu']==1)].count()

Idade         17
Sexo          17
Tarifa        17
Classe        17
Sobreviveu    17
dtype: int64

### E que sobreviveram

In [64]:
data[['Idade', 'Sexo', 'Tarifa', 'Classe', 'Sobreviveu']]\
.loc[(data['Idade']>=3) & (data['Idade']<=10) & (data['Sobreviveu']==1)]

Unnamed: 0,Idade,Sexo,Tarifa,Classe,Sobreviveu
10,4.0,female,16.7,3,1
43,3.0,female,41.5792,2,1
58,5.0,female,27.75,2,1
165,9.0,male,20.525,3,1
184,4.0,female,22.025,3,1
193,3.0,male,26.0,2,1
233,5.0,female,31.3875,3,1
237,8.0,female,26.25,2,1
261,3.0,male,31.3875,3,1
348,3.0,male,15.9,3,1


In [66]:
data[['Idade', 'Sexo', 'Tarifa', 'Classe', 'Sobreviveu']]\
.loc[(data['Idade']>=3) & (data['Idade']<=10) & (data['Sobreviveu']==1)].count()

Idade         23
Sexo          23
Tarifa        23
Classe        23
Sobreviveu    23
dtype: int64

## Vejamos mais alguns exemplos

Selecionar Idade, sexo, classe, sobreviveu, quando idade for maior que 14, sobreviveram = 1, do sexo masculino e a classe 3. 

In [67]:
data[['Idade', 'Sexo','Classe', 'Sobreviveu']]\
.loc[(data['Idade']>14) \
     & (data['Sobreviveu']==1) \
     & (data['Sexo']=='male')\
    & (data['Classe']==3)]

Unnamed: 0,Idade,Sexo,Classe,Sobreviveu
74,32.0,male,3,1
81,29.0,male,3,1
127,24.0,male,3,1
146,27.0,male,3,1
204,18.0,male,3,1
207,26.0,male,3,1
220,16.0,male,3,1
267,25.0,male,3,1
271,25.0,male,3,1
283,19.0,male,3,1


In [68]:
data[['Idade', 'Sexo','Classe', 'Sobreviveu']]\
.loc[(data['Idade']>14) \
     & (data['Sobreviveu']==1) \
     & (data['Sexo']=='male')\
    & (data['Classe']==3)].count()

Idade         29
Sexo          29
Classe        29
Sobreviveu    29
dtype: int64

## E que não sobreviveram

In [69]:
data[['Idade', 'Sexo','Classe', 'Sobreviveu']]\
.loc[(data['Idade']>14) \
     & ~(data['Sobreviveu']==1) \
     & (data['Sexo']=='male')\
    & (data['Classe']==3)]

Unnamed: 0,Idade,Sexo,Classe,Sobreviveu
0,22.0,male,3,0
4,35.0,male,3,0
12,20.0,male,3,0
13,39.0,male,3,0
37,21.0,male,3,0
...,...,...,...,...
876,20.0,male,3,0
877,19.0,male,3,0
881,33.0,male,3,0
884,25.0,male,3,0


## Map e replace

Podemos usar essas funções para substituir valores dentro do dataframe. Principalmente para alguma tradução, modificação de números. Contudo isso não atualiza definitivamente no dataframe original. Veja os exemplos abaixo.

In [71]:
data['Sexo'].map({'male': 'homem', 'female': 'mulher'}).head()

0     homem
1    mulher
2    mulher
3    mulher
4     homem
Name: Sexo, dtype: object

In [72]:
data['Sexo'].replace({'male': 'homem', 'female': 'mulher'}).head()

0     homem
1    mulher
2    mulher
3    mulher
4     homem
Name: Sexo, dtype: object

In [73]:
data.head()

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,IrmaosConjuge,PaisFilhos,Bilhete,Tarifa,Cabine,Embarque
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Nesse caso do replace, mesmo usando o inplace = True, não houve modificação.

In [77]:
data['Sexo'].replace(['homem','mulher'], ['male','female'], inplace=True)

In [78]:
data.head()

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,IrmaosConjuge,PaisFilhos,Bilhete,Tarifa,Cabine,Embarque
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Agora se for atribuido que, para data['Sexo'] vai receber um novo valor de mapeamento...

In [79]:
data['Sexo'] = data['Sexo'].map({'male': 'homem', 'female': 'mulher'})

In [80]:
data.head()

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Sexo,Idade,IrmaosConjuge,PaisFilhos,Bilhete,Tarifa,Cabine,Embarque
0,1,0,3,"Braund, Mr. Owen Harris",homem,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",mulher,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",mulher,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",mulher,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",homem,35.0,0,0,373450,8.05,,S


## Groupby - Agrupar por

Uma operação groupby envolve alguma combinação de divisão do objeto, aplicação de uma função e combinação dos resultados. Isso pode ser usado para agrupar grandes quantidades de dados e operações de computação nesses grupos.

In [81]:
data.groupby('Sexo').mean()

Unnamed: 0_level_0,IdPassageiro,Sobreviveu,Classe,Idade,IrmaosConjuge,PaisFilhos,Tarifa
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
homem,454.147314,0.188908,2.389948,30.726645,0.429809,0.235702,25.523893
mulher,431.028662,0.742038,2.159236,27.915709,0.694268,0.649682,44.479818


In [82]:
data.groupby('Sobreviveu').mean()

Unnamed: 0_level_0,IdPassageiro,Classe,Idade,IrmaosConjuge,PaisFilhos,Tarifa
Sobreviveu,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,447.016393,2.531876,30.626179,0.553734,0.32969,22.117887
1,444.368421,1.950292,28.34369,0.473684,0.464912,48.395408


In [83]:
data.groupby('Classe').mean()

Unnamed: 0_level_0,IdPassageiro,Sobreviveu,Idade,IrmaosConjuge,PaisFilhos,Tarifa
Classe,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,461.597222,0.62963,38.233441,0.416667,0.356481,84.154687
2,445.956522,0.472826,29.87763,0.402174,0.380435,20.662183
3,439.154786,0.242363,25.14062,0.615071,0.393075,13.67555


In [84]:
data.groupby(['Sexo','Classe']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,IdPassageiro,Sobreviveu,Idade,IrmaosConjuge,PaisFilhos,Tarifa
Sexo,Classe,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
homem,1,455.729508,0.368852,41.281386,0.311475,0.278689,67.226127
homem,2,447.962963,0.157407,30.740707,0.342593,0.222222,19.741782
homem,3,455.51585,0.135447,26.507589,0.498559,0.224784,12.661633
mulher,1,469.212766,0.968085,34.611765,0.553191,0.457447,106.125798
mulher,2,443.105263,0.921053,28.722973,0.486842,0.605263,21.970121
mulher,3,399.729167,0.5,21.75,0.895833,0.798611,16.11881


## Crosstab

calcula uma tabela de frequência dos fatores

In [85]:
pd.crosstab(data['Sobreviveu'], data['Classe'], margins=True).style.background_gradient(cmap='OrRd')

Classe,1,2,3,All
Sobreviveu,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,80,97,372,549
1,136,87,119,342
All,216,184,491,891


In [86]:
pd.crosstab(data['Sobreviveu'], data['Sexo'], margins=True).style.background_gradient(cmap='Blues')

Sexo,homem,mulher,All
Sobreviveu,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,468,81,549
1,109,233,342
All,577,314,891


## Ordenando dados

Selecionando os dados pela idade, de maneira crescente

In [89]:
data[['Idade','Sexo','Classe','Sobreviveu']].sort_values('Idade', ascending=True).head() #do menor para maior

Unnamed: 0,Idade,Sexo,Classe,Sobreviveu
803,0.42,homem,3,1
755,0.67,homem,2,1
644,0.75,mulher,3,1
469,0.75,mulher,3,1
78,0.83,homem,2,1


Selecionando os dados do maior indice para o menor.

In [90]:
data[['Idade','Sexo','Classe','Sobreviveu']].sort_index(ascending=False).head() #do maior para menor

Unnamed: 0,Idade,Sexo,Classe,Sobreviveu
890,32.0,homem,3,0
889,26.0,homem,1,1
888,,mulher,3,0
887,19.0,mulher,1,1
886,27.0,homem,2,0


## Apply e Lambda

Selecione idade e aplique a potência da idade por 2

In [115]:
data['Idade'].apply(lambda x: x**2) 

0       484.0
1      1444.0
2       676.0
3      1225.0
4      1225.0
        ...  
886     729.0
887     361.0
888       NaN
889     676.0
890    1024.0
Name: Idade, Length: 891, dtype: float64

Nessa base de dados, os dados do bilhete, quando são da mesma família, possuem em algumas vezes apenas 1 dígito de diferente. Por exemplo: um bilhete é 373450 e o outro termina 373451. 373452 e 373453. Aí pode ocorrer os primeiros 4 primeiros dígitos são iguais e os 2 últimos diferentes.

Modificando os dados de bilhete para remover o ultimo dígito, por exemplo. 

x[:-1] significa encontrar o slice do primeiro índice da string x menos o último.

In [113]:
data['Bilhete'] = data['Bilhete'].apply(lambda x: x[:-1])

In [116]:
data['Bilhete']

0             A/5 2117
1              PC 1759
2      STON/O2. 310128
3                11380
4                37345
            ...       
886              21153
887              11205
888          W./C. 660
889              11136
890              37037
Name: Bilhete, Length: 891, dtype: object

## Variáveis Dummy

Em estatística ou econometria, particularmente na análise de regressão, uma variável Dummy é aquela que toma o valor de "zero" ou "um" indicando a ausência ou presença de qualidades ou atributos.

Essas variáveis são usadas como dispositivos para classificar dados em categorias mutuamente exclusivas.

drop_first = True: ajuda a reduzir a coluna extra criada durante a criação da variável fictícia. Portanto, reduz as correlações criadas entre variáveis dummy.

In [117]:
data = pd.get_dummies(data,columns=['Sexo'],drop_first=True)

In [118]:
data.head()

Unnamed: 0,IdPassageiro,Sobreviveu,Classe,Nome,Idade,IrmaosConjuge,PaisFilhos,Bilhete,Tarifa,Embarque,Sexo_mulher
0,1,0,3,"Braund, Mr. Owen Harris",22.0,1,0,A/5 2117,7.25,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,PC 1759,71.2833,C,1
2,3,1,3,"Heikkinen, Miss. Laina",26.0,0,0,STON/O2. 310128,7.925,S,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,11380,53.1,S,1
4,5,0,3,"Allen, Mr. William Henry",35.0,0,0,37345,8.05,S,0


In [120]:
data[['Idade','Sexo_mulher','Classe','Sobreviveu']].head()

Unnamed: 0,Idade,Sexo_mulher,Classe,Sobreviveu
0,22.0,0,3,0
1,38.0,1,1,1
2,26.0,1,3,1
3,35.0,1,1,1
4,35.0,0,3,0


### Referências:
    
   * Exemplos adaptados nos materiais do cientista de dados Danilo Moreira.
   * https://pandas.pydata.org/ 

# Exercício

Considere o arquivo CompanhiaMB.csv disponível no Moodle e realize as seguintes operações:
* faça a leitura do arquivo via pandas
* Verifique as informações dos dados
* Apresente um resumo estatístico 
* Acesse os campos e defina quais são categóricos
* Renomeie o nome das colunas para que todos tenham a primeira letra maiúscula
* Para as variáveis nfilhos e idade_anos, apresente a média, moda, desvio padrão, mínimo e máximo
* Encontre o índice do funcionário que possui a maior idade. Faça a localização (loc) e mostre todos os dados dele.
* Faça um loc para apresentar se existem funcionários com idade maior de 40 anos.
