# Introdução ao Pandas

Agora vamos colocar a mão na massa!

Ao final dessa aula vamos conseguir:

0. Entender o jupyter notebook, instalar e chamar bibliotecas; 
1. Realizar operações matemáticas básicas;
2. Importar um arquivo .csv;
3. Manipular o arquivo dataframe e chegar a conclusões;
4. Unir dois dataframes distintos a partir de uma base comum.

Algumas orientações:

A partir de agora, as anotações deverão ser apenas no seu script, utilizando os # para fazer comentários:

In [None]:
#Isso é um comentário

Pelo menos nesta aula, não se preocupem em escrever o código: copiem as célular deste script e procurem entender o que cada função faz. Isso é essencial para entender a lógica da linguagem e não perder tempo com typos.

### Lembrando: objetos

Podemos atribuir a um objeto o resultado de nossas operações matemáticas ou, como veremos mais pra frente, o nosso dataframe. O objeto ficará armazenado na memória do jupyter e poderá ser acessado e modificado em operações futuras.

Para atribuir uma operação a um objeto basta utilizar o sinal de =

In [None]:
# Exemplo:

obj = 2*4

*É possível traduzir esta operação com "obj RECEBE 2*4*

In [None]:
#Consultando:

obj

## Bibliotecas:

Bibliotecas são conjuntos de verbos que auxiliam a linguagem que estamos utilizando. São como "pacotes de expansão", permitindo que mais coisas sejam feitas dentro de uma determinada linguagem.

Uma biblioteca muito utilizada na ciência de dados em python é a **Pandas** .

Quando Python é instalado utilizando Anaconda, as bibliotecas *Pandas* e *NumPy* são instaladas automaticamente. Caso contrário, é possível instalar *Pandas* via pip no CMD com o comando `pip install pandas`.

Depois de instalado, a biblioteca deve ser carregada no início de cada script:



In [2]:
#importando a biblioteca pandas e dando um "apelido" para ela.

import pandas as pd

#pd é a nomenclatura padrão.

Pronto, só isso =)

As funções (verbos) costumam ser precedidos da biblioteca ou do objeto que ele irá trabalhar. Veremos exemplos a seguir.

## 01. Importando arquivos .CSV + Análise exploratória


Vamos começar importando um banco de dados com todos os países do mundo e algumas informações básicas. Trata-se de um arquivo CSV, separado por ponto e vírgula e com encoding 'cp1252' 


In [3]:
data_countries = pd.read_csv("data_countries.csv", encoding = 'cp1252', sep=";")

Em python é assim: se não aconteceu nada, é porque deu certo!

Vamos primeiro olhar algumas características do banco, como número de linhas e colunas com o `shape`:

In [4]:
#Olhando qtde de linhas e colunas do meu df
data_countries.shape

(34, 2)

**Importante**: a contagem em Python começa no 0. 

Agora vamos olhar como são as cinco primeiras linhas deste dataframe com o comando `head()`:

In [5]:
#Verificando as cinco primeiras colunas
data_countries.head()

Unnamed: 0,country,continent
0,Argentina,South America
1,Argentina,South America
2,Argentina,South America
3,Australia,Oceania
4,Belgium,Europe


**Exercício rápido:** Este banco tem um problema, vocês conseguiram identificar? 
Vamos resolver esse problema daqui a pouco, na etapa de **02. Processamento**

E, por fim, vamos somar todos os *missing values* no nosso Dataframe:

In [6]:
# Contando a quantidade de missing values por coluna:
data_countries.isnull().sum()

country      0
continent    0
dtype: int64

Que bom, nosso banco não tem *missings*.

Por fim, vamos ver os tipos de colunas existentes no nosso banco:

In [7]:
#Verificando os tipos de colunas:
data_countries.dtypes

country      object
continent    object
dtype: object

Agora vamos importar um segundo arquivo da FIFA com todos os jogadores convocados para a copa de 2018. 
É um arquivo .CSV , separado por ; e com encoding "UTF-8"

In [8]:
fifa = pd.read_csv("fifa2018.csv", sep=";")

Vamos executar as mesmas etapas que fizemos com o banco anterior:

In [9]:
#Primeiro, o shape:
fifa.shape

(736, 12)

In [10]:
#Agora, o head
fifa.head()

Unnamed: 0,number,fifa_display_name,last_name,first_name,shirt_name,day_of_birth,position,club,height,caps,goals,team
0,1,Nahuel GUZMAN,GUZMÁN,Nahuel Ignacio,GUZMÁN,10.02.1986,GK,Tigres (MEX),192,6.0,,Argentina
1,2,Gabriel MERCADO,MERCADO,Gabriel Ivan,MERCADO,18.03.1987,DF,Sevilla FC (ESP),181,21.0,3.0,Argentina
2,3,Nicolas TAGLIAFICO,TAGLIAFICO,Nicolás Alejandro,TAGLIAFICO,31.08.1992,DF,Ajax (NED),169,6.0,,Argentina
3,4,Cristian ANSALDI,ANSALDI,Cristian Daniel,ANSALDI,20.09.1986,DF,Torino (ITA),181,5.0,1.0,Argentina
4,5,Lucas BIGLIA,BIGLIA,Lucas Rodrigo,BIGLIA,30.01.1986,MF,AC Milan (ITA),175,58.0,1.0,Argentina


In [11]:
#Verificando soma dos missings dentro de nosso dataframe:
fifa.isnull().sum()

number                 0
fifa_display_name      0
last_name              0
first_name             0
shirt_name             0
day_of_birth           0
position               0
club                   0
height                 0
caps                   4
goals                290
team                   0
dtype: int64

In [12]:
#Verificando os tipos de colunas:
fifa.dtypes

number                 int64
fifa_display_name     object
last_name             object
first_name            object
shirt_name            object
day_of_birth          object
position              object
club                  object
height                 int64
caps                 float64
goals                float64
team                  object
dtype: object

*Float* e *Interger* são duas categorias numéricas em programação e variam quanto a sua precisão. Como vamos trabalhar com bancos simples, não existe diferença significativa na precisão dos números. Essas categorias são mais importantes para trabalhos científicos ou análises mais complexas.

Saber os tipos de colunas é importante para evitar erros na importação de cadastros numéricos, como CPFs.

### Consultas mais detalhadas:

O dataframe Fifa contém informações sobre os jogadores convocados para copa do mundo de 2018.

Vamos olhar uma descrição mais detalhada dos nossos dados:

In [13]:
#Breve descrição estatística:

fifa.describe()

Unnamed: 0,number,height,caps,goals
count,736.0,736.0,732.0,446.0
mean,12.0,182.442935,36.505464,7.623318
std,6.63776,6.858492,32.160911,10.412904
min,1.0,165.0,1.0,1.0
25%,6.0,178.0,11.0,2.0
50%,12.0,183.0,27.0,4.0
75%,18.0,187.0,54.0,9.0
max,23.0,201.0,158.0,85.0


Se eu quisesse apenas somar os valores de uma coluna, digamos, para saber quantos gols ao todo foram feitos por todos os jogadores até o momento da copa?

In [14]:
#somando itens de uma coluna:

fifa.goals.sum()

3400.0

Agora eu gostaria de saber todas as seleções classificadas para a copa do mundo de 2018 (em outras palavras: todos os valores únicos da coluna "Team"):

In [15]:
#Acessando os valores únicos de uma variável:

pd.unique(fifa.team)

array(['Argentina', 'Australia', 'Belgium', 'Brazil', 'Colombia',
       'Costa Rica', 'Croatia', 'Denmark', 'Egypt', 'England', 'France',
       'Germany', 'Iceland', 'IR Iran', 'Japan', 'Korea Republic',
       'Mexico', 'Morocco', 'Nigeria', 'Panama', 'Peru', 'Poland',
       'Portugal', 'Russia', 'Saudi Arabia', 'Senegal', 'Serbia', 'Spain',
       'Sweden', 'Switzerland', 'Tunisia', 'Uruguay'], dtype=object)

In [16]:
#E podemos atribuir esses valores a um objeto:

paises = pd.unique(fifa.team)
paises

array(['Argentina', 'Australia', 'Belgium', 'Brazil', 'Colombia',
       'Costa Rica', 'Croatia', 'Denmark', 'Egypt', 'England', 'France',
       'Germany', 'Iceland', 'IR Iran', 'Japan', 'Korea Republic',
       'Mexico', 'Morocco', 'Nigeria', 'Panama', 'Peru', 'Poland',
       'Portugal', 'Russia', 'Saudi Arabia', 'Senegal', 'Serbia', 'Spain',
       'Sweden', 'Switzerland', 'Tunisia', 'Uruguay'], dtype=object)

E se eu quisesse que esse array virasse parte de um dataframe chamado `paises`, dentro de uma coluna chamada `pais` ?

In [17]:
paises = pd.DataFrame({'pais': pd.unique(fifa.team)})
paises.head()

Unnamed: 0,pais
0,Argentina
1,Australia
2,Belgium
3,Brazil
4,Colombia


Por fim, eu gostaria de fazer uma *query* e descobrir quais foram os jogadores da seleção brasileira na copa de 2018. Para isso, selecionarei as linhas cujo team == 'Brazil'

In [18]:
fifa.query('team == "Brazil"')

Unnamed: 0,number,fifa_display_name,last_name,first_name,shirt_name,day_of_birth,position,club,height,caps,goals,team
69,1,ALISSON,BECKER,Alisson Ramses,A. BECKER,02.10.1992,GK,AS Roma (ITA),193,28.0,,Brazil
70,2,THIAGO SILVA,EMILIANO DA SILVA,Thiago,T. SILVA,22.09.1984,DF,Paris Saint-Germain (FRA),183,73.0,5.0,Brazil
71,3,MIRANDA,MIRANDA DE SOUZA FILHO,Joao,MIRANDA,07.09.1984,DF,Internazionale (ITA),186,49.0,2.0,Brazil
72,4,PEDRO GEROMEL,TONON GEROMEL,Pedro,GEROMEL,21.09.1985,DF,Grêmio (BRA),190,2.0,,Brazil
73,5,CASEMIRO,CASIMIRO,Carlos Henrique,CASEMIRO,23.02.1992,MF,Real Madrid (ESP),185,26.0,,Brazil
74,6,FILIPE LUIS,KASMIRSKI,Filipe Luis,FILIPE LUIS,09.08.1985,DF,Atlético Madrid (ESP),182,33.0,2.0,Brazil
75,7,DOUGLAS COSTA,COSTA DE SOUZA,Douglas,D. COSTA,14.09.1990,FW,Juventus (ITA),182,26.0,3.0,Brazil
76,8,RENATO AUGUSTO,SOARES DE OLIVEIRA AUGUSTO,Renato,R. AUGUSTO,08.02.1988,MF,Beijing Guoan (CHN),186,29.0,5.0,Brazil
77,9,GABRIEL JESUS,DE JESUS,Gabriel Fernando,G. JESUS,03.04.1997,FW,Manchester City (ENG),175,19.0,10.0,Brazil
78,10,NEYMAR,DA SILVA SANTOS JUNIOR,Neymar,NEYMAR JR,05.02.1992,FW,Paris Saint-Germain (FRA),175,87.0,56.0,Brazil


## 02. Processamento de dados

As vezes, precisamos não apenas consultar mas também modificar nossos dados para análise ou construção de um novo dataframe.

### Removendo duplicatas:

Vocês lembram do erro que nós vimos no banco `data_countries`? Agora vamos retirar as duplicatas:

In [19]:
#Removendo duplicatas:
data_countries = data_countries.drop_duplicates()

In [20]:
#Verificando a quantidade final de linhas:
data_countries.shape

(32, 2)

Se o dataframe não possui duplicatas, o `drop_duplicates()` não vai possuir efeito. 
Vamos usá-lo no banco FIFA:

In [21]:
#Removendo duplicatas
fifa = fifa.drop_duplicates()

#Verificando a quantidade final de linhas:
fifa.shape

(736, 12)

### Substituindo os valores nulos de uma variável:

Agora vamos substituir aqueles *missings* encontrados no banco fifa por zero com o `fillna()`:

In [22]:
#Sobrescrevendo NAs de uma coluna:
fifa.goals = fifa.goals.fillna(0)

#Consultando soma dos NAs
fifa.isnull().sum()

number               0
fifa_display_name    0
last_name            0
first_name           0
shirt_name           0
day_of_birth         0
position             0
club                 0
height               0
caps                 4
goals                0
team                 0
dtype: int64

**Exercício rápido:** Como sobrescrever os missings da variável *caps* ?

### Criando novas variáveis

Agora eu gostaria de criar uma nova variável no meu banco fifa, para afirmar que o esporte praticado por todos aqueles atletas é "futebol"


In [23]:
#Criando uma nova variável chamada esporte

fifa['esporte'] = "Futebol"

Ao atribuir o valor "Futebol" para o objeto `fifa['esporte']`, já estamos automaticamente criando a nova coluna no nosso dataframe.

*OBS: A outra sintaxe `fifa.esporte` não funciona para criação de novas colunas

In [24]:
fifa.head()

Unnamed: 0,number,fifa_display_name,last_name,first_name,shirt_name,day_of_birth,position,club,height,caps,goals,team,esporte
0,1,Nahuel GUZMAN,GUZMÁN,Nahuel Ignacio,GUZMÁN,10.02.1986,GK,Tigres (MEX),192,6.0,0.0,Argentina,Futebol
1,2,Gabriel MERCADO,MERCADO,Gabriel Ivan,MERCADO,18.03.1987,DF,Sevilla FC (ESP),181,21.0,3.0,Argentina,Futebol
2,3,Nicolas TAGLIAFICO,TAGLIAFICO,Nicolás Alejandro,TAGLIAFICO,31.08.1992,DF,Ajax (NED),169,6.0,0.0,Argentina,Futebol
3,4,Cristian ANSALDI,ANSALDI,Cristian Daniel,ANSALDI,20.09.1986,DF,Torino (ITA),181,5.0,1.0,Argentina,Futebol
4,5,Lucas BIGLIA,BIGLIA,Lucas Rodrigo,BIGLIA,30.01.1986,MF,AC Milan (ITA),175,58.0,1.0,Argentina,Futebol


Agora, digamos que vocês estão elaborando as estatísticas dos jogadores antes da copa. Com essas informações da Fifa, seria interessante saber qual é a média de gols por jogador com a camisa da sua seleção. Para isso vamos criar uma nova coluna que divide o número de gols (goals) pelo número de jogos pela seleção (caps).

In [25]:
fifa['media_gols'] = fifa.goals/fifa.caps
fifa.head()

Unnamed: 0,number,fifa_display_name,last_name,first_name,shirt_name,day_of_birth,position,club,height,caps,goals,team,esporte,media_gols
0,1,Nahuel GUZMAN,GUZMÁN,Nahuel Ignacio,GUZMÁN,10.02.1986,GK,Tigres (MEX),192,6.0,0.0,Argentina,Futebol,0.0
1,2,Gabriel MERCADO,MERCADO,Gabriel Ivan,MERCADO,18.03.1987,DF,Sevilla FC (ESP),181,21.0,3.0,Argentina,Futebol,0.142857
2,3,Nicolas TAGLIAFICO,TAGLIAFICO,Nicolás Alejandro,TAGLIAFICO,31.08.1992,DF,Ajax (NED),169,6.0,0.0,Argentina,Futebol,0.0
3,4,Cristian ANSALDI,ANSALDI,Cristian Daniel,ANSALDI,20.09.1986,DF,Torino (ITA),181,5.0,1.0,Argentina,Futebol,0.2
4,5,Lucas BIGLIA,BIGLIA,Lucas Rodrigo,BIGLIA,30.01.1986,MF,AC Milan (ITA),175,58.0,1.0,Argentina,Futebol,0.017241


E se quisessemos diminuir o número de casas decimais na nossa nova variável?

In [26]:
fifa['media_gols'] = round(fifa.goals/fifa.caps,2)
fifa.head()

Unnamed: 0,number,fifa_display_name,last_name,first_name,shirt_name,day_of_birth,position,club,height,caps,goals,team,esporte,media_gols
0,1,Nahuel GUZMAN,GUZMÁN,Nahuel Ignacio,GUZMÁN,10.02.1986,GK,Tigres (MEX),192,6.0,0.0,Argentina,Futebol,0.0
1,2,Gabriel MERCADO,MERCADO,Gabriel Ivan,MERCADO,18.03.1987,DF,Sevilla FC (ESP),181,21.0,3.0,Argentina,Futebol,0.14
2,3,Nicolas TAGLIAFICO,TAGLIAFICO,Nicolás Alejandro,TAGLIAFICO,31.08.1992,DF,Ajax (NED),169,6.0,0.0,Argentina,Futebol,0.0
3,4,Cristian ANSALDI,ANSALDI,Cristian Daniel,ANSALDI,20.09.1986,DF,Torino (ITA),181,5.0,1.0,Argentina,Futebol,0.2
4,5,Lucas BIGLIA,BIGLIA,Lucas Rodrigo,BIGLIA,30.01.1986,MF,AC Milan (ITA),175,58.0,1.0,Argentina,Futebol,0.02


### Modificando datas

Vocês devem ter reparado quando usamos a função `fifa.dtypes` que a coluna *day_of_birt* está como *object*, neste caso texto. Vamos sobrescrever essa coluna com os mesmos valores, mas como Data. Para isso usamos a função do pandas `pd.to_datetime`. 

In [27]:
#Sobrescrevendo variável categórica como data:

fifa['day_of_birth'] = pd.to_datetime(fifa['day_of_birth']) 

#Consultando:
fifa.head()

Unnamed: 0,number,fifa_display_name,last_name,first_name,shirt_name,day_of_birth,position,club,height,caps,goals,team,esporte,media_gols
0,1,Nahuel GUZMAN,GUZMÁN,Nahuel Ignacio,GUZMÁN,1986-10-02,GK,Tigres (MEX),192,6.0,0.0,Argentina,Futebol,0.0
1,2,Gabriel MERCADO,MERCADO,Gabriel Ivan,MERCADO,1987-03-18,DF,Sevilla FC (ESP),181,21.0,3.0,Argentina,Futebol,0.14
2,3,Nicolas TAGLIAFICO,TAGLIAFICO,Nicolás Alejandro,TAGLIAFICO,1992-08-31,DF,Ajax (NED),169,6.0,0.0,Argentina,Futebol,0.0
3,4,Cristian ANSALDI,ANSALDI,Cristian Daniel,ANSALDI,1986-09-20,DF,Torino (ITA),181,5.0,1.0,Argentina,Futebol,0.2
4,5,Lucas BIGLIA,BIGLIA,Lucas Rodrigo,BIGLIA,1986-01-30,MF,AC Milan (ITA),175,58.0,1.0,Argentina,Futebol,0.02


### Renomeando variáveis

Caps é um nome muito ruim. Vamos colocar um nome mais intuitívo, como *jogos_selecao*

In [28]:
#Renomeando e atribuindo ao nosso dataframe:
fifa = fifa.rename(columns={"caps": "jogos_selecao"})

#Consultando
fifa.head()

Unnamed: 0,number,fifa_display_name,last_name,first_name,shirt_name,day_of_birth,position,club,height,jogos_selecao,goals,team,esporte,media_gols
0,1,Nahuel GUZMAN,GUZMÁN,Nahuel Ignacio,GUZMÁN,1986-10-02,GK,Tigres (MEX),192,6.0,0.0,Argentina,Futebol,0.0
1,2,Gabriel MERCADO,MERCADO,Gabriel Ivan,MERCADO,1987-03-18,DF,Sevilla FC (ESP),181,21.0,3.0,Argentina,Futebol,0.14
2,3,Nicolas TAGLIAFICO,TAGLIAFICO,Nicolás Alejandro,TAGLIAFICO,1992-08-31,DF,Ajax (NED),169,6.0,0.0,Argentina,Futebol,0.0
3,4,Cristian ANSALDI,ANSALDI,Cristian Daniel,ANSALDI,1986-09-20,DF,Torino (ITA),181,5.0,1.0,Argentina,Futebol,0.2
4,5,Lucas BIGLIA,BIGLIA,Lucas Rodrigo,BIGLIA,1986-01-30,MF,AC Milan (ITA),175,58.0,1.0,Argentina,Futebol,0.02


E se eu quisesse agora renomear várias colunas ao mesmo tempo?

In [29]:
#Renomeando
fifa = fifa.rename(columns={"number": "num_camisa",
                            "fifa_display_name": "nome_fifa"})
fifa.head()

Unnamed: 0,num_camisa,nome_fifa,last_name,first_name,shirt_name,day_of_birth,position,club,height,jogos_selecao,goals,team,esporte,media_gols
0,1,Nahuel GUZMAN,GUZMÁN,Nahuel Ignacio,GUZMÁN,1986-10-02,GK,Tigres (MEX),192,6.0,0.0,Argentina,Futebol,0.0
1,2,Gabriel MERCADO,MERCADO,Gabriel Ivan,MERCADO,1987-03-18,DF,Sevilla FC (ESP),181,21.0,3.0,Argentina,Futebol,0.14
2,3,Nicolas TAGLIAFICO,TAGLIAFICO,Nicolás Alejandro,TAGLIAFICO,1992-08-31,DF,Ajax (NED),169,6.0,0.0,Argentina,Futebol,0.0
3,4,Cristian ANSALDI,ANSALDI,Cristian Daniel,ANSALDI,1986-09-20,DF,Torino (ITA),181,5.0,1.0,Argentina,Futebol,0.2
4,5,Lucas BIGLIA,BIGLIA,Lucas Rodrigo,BIGLIA,1986-01-30,MF,AC Milan (ITA),175,58.0,1.0,Argentina,Futebol,0.02


## 03. Juntando dois dataframes

Uma das belezas de trabalhar com dados em Python é que podemos juntar dois dataframes diferentes por meio de uma *chave* comum ou "colar" dois dataframes iguais um sobre o outro.

### Merge

Com a função `merge` é possível juntar dois dataframes horizontalmente baseados em uma coluna (key) comum. Ele opera de maneira similar ao SQL::JOIN e ao DPLYR::left_join


Vamos criar um terceiro dataframe chamado fifa_countries, que irá conter a junção dos bancos fifa e data_countries:

In [30]:
#Joining

fifa_countries = pd.merge(fifa, data_countries, left_on=['team'], right_on=['country'])

fifa_countries.head()

Unnamed: 0,num_camisa,nome_fifa,last_name,first_name,shirt_name,day_of_birth,position,club,height,jogos_selecao,goals,team,esporte,media_gols,country,continent
0,1,Nahuel GUZMAN,GUZMÁN,Nahuel Ignacio,GUZMÁN,1986-10-02,GK,Tigres (MEX),192,6.0,0.0,Argentina,Futebol,0.0,Argentina,South America
1,2,Gabriel MERCADO,MERCADO,Gabriel Ivan,MERCADO,1987-03-18,DF,Sevilla FC (ESP),181,21.0,3.0,Argentina,Futebol,0.14,Argentina,South America
2,3,Nicolas TAGLIAFICO,TAGLIAFICO,Nicolás Alejandro,TAGLIAFICO,1992-08-31,DF,Ajax (NED),169,6.0,0.0,Argentina,Futebol,0.0,Argentina,South America
3,4,Cristian ANSALDI,ANSALDI,Cristian Daniel,ANSALDI,1986-09-20,DF,Torino (ITA),181,5.0,1.0,Argentina,Futebol,0.2,Argentina,South America
4,5,Lucas BIGLIA,BIGLIA,Lucas Rodrigo,BIGLIA,1986-01-30,MF,AC Milan (ITA),175,58.0,1.0,Argentina,Futebol,0.02,Argentina,South America


Tivemos que usar os parâmetros `left_on` e `right_on` porque as colunas-chave possuem nomes diferentes nos dois bancos. A outra opção é renomear a coluna de um dos dois bancos para precisarmos apenas especificar o parâmetro `on`, como faremos a seguir:

In [31]:
#Renomeando:
fifa = fifa.rename(columns={'team': 'country'})

#Juntando:
fifa_countries = pd.merge(fifa, data_countries, on='country')

fifa_countries.head()

Unnamed: 0,num_camisa,nome_fifa,last_name,first_name,shirt_name,day_of_birth,position,club,height,jogos_selecao,goals,country,esporte,media_gols,continent
0,1,Nahuel GUZMAN,GUZMÁN,Nahuel Ignacio,GUZMÁN,1986-10-02,GK,Tigres (MEX),192,6.0,0.0,Argentina,Futebol,0.0,South America
1,2,Gabriel MERCADO,MERCADO,Gabriel Ivan,MERCADO,1987-03-18,DF,Sevilla FC (ESP),181,21.0,3.0,Argentina,Futebol,0.14,South America
2,3,Nicolas TAGLIAFICO,TAGLIAFICO,Nicolás Alejandro,TAGLIAFICO,1992-08-31,DF,Ajax (NED),169,6.0,0.0,Argentina,Futebol,0.0,South America
3,4,Cristian ANSALDI,ANSALDI,Cristian Daniel,ANSALDI,1986-09-20,DF,Torino (ITA),181,5.0,1.0,Argentina,Futebol,0.2,South America
4,5,Lucas BIGLIA,BIGLIA,Lucas Rodrigo,BIGLIA,1986-01-30,MF,AC Milan (ITA),175,58.0,1.0,Argentina,Futebol,0.02,South America


### Concat

Para "empilhar" dois dataframes, vamos usar a função `concat`.
Vamos criar um dataframe com apenas uma observação (linha), que seria um novo jogador inventado para a seleção da Argentina. Esse novo dataframe terá as mesmas colunas do dataframe fifa:

In [32]:
extra = pd.DataFrame({'num_camisa': [100]                      ,
                      'nome_fifa': ['DALÍ'],
                      'last_name': ['Dalí'],
                      'first_name': ['Salvador'],
                      'shirt_name': ['DALÍ'],
                      'day_of_birth': ['2013-10-10'],
                      'position': ['GK'],
                      'club': ['Barcelona(ESP)'],
                      'height': [100],
                      'jogos_selecao': [0],
                      'goals': [0],
                      'country': ['Argentina'],
                      'esporte': ['Futebol'],
                      'media_gols': [0],
                      'continent': ['South America']})

extra

Unnamed: 0,num_camisa,nome_fifa,last_name,first_name,shirt_name,day_of_birth,position,club,height,jogos_selecao,goals,country,esporte,media_gols,continent
0,100,DALÍ,Dalí,Salvador,DALÍ,2013-10-10,GK,Barcelona(ESP),100,0,0,Argentina,Futebol,0,South America


In [33]:
#Concatenando dois dataframes:

fifa_extra = pd.concat([fifa , extra], axis = 0, sort=False)


O parâmetro `axis = 0` indica que os dataframes serão agrupados verticalmente, e o parâmetro `sort = FALSE` estabelece que não haverá alteração na disposição das colunas

In [34]:
#Procurando os jogadores do time da Argentina:

fifa_extra.query('country == "Argentina"')

Unnamed: 0,num_camisa,nome_fifa,last_name,first_name,shirt_name,day_of_birth,position,club,height,jogos_selecao,goals,country,esporte,media_gols,continent
0,1,Nahuel GUZMAN,GUZMÁN,Nahuel Ignacio,GUZMÁN,1986-10-02 00:00:00,GK,Tigres (MEX),192,6.0,0.0,Argentina,Futebol,0.0,
1,2,Gabriel MERCADO,MERCADO,Gabriel Ivan,MERCADO,1987-03-18 00:00:00,DF,Sevilla FC (ESP),181,21.0,3.0,Argentina,Futebol,0.14,
2,3,Nicolas TAGLIAFICO,TAGLIAFICO,Nicolás Alejandro,TAGLIAFICO,1992-08-31 00:00:00,DF,Ajax (NED),169,6.0,0.0,Argentina,Futebol,0.0,
3,4,Cristian ANSALDI,ANSALDI,Cristian Daniel,ANSALDI,1986-09-20 00:00:00,DF,Torino (ITA),181,5.0,1.0,Argentina,Futebol,0.2,
4,5,Lucas BIGLIA,BIGLIA,Lucas Rodrigo,BIGLIA,1986-01-30 00:00:00,MF,AC Milan (ITA),175,58.0,1.0,Argentina,Futebol,0.02,
5,6,Federico FAZIO,FAZIO,Federico Julián,FAZIO,1987-03-17 00:00:00,DF,AS Roma (ITA),199,9.0,1.0,Argentina,Futebol,0.11,
6,7,Ever BANEGA,BANEGA,Ever Maximiliano David,BANEGA,1988-06-29 00:00:00,MF,Sevilla FC (ESP),175,63.0,6.0,Argentina,Futebol,0.1,
7,8,Marcos ACUNA,ACUÑA,Marcos Javier,ACUÑA,1991-10-28 00:00:00,DF,Sporting CP (POR),172,11.0,0.0,Argentina,Futebol,0.0,
8,9,Gonzalo HIGUAIN,HIGUAIN,Gonzalo Gerardo,HIGUAÍN,1987-10-12 00:00:00,FW,Juventus (ITA),184,74.0,31.0,Argentina,Futebol,0.42,
9,10,Lionel MESSI,MESSI,Lionel Andres,MESSI,1987-06-24 00:00:00,FW,FC Barcelona (ESP),170,126.0,64.0,Argentina,Futebol,0.51,


Nosso novo jogador está aí ;)

## 03. Realizando operações com agrupamentos

Agora que nós já aprendemos analisar, processar e fundir diferentes bancos de dados restam apenas as operações seguidas de  agrupamentos.

Vamos primeiro criar uma nova coluna *boolean* (true e false), que me dirá se determinado jogador tem mais de 1,80m:

In [37]:
#Criando nossa coluna boolean:
fifa_countries['alto'] = fifa_countries.height > 180

#Verificando:
fifa_countries.head()

Unnamed: 0,num_camisa,nome_fifa,last_name,first_name,shirt_name,day_of_birth,position,club,height,jogos_selecao,goals,country,esporte,media_gols,continent,alto
0,1,Nahuel GUZMAN,GUZMÁN,Nahuel Ignacio,GUZMÁN,1986-10-02,GK,Tigres (MEX),192,6.0,0.0,Argentina,Futebol,0.0,South America,True
1,2,Gabriel MERCADO,MERCADO,Gabriel Ivan,MERCADO,1987-03-18,DF,Sevilla FC (ESP),181,21.0,3.0,Argentina,Futebol,0.14,South America,True
2,3,Nicolas TAGLIAFICO,TAGLIAFICO,Nicolás Alejandro,TAGLIAFICO,1992-08-31,DF,Ajax (NED),169,6.0,0.0,Argentina,Futebol,0.0,South America,False
3,4,Cristian ANSALDI,ANSALDI,Cristian Daniel,ANSALDI,1986-09-20,DF,Torino (ITA),181,5.0,1.0,Argentina,Futebol,0.2,South America,True
4,5,Lucas BIGLIA,BIGLIA,Lucas Rodrigo,BIGLIA,1986-01-30,MF,AC Milan (ITA),175,58.0,1.0,Argentina,Futebol,0.02,South America,False


Agora vamos verificar qual é a média de gols para jogadores maiores e menores que 180. Para isso, vamos usar o `groupby`e depois `sum`:

In [40]:
fifa_countries.groupby('alto')['goals'].median()

alto
False    2.0
True     1.0
Name: goals, dtype: float64

Agora eu vou agrupar por *continent* e *alto*:

In [43]:
fifa_countries.groupby(['continent','alto'])['goals'].median()

continent        alto 
Africa           False    1.0
                 True     1.0
Asia             False    1.0
                 True     1.0
Central America  False    0.0
                 True     2.0
Europe           False    2.0
                 True     1.0
North America    False    7.5
                 True     1.0
Oceania          False    2.0
                 True     1.5
South America    False    1.0
                 True     1.0
Name: goals, dtype: float64

Agora além de agrupar por *continent* e *alto* eu vou verificar a média de gols e o total de gols feitos. Para isso vamos usar o `agg`:

In [56]:
fifa_countries.groupby(['continent','alto']).agg({'goals': ['median', 'sum']})

Unnamed: 0_level_0,Unnamed: 1_level_0,goals,goals,club
Unnamed: 0_level_1,Unnamed: 1_level_1,median,sum,count
continent,alto,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Africa,False,1.0,171.0,41
Africa,True,1.0,148.0,74
Asia,False,1.0,219.0,46
Asia,True,1.0,222.0,46
Central America,False,0.0,57.0,20
Central America,True,2.0,198.0,26
Europe,False,2.0,431.0,93
Europe,True,1.0,994.0,229
North America,False,7.5,172.0,14
North America,True,1.0,34.0,9


Agora em um nível mais hard eu quero saber, além da média e do total de gols, quantos jogadores acima e abaixo de 1,80m eu tenho em cada continente:

In [57]:
fifa_countries.groupby(['continent','alto']).agg({'alto':['count'],
                                                  'goals': ['median', 'sum']})

Unnamed: 0_level_0,Unnamed: 1_level_0,alto,goals,goals
Unnamed: 0_level_1,Unnamed: 1_level_1,count,median,sum
continent,alto,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Africa,False,41,1.0,171.0
Africa,True,74,1.0,148.0
Asia,False,46,1.0,219.0
Asia,True,46,1.0,222.0
Central America,False,20,0.0,57.0
Central America,True,26,2.0,198.0
Europe,False,93,2.0,431.0
Europe,True,229,1.0,994.0
North America,False,14,7.5,172.0
North America,True,9,1.0,34.0
