## DataFrames

In [20]:
import pandas as pd

In [21]:
mundo = pd.read_csv('https://raw.githubusercontent.com/nickeubank/practicaldatascience/master/Example_Data/world-small.csv')
mundo.head()

Unnamed: 0,country,region,gdppcap08,polityIV
0,Albania,C&E Europe,7715,17.8
1,Algeria,Africa,8033,10.0
2,Angola,Africa,5899,8.0
3,Argentina,S. America,14333,18.0
4,Armenia,C&E Europe,6070,15.0


## Mudando o nome das colunas

In [22]:
mundo.columns = ['pais', 'regiao', 'pib_per_capita', 'polityIV']
mundo.head()

Unnamed: 0,pais,regiao,pib_per_capita,polityIV
0,Albania,C&E Europe,7715,17.8
1,Algeria,Africa,8033,10.0
2,Angola,Africa,5899,8.0
3,Argentina,S. America,14333,18.0
4,Armenia,C&E Europe,6070,15.0


Também podemos mudar o nome de apenas algumas colunas:

In [26]:
#Nao vou salvar esse resultado. Vou só dar um head para mostrar o output, e jogar fora
mundo.rename(columns = {'regiao': 'parte_do_mundo'}).head()

Unnamed: 0,pais,parte_do_mundo,pib_per_capita,polityIV
0,Albania,C&E Europe,7715,17.8
1,Algeria,Africa,8033,10.0
2,Angola,Africa,5899,8.0
3,Argentina,S. America,14333,18.0
4,Armenia,C&E Europe,6070,15.0


### Índices

Um DataFrame tem dois índices:

um **índice de linha**, que identifica cada linha...

In [27]:
mundo.index

RangeIndex(start=0, stop=145, step=1)

... e um **índice de coluna**, que identifica cada coluna:

In [28]:
mundo.columns

Index(['pais', 'regiao', 'pib_per_capita', 'polityIV'], dtype='object')

Nesse exemplo, cada linha está sendo identificada por um número.  
Como cada linha corresponde a um país, é melhor deixar cada linha ser representada pelo nome desse país. Podemos fazer isso com o método `.set_index`:

In [29]:
mundo = mundo.set_index('pais')

In [30]:
mundo.head()

Unnamed: 0_level_0,regiao,pib_per_capita,polityIV
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Albania,C&E Europe,7715,17.8
Algeria,Africa,8033,10.0
Angola,Africa,5899,8.0
Argentina,S. America,14333,18.0
Armenia,C&E Europe,6070,15.0


Agora o país não é mais uma coluna do dataframe:

In [31]:
mundo.columns

Index(['regiao', 'pib_per_capita', 'polityIV'], dtype='object')

Se quisermos voltar atrás, podemos usar o método `.reset_index`:

In [32]:
mundo = mundo.reset_index()
mundo.head()

Unnamed: 0,pais,regiao,pib_per_capita,polityIV
0,Albania,C&E Europe,7715,17.8
1,Algeria,Africa,8033,10.0
2,Angola,Africa,5899,8.0
3,Argentina,S. America,14333,18.0
4,Armenia,C&E Europe,6070,15.0


Vamos deixar o índice:

In [33]:
mundo = mundo.set_index('pais')

### Ordenando um DataFrame

#### Pelo valor de uma coluna

In [11]:
mundo = mundo.sort_values('pib_per_capita', ascending=False)
mundo.head()

Unnamed: 0_level_0,regiao,pib_per_capita,polityIV
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Qatar,Middle East,85868,0.0
Norway,Scandinavia,58138,20.0
Singapore,Asia-Pacific,49284,8.0
United States,N. America,46716,20.0
Ireland,W. Europe,44200,20.0


#### Pelo valor do índice

In [12]:
mundo = mundo.sort_index()
mundo.head()

Unnamed: 0_level_0,regiao,pib_per_capita,polityIV
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Albania,C&E Europe,7715,17.8
Algeria,Africa,8033,10.0
Angola,Africa,5899,8.0
Argentina,S. America,14333,18.0
Armenia,C&E Europe,6070,15.0


## Criando uma nova coluna

In [13]:
mundo['pais_rico'] = mundo.pib_per_capita > 36000

Vamos checar se funcionou...

In [14]:
mundo = mundo.sort_values('pib_per_capita', ascending=False)

In [15]:
mundo.head()

Unnamed: 0_level_0,regiao,pib_per_capita,polityIV,pais_rico
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Qatar,Middle East,85868,0.0,True
Norway,Scandinavia,58138,20.0,True
Singapore,Asia-Pacific,49284,8.0,True
United States,N. America,46716,20.0,True
Ireland,W. Europe,44200,20.0,True


In [16]:
mundo.tail()

Unnamed: 0_level_0,regiao,pib_per_capita,polityIV,pais_rico
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Eritrea,Africa,632,3.0,False
Guinea-Bissau,Africa,538,11.0,False
Liberia,Africa,388,10.0,False
Congo Kinshasa,Africa,321,15.0,False
Zimbabwe,Africa,188,6.0,False


### Excluir colunas

In [17]:
mundo = mundo.drop(columns = 'pais_rico')

In [18]:
mundo.head()

Unnamed: 0_level_0,regiao,pib_per_capita,polityIV
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Qatar,Middle East,85868,0.0
Norway,Scandinavia,58138,20.0
Singapore,Asia-Pacific,49284,8.0
United States,N. America,46716,20.0
Ireland,W. Europe,44200,20.0


Para excluir várias colunas de uma vez, passamos uma lista com os nomes das colunas. Por exemplo:

```python}
mundo.drop(columns = ['regiao','pais_rico'])
```

### Excluir linhas com dados faltando

No nosso dataframe, não temos nenhum dado faltando. Mas, se tivéssemos, poderíamos excluir a linha assim:

In [102]:
mundo = mundo.dropna()

### Alterar o tipo de uma variável

A variável pib_per_capita está como um inteiro. Vamos transformá-la em um float:

In [103]:
mundo.info()

<class 'pandas.core.frame.DataFrame'>
Index: 145 entries, Qatar to Zimbabwe
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   regiao          145 non-null    object 
 1   pib_per_capita  145 non-null    int64  
 2   polityIV        145 non-null    float64
dtypes: float64(1), int64(1), object(1)
memory usage: 4.5+ KB


In [104]:
mundo['pib_per_capita'] = mundo.pib_per_capita.astype('float')

In [105]:
mundo.info()

<class 'pandas.core.frame.DataFrame'>
Index: 145 entries, Qatar to Zimbabwe
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   regiao          145 non-null    object 
 1   pib_per_capita  145 non-null    float64
 2   polityIV        145 non-null    float64
dtypes: float64(2), object(1)
memory usage: 4.5+ KB


### Aplicar uma função a todas as colunas

In [106]:
mundo.apply('mean', axis = 0)

pib_per_capita    13251.993103
polityIV             13.407816
dtype: float64

### Aplicar uma função a todas as colunas por grupo

In [107]:
mundo.groupby('regiao').mean()

Unnamed: 0_level_0,pib_per_capita,polityIV
regiao,Unnamed: 1_level_1,Unnamed: 2_level_1
Africa,3613.095238,11.449206
Asia-Pacific,11551.708333,13.588889
C&E Europe,12570.8,14.154667
Middle East,21450.25,5.6875
N. America,32551.666667,19.333333
S. America,7862.421053,16.592982
Scandinavia,41888.75,20.0
W. Europe,35039.833333,19.916667


Podemos aplicar funções diferentes a colunas diferentes: 

In [114]:
mundo.groupby('regiao').agg({'pib_per_capita':['mean','median'],
                             'polityIV': ['max', 'min']})

Unnamed: 0_level_0,pib_per_capita,pib_per_capita,polityIV,polityIV
Unnamed: 0_level_1,mean,median,max,min
regiao,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Africa,3613.095238,1407.5,20.0,1.0
Asia-Pacific,11551.708333,4178.5,20.0,2.0
C&E Europe,12570.8,12261.0,20.0,1.0
Middle East,21450.25,14661.0,20.0,0.0
N. America,32551.666667,36444.0,20.0,18.0
S. America,7862.421053,8009.0,20.0,3.0
Scandinavia,41888.75,36995.0,20.0,20.0
W. Europe,35039.833333,34969.0,20.0,19.0
