# Pandas: começando a trabalhar com bancos de dados

[![Binder](https://mybinder.org/badge_logo.svg)](https://mybinder.org/v2/gh/geliasrd/estudandopython/master?filepath=%2Fnotebooks%2FPandas%2FPandas_1.ipynb)

## Contextualizando

Como sabemos, o Python, diferentemente do R, não foi construído com o trabalho estatístico e de ciência de dados em mente. Ou seja, a maioria das funcionalidades que precisamos para nossa rotina de trabalho serão adicionadas por meio de bibliotecas.

A primeira biblioteca que vamos ver tem como nome, [Pandas](https://pandas.pydata.org/), e ela nos possibilita o trabalho com bancos de dados, de uma maneira eficiente e simples. O Pandas é construída em cima de outras duas bibliotecas muito importantes, e que veremos mais adiante, o Matplotlib e o Numpy.

Ou seja, ao importar esta biblioteca a nossa sessão, estaremos adicionando ao Python varias funcionalidades relacionadas a bancos de dados. Primeiramente poderemos importar arquivos csv, txt, xls dentre outros, estes arquivos então serão disponibilizados para trabalhar em um objeto que o Pandas chama de [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html).

Esse novo objeto vem com diversos métodos e atributos que serão muito utilizados em nossas analises.

Começaremos então importando essa biblioteca, e dando um "apelido" a ele, pra facilitar sua chamada ao longo da sessão, fazendo com que não seja necessário escrever o nome completo da biblioteca toda vez que chamarmos alguma função ou utilizarmos algo que pertence a ela. O padrão para o Pandas é abreviar com as letras pd.

In [1]:
import pandas as pd

Agora que já temos a biblioteca importada, podemos então começar com o que havíamos falado anteriormente, importando um banco de dados. Isso se da atraves da função `read_*`, onde `*` é o tipo do arquivo. Como estamos utilizando um banco csv, vamos utilizar a função `read_csv`, mas existem outras como pro exemplo a `read_excel` para lermos arquivos xls, xlsx dentre outros.

A função `read_csv` necessita receber como parâmetro, o caminho para o arquivo, mas também podemos informar diferentes separadores, informar colunas para índice, importar somente algumas partes do banco caso falte memoria, entre outros.

In [2]:
bill = pd.read_csv("~/estudandopython/datasets/billionaires.csv")
bill

Unnamed: 0,name,rank,year,company.founded,company.name,company.relationship,company.sector,company.type,demographics.age,demographics.gender,...,location.gdp,location.region,wealth.type,wealth.worth in billions,wealth.how.category,wealth.how.from emerging,wealth.how.industry,wealth.how.inherited,wealth.how.was founder,wealth.how.was political
0,Bill Gates,1,1996,1975,Microsoft,founder,Software,new,40,male,...,8.100000e+12,North America,founder non-finance,18.5,New Sectors,True,Technology-Computer,not inherited,True,True
1,Bill Gates,1,2001,1975,Microsoft,founder,Software,new,45,male,...,1.060000e+13,North America,founder non-finance,58.7,New Sectors,True,Technology-Computer,not inherited,True,True
2,Bill Gates,1,2014,1975,Microsoft,founder,Software,new,58,male,...,0.000000e+00,North America,founder non-finance,76.0,New Sectors,True,Technology-Computer,not inherited,True,True
3,Warren Buffett,2,1996,1962,Berkshire Hathaway,founder,Finance,new,65,male,...,8.100000e+12,North America,founder non-finance,15.0,Traded Sectors,True,Consumer,not inherited,True,True
4,Warren Buffett,2,2001,1962,Berkshire Hathaway,founder,Finance,new,70,male,...,1.060000e+13,North America,founder non-finance,32.3,Traded Sectors,True,Consumer,not inherited,True,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2609,Wu Chung-Yi,1565,2014,1991,Tingyi,investor,beverages and food,new,55,male,...,0.000000e+00,East Asia,executive,1.0,Traded Sectors,True,Non-consumer industrial,not inherited,True,True
2610,Wu Xiong,1565,2014,1999,Biostime International Holdings,owner,infant formula,new,0,male,...,0.000000e+00,East Asia,executive,1.0,Traded Sectors,True,Consumer,not inherited,True,True
2611,Yang Keng,1565,2014,0,Blue Ray Corp,chairman,real estate,new,53,male,...,0.000000e+00,East Asia,self-made finance,1.0,Financial,True,Real Estate,not inherited,True,True
2612,Zdenek Bakala,1565,2014,1994,Patria Finance,founder,coal,new,53,male,...,0.000000e+00,Europe,privatized and resources,1.0,Resource Related,True,Mining and metals,not inherited,True,True


# Conhecendo o banco

Para começarmos a entender melhor o banco que estamos trabalhando, podemos usar alguns métodos e atributos do `DataFrame`.
O atributo `shape` nos informa a quantidade de linhas e colunas respectivamente do banco de dados, e o `columns` retorna de maneira ordenada, o nome de cada uma das colunas do banco.

In [3]:
print(type(bill)) 
print(bill.shape)
print(bill.columns)

<class 'pandas.core.frame.DataFrame'>
(2614, 22)
Index(['name', 'rank', 'year', 'company.founded', 'company.name',
       'company.relationship', 'company.sector', 'company.type',
       'demographics.age', 'demographics.gender', 'location.citizenship',
       'location.country code', 'location.gdp', 'location.region',
       'wealth.type', 'wealth.worth in billions', 'wealth.how.category',
       'wealth.how.from emerging', 'wealth.how.industry',
       'wealth.how.inherited', 'wealth.how.was founder',
       'wealth.how.was political'],
      dtype='object')


Podemos ter uma visão mais geral utilizando os métodos `info` e `describe`. O `info` nos mostra o numero de índice da coluna, seu nome, quantidade de não nulos e o tipo do dado, além de informar quanta memoria é utilizada pelo banco.

In [4]:
bill.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2614 entries, 0 to 2613
Data columns (total 22 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   name                      2614 non-null   object 
 1   rank                      2614 non-null   int64  
 2   year                      2614 non-null   int64  
 3   company.founded           2614 non-null   int64  
 4   company.name              2576 non-null   object 
 5   company.relationship      2568 non-null   object 
 6   company.sector            2591 non-null   object 
 7   company.type              2578 non-null   object 
 8   demographics.age          2614 non-null   int64  
 9   demographics.gender       2580 non-null   object 
 10  location.citizenship      2614 non-null   object 
 11  location.country code     2614 non-null   object 
 12  location.gdp              2614 non-null   float64
 13  location.region           2614 non-null   object 
 14  wealth.t

O `describe` por sua vez, calcula algumas estatísticas básicas sobre as variáveis numéricas, como média, desvio padrão entre outras.

In [5]:
bill.describe()

Unnamed: 0,rank,year,company.founded,demographics.age,location.gdp,wealth.worth in billions
count,2614.0,2614.0,2614.0,2614.0,2614.0,2614.0
mean,599.672533,2008.41163,1924.711936,53.341239,1769103000000.0,3.531943
std,467.885695,7.483598,243.776546,25.33332,3547083000000.0,5.088813
min,1.0,1996.0,0.0,-42.0,0.0,1.0
25%,215.0,2001.0,1936.0,47.0,0.0,1.4
50%,430.0,2014.0,1963.0,59.0,0.0,2.0
75%,988.0,2014.0,1985.0,70.0,725000000000.0,3.5
max,1565.0,2014.0,2012.0,98.0,10600000000000.0,76.0


É interessante também configurar o quanto sera mostrado toda vez que pedirmos algo do banco, podemos fazer isso através do `set_option`. Podemos então configurar o máximo de linhas e colunas, e o mínimo de linhas a serem mostrado. Isso varia com o caso e interface que está sendo usada, para essa aula estaremos usando as configurações abaixo, mas sem nenhuma razão específica.

In [6]:
pd.set_option("display.max_rows", 28)
pd.set_option("display.min_rows", 18)
pd.set_option("display.max_columns", 8)

Podemos ver agora, que diferente da primeira vez que chamamos o bill, agora 18 linhas foram mostradas ao invés das 10 na primeira vez.

In [7]:
bill

Unnamed: 0,name,rank,year,company.founded,...,wealth.how.industry,wealth.how.inherited,wealth.how.was founder,wealth.how.was political
0,Bill Gates,1,1996,1975,...,Technology-Computer,not inherited,True,True
1,Bill Gates,1,2001,1975,...,Technology-Computer,not inherited,True,True
2,Bill Gates,1,2014,1975,...,Technology-Computer,not inherited,True,True
3,Warren Buffett,2,1996,1962,...,Consumer,not inherited,True,True
4,Warren Buffett,2,2001,1962,...,Consumer,not inherited,True,True
5,Carlos Slim Helu,2,2014,1990,...,Media,not inherited,True,True
6,Oeri Hoffman and Sacher,3,1996,1896,...,Technology-Medical,3rd generation,True,True
7,Paul Allen,3,2001,1975,...,Technology-Computer,not inherited,True,True
8,Amancio Ortega,3,2014,1975,...,"Retail, Restaurant",not inherited,True,True
...,...,...,...,...,...,...,...,...,...


Assim como no R, podemos usar o `head`e `tail`pra ver o inicio e o fim do banco. Se passarmos o método sem nenhum parâmetro, eles tem como padrão 5, mas também podemos passar qualquer numero desejado.

In [8]:
bill.head()

Unnamed: 0,name,rank,year,company.founded,...,wealth.how.industry,wealth.how.inherited,wealth.how.was founder,wealth.how.was political
0,Bill Gates,1,1996,1975,...,Technology-Computer,not inherited,True,True
1,Bill Gates,1,2001,1975,...,Technology-Computer,not inherited,True,True
2,Bill Gates,1,2014,1975,...,Technology-Computer,not inherited,True,True
3,Warren Buffett,2,1996,1962,...,Consumer,not inherited,True,True
4,Warren Buffett,2,2001,1962,...,Consumer,not inherited,True,True


In [9]:
bill.tail(8)

Unnamed: 0,name,rank,year,company.founded,...,wealth.how.industry,wealth.how.inherited,wealth.how.was founder,wealth.how.was political
2606,Wang Muqing,1565,2014,1999,...,"Retail, Restaurant",not inherited,True,True
2607,Wang Yong,1565,2014,1986,...,Consumer,not inherited,True,True
2608,"William Moncrief, Jr.",1565,2014,1929,...,Energy,father,True,True
2609,Wu Chung-Yi,1565,2014,1991,...,Non-consumer industrial,not inherited,True,True
2610,Wu Xiong,1565,2014,1999,...,Consumer,not inherited,True,True
2611,Yang Keng,1565,2014,0,...,Real Estate,not inherited,True,True
2612,Zdenek Bakala,1565,2014,1994,...,Mining and metals,not inherited,True,True
2613,Zhu Wenchen,1565,2014,1999,...,Technology-Medical,not inherited,True,True


Para selecionar uma coluna, podemos passar, dentro de colchetes, seu nome entre aspas, o resultado disso é uma `Series`. Com isso podemos ver que então, um `DataFrame` pro Pandas, é uma coleção de `Series`.

In [10]:
print(bill["wealth.worth in billions"])
print(type(bill["wealth.worth in billions"]))

0       18.5
1       58.7
2       76.0
3       15.0
4       32.3
5       72.0
6       13.1
7       30.4
8       64.0
        ... 
2605     1.0
2606     1.0
2607     1.0
2608     1.0
2609     1.0
2610     1.0
2611     1.0
2612     1.0
2613     1.0
Name: wealth.worth in billions, Length: 2614, dtype: float64
<class 'pandas.core.series.Series'>


Agora que sabemos selecionar uma coluna, podemos também calcular algumas estatísticas sobre ela, como foi feito no `describe`. Para isso, após escolher a coluna, chamamos o método desejado. Segue alguns interessantes:
- `mean()`: média da coluna
- `median()`: mediana da coluna
- `mode()`: moda da coluna
- `min()`: valor mínimo
- `max()`: valor máximo
- `std()`: desvio padrão
- `cumsum()`: soma cumulativa

In [11]:
bill["wealth.worth in billions"].mean()

3.531943381790374

In [12]:
bill["wealth.worth in billions"].cumsum()

0         18.5
1         77.2
2        153.2
3        168.2
4        200.5
5        272.5
6        285.6
7        316.0
8        380.0
         ...  
2605    9224.5
2606    9225.5
2607    9226.5
2608    9227.5
2609    9228.5
2610    9229.5
2611    9230.5
2612    9231.5
2613    9232.5
Name: wealth.worth in billions, Length: 2614, dtype: float64

Podemos também selecionar mais de uma coluna ao mesmo tempo, pra isso, passamos os nomes das colunas, como uma lista, para o banco. O resultado dessa escolha sera um novo `DataFrame`, ao invés de uma `Series` como aconteceu com a seleção de uma coluna só.

In [13]:
print(bill[["wealth.worth in billions","location.gdp"]])
print(type(bill[["wealth.worth in billions","location.gdp"]]))

      wealth.worth in billions  location.gdp
0                         18.5  8.100000e+12
1                         58.7  1.060000e+13
2                         76.0  0.000000e+00
3                         15.0  8.100000e+12
4                         32.3  1.060000e+13
5                         72.0  0.000000e+00
6                         13.1  3.300000e+11
7                         30.4  1.060000e+13
8                         64.0  0.000000e+00
...                        ...           ...
2605                       1.0  0.000000e+00
2606                       1.0  0.000000e+00
2607                       1.0  0.000000e+00
2608                       1.0  0.000000e+00
2609                       1.0  0.000000e+00
2610                       1.0  0.000000e+00
2611                       1.0  0.000000e+00
2612                       1.0  0.000000e+00
2613                       1.0  0.000000e+00

[2614 rows x 2 columns]
<class 'pandas.core.frame.DataFrame'>


E assim como com uma coluna apenas, também podemos usar os métodos vistos anteriormente nos `DataFrames`.

In [14]:
bill[["wealth.worth in billions","location.gdp"]].mean()

wealth.worth in billions    3.531943e+00
location.gdp                1.769103e+12
dtype: float64

In [15]:
bill.mean()

rank                        5.996725e+02
year                        2.008412e+03
company.founded             1.924712e+03
demographics.age            5.334124e+01
location.gdp                1.769103e+12
wealth.worth in billions    3.531943e+00
wealth.how.from emerging    1.000000e+00
wealth.how.was founder      1.000000e+00
wealth.how.was political    1.000000e+00
dtype: float64

Para facilitar nossa vida e reduzir a repetição, podemos armazenar o que estamos fazendo em variáveis.

In [16]:
a = bill[["wealth.worth in billions","location.gdp"]].mean()
print(a)
print(type(a))

wealth.worth in billions    3.531943e+00
location.gdp                1.769103e+12
dtype: float64
<class 'pandas.core.series.Series'>


Também é possível passar as colunas e seleções como variáveis, nos poupando muito trabalho de reescrita e até automatizar o processo de seleção, dado que podemos adicionar e remover itens de uma lista facilmente.

In [17]:
b = ["wealth.worth in billions","location.gdp"]
bill[b].mean()

wealth.worth in billions    3.531943e+00
location.gdp                1.769103e+12
dtype: float64