# Pandas

Assim como Numpy, Pandas é um pacote muito famoso e utilizado para ciência de dados. Come ele, é possível trabalhar com tabelas de dados com grande facilidade.

## Importando Pand

In [124]:
import pandas as pd

## Importando dados para o Pandas

Um dos motivos da popularidade do Pandas é a facilidade de importar dados de arquivos para Dataframes.

Pandas já possui implementações de leitores de dados em CSV, TXT, JSON, XML, SAS7BDAT, SQL, Excel entre outros.

Vamos coeçar lendo os dados de população mundial por ano.

In [125]:
df_pop = pd.read_csv('../Database/world_population.csv')
df_pop

Unnamed: 0,Year,Total Population
0,1960,3034970564
1,1970,3684822701
2,1980,4436590356
3,1990,5282715991
4,2000,6115974486
5,2010,6924282937


Como podemos ver, há 3 colunas no Dataframe. Entretanto, se abrimos o arquivo .csv vemos algo diferente:

In [126]:
# neste código abrimos o arquivo de texto e fazemos o print de todas as linhas
with open('../Database/world_population.csv', 'r') as file:
    print("".join(file.readlines()))

Year, Total Population
1960, 3034970564
1970, 3684822701
1980, 4436590356
1990, 5282715991
2000, 6115974486
2010, 6924282937


O que acontece é que o Pandas criou uma coluna a mais, sem nome, em negrito. Esta coluna é chamada de índice/index. Pandas cria a coluna de índice automaticamente quando importa os dados. Ao usar o parâmetro index_col, Pandas usa a coluna já existente nos dados especificada como índice do dataframe.

Os índices são muito úteis para fazer agrupações, transformações ou fusões de dados.


## Salvando um dataframe

Da mesma forma que podemos importar ou carregar dados para o Pandas, podemos salvar os DataFrames em arquivos. Os formatos possíveis são os mesmos aceitos para carregar.

In [127]:
df_pop.to_csv("../database/df_pop.csv")

## Acessando os dados

Para acessar a uma coluna do dataframe, é possível utilizar os colchetes como exemplificado:

nome_dataframe[nome_coluna]

In [128]:
df_pop["Year"]

0    1960
1    1970
2    1980
3    1990
4    2000
5    2010
Name: Year, dtype: int64

Ao selecionar uma coluna, Pandas retorna uma pd.Series. Neste objeto hhá 4 informações importantes:

  - index: é o índice dos dados (os mesmos do dataframe)
  - name: é o nome da série (o nome da coluna selecionada do dataframe)
  - dtype: tipo de dados dos valores
  - values: são os valores dos dados

## Acessar as duas ou mais colunas

Também é possível acessar duas ou mais colunas que queira visualizar.

In [130]:
df_pop[["Year", "Total Population"]]

Unnamed: 0,Year,Total Population
0,1960,3034970564
1,1970,3684822701
2,1980,4436590356
3,1990,5282715991
4,2000,6115974486
5,2010,6924282937


Nesse caso há apenas duas colunas no dataframe, mas esta é a sintaxe. O resultado será um dataframe com as colunas selecionadas.

## Acessando um valor

Para acessar um valor específico, basta usar .loc[index, coluna] ou .iloc[num_linha, num_coluna]:

In [129]:
data = {
    "Year": [1960, 1970, 1980, 1990, 2000, 2010],
    "Total Population": [3034970564, 3684822701, 4436590356, 5282715991, 6115974486, 6924282937]
}

df_pop = pd.DataFrame(data)

print(df_pop)

   Year  Total Population
0  1960        3034970564
1  1970        3684822701
2  1980        4436590356
3  1990        5282715991
4  2000        6115974486
5  2010        6924282937


In [131]:
df_pop.set_index("Year")

Unnamed: 0_level_0,Total Population
Year,Unnamed: 1_level_1
1960,3034970564
1970,3684822701
1980,4436590356
1990,5282715991
2000,6115974486
2010,6924282937


In [132]:
df_pop = df_pop.set_index("Year")
df_pop

Unnamed: 0_level_0,Total Population
Year,Unnamed: 1_level_1
1960,3034970564
1970,3684822701
1980,4436590356
1990,5282715991
2000,6115974486
2010,6924282937


In [133]:
df_pop.loc[2000]

Total Population    6115974486
Name: 2000, dtype: int64

In [134]:
df_pop.loc[2000, "Total Population"]

6115974486

In [143]:
df_pop.loc[4, "Year": "Total Population"]

Year                      2000
Total Population    6115974486
Name: 4, dtype: int64

In [144]:
df_pop.set_index("Year").iloc[2, 0]

4436590356

In [142]:
df_pop.loc[0, "Year"]

1960

In [138]:
df_pop.reset_index()

Unnamed: 0,Year,Total Population
0,1960,3034970564
1,1970,3684822701
2,1980,4436590356
3,1990,5282715991
4,2000,6115974486
5,2010,6924282937


In [145]:
df_pop = df_pop.reset_index()

In [146]:
df_pop.iloc[4, 0]

4

In [147]:
df_pop.iloc[4]

index                        4
Year                      2000
Total Population    6115974486
Name: 4, dtype: int64

## Visualizando as primeiras e últimas linhas

Para visualizar as primeiras linhas, basta usar .head(). É possível também visualizar últimas linhas do dataframe usando .tail(). Por padrão, são exibidas 5 linhas, mas é possível escolher o número de linhas digitando o valor entre os parênteses.

In [148]:
df_pop.head(3)

Unnamed: 0,index,Year,Total Population
0,0,1960,3034970564
1,1,1970,3684822701
2,2,1980,4436590356


In [149]:
df_pop.tail(2)

Unnamed: 0,index,Year,Total Population
4,4,2000,6115974486
5,5,2010,6924282937


In [150]:
df_pop.head()

Unnamed: 0,index,Year,Total Population
0,0,1960,3034970564
1,1,1970,3684822701
2,2,1980,4436590356
3,3,1990,5282715991
4,4,2000,6115974486


In [151]:
?df_pop.head

In [152]:
df_pop.loc[5]

index                        5
Year                      2010
Total Population    6924282937
Name: 5, dtype: int64

Dentro do pandas, ele chama as linhas e colunas individuais de **Séries**

In [153]:
type(df_pop.loc[5])

pandas.core.series.Series

# Criando novas colunas

Para criar uma nova coluna, basta atribuir o valor no Dataframe como se estivesse adicionando uma nova chave em um dic:

In [154]:
df_pop["Planet"] = "Earth"
df_pop

Unnamed: 0,index,Year,Total Population,Planet
0,0,1960,3034970564,Earth
1,1,1970,3684822701,Earth
2,2,1980,4436590356,Earth
3,3,1990,5282715991,Earth
4,4,2000,6115974486,Earth
5,5,2010,6924282937,Earth


Desta maneira, todas as linhas possuem o mesmo valor. Se quiser atribuir um valor para cada linha, é necessário fazer uma lista com o mesmo tamanho do índice do Dataframe.

In [155]:
df_pop["Decade"] = ["1951-1960", "1961-1970", "1971-1980", "1981-1990", "1991-2000", "2001-2010"]
df_pop

Unnamed: 0,index,Year,Total Population,Planet,Decade
0,0,1960,3034970564,Earth,1951-1960
1,1,1970,3684822701,Earth,1961-1970
2,2,1980,4436590356,Earth,1971-1980
3,3,1990,5282715991,Earth,1981-1990
4,4,2000,6115974486,Earth,1991-2000
5,5,2010,6924282937,Earth,2001-2010


# Calculando com Colunas

Geralmente quando estamos explorando os dados, para cada linha, queremos fazer cálculos com os valores das colunas.

Podemos fazer isso de duas formas.

Para exemplificar vamos calcular o ano anterior da coluna "Year"

In [156]:
# é possível atribuir isso a uma coluna no dataframe, por exemplo:
df_pop["Previous_Year"] = df_pop["Year"] - 1
df_pop["Year"] - 1

0    1959
1    1969
2    1979
3    1989
4    1999
5    2009
Name: Year, dtype: int64

In [157]:
df_pop

Unnamed: 0,index,Year,Total Population,Planet,Decade,Previous_Year
0,0,1960,3034970564,Earth,1951-1960,1959
1,1,1970,3684822701,Earth,1961-1970,1969
2,2,1980,4436590356,Earth,1971-1980,1979
3,3,1990,5282715991,Earth,1981-1990,1989
4,4,2000,6115974486,Earth,1991-2000,1999
5,5,2010,6924282937,Earth,2001-2010,2009


In [158]:
df_pop.eval("Year - 1")

0    1959
1    1969
2    1979
3    1989
4    1999
5    2009
Name: Year, dtype: int64

In [159]:
df_pop.eval("Year ** 2 - 1")

0    3841599
1    3880899
2    3920399
3    3960099
4    3999999
5    4040099
Name: Year, dtype: int64

A função ``eval`` é muito útil para fazer cálculos entre as colunas do dataframe. Também é possível atribuir o resultado a uma coluna no dataframe, usando a mesma sintaxe acima ou usar a sintaxe específica do ``eval``:

In [160]:
df_pop = df_pop.eval("Previous_Year2 = Year - 1")

In [161]:
df_pop

Unnamed: 0,index,Year,Total Population,Planet,Decade,Previous_Year,Previous_Year2
0,0,1960,3034970564,Earth,1951-1960,1959,1959
1,1,1970,3684822701,Earth,1961-1970,1969,1969
2,2,1980,4436590356,Earth,1971-1980,1979,1979
3,3,1990,5282715991,Earth,1981-1990,1989,1989
4,4,2000,6115974486,Earth,1991-2000,1999,1999
5,5,2010,6924282937,Earth,2001-2010,2009,2009


In [162]:
df_pop.eval("Previous_Year3 = Year - 1", inplace=True)

In [163]:
df_pop

Unnamed: 0,index,Year,Total Population,Planet,Decade,Previous_Year,Previous_Year2,Previous_Year3
0,0,1960,3034970564,Earth,1951-1960,1959,1959,1959
1,1,1970,3684822701,Earth,1961-1970,1969,1969,1969
2,2,1980,4436590356,Earth,1971-1980,1979,1979,1979
3,3,1990,5282715991,Earth,1981-1990,1989,1989,1989
4,4,2000,6115974486,Earth,1991-2000,1999,1999,1999
5,5,2010,6924282937,Earth,2001-2010,2009,2009,2009
