## Séries e Dataframes Pandas  
**Series** nada mais é que um array de 1 dimensão. Você pode considerar um Series também como uma coluna de uma tabela.  
  
  
Um **DataFrame** é simplesmente um conjunto de Series. Trata-se de uma estrutura de dados de 2 dimensões — colunas e linhas — que transforma os dados em uma tabela.

#### Criando um dataframe  
Existem diversas formas, abaixo mostrarei como criar a partir de um dicionário onde as chaves serão as colunas e os valores serão as linhas de cada coluna  
>Usualmente cria-se um data set importanto os dados que geralmente estão em formato "csv", ou "excel". Para isso usamos um método do pandas, que pode ser "**pd.read_csv( nome_do_arquivo.csv )**" ou "**pd.read_excel( nome_do_arquivo.xlsx, *planilha_opcional* )**"  
>>Escrever (**SALVAR**) um arquivo csv: **pd.to_csv(nome do aquivo)**

In [52]:
import pandas as pd

In [53]:
data = {
'País': ['Bélgica', 'Índia', 'Brasil'],
'Capital': ['Bruxelas', 'Nova Delhi', 'Brasília'],
'População': [123465, 456789, 987654]
}

# Agora criaremos o dataframe com o metodo pd.DataFrame --- atenção para os maiúsculos
df = pd.DataFrame(data, columns=['País','Capital','População'])
print(df, end = '\n')
print(type(df))

      País     Capital  População
0  Bélgica    Bruxelas     123465
1    Índia  Nova Delhi     456789
2   Brasil    Brasília     987654
<class 'pandas.core.frame.DataFrame'>


### Removendo linhas e colunas  
Função .drop()  
>LINHAS pelo index:   df.drop( [ 0, 1 ] )  
COLUNAS com o argumento **axis = 1**: df.drop( 'País', axis = 1 )
>> **axis** - refere-se ao eixo que será usado com referencia **axis 0** é o eixo X, e **axis 1** é o Y.  
Por default axis = 0, isto é, quando não passamos explicitamente esse parametro, a função usa axis = 0


## Informações básicas de um DataFrame

Quantidade de linhas e colunas do DataFrame
>df.shape  
  
Descrição do Index
> df.index  
  
Colunas presentes no DataFrame
> df.columns  
  

Contagem de linhas com dados não-nulos de cada coluna
> df.count()

In [54]:
df.count()

País         3
Capital      3
População    3
dtype: int64

#### Resumo dos dados:  
Soma dos valores de um DataFrame
> df.sum()  

Menor valor de um DataFrame
> df.min()  

Maior valor
> df.max()  


Resumo estatístico do DataFrame, com quartis, mediana, etc.
> df.describe()  
>> Atenção se for usada em colunas categóricas, serão apresentados informações como frequencia, valores unicos etc

Média dos valores
> df.mean()  

Mediana dos valores
> df.median()

In [55]:
df['País'].describe()

count           3
unique          3
top       Bélgica
freq            1
Name: País, dtype: object

In [56]:
df.max()

País              Índia
Capital      Nova Delhi
População        987654
dtype: object

#### Aplicando funções  
Usamos a função " .aplly( ) " passando como parametro a função a ser rodada.  

>Exemplo: aplicando uma função que substitui Brasil por BRA

In [57]:
df.apply(lambda x: x.replace('Brasil', 'BRA'))
# df.replace(original, novo) - substitui apenas os dados, nao se aplica a coluna

Unnamed: 0,País,Capital,População
0,Bélgica,Bruxelas,123465
1,Índia,Nova Delhi,456789
2,BRA,Brasília,987654


In [58]:
df

Unnamed: 0,País,Capital,População
0,Bélgica,Bruxelas,123465
1,Índia,Nova Delhi,456789
2,Brasil,Brasília,987654


Ordenando o dataframe por uma determinada coluna:  
> .sort_values( by = coluna, ascending = True)

In [59]:
df.sort_values(by='População', ascending= False)

Unnamed: 0,País,Capital,População
2,Brasil,Brasília,987654
1,Índia,Nova Delhi,456789
0,Bélgica,Bruxelas,123465


### Operações aritmeticas com Series

In [60]:
s = pd.Series([1, 3, 5, 7, 9, 11], index = ['a', 'b', 'c', 'd', 'e', 'f'])
print(s, type(s))

a     1
b     3
c     5
d     7
e     9
f    11
dtype: int64 <class 'pandas.core.series.Series'>


In [61]:
s.add(2) #soma 2 a todos mas NÃO ALTERA A SÉRIE
s.sub(4)
#print(s)
print(s.mul(12))
s.div(2)
#print(s)
# as operações são feitas em todos os elementos da Serie

a     12
b     36
c     60
d     84
e    108
f    132
dtype: int64


a    0.5
b    1.5
c    2.5
d    3.5
e    4.5
f    5.5
dtype: float64

### Indexação por Boolean

In [62]:
df[df['População'] % 2 == 0]

Unnamed: 0,País,Capital,População
2,Brasil,Brasília,987654


### Selecionando valores  
df.loc [ "indice linha", "Nome da Coluna" ] -- label-based  
  
df.iloc [ "indice linha", "indice coluna" ]  -- integer index-based

In [63]:
df.loc[0, 'País']

'Bélgica'

In [64]:
df.iloc[0,0]

'Bélgica'