# Pandas

É possível criar manualmente as DOIS TIPOS de estruturas:  

### Séries:
**Series** é na verdade um array NumPy de 1 dimensão com rótulos. Podemos criar Series da seguinte maneira:
##### s = pd.Series(dados)  
Onde, dados pode ser um dos itens abaixo:  
– Um numpy.ndarray  
– Um dicionário  
– Um valor escalar  

### DataFrame:
**DataFrame** é um array 2D com rótulos nas colunas e nas linhas. Conceitualmente é semelhante a uma tabela ou planilha de dados. Tem as seguintes características:  
– Colunas podem ser de diferentes tipos: float64, int , bool  
– Uma coluna do DataFrame é uma Series.  
– Podemos pensar que é um dicionário de Series, onde as colunas e linhas são indexadas, denota se index para linhas e columns no caso de colunas.  
– Os índices são necessários para acesso rápido aos dados.  
– Seu tamanho é mutável : colunas e linhas podem ser inseridas e deletadas.  
Podemos criar DataFrame da seguinte maneira:  
##### df = pd.DataFrame(dados)   
Onde, dados pode ser:  
– Dicionário de ndarrays de 1D, listas, dicionários, ou Series  
– Array 2D do NumPy  
– Dados estruturados 
– Series  
– Outra estrutura DataFrame  


In [1]:
import pandas as pd

In [2]:
import os.path
def path_base(base_name):
    current_dir = os.path.abspath(os.path.join(os.getcwd()))
    data_dir = current_dir.replace('notebook','data')
    data_base = data_dir + '\\' + base_name
    return data_base

In [5]:
df = pd.read_csv(path_base('db_dados.tsv'),sep='\t')

In [6]:
print(type(df))

<class 'pandas.core.frame.DataFrame'>


In [7]:
df.shape

(1704, 6)

In [8]:
print(df.columns)

Index(['pais', 'continente', 'ano', 'expectativa vida', 'populacao', 'pib'], dtype='object')


In [9]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1704 entries, 0 to 1703
Data columns (total 6 columns):
pais                1704 non-null object
continente          1704 non-null object
ano                 1704 non-null int64
expectativa vida    1704 non-null float64
populacao           1704 non-null int64
pib                 1704 non-null float64
dtypes: float64(2), int64(2), object(2)
memory usage: 80.0+ KB
None


In [10]:
df['continente'].head(2)

0    Asia
1    Asia
Name: continente, dtype: object

In [11]:
df['continente'].tail(2)

1702    Africa
1703    Africa
Name: continente, dtype: object

In [12]:
df.head(2)

Unnamed: 0,pais,continente,ano,expectativa vida,populacao,pib
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.85303


# Métodos para acesso as linhas

**.loc:**  
Subconjunto baseado no rótulo do índice (Nomedalinha) >> INDICE EXPLÍCITO  

**.iloc:**  
Subconjunto baseado no índice (numerdalinha)  >> INDICE EXPLÍCITO 

Como vimos, quando criamos um subconjunto com apenas
uma linha, o Pandas estrutura os dados no tipo Series.  
O Pandas permite acessar os dados via índice explicito
(nome) e índice implícito (número).    
Em nosso conjunto de dados, tanto o índice explicito (nome) e o índice implícito (número) são os mesmos, mas temos que ter atenção pois eles podem ser diferentes.



In [13]:
s1 = pd.Series (['a', 'b', 'c'], index=[1,3,5])
s1

1    a
3    b
5    c
dtype: object

In [14]:
print(s1.iloc[0])
print(s1.iloc[1])
print(s1.iloc[2])
#print(s1.iloc[3])   Erro


a
b
c


In [15]:
#print(s1.loc[0]) Erro
print(s1.loc[1])
#print(s1.loc[2]) Erro
print(s1.loc[3])

a
b


In [16]:
print(s1.iloc[1:2])
print(s1.iloc[1:3])
print(s1.loc[1:3])

3    b
dtype: object
3    b
5    c
dtype: object
1    a
3    b
dtype: object


In [17]:
x = 'abcd'
print(x[1:2])
print(x[1:3])

b
bc


Também podemos utilizar o loc e o iloc para obter
subconjuntos de colunas, linhas ou ambos.  

A sintaxe geral do loc e do iloc para esse cenário são:

df.loc[[linhas],[colunas]]  
df.iloc[[linhas],[colunas]]

Podemos realizar inúmeras operações, como seleção, atribuição, remoção, alinhamento, aplicar funções aritméticas e estatísticas entre outros.

# Carregar DataFrame

O Pandas disponibiliza diversos métodos para carregar diferentes tipos de dados, segue alguns deles:  
pd.read_csv('caminho ate arquivo.csv', sep=';')  
pd.read_excel('caminho ate arquivo.xlsx', 'Sheet1')  
sql.read_frame(query, connection)  

In [19]:
df_cap = pd.read_csv(path_base('db_capitais.csv'), sep=',')

In [20]:
df_cap.shape

(27, 3)

In [21]:
df_cap.head(2)

Unnamed: 0,municipio,populacao 2015,area_km2
0,Aracaju,632744.0,174.05
1,Belo Horizonte,2502557.0,313.55


In [22]:
print(df_cap.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27 entries, 0 to 26
Data columns (total 3 columns):
municipio         27 non-null object
populacao 2015    27 non-null float64
area_km2          27 non-null float64
dtypes: float64(2), object(1)
memory usage: 776.0+ bytes
None


In [23]:
print(df_cap.describe())

       populacao 2015      area_km2
count    2.700000e+01     27.000000
mean     1.803116e+06   3615.661481
std      2.409483e+06   6863.018479
min      2.727260e+05     93.380000
25%      5.416185e+05    373.435000
50%      1.013773e+06    827.140000
75%      1.968533e+06   4612.615000
max      1.196782e+07  34082.370000


In [24]:
df_cap = df_cap.rename(columns={"populacao 2015": "populacao_2015"})
df_cap.head(1)

Unnamed: 0,municipio,populacao_2015,area_km2
0,Aracaju,632744.0,174.05


In [25]:
# Area maior que 400km2
df_cap[df_cap['area_km2']>400].head(3)

Unnamed: 0,municipio,populacao_2015,area_km2
2,Belém,1439561.0,1064.92
3,Boa Vista,320714.0,5687.06
4,Brasília,2914830.0,5801.94


In [26]:
# Area maior que 400km2
df_cap[df_cap['populacao_2015']>2000000].head(3)

Unnamed: 0,municipio,populacao_2015,area_km2
1,Belo Horizonte,2502557.0,313.55
4,Brasília,2914830.0,5801.94
9,Fortaleza,2591188.0,313.14


In [27]:
# Populacao maior que 2000000
df_cap[df_cap.populacao_2015>2000000].head(3)

Unnamed: 0,municipio,populacao_2015,area_km2
1,Belo Horizonte,2502557.0,313.55
4,Brasília,2914830.0,5801.94
9,Fortaleza,2591188.0,313.14


In [28]:
# Populacao maior que 1000000 e area menor que 500km2 
df_cap[(df_cap.populacao_2015>1000000) & (df_cap.area_km2<500)]

Unnamed: 0,municipio,populacao_2015,area_km2
1,Belo Horizonte,2502557.0,313.55
7,Curitiba,1879355.0,434.97
9,Fortaleza,2591188.0,313.14
17,Porto Alegre,1476867.0,496.83
19,Recife,1617183.0,217.49


In [29]:
# Populacao maior que 5000000 e area maior que 5000km2 
df_cap[(df_cap.populacao_2015>5000000) | (df_cap.area_km2>5000)]

Unnamed: 0,municipio,populacao_2015,area_km2
3,Boa Vista,320714.0,5687.06
4,Brasília,2914830.0,5801.94
5,Campo Grande,853622.0,8096.05
12,Macapá,456171.0,6407.12
14,Manaus,2057711.0,11401.06
18,Porto Velho,502748.0,34082.37
20,Rio Branco,370550.0,9222.58
21,Rio de Janeiro,6476631.0,1182.3
24,São Paulo,11967825.0,1522.99


In [30]:
df_cap["populacao_2015"].get('São Paulo', 'Não encontrou')

'Não encontrou'