<a href="https://colab.research.google.com/github/gisesonia/python_pandas/blob/main/tutorial_pandas_ocean.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PANDAS

### É a biblioteca mais popular para lidar com dados em Ciência de Dados.
### Possui duas coleções: a) `Series` e b) `DataFrame`.

# Importando a biblioteca PANDAS

In [1]:
import pandas as pd

# `Series`

### Características:

*   É uma **lista**.
*   Diferentemente de vetores (*arrays*) e/ou listas convencionais, `Series` suporta customização dos índices.

### Criação de `Series` com índices padrão (*default*)

A criação é realizada através do comando `pd.Series()`.

Exemplo:

In [2]:
s = pd.Series ([10, 20, 30, 40, 50])

### Exibição de uma `Series`

In [3]:
print (s)

0    10
1    20
2    30
3    40
4    50
dtype: int64


Partes:

*   Coluna à esquerda -> índice
*   Coluna à direita -> valores
*   Última linha -> tipo de dados (`dtype`)




### Acessar a um elemento

In [4]:
print (s[2])

30


### Criação de uma `Series` com valores iguais

In [5]:
pd.Series (9.7, range(4))

0    9.7
1    9.7
2    9.7
3    9.7
dtype: float64

### Estatísticas para uma `Series`

Funções:

*   `count`
*   `mean`
*   `min`
*   `max`
*   `std`

Exemplos:



In [6]:
print (s)

0    10
1    20
2    30
3    40
4    50
dtype: int64


In [7]:
s.count()

5

In [8]:
s.mean()

30.0

In [9]:
s.min()

10

In [10]:
s.max()

50

In [11]:
s.std()

15.811388300841896

As funções de estatística podem ser resumidas com `describe()`

In [12]:
s.describe()

count     5.000000
mean     30.000000
std      15.811388
min      10.000000
25%      20.000000
50%      30.000000
75%      40.000000
max      50.000000
dtype: float64

### Criação de índices customizados

*   `Series` não tem o nome de uma coluna.
*   Porém, é possível nomear os índices (*index*).

Exemplo:

In [13]:
s_custom = pd.Series ([10, 20, 30], index=['1a dezena', '2a dezena', '3a dezena'])

In [14]:
print (s_custom)

1a dezena    10
2a dezena    20
3a dezena    30
dtype: int64


É possível acessar os elementos individualmente de várias formas:

In [15]:
print (s_custom[2])

30


In [16]:
print (s_custom['3a dezena'])

30


### Como seria possível criar uma `Series` com duas colunas?



In [17]:
pd.Series ([10, 20, 30, 40], [15, 25, 35, 45])

15    10
25    20
35    30
45    40
dtype: int64

# `DataFrame`

### Características:


*   Estrutura bidimensional.
*   É uma **tabela**.
*   Cada coluna de um `DataFrame` é uma `Series`.
*   Cada coluna pode ser de um tipo diferente.



### Criação um `DataFrame` a partir de um dicionário.

Exemplo 1:

In [None]:
dic1 = {'ESTADO': ['Amazonas', 'Amapá', 'Acre'], 'SIGLA': ['AM', 'AP', 'AC'], 'CAPITAL': ['Manaus', 'Macapá', 'Rio Branco']} 

In [None]:
pd.DataFrame(dic1)

Exemplo 2:

In [None]:
pd.DataFrame({'ESTADO': ['Amazonas', 'Amapá', 'Acre'], 'POPULACAO': ['4144597', '845731', '881935']})

### Construtor DataFrame

```
pd.DataFrame()
```

É a forma padrão de se construir um novo `DataFrame`.

Sintaxe:


*   É um dicionário.
*   As chaves do dicionário são as colunas.
*   Os valores são a lista de entrada.





### Características do construtor:

*   O construtor do tipo `DataFrame` atribui valores sequenciais.
*   Estes valores são conhecidos como índices (*index*).
*   Porém, é possível personalizar (customizar) os valores dos índices.



### Customização do índice:

Exemplo:

In [None]:
dic2 = pd.DataFrame({'ESTADO': ['Amazonas', 'Amapá', 'Acre'], 
              'POPULACAO': ['4144597', '845731', '881935']},
             index=['AM', 'AP', 'AC'])

In [None]:
dic2

### Acessando elementos do `DataFrame`

Exemplo 1:

In [None]:
dic2['ESTADO']

Exemplo 2:

In [None]:
dic2.ESTADO

### Seria possível criar um DataFrame com quantidades de linhas diferentes por coluna?

In [None]:
pd.DataFrame({'ESTADO': ['Amazonas', 'Amapá', 'Acre'], 'POPULACAO': ['4144597', '881935']})

# Leitura de arquivos

### Características gerais sobre a leitura de arquivos:



*   Na prática, iremos trabalhar com dados já existentes.
*   Existem vários formatos de arquivos.
*   O formato CSV é um dos formatos mais comuns.
*   Um arquivo CSV é uma tabela cujos valores estão separados por vírgulas (*Comma-Separated Values*).

### Leitura de arquivos CSV em Pandas como um `DataFrame`:

Comando padrão:

`pd.read_csv()`

Exemplo:

In [None]:
dados = pd.read_csv("http://tiagodemelo.info/datasets/dados-curso.csv")

### Atributo `shape` 

Permite verificar o tamanho dos dados.

Exemplo:

In [None]:
dados.shape

### Comando `head`

Podemos ter uma noção do conjunto de dados.



Exemplo:

In [None]:
dados.head()

### Manipulação de dados

Pandas possui uma série de recursos que permite manipular os dados no formato de `DataFrame`.

In [None]:
dados

### As propriedades de um objeto podem ser acessadas como um atributo:

Exemplo 1:

In [None]:
dados.lugar

In [None]:
for i in dados.lugar:
  print(i)

Exemplo 2:

In [None]:
dados['lugar']

Exemplo 3:

In [None]:
dados['lugar'][0]

# Indexação em Pandas

### Seleção baseada em índices

#### Seleção de dados baseada na posição numérica dos dados.

### Selecionar a primeira linha

Exemplo 1:

In [None]:
dados.iloc[100]

Exemplo 2:

In [None]:
dados.iloc[:,7]

Exemplo 3:

In [None]:
dados.iloc[-5:]

Exemplo 5:

In [None]:
dados.loc[0, 'pais']

# Manipulação de índices

### É possível fazer a indexação dados por um atributo.

### Exemplo:

In [None]:
dados.set_index('pais')

# Seleção condicional

É possível consultar os dados de acordo com algum critério (condição)

Exemplo:

In [None]:
dados.sigla == 'BR'

### Essa operação pode ser usado em combinação `loc`

In [None]:
dados.loc[dados.sigla == 'BR']

# Funções de Sumário (*Summary*)

### `describe()` é a função que apresenta um conjunto de estatísticas sobre um determinado campo (coluna).

Exemplo 1:

In [None]:
dados.retweet.describe()

### A função `describe()` ainda pode ser utilizada para campos não numéricos


Exemplo 1:

In [None]:
dados.sigla.describe()

Exemplo 2:

In [None]:
dados.data.describe()

### É possível ainda usar uma função de estatística específica para um determinado campo

In [None]:
dados.retweet.mean()

### A função `unique()` apresenta os valores únicos

In [None]:
dados.sigla.unique()

Exemplo:

In [None]:
dados.sigla.value_counts()

#Agrupamento de dados

### Função `groupby()`

Exemplo 1:

In [None]:
dados.groupby('sigla')

Exemplo 2:

In [None]:
dados.groupby('sigla').sigla

Exemplo 3:

In [None]:
dados.groupby('sigla').sigla.count()

### A função `groupby` pode ainda ser usada para exibir outro campo

In [None]:
dados.groupby('sigla').retweet.max()

#Ordenação de dados

### A função `sort_values()` pode ser usada para ordenar os valores por um determinado campo

In [None]:
dados.sort_values(by='sigla')

### A ordenação padrão é de forma ascendente. Porém, é possível ordenar de maneira descendente

In [None]:
dados.sort_values(by='sigla', ascending=False)

### A ordenação por índices é feita através da função `sort_index()`

In [None]:
dados.sort_index()

### A ordenação ainda pode ser feita por mais de um campo ao mesmo tempo

In [None]:
dados.sort_values(by=['pais', 'lugar'])

# Tipo de dados em `DataFrame` e `Series`

### Para verificar o tipo de um dado em Python nós usamos o comando `type`

In [None]:
type(dados)

### Para verificarmos o tipo de dados de uma coluna de um `DataFrame` ou `Series` em Python nós usamos o comando `dtype`

In [None]:
dados.retweet.dtype

In [None]:
dados.idioma.dtype

### Nós podemos ainda verificar o tipo de dados de todas as colunas de um `DataFrame`

In [None]:
dados.dtypes

### É possível ainda converter o tipo de uma determinada coluna para outro tipo

Exemplo 1:

In [None]:
dados.retweet

Exemplo 2:

In [None]:
dados.retweet.astype('float64')

### Seria possível converter uma coluna para qualquer outro tipo de dados?

In [None]:
dados.sigla.astype('float64')

### Resumo dos tipos em Pandas:

![](https://drive.google.com/uc?export=view&id=1l2SH97T_0Lu7VIInFzkc31HUbSep37g6)

### Lidando com dados ausentes

Regras gerais:

*   Os dados ausentes são presentados pelo valor `NaN` que representa Not a Number.
*   Por razões técnicas, os valores `NaN` são sempre do tipo `float64`.
*   Pandas possui alguns métodos específicos para lidar com dados ausentes.

### O comando `pd.isnull()` é utilizado para selecionar as entradas ausentes


In [None]:
dados[pd.isnull(dados.sigla)]

### Substituição de valores ausentes

### A função `fillna()` é usada para substituir valores ausentes

In [None]:
dados.sigla.fillna("PADRAO")

### É possível ainda fazer a substituição de um valor específico por outro através do comando `replace`

In [None]:
dados.sigla.replace('BR', 'BZ')

# Formatação dos dados

### Regras gerais:

*   É comum ocorrer a situação onde os dados não estão com nomes apropriados.
*   Neste caso, podemos usar um conjunto de funções de Pandas para formatar `DataFrame` ou `Series`.

### É possível renomear as colunas e índices através do comando `rename()`

In [None]:
#@title
dados.rename(columns={'sigla': 'codigo'})

# Plotar Mapas

### Projeto GeoPandas

*   Projeto código aberto para lidar com dados espaciais em Python.
*   Versão atual é a 0.8.0.
*   Permite a realização de operações espaciais.

### Instalar a biblioteca

In [None]:
!pip install geopandas

### Importar as bibliotecas

In [None]:
from shapely.geometry import Point
import geopandas as gpd
from geopandas import GeoDataFrame

### Carregar o arquivo com os dados

In [None]:
dados = pd.read_csv("http://tiagodemelo.info/datasets/dados-curso.csv")

In [None]:
dados.head()

### Plotar a posição dos usuários no mapa

In [None]:
geometry = [Point(xy) for xy in zip(dados['latitude'], dados['longitude'])]
gdf = GeoDataFrame(dados, geometry=geometry)   

world = gpd.read_file(gpd.datasets.get_path('naturalearth_lowres'))
gdf.plot(ax=world.plot(figsize=(10, 6)), marker='o', color='red', markersize=10);