In [None]:
# Instalação da biblioteca se necessário
!pip install pandas

Defaulting to user installation because normal site-packages is not writeable
You should consider upgrading via the '/bin/python3 -m pip install --upgrade pip' command.[0m


# Aula 4 - Pandas

Prof. Tiago Dias

[Linkedin](https://www.linkedin.com/in/diasctiago/) | [Github](https://github.com/diasctiago) | [Blog](https://www.dadosaocubo.com/)

## Conhecendo o pandas

[Documentação pandas](https://pandas.pydata.org/docs/user_guide/index.html)

### O que é um DataFrame?

DataFrame, é a representação de uma tabela na biblioteca pandas.

| ![DataFrame](https://pandas.pydata.org/docs/_images/01_table_dataframe.svg) |
|:--:| 
| _DataFrame_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

### O que é uma Series?

Uma Series, é a representação de cada coluna de uma tabela individual.

| ![Series](https://pandas.pydata.org/docs/_images/01_table_series.svg) |
|:--:| 
| _Series_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

### Que tipos de dados posso trabalhar no pandas?

É possível ler e gravar dados e diversas fontes com o pandas.

| ![Tipos de Dados](https://pandas.pydata.org/docs/_images/02_io_readwrite.svg) |
|:--:| 
| _Tipos de Dados_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

### Prática com o pandas

In [None]:
# importanto a biblioteca
import pandas as pd

In [None]:
# lendo um arquivo csv a partir de um link da internet

df = pd.read_csv('http://dados.agricultura.gov.br/dataset/420c0514-92da-4888-be85-290a0785e8a9/resource/65cce855-685e-4cfa-b3a4-2d192fc83b4e/download/rfflorestasplantadasibge2014-2016.csv', 
                  encoding = 'Windows 1252', #geralmente não eh necessário
                  delimiter=';')



In [None]:
# lendo um arquivo csv local
df2 = pd.read_csv('florestas.csv',
                   encoding = 'Windows 1252',
                   delimiter = ';')

In [None]:
# verificando as primeiras linhas do arquivo
df.head()

In [None]:
# verificando as última linhas do arquivo
df.tail()

In [None]:
# verificando os nomes das colunas carregadas
df.columns

In [None]:
# verificando o indice
df.index

RangeIndex(start=0, stop=31014, step=1)

In [None]:
# verificado as informações dos dados
df.info()

In [None]:
31014 - 29658

In [None]:
# quantidadede linhas e colunas
df.shape

Como selecionar colunas específicas do DataFrame.

| ![Colunas dos Dados](https://pandas.pydata.org/docs/_images/03_subset_columns.svg) |
|:--:| 
| _Colunas dos Dados_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

In [None]:
df[['País', 'Região']]

Como selecionar linhas específicas do DataFrame.

| ![Linhas dos Dados](https://pandas.pydata.org/docs/_images/03_subset_rows.svg) |
|:--:| 
| _Linhas dos Dados_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

In [None]:
#selecionar areas maior que 200000 hectares

values = df['Área (ha)']>200000

In [None]:
df[ df['Área (ha)'] > 200000 ]

In [None]:
# verificando um indice específico
df.loc[2700:2706] #loc infere se vc se refere a indice ou coluna
df.iloc[2700:2706] #iloc eh usado especificamente para indices

In [None]:
# verificando colunas nulas
df.isnull().sum()

In [None]:
df.dtypes['Área (ha)']

Como filtrar colunas e linhas específicas do DataFrame.

| ![Filtrando os Dados](https://pandas.pydata.org/docs/_images/03_subset_columns_rows.svg) |
|:--:| 
| _Filtrando os Dados_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

In [None]:
#quero acessar area maior que 200000 e apenas a coluna Estado sigla

df[df['Área (ha)'] > 200000]

In [None]:
df.loc[df['Área (ha)'] > 200000, ['Estado sigla', 'País']]

In [None]:
df.loc[[1, 3, 5, 8], ['Estado sigla', 'País']]

In [None]:
df.loc[1:10, ['Estado sigla', 'País']]

In [None]:
df[df['Área (ha)'] > 200000]['Estado sigla']

In [None]:
df[df['Área (ha)'] > 200000][['Ano (data)', 'Estado sigla', 'Área (ha)']]

Como criar novas colunas no DataFrame.

| ![Novas Colunas](https://pandas.pydata.org/docs/_images/05_newcolumn_1.svg) |
|:--:| 
| _Novas Colunas_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

In [None]:
df['Nova Coluna'] = df['País'] 

In [None]:
df.head(5)

In [None]:
# valores_area = df['Área (ha)']

# df['Nível'] = ['Alto' if area > 200000 else 'Baixo' for area in valores_area]

df['Nível'] = ['Alto' if area > 200000 else 'Baixo' for area in df['Área (ha)']]

# valores_nivel = []

# for area in valores_area:
#     if area > 200000:
#         valores_nivel.append("Alto")
#     else:
#         valores_nivel.append("Baixo")

# df['Nível'] = valores_nivel

In [None]:
df.head()

In [None]:
df.columns

In [None]:
# verificando a nova coluna criada
#vou filtrar por area maior que 175000

df[df['Área (ha)'] > 175000]

In [None]:
# principais medidas estatisticas para as variáveis numéricas
df.describe()

In [None]:
# calculando as medidas de agregação

In [None]:
# media
df['Área (ha)'].mean()

In [None]:
# mediana
df['Área (ha)'].median()

In [None]:
# soma
df['Área (ha)'].sum()

Como criar medidas agregadas agrpando por categoria no DataFrame.

| ![Group by](https://pandas.pydata.org/docs/_images/06_groupby.svg) |
|:--:| 
| _Group by_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

In [None]:
# media por estado
df_estados = df[['Estado sigla', 'Área (ha)']]

In [None]:
df_estados.head()

In [None]:
df_estados_media = df_estados.groupby('Estado sigla').mean()

In [None]:
df_estados

In [None]:
df_estados_media = df_estados_media.rename(columns = {'Área (ha)':'Média Área (ha)'})

In [None]:
df_estados_media

In [None]:
# soma por especie
df_floresta = df[['Espécie florestal', 'Área (ha)']]
#ou
df_floresta_soma = df_floresta.groupby('Espécie florestal').sum()


In [None]:
df_floresta.head()

In [None]:
df_floresta_soma = df_floresta.groupby('Espécie florestal').sum()

In [None]:
df_floresta_soma

In [None]:
# contando os registros por categoria
df_regiao = df.groupby('Região')['Região'].count()
df_regiao

Região
Centro Oeste     3105
Nordeste         2727
Norte            1413
Sudeste         13203
Sul             10566
Name: Região, dtype: int64

In [None]:
df['Espécie florestal'].value_counts()

Eucalipto          10338
Pinus              10338
Outras espécies    10338
Name: Espécie florestal, dtype: int64

In [None]:
lista_colunas = df.columns

In [None]:
lista_colunas

In [None]:
# verificando a quantidade de registros de todas as colunas
for coluna in lista_colunas:
    print(f'\n##### {coluna} #####')
    print(df[coluna].value_counts())

In [None]:
# buscando registros por string
df[df['Município (Municípios)'].str.contains('Salvador')]

In [None]:
# selecionando o primeiro nome de uma variavel do tipo string
df[df['Município (Municípios)'].str.contains('Salvador')]['Município (Municípios)'].unique()

In [None]:
# selecionando o valor distinto variavel do tipo string
df['Estado sigla'].unique()

In [None]:
df['Estado sigla'].unique()

In [None]:
# removendo colunas do dataframe


In [None]:
# renomeando colunas do dataframe
df.drop(columns = ['Nova Coluna', 'Nível'], inplace = True)
#o inplece diz se as operações executdas no drop afetarão o dataframe inicial

In [None]:
df

In [None]:
# ordenando os dado do dataframe
df.sort_values('Ano (data)', ascending = True, inplace = True)

df = df.reset_index(drop = True)

# gravando os dados em arquivo csv
df.to_csv('florestas-aula.csv', index = False)

In [None]:
df.sort_values('Ano (data)', ascending = True, inplace = True)

In [None]:
df

In [None]:
df = df.reset_index(drop = True)

In [None]:
df

In [None]:
# gravando os dados em arquivo csv
df.to_csv('florestas-aula.csv', index = False)

In [None]:
# lendo um arquivo csv local


### Outros Exemplos