# Aula 4 - Pandas

Prof. Tiago Dias

[Linkedin](https://www.linkedin.com/in/diasctiago/) | [Github](https://github.com/diasctiago) | [Blog](https://www.dadosaocubo.com/)

Editado por: Mayra Souza Costa

## Conhecendo o pandas

[Documentação pandas](https://pandas.pydata.org/docs/user_guide/index.html)

### O que é um DataFrame?

DataFrame, é a representação de uma tabela na biblioteca pandas.

| ![DataFrame](https://pandas.pydata.org/docs/_images/01_table_dataframe.svg) |
|:--:| 
| _DataFrame_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

### O que é uma Series?

Uma Series, é a representação de cada coluna de uma tabela individual.

| ![Series](https://pandas.pydata.org/docs/_images/01_table_series.svg) |
|:--:| 
| _Series_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

### Que tipos de dados posso trabalhar no pandas?

É possível ler e gravar dados e diversas fontes com o pandas.

| ![Tipos de Dados](https://pandas.pydata.org/docs/_images/02_io_readwrite.svg) |
|:--:| 
| _Tipos de Dados_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

### Prática com o pandas

In [5]:
# Instalação da biblioteca se necessário
!pip install pandas



In [6]:
# importanto a biblioteca
import pandas as pd


In [7]:
# leitura de arquivo csv
df_csv = pd.read_csv ('https://raw.githubusercontent.com/diasctiago/pandas/main/leads.csv')

In [14]:
df_csv.head()

Unnamed: 0,id,data,UF,estado,cidade,status,origem
0,1001,16/08/2022 13:19,BA,Bahia,Salvador,lead,Facebook
1,1002,16/08/2022 11:05,BA,Bahia,Salvador,lead,Facebook
2,1003,16/08/2022 10:33,RJ,Rio de Janeiro,Rio de Janeiro,lead,Facebook
3,1004,16/08/2022 09:33,BA,Bahia,Salvador,lead,Facebook
4,1005,16/08/2022 08:56,SP,São Paulo,São Paulo,lead,Blog


In [8]:
# leitura de arquivo txt
df_txt = pd.read_csv('https://raw.githubusercontent.com/diasctiago/pandas/main/leads.txt', delimiter='|')


In [19]:
df_txt.head()

Unnamed: 0,id,data,UF,estado,cidade,status,origem
0,1001,16/08/2022 13:19,BA,Bahia,Salvador,lead,Facebook
1,1002,16/08/2022 11:05,BA,Bahia,Salvador,lead,Facebook
2,1003,16/08/2022 10:33,RJ,Rio de Janeiro,Rio de Janeiro,lead,Facebook
3,1004,16/08/2022 09:33,BA,Bahia,Salvador,lead,Facebook
4,1005,16/08/2022 08:56,SP,São Paulo,São Paulo,lead,Blog


In [11]:
# leitura de arquivo excel
df_excel = pd.read_excel('https://github.com/diasctiago/pandas/blob/main/leads.xlsx?raw=true')

In [12]:
df_excel.head()

Unnamed: 0,id,data,UF,estado,cidade,status,origem
0,1001,2022-08-16 13:19:00,BA,Bahia,Salvador,lead,Facebook
1,1002,2022-08-16 11:05:00,BA,Bahia,Salvador,lead,Facebook
2,1003,2022-08-16 10:33:00,RJ,Rio de Janeiro,Rio de Janeiro,lead,Facebook
3,1004,2022-08-16 09:33:00,BA,Bahia,Salvador,lead,Facebook
4,1005,2022-08-16 08:56:00,SP,São Paulo,São Paulo,lead,Blog


In [13]:
# leitura de arquivo json
df_json = pd.read_json('https://raw.githubusercontent.com/diasctiago/pandas/main/leads.json')


In [27]:
df_json.head()

Unnamed: 0,id,data,endereço,status,origem
0,1001,16/08/2022 13:19,"{'UF': 'BA', 'estado': 'Bahia', 'cidade': 'Sal...",lead,Facebook
1,1002,16/08/2022 11:05,"{'UF': 'BA', 'estado': 'Bahia', 'cidade': 'Sal...",lead,Facebook
2,1003,16/08/2022 10:33,"{'UF': 'RJ', 'estado': 'Rio de Janeiro', 'cida...",lead,Facebook


In [14]:
# normalizando os dados de um json
import json

In [15]:
!pip install urllib3



In [45]:
!pip install requests



In [53]:
from urllib import request

In [54]:
with request.urlopen('https://raw.githubusercontent.com/diasctiago/pandas/main/leads.json') as arquivo:
    dados_json = json.load(arquivo)

In [45]:
df_json_norma = pd.json_normalize(dados_json)

NameError: name 'dados_json' is not defined

In [59]:
df_json_norma.head()

Unnamed: 0,id,data,status,origem,endereço.UF,endereço.estado,endereço.cidade
0,1001,16/08/2022 13:19,lead,Facebook,BA,Bahia,Salvador
1,1002,16/08/2022 11:05,lead,Facebook,BA,Bahia,Salvador
2,1003,16/08/2022 10:33,lead,Facebook,RJ,Rio de Janeiro,Rio de Janeiro


In [17]:
# lendo um arquivo csv a partir da base de dados gov.br
df = pd.read_csv('http://dados.agricultura.gov.br/dataset/420c0514-92da-4888-be85-290a0785e8a9/resource/65cce855-685e-4cfa-b3a4-2d192fc83b4e/download/rfflorestasplantadasibge2014-2016.csv',
                 encoding='Windows 1252',
                 delimiter=';')

In [21]:
# verificando as primeiras linhas do arquivo
df.head()

Unnamed: 0,Ano (data),País,Região,Estado,Estado sigla,Município (Municípios),Município Estado,Latitude,Longitude,Espécie florestal,Área (ha)
0,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0
1,31/12/2015,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0
2,31/12/2016,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0
3,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Pinus,0.0
4,31/12/2015,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Pinus,0.0


In [19]:
# verificando as última linhas do arquivo
df.tail()

Unnamed: 0,Ano (data),País,Região,Estado,Estado sigla,Município (Municípios),Município Estado,Latitude,Longitude,Espécie florestal,Área (ha)
31009,31/12/2015,Brasil,Centro Oeste,Distrito Federal,DF,Brasília,Brasília (DF),-1578,-478,Pinus,1000.0
31010,31/12/2016,Brasil,Centro Oeste,Distrito Federal,DF,Brasília,Brasília (DF),-1578,-478,Pinus,700.0
31011,31/12/2014,Brasil,Centro Oeste,Distrito Federal,DF,Brasília,Brasília (DF),-1578,-478,Outras espécies,0.0
31012,31/12/2015,Brasil,Centro Oeste,Distrito Federal,DF,Brasília,Brasília (DF),-1578,-478,Outras espécies,0.0
31013,31/12/2016,Brasil,Centro Oeste,Distrito Federal,DF,Brasília,Brasília (DF),-1578,-478,Outras espécies,0.0


In [64]:
# verificando os nomes das colunas carregadas
df.columns

Index(['Ano (data)', 'País', 'Região', 'Estado', 'Estado sigla',
       'Município (Municípios)', 'Município Estado', 'Latitude', 'Longitude',
       'Espécie florestal', 'Área (ha)'],
      dtype='object')

In [65]:
# verificando o indice
df.index

RangeIndex(start=0, stop=31014, step=1)

In [66]:
# verificado as informações dos dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31014 entries, 0 to 31013
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Ano (data)              31014 non-null  object 
 1   País                    31014 non-null  object 
 2   Região                  31014 non-null  object 
 3   Estado                  31014 non-null  object 
 4   Estado sigla            31014 non-null  object 
 5   Município (Municípios)  31014 non-null  object 
 6   Município Estado        31014 non-null  object 
 7   Latitude                31014 non-null  object 
 8   Longitude               31014 non-null  object 
 9   Espécie florestal       31014 non-null  object 
 10  Área (ha)               29658 non-null  float64
dtypes: float64(1), object(10)
memory usage: 2.6+ MB


In [67]:
type(df)

pandas.core.frame.DataFrame

In [22]:
# quantidadede linhas e colunas
df.shape

(31014, 11)

Como selecionar colunas específicas do DataFrame.

| ![Colunas dos Dados](https://pandas.pydata.org/docs/_images/03_subset_columns.svg) |
|:--:| 
| _Colunas dos Dados_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

In [24]:
# No Numpy um colchete vetor, dois colchetes matriz

df[['Ano (data)', 'Área (ha)']]

Unnamed: 0,Ano (data),Área (ha)
0,31/12/2014,0.0
1,31/12/2015,0.0
2,31/12/2016,0.0
3,31/12/2014,0.0
4,31/12/2015,0.0
...,...,...
31009,31/12/2015,1000.0
31010,31/12/2016,700.0
31011,31/12/2014,0.0
31012,31/12/2015,0.0


Como selecionar linhas específicas do DataFrame.

| ![Linhas dos Dados](https://pandas.pydata.org/docs/_images/03_subset_rows.svg) |
|:--:| 
| _Linhas dos Dados_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

In [25]:
df['Área (ha)']>200000

0        False
1        False
2        False
3        False
4        False
         ...  
31009    False
31010    False
31011    False
31012    False
31013    False
Name: Área (ha), Length: 31014, dtype: bool

In [26]:
df[df['Área (ha)']>200000]

Unnamed: 0,Ano (data),País,Região,Estado,Estado sigla,Município (Municípios),Município Estado,Latitude,Longitude,Espécie florestal,Área (ha)
28460,31/12/2016,Brasil,Centro Oeste,Mato Grosso do Sul,MS,Ribas do Rio Pardo,Ribas do Rio Pardo (MS),-206,-5354,Eucalipto,205000.0
28576,31/12/2015,Brasil,Centro Oeste,Mato Grosso do Sul,MS,Três Lagoas,Três Lagoas (MS),-2044,-5221,Eucalipto,217600.0
28577,31/12/2016,Brasil,Centro Oeste,Mato Grosso do Sul,MS,Três Lagoas,Três Lagoas (MS),-2044,-5221,Eucalipto,230000.0


In [27]:
# verificando um indice específico
df.loc[1]

Ano (data)                                31/12/2015
País                                          Brasil
Região                                         Norte
Estado                                      Rondônia
Estado sigla                                      RO
Município (Municípios)         Alta Floresta D'Oeste
Município Estado          Alta Floresta D'Oeste (RO)
Latitude                                      -12,47
Longitude                                     -62,27
Espécie florestal                          Eucalipto
Área (ha)                                        0.0
Name: 1, dtype: object

In [29]:
# verificando colunas nulas
df.isnull().sum()

Ano (data)                   0
País                         0
Região                       0
Estado                       0
Estado sigla                 0
Município (Municípios)       0
Município Estado             0
Latitude                     0
Longitude                    0
Espécie florestal            0
Área (ha)                 1356
dtype: int64

In [36]:
df['Área (ha)'].isnull()

0        False
1        False
2        False
3        False
4        False
         ...  
31009    False
31010    False
31011    False
31012    False
31013    False
Name: Área (ha), Length: 31014, dtype: bool

Como filtrar colunas e linhas específicas do DataFrame.

| ![Filtrando os Dados](https://pandas.pydata.org/docs/_images/03_subset_columns_rows.svg) |
|:--:| 
| _Filtrando os Dados_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

In [37]:
df.loc[df['Área (ha)']>200000]

Unnamed: 0,Ano (data),País,Região,Estado,Estado sigla,Município (Municípios),Município Estado,Latitude,Longitude,Espécie florestal,Área (ha)
28460,31/12/2016,Brasil,Centro Oeste,Mato Grosso do Sul,MS,Ribas do Rio Pardo,Ribas do Rio Pardo (MS),-206,-5354,Eucalipto,205000.0
28576,31/12/2015,Brasil,Centro Oeste,Mato Grosso do Sul,MS,Três Lagoas,Três Lagoas (MS),-2044,-5221,Eucalipto,217600.0
28577,31/12/2016,Brasil,Centro Oeste,Mato Grosso do Sul,MS,Três Lagoas,Três Lagoas (MS),-2044,-5221,Eucalipto,230000.0


In [39]:
df.loc[df['Área (ha)']>200000, 'Estado sigla']

28460    MS
28576    MS
28577    MS
Name: Estado sigla, dtype: object

In [40]:
df[df['Área (ha)']>200000][['País', 'Região', 'Estado sigla']]

Unnamed: 0,País,Região,Estado sigla
28460,Brasil,Centro Oeste,MS
28576,Brasil,Centro Oeste,MS
28577,Brasil,Centro Oeste,MS


Como criar novas colunas no DataFrame.

| ![Novas Colunas](https://pandas.pydata.org/docs/_images/05_newcolumn_1.svg) |
|:--:| 
| _Novas Colunas_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

In [42]:
# Criando novas colunas

df['Nova coluna'] = df['Área (ha)']*100

In [43]:
df.head()

Unnamed: 0,Ano (data),País,Região,Estado,Estado sigla,Município (Municípios),Município Estado,Latitude,Longitude,Espécie florestal,Área (ha),Nova coluna
0,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0,0.0
1,31/12/2015,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0,0.0
2,31/12/2016,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0,0.0
3,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Pinus,0.0,0.0
4,31/12/2015,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Pinus,0.0,0.0


In [44]:
df[df['Área (ha)']>200000][['País', 'Região', 'Estado sigla', 'Nova coluna']]

Unnamed: 0,País,Região,Estado sigla,Nova coluna
28460,Brasil,Centro Oeste,MS,20500000.0
28576,Brasil,Centro Oeste,MS,21760000.0
28577,Brasil,Centro Oeste,MS,23000000.0


In [46]:
# Verificando coluna

df['Nível'] = ['Alto' if x>200000 else 'Baixo' for x in df['Área (ha)']]

In [47]:
df.head()

Unnamed: 0,Ano (data),País,Região,Estado,Estado sigla,Município (Municípios),Município Estado,Latitude,Longitude,Espécie florestal,Área (ha),Nova coluna,Nível
0,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0,0.0,Baixo
1,31/12/2015,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0,0.0,Baixo
2,31/12/2016,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0,0.0,Baixo
3,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Pinus,0.0,0.0,Baixo
4,31/12/2015,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Pinus,0.0,0.0,Baixo


In [49]:
# principais medidas estatisticas para as variáveis numéricas
df.describe()

Unnamed: 0,Área (ha),Nova coluna
count,29658.0,29658.0
mean,988.865197,98886.52
std,5477.57943,547757.9
min,0.0,0.0
25%,0.0,0.0
50%,0.0,0.0
75%,242.0,24200.0
max,230000.0,23000000.0


In [None]:
# calculando as medidas de agregação

In [55]:
# media
round(df['Área (ha)'].mean(), 2) #média arredondada

988.87

In [56]:
# mediana
df['Área (ha)'].median()

0.0

In [57]:
# soma
df['Área (ha)'].sum()

29327764.0

Como criar medidas agregadas agrupando por categoria no DataFrame.

| ![Group by](https://pandas.pydata.org/docs/_images/06_groupby.svg) |
|:--:| 
| _Group by_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

In [58]:
# media por estado
df[['Estado sigla', 'Área (ha)']]

Unnamed: 0,Estado sigla,Área (ha)
0,RO,0.0
1,RO,0.0
2,RO,0.0
3,RO,0.0
4,RO,0.0
...,...,...
31009,DF,1000.0
31010,DF,700.0
31011,DF,0.0
31012,DF,0.0


In [60]:
df[['Estado sigla', 'Área (ha)']].groupby('Estado sigla').mean()

Unnamed: 0_level_0,Área (ha)
Estado sigla,Unnamed: 1_level_1
AL,90.702899
AP,10622.244444
BA,2406.675
CE,7.956522
DF,1224.222222
ES,1166.81339
GO,312.309201
MA,1581.435185
MG,792.108674
MS,4191.767857


In [62]:
# soma por especie
df[['Espécie florestal', 'Área (ha)']].groupby('Espécie florestal').sum()

Unnamed: 0_level_0,Área (ha)
Espécie florestal,Unnamed: 1_level_1
Eucalipto,21940841.0
Outras espécies,1192967.0
Pinus,6193956.0


In [64]:
# contando os registros por categoria
df.groupby('Região')['Região'].count() #exibe apenas coluna região

Região
Centro Oeste     3105
Nordeste         2727
Norte            1413
Sudeste         13203
Sul             10566
Name: Região, dtype: int64

In [68]:
df['Região'].value_counts() # Faz o mesmo que a célula anterior mas de forma simples

Sudeste         13203
Sul             10566
Centro Oeste     3105
Nordeste         2727
Norte            1413
Name: Região, dtype: int64

In [72]:
for col in df.columns:
    print(col)

Ano (data)
País
Região
Estado
Estado sigla
Município (Municípios)
Município Estado
Latitude
Longitude
Espécie florestal
Área (ha)
Nova coluna
Nível


In [73]:
for col in df.columns:
    print(col)
df[col].value_counts()

Ano (data)
País
Região
Estado
Estado sigla
Município (Municípios)
Município Estado
Latitude
Longitude
Espécie florestal
Área (ha)
Nova coluna
Nível


Baixo    31011
Alto         3
Name: Nível, dtype: int64

In [78]:
# buscando registros por string
df[df['Município (Municípios)'].str.contains('Montes Claros')]

Unnamed: 0,Ano (data),País,Região,Estado,Estado sigla,Município (Municípios),Município Estado,Latitude,Longitude,Espécie florestal,Área (ha),Nova coluna,Nível
8307,31/12/2014,Brasil,Sudeste,Minas Gerais,MG,Montes Claros,Montes Claros (MG),-1662,-4393,Eucalipto,7900.0,790000.0,Baixo
8308,31/12/2015,Brasil,Sudeste,Minas Gerais,MG,Montes Claros,Montes Claros (MG),-1662,-4393,Eucalipto,9585.0,958500.0,Baixo
8309,31/12/2016,Brasil,Sudeste,Minas Gerais,MG,Montes Claros,Montes Claros (MG),-1662,-4393,Eucalipto,9250.0,925000.0,Baixo
8310,31/12/2014,Brasil,Sudeste,Minas Gerais,MG,Montes Claros,Montes Claros (MG),-1662,-4393,Pinus,0.0,0.0,Baixo
8311,31/12/2015,Brasil,Sudeste,Minas Gerais,MG,Montes Claros,Montes Claros (MG),-1662,-4393,Pinus,0.0,0.0,Baixo
8312,31/12/2016,Brasil,Sudeste,Minas Gerais,MG,Montes Claros,Montes Claros (MG),-1662,-4393,Pinus,0.0,0.0,Baixo
8313,31/12/2014,Brasil,Sudeste,Minas Gerais,MG,Montes Claros,Montes Claros (MG),-1662,-4393,Outras espécies,0.0,0.0,Baixo
8314,31/12/2015,Brasil,Sudeste,Minas Gerais,MG,Montes Claros,Montes Claros (MG),-1662,-4393,Outras espécies,0.0,0.0,Baixo
8315,31/12/2016,Brasil,Sudeste,Minas Gerais,MG,Montes Claros,Montes Claros (MG),-1662,-4393,Outras espécies,0.0,0.0,Baixo


In [80]:
df[df['Município (Municípios)'].str.contains('Montes Claros')]['Município (Municípios)'].unique()

array(['Montes Claros'], dtype=object)

In [81]:
type(df[df['Município (Municípios)'].str.contains('Montes Claros')]['Município (Municípios)'].unique())

numpy.ndarray

In [83]:
# selecionando o primeiro nome de uma variavel do tipo string
df['Município (Municípios)'].str.split().str.get(0)

0            Alta
1            Alta
2            Alta
3            Alta
4            Alta
           ...   
31009    Brasília
31010    Brasília
31011    Brasília
31012    Brasília
31013    Brasília
Name: Município (Municípios), Length: 31014, dtype: object

In [84]:
# selecionando o valor distinto variavel do tipo string
df['Região'].unique()

array(['Norte', 'Nordeste', 'Sudeste', 'Sul', 'Centro Oeste'],
      dtype=object)

In [85]:
df['Estado sigla'].unique()

array(['RO', 'RR', 'PA', 'AP', 'TO', 'MA', 'PI', 'CE', 'RN', 'PB', 'PE',
       'AL', 'SE', 'BA', 'MG', 'ES', 'RJ', 'SP', 'PR', 'SC', 'RS', 'MS',
       'MT', 'GO', 'DF'], dtype=object)

In [88]:
# removendo colunas do dataframe
df.drop(columns=['Nova coluna', 'Nível'])

Unnamed: 0,Ano (data),País,Região,Estado,Estado sigla,Município (Municípios),Município Estado,Latitude,Longitude,Espécie florestal,Área (ha)
0,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0
1,31/12/2015,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0
2,31/12/2016,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0
3,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Pinus,0.0
4,31/12/2015,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Pinus,0.0
...,...,...,...,...,...,...,...,...,...,...,...
31009,31/12/2015,Brasil,Centro Oeste,Distrito Federal,DF,Brasília,Brasília (DF),-1578,-478,Pinus,1000.0
31010,31/12/2016,Brasil,Centro Oeste,Distrito Federal,DF,Brasília,Brasília (DF),-1578,-478,Pinus,700.0
31011,31/12/2014,Brasil,Centro Oeste,Distrito Federal,DF,Brasília,Brasília (DF),-1578,-478,Outras espécies,0.0
31012,31/12/2015,Brasil,Centro Oeste,Distrito Federal,DF,Brasília,Brasília (DF),-1578,-478,Outras espécies,0.0


In [99]:
# renomeando colunas do dataframe
df.rename(columns={
    'Ano (data)':'ano (data)'}, inplace=True) #Dicionário e inplace efetiva

In [100]:
df.head()

Unnamed: 0,ano (data),País,Região,Estado,Estado sigla,Município (Municípios),Município Estado,Latitude,Longitude,Espécie florestal,Área (ha),Nova coluna,Nível
0,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0,0.0,Baixo
1,31/12/2015,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0,0.0,Baixo
2,31/12/2016,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0,0.0,Baixo
3,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Pinus,0.0,0.0,Baixo
4,31/12/2015,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Pinus,0.0,0.0,Baixo


In [102]:
# ordenando os dado do dataframe
df.sort_values('ano (data)', inplace=True)

In [103]:
df.head()

Unnamed: 0,ano (data),País,Região,Estado,Estado sigla,Município (Municípios),Município Estado,Latitude,Longitude,Espécie florestal,Área (ha),Nova coluna,Nível
0,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0,0.0,Baixo
12510,31/12/2014,Brasil,Sudeste,Rio de Janeiro,RJ,Rio das Ostras,Rio das Ostras (RJ),-2245,-4195,Eucalipto,434.0,43400.0,Baixo
26841,31/12/2014,Brasil,Sul,Rio Grande do Sul,RS,Santo Antônio do Planalto,Santo Antônio do Planalto (RS),-2837,-5268,Pinus,20.0,2000.0,Baixo
12513,31/12/2014,Brasil,Sudeste,Rio de Janeiro,RJ,Rio das Ostras,Rio das Ostras (RJ),-2245,-4195,Pinus,0.0,0.0,Baixo
12516,31/12/2014,Brasil,Sudeste,Rio de Janeiro,RJ,Rio das Ostras,Rio das Ostras (RJ),-2245,-4195,Outras espécies,0.0,0.0,Baixo


In [107]:
df.reset_index(drop=True, inplace=True) #reseta p index

In [108]:
df.head()

Unnamed: 0,ano (data),País,Região,Estado,Estado sigla,Município (Municípios),Município Estado,Latitude,Longitude,Espécie florestal,Área (ha),Nova coluna,Nível
0,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0,0.0,Baixo
1,31/12/2014,Brasil,Sudeste,Rio de Janeiro,RJ,Rio das Ostras,Rio das Ostras (RJ),-2245,-4195,Eucalipto,434.0,43400.0,Baixo
2,31/12/2014,Brasil,Sul,Rio Grande do Sul,RS,Santo Antônio do Planalto,Santo Antônio do Planalto (RS),-2837,-5268,Pinus,20.0,2000.0,Baixo
3,31/12/2014,Brasil,Sudeste,Rio de Janeiro,RJ,Rio das Ostras,Rio das Ostras (RJ),-2245,-4195,Pinus,0.0,0.0,Baixo
4,31/12/2014,Brasil,Sudeste,Rio de Janeiro,RJ,Rio das Ostras,Rio das Ostras (RJ),-2245,-4195,Outras espécies,0.0,0.0,Baixo


In [113]:
# gravando os dados em arquivo csv
df.to_csv('florestas.csv', index=False) #retira o index

In [114]:
# lendo um arquivo csv local
florestas = pd.read_csv('florestas.csv')

In [115]:
florestas.head()

Unnamed: 0,ano (data),País,Região,Estado,Estado sigla,Município (Municípios),Município Estado,Latitude,Longitude,Espécie florestal,Área (ha),Nova coluna,Nível
0,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0,0.0,Baixo
1,31/12/2014,Brasil,Sudeste,Rio de Janeiro,RJ,Rio das Ostras,Rio das Ostras (RJ),-2245,-4195,Eucalipto,434.0,43400.0,Baixo
2,31/12/2014,Brasil,Sul,Rio Grande do Sul,RS,Santo Antônio do Planalto,Santo Antônio do Planalto (RS),-2837,-5268,Pinus,20.0,2000.0,Baixo
3,31/12/2014,Brasil,Sudeste,Rio de Janeiro,RJ,Rio das Ostras,Rio das Ostras (RJ),-2245,-4195,Pinus,0.0,0.0,Baixo
4,31/12/2014,Brasil,Sudeste,Rio de Janeiro,RJ,Rio das Ostras,Rio das Ostras (RJ),-2245,-4195,Outras espécies,0.0,0.0,Baixo


### Outros Exemplos

## Atividade

**Questão 1 -** Fazer a leitura dos dados da Sinaflor no link [Exploração de Floresta Plantada](https://dados.gov.br/dataset/sinaflor-exploracao-de-floresta-plantada) utilizando a biblioteca pandas do Python.

In [11]:
import pandas as pd

In [7]:
# Dá erro pois o site não aceita a exportação
df = pd.read_csv('https://dadosabertos.ibama.gov.br/dados/SINAFLOR/exploracaoFlorestaPlantada.csv')

ParserError: Error tokenizing data. C error: Expected 5 fields in line 15, saw 10


In [14]:
df = pd.read_csv('exploracaoFlorestaPlantada.csv',
                 delimiter=';')

In [16]:
df.head()

Unnamed: 0,UF,MUNICÍPIO,NOME DETENTOR,CPF/CNPJ DETENTOR,IMÓVEL RURAL VINCULADO,Nº CAR IMÓVEL RURAL,NOME EMPREENDIMENTO VINC,LATITUDE PONTO CENTR EMPREEND,LONGITUDE PONTO CENTR EMPREEND,ATIVIDADE,...,ERRO PADRÃO EXTRATO,INTERVALO CONFIANÇA EXTRATO,CRONOGRAMA EXPLOR ATIVIDADE,CRONOGRAMA EXPLORACAO MÊS/ANO,VOL EXPLORAR PRODUTO FLORESTAL,VOL EXPLORAR UNID MEDIDA,VOL EXPLORAR INI EXPLORAÇÃO,VOL EXPLORAR PERÍODO,VOL EXPLORAR VOLUME,ÚLTIMA ATUALIZAÇÃO RELATÓRIO
0,AC,EPITACIOLANDIA,G. L. MAFFI,02.023.852/0001-20,Colônia Guaraciaba,AC-1200252-BFD72C288A5247C987F4888409D180A6,Paricá - Colônia Guaraciaba (Plantio),,,Exploração de Floresta Plantada,...,,,,01/02/2021,Lenha (st),,11/2021,,230,15/09/2022 19:03
1,AC,EPITACIOLANDIA,G. L. MAFFI,02.023.852/0001-20,Colônia Guaraciaba,AC-1200252-BFD72C288A5247C987F4888409D180A6,Paricá - Colônia Guaraciaba (Plantio),,,Exploração de Floresta Plantada,...,,,,01/02/2021,Lenha (st),,11/2021,,400,15/09/2022 19:03
2,AC,EPITACIOLANDIA,G. L. MAFFI,02.023.852/0001-20,Colônia Guaraciaba,AC-1200252-BFD72C288A5247C987F4888409D180A6,Paricá - Colônia Guaraciaba (Plantio),,,Exploração de Floresta Plantada,...,,,,01/02/2021,Lenha (st),,2/2021,,230,15/09/2022 19:03
3,AC,EPITACIOLANDIA,G. L. MAFFI,02.023.852/0001-20,Colônia Guaraciaba,AC-1200252-BFD72C288A5247C987F4888409D180A6,Paricá - Colônia Guaraciaba (Plantio),,,Exploração de Floresta Plantada,...,,,,01/02/2021,Lenha (st),,2/2021,,400,15/09/2022 19:03
4,AC,EPITACIOLANDIA,G. L. MAFFI,02.023.852/0001-20,Colônia Guaraciaba,AC-1200252-BFD72C288A5247C987F4888409D180A6,Paricá - Colônia Guaraciaba (Plantio),,,Exploração de Floresta Plantada,...,,,,01/02/2021,Lenha (st),,5/2021,,230,15/09/2022 19:03


**Questão 2 -** Consultar as informações básicas do dataset carregado acima da **Exploração de Floresta Plantada**, conforme lista abaixo:
*   Quantidade de registros
*   Quantidade de colunas
*   Listar as colunas dos dados
*   Exibir as principais informações do conjunto de dados
*   Listar as colunas com dados vazios


In [18]:
df.shape

(4410, 75)

In [19]:
df.columns #mostra colunas

Index(['UF', 'MUNICÍPIO', 'NOME DETENTOR', 'CPF/CNPJ DETENTOR',
       'IMÓVEL RURAL VINCULADO', 'Nº CAR IMÓVEL RURAL',
       'NOME EMPREENDIMENTO VINC', 'LATITUDE PONTO CENTR EMPREEND',
       'LONGITUDE PONTO CENTR EMPREEND', 'ATIVIDADE', 'TIPO DE EMPREENDIMENTO',
       'Nº CONSELHO DE CLASSE RT', 'ATIVIDADE RT', 'DATA DE CADASTRO',
       'SITUAÇÃO DA SOLICITAÇÃO EXPLOR', 'DATA DA SITUAÇÃO',
       'COMPETÊNCIA DA AVALIAÇÃO', 'ÓRGÃO AMBIENTAL RESP ANÁLISE',
       'Nº PROCESSO', 'Nº PROTOCOLO', 'NOME CIENTÍFICO', 'NOME POPULAR',
       'ÁREA EFETIVO PLANTIO', 'ESPAÇAMENTO', 'TOTAL ÁRVORES', 'VOLUME',
       'UNIDADE MEDIDA', 'ANO CORTE', 'OBSERVAÇÃO DADOS ATIVIDADE',
       'OPERAÇÕES EFETUADAS', 'MÊS/ANO', 'OBSERV TRATOS SILVICULTURAIS',
       'DESBATE REALIZADO', 'NÚMERO DESBASTE', 'DESBATE COMUNICADO',
       'DESBASTE INTENSIDADE', 'PORCENTAGEM DO DESBASTE %',
       'OBSERVAÇÃO DESBASTE', 'EQUAÇÃO VOLUME', 'PROCESSO AMOSTRAGEM',
       'TIPO INVENTÁRIO', 'NÍVEL PROBABILIDADE

In [20]:
df.info() #mostra principais informações

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4410 entries, 0 to 4409
Data columns (total 75 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   UF                              4410 non-null   object 
 1   MUNICÍPIO                       4406 non-null   object 
 2   NOME DETENTOR                   4405 non-null   object 
 3   CPF/CNPJ DETENTOR               4400 non-null   object 
 4   IMÓVEL RURAL VINCULADO          4410 non-null   object 
 5   Nº CAR IMÓVEL RURAL             4400 non-null   object 
 6   NOME EMPREENDIMENTO VINC        4410 non-null   object 
 7   LATITUDE PONTO CENTR EMPREEND   0 non-null      float64
 8   LONGITUDE PONTO CENTR EMPREEND  0 non-null      float64
 9   ATIVIDADE                       4410 non-null   object 
 10  TIPO DE EMPREENDIMENTO          4344 non-null   object 
 11  Nº CONSELHO DE CLASSE RT        2830 non-null   object 
 12  ATIVIDADE RT                    28

In [22]:
df.isna().sum() #mostra dados nulos, caso queira os valores nulos coloco .values e .keys() mostra a coluna

UF                                 0
MUNICÍPIO                          4
NOME DETENTOR                      5
CPF/CNPJ DETENTOR                 10
IMÓVEL RURAL VINCULADO             0
                                ... 
VOL EXPLORAR UNID MEDIDA        4410
VOL EXPLORAR INI EXPLORAÇÃO      640
VOL EXPLORAR PERÍODO            4410
VOL EXPLORAR VOLUME              640
ÚLTIMA ATUALIZAÇÃO RELATÓRIO      20
Length: 75, dtype: int64

**Questão 3 -** Listar os estados presentes no dataset carregado acima da **Exploração de Floresta Plantada**.

In [28]:
df('UF').unique() #Deu algum tipo de erro

TypeError: 'DataFrame' object is not callable

**Questão 4 -** Criar um diretório no GitHub com o notebook utilizado na aula e enviar o link do diretório publico.

In [None]:
Nome criado
Aula_04_git