# Aula 4 - Pandas

Prof. Tiago Dias

[Linkedin](https://www.linkedin.com/in/diasctiago/) | [Github](https://github.com/diasctiago) | [Blog](https://www.dadosaocubo.com/)

## Conhecendo o pandas

[Documentação pandas](https://pandas.pydata.org/docs/user_guide/index.html)

### O que é um DataFrame?

DataFrame, é a representação de uma tabela na biblioteca pandas.

| ![DataFrame](https://pandas.pydata.org/docs/_images/01_table_dataframe.svg) |
|:--:| 
| _DataFrame_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

### O que é uma Series?

Uma Series, é a representação de cada coluna de uma tabela individual.

| ![Series](https://pandas.pydata.org/docs/_images/01_table_series.svg) |
|:--:| 
| _Series_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

### Que tipos de dados posso trabalhar no pandas?

É possível ler e gravar dados e diversas fontes com o pandas.

| ![Tipos de Dados](https://pandas.pydata.org/docs/_images/02_io_readwrite.svg) |
|:--:| 
| _Tipos de Dados_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

### Prática com o pandas

In [None]:
# Instalação da biblioteca se necessário
!pip install pandas

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
# importando a biblioteca
import pandas as pd

In [None]:
# leitura de arquivo csv
df_csv = pd.read_csv('https://raw.githubusercontent.com/diasctiago/pandas/main/leads.csv')

In [None]:
df_csv.head()

Unnamed: 0,id,data,UF,estado,cidade,status,origem
0,1001,16/08/2022 13:19,BA,Bahia,Salvador,lead,Facebook
1,1002,16/08/2022 11:05,BA,Bahia,Salvador,lead,Facebook
2,1003,16/08/2022 10:33,RJ,Rio de Janeiro,Rio de Janeiro,lead,Facebook
3,1004,16/08/2022 09:33,BA,Bahia,Salvador,lead,Facebook
4,1005,16/08/2022 08:56,SP,São Paulo,São Paulo,lead,Blog


In [None]:
# leitura de arquivo txt
df_txt = pd.read_csv('https://raw.githubusercontent.com/diasctiago/pandas/main/leads.txt',
                     delimiter='|')

In [None]:
df_txt.head()

Unnamed: 0,id,data,UF,estado,cidade,status,origem
0,1001,16/08/2022 13:19,BA,Bahia,Salvador,lead,Facebook
1,1002,16/08/2022 11:05,BA,Bahia,Salvador,lead,Facebook
2,1003,16/08/2022 10:33,RJ,Rio de Janeiro,Rio de Janeiro,lead,Facebook
3,1004,16/08/2022 09:33,BA,Bahia,Salvador,lead,Facebook
4,1005,16/08/2022 08:56,SP,São Paulo,São Paulo,lead,Blog


In [None]:
# leitura de arquivo excel
df_excel = pd.read_excel('https://github.com/diasctiago/pandas/blob/main/leads.xlsx?raw=true')

In [None]:
df_excel.head()

Unnamed: 0,id,data,UF,estado,cidade,status,origem
0,1001,2022-08-16 13:19:00,BA,Bahia,Salvador,lead,Facebook
1,1002,2022-08-16 11:05:00,BA,Bahia,Salvador,lead,Facebook
2,1003,2022-08-16 10:33:00,RJ,Rio de Janeiro,Rio de Janeiro,lead,Facebook
3,1004,2022-08-16 09:33:00,BA,Bahia,Salvador,lead,Facebook
4,1005,2022-08-16 08:56:00,SP,São Paulo,São Paulo,lead,Blog


In [None]:
# leitura de arquivo json
df_json = pd.read_json('https://raw.githubusercontent.com/diasctiago/pandas/main/leads.json')

In [None]:
df_json.head()

Unnamed: 0,id,data,endereço,status,origem
0,1001,16/08/2022 13:19,"{'UF': 'BA', 'estado': 'Bahia', 'cidade': 'Sal...",lead,Facebook
1,1002,16/08/2022 11:05,"{'UF': 'BA', 'estado': 'Bahia', 'cidade': 'Sal...",lead,Facebook
2,1003,16/08/2022 10:33,"{'UF': 'RJ', 'estado': 'Rio de Janeiro', 'cida...",lead,Facebook


In [None]:
!pip install requests

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
# normalizando os dados de um json
import json
from urllib import request

with request.urlopen('https://raw.githubusercontent.com/diasctiago/pandas/main/leads.json') as arquivo:
  dados_json = json.load(arquivo)

In [None]:
df_json_norma = pd.json_normalize(dados_json)

In [None]:
df_json_norma.head()

Unnamed: 0,id,data,status,origem,endereço.UF,endereço.estado,endereço.cidade
0,1001,16/08/2022 13:19,lead,Facebook,BA,Bahia,Salvador
1,1002,16/08/2022 11:05,lead,Facebook,BA,Bahia,Salvador
2,1003,16/08/2022 10:33,lead,Facebook,RJ,Rio de Janeiro,Rio de Janeiro


In [None]:
# lendo um arquivo csv a partir da base de dados gov.br
df = pd.read_csv('http://dados.agricultura.gov.br/dataset/420c0514-92da-4888-be85-290a0785e8a9/resource/65cce855-685e-4cfa-b3a4-2d192fc83b4e/download/rfflorestasplantadasibge2014-2016.csv',
                 encoding='Windows 1252',
                 delimiter=';')

In [None]:
# verificando as primeiras linhas do arquivo
df.head()

Unnamed: 0,Ano (data),País,Região,Estado,Estado sigla,Município (Municípios),Município Estado,Latitude,Longitude,Espécie florestal,Área (ha)
0,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0
1,31/12/2015,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0
2,31/12/2016,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0
3,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Pinus,0.0
4,31/12/2015,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Pinus,0.0


In [None]:
# verificando as última linhas do arquivo
df.tail()

Unnamed: 0,Ano (data),País,Região,Estado,Estado sigla,Município (Municípios),Município Estado,Latitude,Longitude,Espécie florestal,Área (ha)
31009,31/12/2015,Brasil,Centro Oeste,Distrito Federal,DF,Brasília,Brasília (DF),-1578,-478,Pinus,1000.0
31010,31/12/2016,Brasil,Centro Oeste,Distrito Federal,DF,Brasília,Brasília (DF),-1578,-478,Pinus,700.0
31011,31/12/2014,Brasil,Centro Oeste,Distrito Federal,DF,Brasília,Brasília (DF),-1578,-478,Outras espécies,0.0
31012,31/12/2015,Brasil,Centro Oeste,Distrito Federal,DF,Brasília,Brasília (DF),-1578,-478,Outras espécies,0.0
31013,31/12/2016,Brasil,Centro Oeste,Distrito Federal,DF,Brasília,Brasília (DF),-1578,-478,Outras espécies,0.0


In [None]:
# verificando os nomes das colunas carregadas
df.columns

Index(['Ano (data)', 'País', 'Região', 'Estado', 'Estado sigla',
       'Município (Municípios)', 'Município Estado', 'Latitude', 'Longitude',
       'Espécie florestal', 'Área (ha)'],
      dtype='object')

In [None]:
# verificando o indice
df.index

RangeIndex(start=0, stop=31014, step=1)

In [None]:
# tipo da variável
type(df)

pandas.core.frame.DataFrame

In [None]:
# verificado as informações dos dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31014 entries, 0 to 31013
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Ano (data)              31014 non-null  object 
 1   País                    31014 non-null  object 
 2   Região                  31014 non-null  object 
 3   Estado                  31014 non-null  object 
 4   Estado sigla            31014 non-null  object 
 5   Município (Municípios)  31014 non-null  object 
 6   Município Estado        31014 non-null  object 
 7   Latitude                31014 non-null  object 
 8   Longitude               31014 non-null  object 
 9   Espécie florestal       31014 non-null  object 
 10  Área (ha)               29658 non-null  float64
dtypes: float64(1), object(10)
memory usage: 2.6+ MB


In [None]:
# quantidadede linhas e colunas
df.shape

(31014, 11)

Como selecionar colunas específicas do DataFrame.

| ![Colunas dos Dados](https://pandas.pydata.org/docs/_images/03_subset_columns.svg) |
|:--:| 
| _Colunas dos Dados_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

In [None]:
df[['Ano (data)','Área (ha)']]

Unnamed: 0,Ano (data),Área (ha)
0,31/12/2014,0.0
1,31/12/2015,0.0
2,31/12/2016,0.0
3,31/12/2014,0.0
4,31/12/2015,0.0
...,...,...
31009,31/12/2015,1000.0
31010,31/12/2016,700.0
31011,31/12/2014,0.0
31012,31/12/2015,0.0


Como selecionar linhas específicas do DataFrame.

| ![Linhas dos Dados](https://pandas.pydata.org/docs/_images/03_subset_rows.svg) |
|:--:| 
| _Linhas dos Dados_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

In [None]:
df['Área (ha)']>200000

0        False
1        False
2        False
3        False
4        False
         ...  
31009    False
31010    False
31011    False
31012    False
31013    False
Name: Área (ha), Length: 31014, dtype: bool

In [None]:
df[df['Área (ha)']>200000]

Unnamed: 0,Ano (data),País,Região,Estado,Estado sigla,Município (Municípios),Município Estado,Latitude,Longitude,Espécie florestal,Área (ha)
28460,31/12/2016,Brasil,Centro Oeste,Mato Grosso do Sul,MS,Ribas do Rio Pardo,Ribas do Rio Pardo (MS),-206,-5354,Eucalipto,205000.0
28576,31/12/2015,Brasil,Centro Oeste,Mato Grosso do Sul,MS,Três Lagoas,Três Lagoas (MS),-2044,-5221,Eucalipto,217600.0
28577,31/12/2016,Brasil,Centro Oeste,Mato Grosso do Sul,MS,Três Lagoas,Três Lagoas (MS),-2044,-5221,Eucalipto,230000.0


In [None]:
df['Estado sigla'] == 'MS'

0        False
1        False
2        False
3        False
4        False
         ...  
31009    False
31010    False
31011    False
31012    False
31013    False
Name: Estado sigla, Length: 31014, dtype: bool

In [None]:
df[df['Estado sigla'] == 'MS']

Unnamed: 0,Ano (data),País,Região,Estado,Estado sigla,Município (Municípios),Município Estado,Latitude,Longitude,Espécie florestal,Área (ha)
27909,31/12/2014,Brasil,Centro Oeste,Mato Grosso do Sul,MS,Água Clara,Água Clara (MS),-1978,-5299,Eucalipto,118000.0
27910,31/12/2015,Brasil,Centro Oeste,Mato Grosso do Sul,MS,Água Clara,Água Clara (MS),-1978,-5299,Eucalipto,120000.0
27911,31/12/2016,Brasil,Centro Oeste,Mato Grosso do Sul,MS,Água Clara,Água Clara (MS),-1978,-5299,Eucalipto,125000.0
27912,31/12/2014,Brasil,Centro Oeste,Mato Grosso do Sul,MS,Água Clara,Água Clara (MS),-1978,-5299,Pinus,500.0
27913,31/12/2015,Brasil,Centro Oeste,Mato Grosso do Sul,MS,Água Clara,Água Clara (MS),-1978,-5299,Pinus,400.0
...,...,...,...,...,...,...,...,...,...,...,...
28588,31/12/2015,Brasil,Centro Oeste,Mato Grosso do Sul,MS,Vicentina,Vicentina (MS),-2247,-5442,Pinus,0.0
28589,31/12/2016,Brasil,Centro Oeste,Mato Grosso do Sul,MS,Vicentina,Vicentina (MS),-2247,-5442,Pinus,0.0
28590,31/12/2014,Brasil,Centro Oeste,Mato Grosso do Sul,MS,Vicentina,Vicentina (MS),-2247,-5442,Outras espécies,0.0
28591,31/12/2015,Brasil,Centro Oeste,Mato Grosso do Sul,MS,Vicentina,Vicentina (MS),-2247,-5442,Outras espécies,0.0


In [None]:
# verificando um indice específico
df.loc[31013]

Ano (data)                      31/12/2016
País                                Brasil
Região                        Centro Oeste
Estado                    Distrito Federal
Estado sigla                            DF
Município (Municípios)            Brasília
Município Estado             Brasília (DF)
Latitude                            -15,78
Longitude                            -47,8
Espécie florestal          Outras espécies
Área (ha)                              0.0
Name: 31013, dtype: object

In [None]:
# verificando colunas nulas
df.isnull().sum()

Ano (data)                   0
País                         0
Região                       0
Estado                       0
Estado sigla                 0
Município (Municípios)       0
Município Estado             0
Latitude                     0
Longitude                    0
Espécie florestal            0
Área (ha)                 1356
dtype: int64

In [None]:
df[df['Área (ha)'].isnull()]

Unnamed: 0,Ano (data),País,Região,Estado,Estado sigla,Município (Municípios),Município Estado,Latitude,Longitude,Espécie florestal,Área (ha)
263,31/12/2016,Brasil,Norte,Roraima,RR,Alto Alegre,Alto Alegre (RR),3078257154,-6276,Eucalipto,
266,31/12/2016,Brasil,Norte,Roraima,RR,Alto Alegre,Alto Alegre (RR),3078257154,-6276,Pinus,
269,31/12/2016,Brasil,Norte,Roraima,RR,Alto Alegre,Alto Alegre (RR),3078257154,-6276,Outras espécies,
272,31/12/2016,Brasil,Norte,Roraima,RR,Boa Vista,Boa Vista (RR),3117914945,-6072,Eucalipto,
275,31/12/2016,Brasil,Norte,Roraima,RR,Boa Vista,Boa Vista (RR),3117914945,-6072,Pinus,
...,...,...,...,...,...,...,...,...,...,...,...
30952,31/12/2015,Brasil,Centro Oeste,Goiás,GO,Uruana,Uruana (GO),-1558,-4964,Eucalipto,
30954,31/12/2014,Brasil,Centro Oeste,Goiás,GO,Uruana,Uruana (GO),-1558,-4964,Pinus,
30955,31/12/2015,Brasil,Centro Oeste,Goiás,GO,Uruana,Uruana (GO),-1558,-4964,Pinus,
30957,31/12/2014,Brasil,Centro Oeste,Goiás,GO,Uruana,Uruana (GO),-1558,-4964,Outras espécies,


Como filtrar colunas e linhas específicas do DataFrame.

| ![Filtrando os Dados](https://pandas.pydata.org/docs/_images/03_subset_columns_rows.svg) |
|:--:| 
| _Filtrando os Dados_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

In [None]:
df.loc[df['Área (ha)']>200000, 'Estado sigla']

28460    MS
28576    MS
28577    MS
Name: Estado sigla, dtype: object

In [None]:
df[df['Área (ha)']>200000][['País','Região','Estado sigla','Área (ha)']]

Unnamed: 0,País,Região,Estado sigla,Área (ha)
28460,Brasil,Centro Oeste,MS,205000.0
28576,Brasil,Centro Oeste,MS,217600.0
28577,Brasil,Centro Oeste,MS,230000.0


Como criar novas colunas no DataFrame.

| ![Novas Colunas](https://pandas.pydata.org/docs/_images/05_newcolumn_1.svg) |
|:--:| 
| _Novas Colunas_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

In [None]:
df['Nova Coluna'] = df['Área (ha)'] * 100

In [None]:
df.head()

Unnamed: 0,Ano (data),País,Região,Estado,Estado sigla,Município (Municípios),Município Estado,Latitude,Longitude,Espécie florestal,Área (ha),Nova Coluna
0,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0,0.0
1,31/12/2015,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0,0.0
2,31/12/2016,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0,0.0
3,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Pinus,0.0,0.0
4,31/12/2015,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Pinus,0.0,0.0


In [None]:
# verificando a nova coluna criada
df[df['Área (ha)']>200000][['País','Região','Estado sigla','Área (ha)','Nova Coluna']]

Unnamed: 0,País,Região,Estado sigla,Área (ha),Nova Coluna
28460,Brasil,Centro Oeste,MS,205000.0,20500000.0
28576,Brasil,Centro Oeste,MS,217600.0,21760000.0
28577,Brasil,Centro Oeste,MS,230000.0,23000000.0


In [None]:
df['Nivel'] = ['Alto' if x > 200000 else 'Baixo' for x in df['Área (ha)']]

In [None]:
df[df['Área (ha)']>170000][['País','Região','Estado sigla','Área (ha)','Nivel']]

Unnamed: 0,País,Região,Estado sigla,Área (ha),Nivel
622,Brasil,Norte,AP,172420.0,Baixo
623,Brasil,Norte,AP,174420.0,Baixo
28458,Brasil,Centro Oeste,MS,175000.0,Baixo
28459,Brasil,Centro Oeste,MS,196000.0,Baixo
28460,Brasil,Centro Oeste,MS,205000.0,Alto
28575,Brasil,Centro Oeste,MS,200000.0,Baixo
28576,Brasil,Centro Oeste,MS,217600.0,Alto
28577,Brasil,Centro Oeste,MS,230000.0,Alto


In [None]:
# principais medidas estatisticas para as variáveis numéricas
df.describe()

Unnamed: 0,Área (ha),Nova Coluna
count,29658.0,29658.0
mean,988.865197,98886.52
std,5477.57943,547757.9
min,0.0,0.0
25%,0.0,0.0
50%,0.0,0.0
75%,242.0,24200.0
max,230000.0,23000000.0


In [None]:
# calculando as medidas de agregação

In [None]:
# media
round(df['Área (ha)'].mean(), 3)

988.865

In [None]:
# mediana
df['Área (ha)'].median()

0.0

In [None]:
# soma
df['Área (ha)'].sum()

29327764.0

Como criar medidas agregadas agrupando por categoria no DataFrame.

| ![Group by](https://pandas.pydata.org/docs/_images/06_groupby.svg) |
|:--:| 
| _Group by_ (Fonte da imagem: [Pandas](https://pandas.pydata.org/)) |

In [None]:
# media por estado
df[['Estado sigla','Área (ha)']]

Unnamed: 0,Estado sigla,Área (ha)
0,RO,0.0
1,RO,0.0
2,RO,0.0
3,RO,0.0
4,RO,0.0
...,...,...
31009,DF,1000.0
31010,DF,700.0
31011,DF,0.0
31012,DF,0.0


In [None]:
df[['Estado sigla','Área (ha)']].groupby('Estado sigla').mean()

Unnamed: 0_level_0,Área (ha)
Estado sigla,Unnamed: 1_level_1
AL,90.702899
AP,10622.244444
BA,2406.675
CE,7.956522
DF,1224.222222
ES,1166.81339
GO,312.309201
MA,1581.435185
MG,792.108674
MS,4191.767857


In [None]:
# soma por especie
df[['Espécie florestal','Área (ha)']].groupby('Espécie florestal').sum()

Unnamed: 0_level_0,Área (ha)
Espécie florestal,Unnamed: 1_level_1
Eucalipto,21940841.0
Outras espécies,1192967.0
Pinus,6193956.0


In [None]:
# contando os registros por categoria
df.groupby('Região')['Região'].count()

Região
Centro Oeste     3105
Nordeste         2727
Norte            1413
Sudeste         13203
Sul             10566
Name: Região, dtype: int64

In [None]:
df['Região'].value_counts(ascending=True)

Norte            1413
Nordeste         2727
Centro Oeste     3105
Sul             10566
Sudeste         13203
Name: Região, dtype: int64

In [None]:
df['Espécie florestal'].value_counts()

Eucalipto          10338
Pinus              10338
Outras espécies    10338
Name: Espécie florestal, dtype: int64

In [None]:
# verificando a quantidade de registros de todas as colunas
for col in df.columns:
  print(f'\n### {col} ###')
  print(df[col].value_counts())


### Ano (data) ###
31/12/2014    10338
31/12/2015    10338
31/12/2016    10338
Name: Ano (data), dtype: int64

### País ###
Brasil    31014
Name: País, dtype: int64

### Região ###
Sudeste         13203
Sul             10566
Centro Oeste     3105
Nordeste         2727
Norte            1413
Name: Região, dtype: int64

### Estado ###
Minas Gerais           7191
São Paulo              4617
Rio Grande do Sul      4419
Paraná                 3510
Santa Catarina         2637
Goiás                  1404
Mato Grosso            1008
Bahia                   945
Tocantins               756
Espírito Santo          702
Rio de Janeiro          693
Mato Grosso do Sul      684
Maranhão                495
Alagoas                 369
Rio Grande do Norte     261
Pará                    261
Rondônia                261
Piauí                   225
Sergipe                 189
Ceará                   135
Roraima                  90
Paraíba                  63
Pernambuco               45
Amapá                

In [None]:
# buscando registros por string
df[df['Município (Municípios)'].str.contains('Salvador')]

Unnamed: 0,Ano (data),País,Região,Estado,Estado sigla,Município (Municípios),Município Estado,Latitude,Longitude,Espécie florestal,Área (ha),Nova Coluna,Nivel
1305,31/12/2014,Brasil,Norte,Tocantins,TO,São Salvador do Tocantins,São Salvador do Tocantins (TO),-1258,-4837,Eucalipto,40.0,4000.0,Baixo
1306,31/12/2015,Brasil,Norte,Tocantins,TO,São Salvador do Tocantins,São Salvador do Tocantins (TO),-1258,-4837,Eucalipto,40.0,4000.0,Baixo
1307,31/12/2016,Brasil,Norte,Tocantins,TO,São Salvador do Tocantins,São Salvador do Tocantins (TO),-1258,-4837,Eucalipto,40.0,4000.0,Baixo
1308,31/12/2014,Brasil,Norte,Tocantins,TO,São Salvador do Tocantins,São Salvador do Tocantins (TO),-1258,-4837,Pinus,0.0,0.0,Baixo
1309,31/12/2015,Brasil,Norte,Tocantins,TO,São Salvador do Tocantins,São Salvador do Tocantins (TO),-1258,-4837,Pinus,0.0,0.0,Baixo
1310,31/12/2016,Brasil,Norte,Tocantins,TO,São Salvador do Tocantins,São Salvador do Tocantins (TO),-1258,-4837,Pinus,0.0,0.0,Baixo
1311,31/12/2014,Brasil,Norte,Tocantins,TO,São Salvador do Tocantins,São Salvador do Tocantins (TO),-1258,-4837,Outras espécies,0.0,0.0,Baixo
1312,31/12/2015,Brasil,Norte,Tocantins,TO,São Salvador do Tocantins,São Salvador do Tocantins (TO),-1258,-4837,Outras espécies,0.0,0.0,Baixo
1313,31/12/2016,Brasil,Norte,Tocantins,TO,São Salvador do Tocantins,São Salvador do Tocantins (TO),-1258,-4837,Outras espécies,0.0,0.0,Baixo
26658,31/12/2014,Brasil,Sul,Rio Grande do Sul,RS,Salvador das Missões,Salvador das Missões (RS),-281,-5483,Eucalipto,60.0,6000.0,Baixo


In [None]:
df[df['Município (Municípios)'].str.contains('Salvador')]['Município (Municípios)'].unique()

array(['São Salvador do Tocantins', 'Salvador das Missões',
       'Salvador do Sul'], dtype=object)

In [None]:
type(df[df['Município (Municípios)'].str.contains('Salvador')]['Município (Municípios)'].unique())

numpy.ndarray

In [None]:
# selecionando o primeiro nome de uma variavel do tipo string
df['Município (Municípios)'].str.split().str.get(0)

0            Alta
1            Alta
2            Alta
3            Alta
4            Alta
           ...   
31009    Brasília
31010    Brasília
31011    Brasília
31012    Brasília
31013    Brasília
Name: Município (Municípios), Length: 31014, dtype: object

In [None]:
# selecionando o valor distinto variavel do tipo string
df['Região'].unique()

array(['Norte', 'Nordeste', 'Sudeste', 'Sul', 'Centro Oeste'],
      dtype=object)

In [None]:
df['Estado sigla'].unique()

array(['RO', 'RR', 'PA', 'AP', 'TO', 'MA', 'PI', 'CE', 'RN', 'PB', 'PE',
       'AL', 'SE', 'BA', 'MG', 'ES', 'RJ', 'SP', 'PR', 'SC', 'RS', 'MS',
       'MT', 'GO', 'DF'], dtype=object)

In [None]:
# removendo colunas do dataframe
df.drop(columns=['Nova Coluna', 'Nivel'], inplace=True)

In [None]:
df.head()

Unnamed: 0,Ano (data),País,Região,Estado,Estado sigla,Município (Municípios),Município Estado,Latitude,Longitude,Espécie florestal,Área (ha)
0,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0
1,31/12/2015,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0
2,31/12/2016,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0
3,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Pinus,0.0
4,31/12/2015,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Pinus,0.0


In [None]:
# renomeando colunas do dataframe
df.rename(columns={
    'Ano (data)': 'ano_data',
    'Município (Municípios)': 'municipios'
}, inplace=True)

In [None]:
df.head()

Unnamed: 0,ano_data,País,Região,Estado,Estado sigla,municipios,Município Estado,Latitude,Longitude,Espécie florestal,Área (ha)
0,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0
1,31/12/2015,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0
2,31/12/2016,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0
3,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Pinus,0.0
4,31/12/2015,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Pinus,0.0


In [None]:
# ordenando os dado do dataframe
df.sort_values('ano_data', inplace=True)

In [None]:
df.head()

Unnamed: 0,ano_data,País,Região,Estado,Estado sigla,municipios,Município Estado,Latitude,Longitude,Espécie florestal,Área (ha)
0,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0
12510,31/12/2014,Brasil,Sudeste,Rio de Janeiro,RJ,Rio das Ostras,Rio das Ostras (RJ),-2245,-4195,Eucalipto,434.0
26841,31/12/2014,Brasil,Sul,Rio Grande do Sul,RS,Santo Antônio do Planalto,Santo Antônio do Planalto (RS),-2837,-5268,Pinus,20.0
12513,31/12/2014,Brasil,Sudeste,Rio de Janeiro,RJ,Rio das Ostras,Rio das Ostras (RJ),-2245,-4195,Pinus,0.0
12516,31/12/2014,Brasil,Sudeste,Rio de Janeiro,RJ,Rio das Ostras,Rio das Ostras (RJ),-2245,-4195,Outras espécies,0.0


In [None]:
df.reset_index(drop=True, inplace=True)

In [None]:
df.head()

Unnamed: 0,ano_data,País,Região,Estado,Estado sigla,municipios,Município Estado,Latitude,Longitude,Espécie florestal,Área (ha)
0,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0
1,31/12/2014,Brasil,Sudeste,Rio de Janeiro,RJ,Rio das Ostras,Rio das Ostras (RJ),-2245,-4195,Eucalipto,434.0
2,31/12/2014,Brasil,Sul,Rio Grande do Sul,RS,Santo Antônio do Planalto,Santo Antônio do Planalto (RS),-2837,-5268,Pinus,20.0
3,31/12/2014,Brasil,Sudeste,Rio de Janeiro,RJ,Rio das Ostras,Rio das Ostras (RJ),-2245,-4195,Pinus,0.0
4,31/12/2014,Brasil,Sudeste,Rio de Janeiro,RJ,Rio das Ostras,Rio das Ostras (RJ),-2245,-4195,Outras espécies,0.0


In [None]:
# gravando os dados em arquivo csv
df.to_csv('florestas.csv', index=False)

In [None]:
# lendo um arquivo csv local
florestas = pd.read_csv('florestas.csv')

In [None]:
florestas.head()

Unnamed: 0,ano_data,País,Região,Estado,Estado sigla,municipios,Município Estado,Latitude,Longitude,Espécie florestal,Área (ha)
0,31/12/2014,Brasil,Norte,Rondônia,RO,Alta Floresta D'Oeste,Alta Floresta D'Oeste (RO),-1247,-6227,Eucalipto,0.0
1,31/12/2014,Brasil,Sudeste,Rio de Janeiro,RJ,Rio das Ostras,Rio das Ostras (RJ),-2245,-4195,Eucalipto,434.0
2,31/12/2014,Brasil,Sul,Rio Grande do Sul,RS,Santo Antônio do Planalto,Santo Antônio do Planalto (RS),-2837,-5268,Pinus,20.0
3,31/12/2014,Brasil,Sudeste,Rio de Janeiro,RJ,Rio das Ostras,Rio das Ostras (RJ),-2245,-4195,Pinus,0.0
4,31/12/2014,Brasil,Sudeste,Rio de Janeiro,RJ,Rio das Ostras,Rio das Ostras (RJ),-2245,-4195,Outras espécies,0.0


### Outros Exemplos

In [None]:
dados = pd.read_csv('https://raw.githubusercontent.com/dadosaocubo/nlp/master/base_mercadologica.csv')

In [None]:
dados.head()

Unnamed: 0,descricao,departamento
0,"PASTA INT VITAPOWER 1,005KG AMEND/SHOT",MERCEARIA DOCE
1,ESPONJA BETTANIN BRILHUS C/1,CUIDADOS COM A COZINHA
2,AGUA MIN SCHIN S/GAS 500ML,BEBIDAS NÃO ALCOÓLICAS
3,FITA DUPLA FACE C/SUPORTE SCOTCH,PAPELARIA
4,MASSA PIZZA ROMANHA OREGANO PCT 160G,MASSAS FRESCAS


In [None]:
dados['departamento'].value_counts()

MERCEARIA DOCE              3614
MERCEARIA SALGADA           2090
UTILIDADES DE COZINHA       1670
BEBIDAS ALCOÓLICAS          1366
CUIDADOS COM O CABELO       1257
BEBIDAS NÃO ALCOÓLICAS       698
CUIDADOS COM O CORPO         658
HORTIFRUTI                   642
CALÇADO                      607
DESCARTÁVEIS                 598
FRIOS                        493
CAMA, MESA E BANHO           453
CUIDADOS COM A CASA          449
LAVANDERIA                   448
AÇOUGUE                      420
PAPELARIA                    387
IOGURTES                     360
ELETRO                       356
PET SHOP                     343
HIGIENE PESSOAL              339
CONGELADOS DOCES             293
DECORAÇÃO                    288
CUIDADOS COM A ROUPA         278
HIGIENE ORAL                 277
CUIDADOS COM MÃOS E PÉS      272
HIGIENE PESSOAL INFANTIL     259
PADARIA                      253
AUTOMOTIVO                   247
MANUTENÇÃO                   242
CUIDADOS COM O BANHEIRO      201
CUIDADOS C

## Atividade

**Questão 1 -** Fazer a leitura dos dados da Sinaflor no link [Exploração de Floresta Plantada](https://dados.gov.br/dataset/sinaflor-exploracao-de-floresta-plantada) utilizando a biblioteca pandas do Python.

In [11]:
import pandas as pd

endereco = 'https://dadosabertos.ibama.gov.br/dados/SINAFLOR/exploracaoFlorestaPlantada.html'

ler = pd.read_html(url)

df = ler[0]
df

Unnamed: 0,UF,MunicÃ­pio,Nome Detentor,CPF/CNPJ do Detentor,ImÃ³vel Rural Vinculado,NÂº CAR ImÃ³vel Rural,Nome Empreendimento Vinculado,Latitude do ponto centroide do Empreendimento,Longitude do ponto centroide do Empreendimento,Atividade,...,VariÃ¢ncia/Extrato,Erro PadrÃ£o Extrato,Intervalo de ConfianÃ§a.1,Cronograma ExploraÃ§Ã£o Atividade,Cronograma Exploracao MÃªs/Ano,Volume Explorar Produto Florestal,Volume Explorar Unidade Medida,Volume Explorar InÃ­cio ExploraÃ§Ã£o,Volume Explorar PerÃ­odo,Volume a Explorar Volume
0,AC,EPITACIOLANDIA,G. L. MAFFI,02.023.852/0001-20,ColÃ´nia Guaraciaba,AC-1200252-BFD72C288A5247C987F4888409D180A6,ParicÃ¡ - ColÃ´nia Guaraciaba (Plantio),,,ExploraÃ§Ã£o de Floresta Plantada,...,,,,,01/02/2021,Lenha (st),,11/2021,,230.0
1,AC,EPITACIOLANDIA,G. L. MAFFI,02.023.852/0001-20,ColÃ´nia Guaraciaba,AC-1200252-BFD72C288A5247C987F4888409D180A6,ParicÃ¡ - ColÃ´nia Guaraciaba (Plantio),,,ExploraÃ§Ã£o de Floresta Plantada,...,,,,,01/02/2021,Lenha (st),,11/2021,,400.0
2,AC,EPITACIOLANDIA,G. L. MAFFI,02.023.852/0001-20,ColÃ´nia Guaraciaba,AC-1200252-BFD72C288A5247C987F4888409D180A6,ParicÃ¡ - ColÃ´nia Guaraciaba (Plantio),,,ExploraÃ§Ã£o de Floresta Plantada,...,,,,,01/02/2021,Lenha (st),,2/2021,,230.0
3,AC,EPITACIOLANDIA,G. L. MAFFI,02.023.852/0001-20,ColÃ´nia Guaraciaba,AC-1200252-BFD72C288A5247C987F4888409D180A6,ParicÃ¡ - ColÃ´nia Guaraciaba (Plantio),,,ExploraÃ§Ã£o de Floresta Plantada,...,,,,,01/02/2021,Lenha (st),,2/2021,,400.0
4,AC,EPITACIOLANDIA,G. L. MAFFI,02.023.852/0001-20,ColÃ´nia Guaraciaba,AC-1200252-BFD72C288A5247C987F4888409D180A6,ParicÃ¡ - ColÃ´nia Guaraciaba (Plantio),,,ExploraÃ§Ã£o de Floresta Plantada,...,,,,,01/02/2021,Lenha (st),,5/2021,,230.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4355,TO,WANDERLANDIA,VFSA,019.***.***-**,FAZENDA SAUDADE PARTE,TO-1722081-C571FC16E3764D778DD9BC379FDAAF51,FAZENDA SAUDADE PARTE,,,ExploraÃ§Ã£o de Floresta Plantada,...,,,,,01/04/2022,Tora (mÂ³),,10/2022,,251720.0
4356,TO,WANDERLANDIA,VFSA,019.***.***-**,FAZENDA SAUDADE PARTE,TO-1722081-C571FC16E3764D778DD9BC379FDAAF51,FAZENDA SAUDADE PARTE,,,ExploraÃ§Ã£o de Floresta Plantada,...,,,,,01/04/2022,Tora (mÂ³),,4/2022,,251720.0
4357,TO,WANDERLANDIA,VFSA,019.***.***-**,FAZENDA SAUDADE PARTE,TO-1722081-C571FC16E3764D778DD9BC379FDAAF51,FAZENDA SAUDADE PARTE,,,ExploraÃ§Ã£o de Floresta Plantada,...,,,,,01/04/2022,Tora (mÂ³),,7/2022,,251720.0
4358,TO,XAMBIOA,JAP,589.***.***-**,Fazenda Beira Rio,TO-1722107-87DEE8F90D6B412BAC3C186CD669A489,Fazenda Beira Rio,,,ExploraÃ§Ã£o de Floresta Plantada,...,,,,,01/01/2019,Lenha (st),,1/2019,,2219974.0


**Questão 2 -** Consultar as informações básicas do dataset carregado acima da **Exploração de Floresta Plantada**, conforme lista abaixo:
*   Quantidade de registros
*   Quantidade de colunas
*   Listar as colunas dos dados
*   Exibir as principais informações do conjunto de dados
*   Listar as colunas com dados vazios


In [12]:
# Registros
# Quantidade de colunas
# Listar as colunas dos dados

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4360 entries, 0 to 4359
Data columns (total 74 columns):
 #   Column                                                  Non-Null Count  Dtype  
---  ------                                                  --------------  -----  
 0   UF                                                      4360 non-null   object 
 1   MunicÃ­pio                                              4360 non-null   object 
 2   Nome Detentor                                           4359 non-null   object 
 3   CPF/CNPJ do Detentor                                    4360 non-null   object 
 4   ImÃ³vel Rural Vinculado                                 4360 non-null   object 
 5   NÂº CAR ImÃ³vel Rural                                   4360 non-null   object 
 6   Nome Empreendimento Vinculado                           4360 non-null   object 
 7   Latitude do ponto centroide do Empreendimento           0 non-null      float64
 8   Longitude do ponto centroide do Empree

In [13]:
# Exibir as principais informações do conjunto de dados
df.describe()

Unnamed: 0,Latitude do ponto centroide do Empreendimento,Longitude do ponto centroide do Empreendimento,Dados Atividade Ãrea Efetivo Plantio (ha),Dados Atividade EspaÃ§amento (m),Dados Atividade NÂº Total de Ãrvores,Dados Atividade Volume,Dados Atividade Unidade de Medida (mÂ³ ou st),Ano do Corte,NÃºmero do Desbaste,Desbaste Porcentagem (%),...,NÂº Extratos,Total de Unidades,Volume MÃ©dio/Extrato,Volume MÃ©dio/Estratificada,VariÃ¢ncia/Extrato,Erro PadrÃ£o Extrato,Intervalo de ConfianÃ§a.1,Volume Explorar Unidade Medida,Volume Explorar PerÃ­odo,Volume a Explorar Volume
count,0.0,0.0,360.0,360.0,360.0,360.0,360.0,360.0,333.0,308.0,...,0.0,1709.0,311.0,311.0,311.0,311.0,0.0,0.0,0.0,3745.0
mean,,,250632.2,36.777778,524799.9,18646950.0,1.105556,2010.4,3620.21021,1010.957792,...,,807.308367,920479.7,849036.2,162976.2,10378.025723,,,,10607490.0
std,,,1667538.0,41.252339,1837990.0,191817400.0,0.307696,135.362964,30550.506675,7362.396566,...,,2906.537271,3875394.0,3678434.0,1577076.0,52385.31391,,,,75622370.0
min,,,1.0,0.0,10.0,0.0,1.0,202.0,0.0,0.0,...,,0.0,0.0,0.0,0.0,0.0,,,,0.0
25%,,,16.0,20.0,150.0,225.0,1.0,2019.0,10.0,200.0,...,,10.0,4896.0,3150.0,0.0,0.0,,,,150.0
50%,,,108.0,30.0,1400.0,10741.5,1.0,2021.0,20.0,200.0,...,,20.0,58561.0,30000.0,20.0,17.0,,,,3000.0
75%,,,551.0,40.0,62500.0,151862.0,1.0,2022.0,20.0,550.0,...,,550.0,215247.0,199529.0,11434.0,2745.0,,,,178818.0
max,,,18012240.0,276.0,14160970.0,2107432000.0,2.0,2022.0,279570.0,91667.0,...,,31500.0,23174480.0,23174480.0,27368930.0,523153.0,,,,1158791000.0


In [14]:
# Listar as colunas com dados vazios
df.isnull().sum()

UF                                         0
MunicÃ­pio                                 0
Nome Detentor                              1
CPF/CNPJ do Detentor                       0
ImÃ³vel Rural Vinculado                    0
                                        ... 
Volume Explorar Produto Florestal        593
Volume Explorar Unidade Medida          4360
Volume Explorar InÃ­cio ExploraÃ§Ã£o     615
Volume Explorar PerÃ­odo                4360
Volume a Explorar Volume                 615
Length: 74, dtype: int64

**Questão 3 -** Listar os estados presentes no dataset carregado acima da **Exploração de Floresta Plantada**.

In [27]:
df['UF'].unique()

array(['AC', 'AM', 'MA', 'MG', 'PR', 'RJ', 'RO', 'RS', 'SC', 'SP', 'TO'],
      dtype=object)

**Questão 4 -** Criar um diretório no GitHub com o notebook utilizado na aula e enviar o link do diretório publico.

https://github.com/jpfernandes1/aula-1