# INVENTÁRIO FLORESTAL

## Briefing

Notebook com o estudo de caso dos cáclculos de um inventário florestal, a partir de um levantamento real.

A coleta dos dados foi realizada em campo, através de uma equipe de três profissionais, que implantaram **42 parcelas** quadradas de **100 metros quadrados** (10m x 10m) em uma **floresta de 9,4 hectares totais**. A distribuição das parcelas na área foi feita considerando o método de amostragem aleatória simples, utilizando parcelas de área fixa.

A equipe de campo coletou o CAP (circunferência a 1,30 m de altura) de todas as árvores com mais de 12 cm de circunferência, mediu a altura de cada uma das árvores, e identificou sua espécie e/ou nome comum, fixando uma plaqueta metálica de identificação em cada uma das árvores e registrando a coordenada de localização (Coordenadas UTM X,Y) para cada parcela (unidade amostral).

Os dados foram coletados Dados de campo em arquivo csv já editado, limpo, com espécies corretas e diâmetros de espécies bifurcadas ajustados.

### Objetivos

Descrição quantitativa da floresta;

Parâmetros estatísticos da floresta;

Divisão da floresta por estágio sucessional de regeneração (Estágio inicial, médio e avançado);

Parâmetros estatísticos da floresta por estagio sucessional;

Cálculo dos Parâmetros Fitossociológicos por estágio sucessional (Estrutura vertical e estrutura horizontal):
    
    
    Riqueza (S)
    Densidade Absoluta e Relativa
    Frequência Absoluta e Relativa
    Dominância Absoluta e Relativa
    IVI - Índice de Valor de Importância
    IVC - Índice de Valor de Cobertura
    Índice de Diversidade de Shannon-Weaver (H')
    Índice de diversidade de Pielou (J)
    Índice de Simpson (D)
    Diversidade Máxima (H' max)
    Coeficiente de Mistura de Jentsch(QM)
    Número de Hill (Nh)


Estimativa do volume de madeira, em metro cúbico (m³), por espécie e total (com intervalo de confiança)

Estimativa do volume de madeira empilhado, em estéreo (*st*), por espécie e total (com intervalo de confiança)

Geração da lista de espécies com volume estimado, segundo padrão SINAFLOR, exportável para csv.


In [1]:
import os
import numpy as np
import pandas as pd
from math import pi
import matplotlib as plt
import seaborn as sns

In [2]:
data = pd.read_csv('dados_brutos_clean.csv')
data

Unnamed: 0,id,parcela,placa,familia,especie,especie_sem_autor,nome_comum,habito,ameaca_flora_brasileira,endemismo,cap,ht,coord_x,coord_y
0,1,1,2526.0,FABACEAE,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,19,5.5,729754.298150,6.959150e+06
1,2,1,2512.0,FABACEAE,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,17,6.0,729754.298150,6.959150e+06
2,3,1,2513.0,FABACEAE,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,16,7.0,729754.298150,6.959150e+06
3,4,1,2514.0,APOCYNACEAE,Tabernaemontana catharinensis A.DC.,Tabernaemontana catharinensis,Cata-vento,Árvore,NE,não é endêmica do Brasil,13.5,4.0,729754.298150,6.959150e+06
4,5,1,2515.0,FABACEAE,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,28,4.5,729754.298150,6.959150e+06
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
654,655,42,3141.0,Peraceae,Pera glabrata (Schott) Poepp. ex Baill.,Pera glabrata,Tabocuva,Árvore,NE,não é endêmica do Brasil,19,7.0,729918.545927,6.959837e+06
655,656,42,3140.0,MYRTACEAE,Myrceugenia euosma (O.Berg) D.Legrand,Myrceugenia euosma,Guamirim,Árvore,NE,é endêmica do Brasil,22,13.0,729918.545927,6.959837e+06
656,657,42,3142.0,BIGNONIACEAE,Jacaranda puberula Cham.,Jacaranda puberula,Caroba,Árvore,LC,é endêmica do Brasil,19,8.0,729918.545927,6.959837e+06
657,658,42,3143.0,Peraceae,Pera glabrata (Schott) Poepp. ex Baill.,Pera glabrata,Tabocuva,Árvore,NE,não é endêmica do Brasil,13,7.0,729918.545927,6.959837e+06


In [3]:
# Checar o dtype de cada campo
data.dtypes

id                           int64
parcela                      int64
placa                      float64
familia                     object
especie                     object
especie_sem_autor           object
nome_comum                  object
habito                      object
ameaca_flora_brasileira     object
endemismo                   object
cap                         object
ht                         float64
coord_x                    float64
coord_y                    float64
dtype: object

### Data Engineering

Homogeneizando a formatação dos campos de localização (coordenadas). Dados essenciais para a posterior geolocalização de cada amostra.

In [4]:
data['coord_x'] = data['coord_x'].round(3)
data['coord_y'] = data['coord_y'].round(3)

In [5]:
data.head(15)

Unnamed: 0,id,parcela,placa,familia,especie,especie_sem_autor,nome_comum,habito,ameaca_flora_brasileira,endemismo,cap,ht,coord_x,coord_y
0,1,1,2526.0,FABACEAE,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,19.0,5.5,729754.298,6959150.263
1,2,1,2512.0,FABACEAE,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,17.0,6.0,729754.298,6959150.263
2,3,1,2513.0,FABACEAE,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,16.0,7.0,729754.298,6959150.263
3,4,1,2514.0,APOCYNACEAE,Tabernaemontana catharinensis A.DC.,Tabernaemontana catharinensis,Cata-vento,Árvore,NE,não é endêmica do Brasil,13.5,4.0,729754.298,6959150.263
4,5,1,2515.0,FABACEAE,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,28.0,4.5,729754.298,6959150.263
5,6,1,2516.0,FABACEAE,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,21.0,4.5,729754.298,6959150.263
6,7,1,2517.0,FABACEAE,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,15.0,5.0,729754.298,6959150.263
7,8,1,2518.0,LAURACEAE,Nectandra oppositifolia Nees,Nectandra oppositifolia,Canela-ferrugem,Árvore,NE,não é endêmica do Brasil,21.0,5.5,729754.298,6959150.263
8,9,1,2520.0,EUPHORBIACEAE,Alchornea triplinervia (Spreng.) Müll.Arg.,Alchornea triplinervia,Tanheiro,Árvore,NE,não é endêmica do Brasil,38.0,6.0,729754.298,6959150.263
9,10,1,2519.0,MELASTOMATACEAE,Tibouchina pulchra Cogn.,Tibouchina pulchra,Quaresmeira,Árvore,NE,é endêmica do Brasil,16.0,4.0,729754.298,6959150.263


A coluna 'cap' está apresentando dtype do tipo 'object', quando deveria ser 'float' ou 'int'.
Ela é fundamental, pois a criação da coluna 'dap' (diâmetro a altura do peito), um dos principais parâmetros de um inventário florestal, depende de um cálculo realizado a partir de cada registro da coluna 'cap'.

In [6]:
# Como o 'dtype' resultou em 'object', é pq provavelmente deve ter dados corrompidos. 
# Vamos checar se a primeira linha está com o tipo de objeto correto, ou se todo o campo está errado
data.loc[[0],'cap']

0    19
Name: cap, dtype: object

In [7]:
# Como todo o campo está errado, devemos encontrar em qual linha está o erro.
# Por premissa técnica, sei que onde há erro, há o caracter "+"...
# ...(que havia na planilha original e que o estagiário esqueceu de ajustar)
# Então temos que localizar o índice de onde aparece o caracter "+"
contain_plus = data['cap'].str.contains('\+')
df_with_plus = data[contain_plus]
print(df_with_plus)

      id  parcela   placa    familia      especie especie_sem_autor  \
366  367       29  3490.0  MYRTACEAE  Eugenia sp.       Eugenia sp.   

    nome_comum habito ameaca_flora_brasileira endemismo    cap   ht  \
366   Guamirim      -                       -         -  15+17  5.0   

        coord_x      coord_y  
366  729971.462  6959328.223  


In [8]:
# O erro está somente no index 366 (cap = 15+17)
# Como eu sei (premissa técnica) que nesses casos o estagiário usou sempre o maior cap da célula...
# ...essa célula era para ser apenas "17"
# ...então vamos preenchê-la assim.
data.loc[366, 'cap'] = 17

In [9]:
# Checando se a linha foi corrigida:
data.loc[[366], 'cap']

366    17
Name: cap, dtype: object

In [10]:
# Agora, vamos substituir o tipo de dado da coluna 'cap'. (trocar de 'object' para 'float64')

In [11]:
data['cap'] = data['cap'].astype(float)

In [12]:
# Checando se surtiu efeito desejado:
data['cap'].dtype

dtype('float64')

In [13]:
# Agora testando novamente o cálculo do 'dap' a partir da coluna 'cap'.
# Não precisa reduzir as casas decimais, para termos maior precisão.
a = data['cap'] / pi
print(a)
print(a.max())
print(a.min())

0      6.047888
1      5.411268
2      5.092958
3      4.297183
4      8.912677
         ...   
654    6.047888
655    7.002817
656    6.047888
657    4.138029
658    7.957747
Name: cap, Length: 659, dtype: float64
63.02535746439055
3.183098861837907


In [14]:
# Criando a coluna 'dap' no dataframe, e já posicionando a coluna no local correto:
data.insert(11, 'dap', data['cap']/pi)

In [15]:
data.head(15)

Unnamed: 0,id,parcela,placa,familia,especie,especie_sem_autor,nome_comum,habito,ameaca_flora_brasileira,endemismo,cap,dap,ht,coord_x,coord_y
0,1,1,2526.0,FABACEAE,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,19.0,6.047888,5.5,729754.298,6959150.263
1,2,1,2512.0,FABACEAE,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,17.0,5.411268,6.0,729754.298,6959150.263
2,3,1,2513.0,FABACEAE,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,16.0,5.092958,7.0,729754.298,6959150.263
3,4,1,2514.0,APOCYNACEAE,Tabernaemontana catharinensis A.DC.,Tabernaemontana catharinensis,Cata-vento,Árvore,NE,não é endêmica do Brasil,13.5,4.297183,4.0,729754.298,6959150.263
4,5,1,2515.0,FABACEAE,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,28.0,8.912677,4.5,729754.298,6959150.263
5,6,1,2516.0,FABACEAE,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,21.0,6.684508,4.5,729754.298,6959150.263
6,7,1,2517.0,FABACEAE,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,15.0,4.774648,5.0,729754.298,6959150.263
7,8,1,2518.0,LAURACEAE,Nectandra oppositifolia Nees,Nectandra oppositifolia,Canela-ferrugem,Árvore,NE,não é endêmica do Brasil,21.0,6.684508,5.5,729754.298,6959150.263
8,9,1,2520.0,EUPHORBIACEAE,Alchornea triplinervia (Spreng.) Müll.Arg.,Alchornea triplinervia,Tanheiro,Árvore,NE,não é endêmica do Brasil,38.0,12.095776,6.0,729754.298,6959150.263
9,10,1,2519.0,MELASTOMATACEAE,Tibouchina pulchra Cogn.,Tibouchina pulchra,Quaresmeira,Árvore,NE,é endêmica do Brasil,16.0,5.092958,4.0,729754.298,6959150.263


In [16]:
# Como a coluna 'id' pode causar confusão, vamos renomeá-la para 'n_arv' (número da árvore)...
# ...pois isso é o que os dados desse campo significam.
data = data.rename(columns={'id':'n_arv'})

In [17]:
data.head()

Unnamed: 0,n_arv,parcela,placa,familia,especie,especie_sem_autor,nome_comum,habito,ameaca_flora_brasileira,endemismo,cap,dap,ht,coord_x,coord_y
0,1,1,2526.0,FABACEAE,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,19.0,6.047888,5.5,729754.298,6959150.263
1,2,1,2512.0,FABACEAE,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,17.0,5.411268,6.0,729754.298,6959150.263
2,3,1,2513.0,FABACEAE,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,16.0,5.092958,7.0,729754.298,6959150.263
3,4,1,2514.0,APOCYNACEAE,Tabernaemontana catharinensis A.DC.,Tabernaemontana catharinensis,Cata-vento,Árvore,NE,não é endêmica do Brasil,13.5,4.297183,4.0,729754.298,6959150.263
4,5,1,2515.0,FABACEAE,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,28.0,8.912677,4.5,729754.298,6959150.263


In [18]:
# Também vamos trocar a coluna placa para int 
try:
    data['placa'] = data['placa'].astype(int)
except:
    print("Error!")

Error!


In [19]:
# Retornou o erro: 'IntCastingNaNError: Cannot convert non-finite values (NA or inf) to integer'
# Checando se há valores NaN, pois não foi possível converter a coluna 'placa' para 'int':
data.isna().sum()

n_arv                      0
parcela                    0
placa                      1
familia                    0
especie                    0
especie_sem_autor          0
nome_comum                 0
habito                     0
ameaca_flora_brasileira    0
endemismo                  0
cap                        0
dap                        0
ht                         0
coord_x                    0
coord_y                    0
dtype: int64

In [20]:
# Para identificar onde está esse valor NaN:
nan_mask = data['placa'].isna()
print(data[nan_mask])

     n_arv  parcela  placa      familia                              especie  \
542    543       39    NaN  Cyatheaceae  Cyathea corcovadensis (Raddi) Domin   

         especie_sem_autor        nome_comum             habito  \
542  Cyathea corcovadensis  Xaxim-de-espinho  Feto arborescente   

    ameaca_flora_brasileira             endemismo   cap       dap   ht  \
542                      LC  é endêmica do Brasil  31.0  9.867606  2.0   

       coord_x      coord_y  
542  729899.59  6959809.199  


In [21]:
# checando se há algum número sequencial faltante.
data['placa'][530:550]

530    3272.0
531    3273.0
532    3274.0
533    3275.0
534    3278.0
535    3277.0
536    3276.0
537    3279.0
538    3287.0
539    3284.0
540    3286.0
541    3285.0
542       NaN
543    3283.0
544    3282.0
545    3281.0
546    3280.0
547    3290.0
548    3292.0
549    3219.0
Name: placa, dtype: float64

In [22]:
# teoricamente as plaquetas usadas em campo para numerar as árvores são sequenciais, mas não começam em 0 ou 1.
# Vamos checar o nuúmero mínimo e máximo das placas usadas, e ver se há alguma faltando:
data['placa'].min(), data['placa'].max() 

(2512.0, 3499.0)

In [23]:
placas_missing = []
for i in np.arange(2512.0, 3500.0, 1.0):
    if i not in data['placa'].tolist():
        print(i)
        placas_missing.append(i)
    else:
        continue

2521.0
2544.0
2545.0
2581.0
2597.0
2598.0
2617.0
2630.0
2637.0
2655.0
2657.0
2681.0
2687.0
2692.0
2701.0
2705.0
2709.0
2728.0
2752.0
2757.0
2768.0
2769.0
2776.0
2790.0
2834.0
2843.0
2855.0
2856.0
2867.0
2868.0
2869.0
2870.0
2871.0
2872.0
2873.0
2874.0
2875.0
2876.0
2877.0
2878.0
2879.0
2880.0
2881.0
2882.0
2883.0
2884.0
2885.0
2886.0
2887.0
2888.0
2889.0
2890.0
2891.0
2892.0
2893.0
2894.0
2895.0
2896.0
2897.0
2898.0
2899.0
2900.0
2901.0
2902.0
2903.0
2904.0
2905.0
2906.0
2907.0
2908.0
2909.0
2910.0
2911.0
2912.0
2913.0
2914.0
2915.0
2916.0
2917.0
2918.0
2919.0
2920.0
2921.0
2922.0
2923.0
2924.0
2925.0
2926.0
2927.0
2928.0
2929.0
2930.0
2931.0
2932.0
2933.0
2934.0
2935.0
2936.0
2937.0
2938.0
2939.0
2940.0
2941.0
2942.0
2943.0
2944.0
2945.0
2946.0
2947.0
2948.0
2949.0
2950.0
2951.0
2952.0
2953.0
2954.0
2955.0
2956.0
2957.0
2958.0
2959.0
2960.0
2961.0
2962.0
2963.0
2964.0
2965.0
2966.0
2967.0
2968.0
2969.0
2970.0
2971.0
2972.0
2988.0
2989.0
2990.0
2991.0
2994.0
2999.0
3000.0
3001.0
3002.0

In [24]:
# Bom, temos 659 registros, com placas numeradas entre 2512 e 3499.
# Porém, nesse range há 987 placas. Ou seja, 328 placas não foram utilizadas em campo.
# A lista das placas não utilizadas está acima, salvo na lista 'placas_missing'
# Foram registrados 348 números nesse range: 
len(placas_missing)

348

In [25]:
# No intuito de encontrar erros procedurais podemos verirficar se há números de placas repetidas:
placa_duplicated = data[data.duplicated(['placa'], keep = False)]
print(placa_duplicated['placa'].unique().tolist())
print(len(placa_duplicated['placa'].unique().tolist()), "duplicated numbers")

[2852.0, 2733.0, 2710.0, 2697.0, 2621.0, 2667.0, 2627.0, 3484.0, 3351.0, 3334.0, 3282.0, 3275.0, 3279.0, 3276.0, 3277.0, 3278.0, 3230.0]
17 duplicated numbers


In [26]:
# Há 17 números duplicados. Houve algum erro procedural no registro/uso dessas placas:
# São duas origens prováveis: 
# 1. Na coleta dos dados em campo, ou no registro/utilização/aplicação das placas de identificação 
# 2. No pré-processamento dos dados feito pelo estagiário em escritório.

# como estes dados estão comprometidos, é mais viável utilizar a coluna "n_arv", criada posteriormente...
# e que dá um número sequencial para as árvores inventariadas.

# A coluna com o número de placas não deve ser descartadas, pois é a referência DE CAMPO caso seja
# necessário encontrar árvores específicas in loco.

# Iremos então preencher esse NaN da coluna 'placa' com um dos numeros faltantes...
# apenas para permitir converter em 'int' e permitir alguma manipul. matemática futura ue venha a ser necessária.

# Escrever o script para substituir o NaN 
data['placa'].fillna(value = 3278.0, inplace = True)

# converter a coluna de object para int:
data['placa'] = data['placa'].astype(int)

In [27]:
# Vamos ajustar o nome das famílias, deixando somente a primeira letra maiúscula.
data['familia'] = data['familia'].str.title()

In [28]:
data.head()

Unnamed: 0,n_arv,parcela,placa,familia,especie,especie_sem_autor,nome_comum,habito,ameaca_flora_brasileira,endemismo,cap,dap,ht,coord_x,coord_y
0,1,1,2526,Fabaceae,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,19.0,6.047888,5.5,729754.298,6959150.263
1,2,1,2512,Fabaceae,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,17.0,5.411268,6.0,729754.298,6959150.263
2,3,1,2513,Fabaceae,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,16.0,5.092958,7.0,729754.298,6959150.263
3,4,1,2514,Apocynaceae,Tabernaemontana catharinensis A.DC.,Tabernaemontana catharinensis,Cata-vento,Árvore,NE,não é endêmica do Brasil,13.5,4.297183,4.0,729754.298,6959150.263
4,5,1,2515,Fabaceae,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,28.0,8.912677,4.5,729754.298,6959150.263


In [29]:
data.dtypes
# Agora os tipos de dados estão correspondentes com o que precisamos.

n_arv                        int64
parcela                      int64
placa                        int64
familia                     object
especie                     object
especie_sem_autor           object
nome_comum                  object
habito                      object
ameaca_flora_brasileira     object
endemismo                   object
cap                        float64
dap                        float64
ht                         float64
coord_x                    float64
coord_y                    float64
dtype: object

Vamos criar o campo **Área seccional**, que é comumente representada pelo símbolo **g**. 

A área seccional de uma árvore é a medida da seção transversal do tronco da árvore, ou seja, a área da superfície do tronco cortado perpendicularmente ao eixo longitudinal da árvore. Essa medida é importante para calcular o volume da árvore, que é utilizado em estudos de biomassa, carbono e produção de madeira.

Para calcular a área seccional, é necessário medir o diâmetro da árvore a uma altura padrão, geralmente a 1,3 metros do solo (DAP - Diâmetro a altura do Peito), utilizando uma fita métrica ou um dendrômetro. Em seguida, utiliza-se a fórmula matemática para calcular a área de um círculo, multiplicando o raio da árvore ao quadrado por π (pi). O raio é a metade do diâmetro. Caso a medida do diâmetro esteja em centímetro, podemos transformar o valor da área seccional para metros quadrados (m²) ao dividirmos por 40000.

Assim, a fórmula para calcular a área seccional de uma árvore é: 
![image.png](attachment:image.png)

Ao se medir a área seccional de várias árvores em uma mesma área, é possível estimar o volume de madeira e a biomassa da floresta, bem como avaliar a produtividade e o potencial de produção de madeira da região. Além disso, o cálculo da área seccional é importante para entender a estrutura da floresta e a composição das espécies arbóreas presentes na área de estudo, o que é uma informação essencial para a análise fitossociológica. A partir da área seccional e de outras medidas, como a densidade, a frequência e a dominância, é possível obter informações sobre a distribuição e abundância das espécies na área de estudo, bem como sobre a diversidade e a equitabilidade da comunidade vegetal.

In [30]:
# Vamos agora criar o campo 'area_seccional'
data.insert(12, 'seccional', ((data['dap']**2)*pi/40000))
data.head()

Unnamed: 0,n_arv,parcela,placa,familia,especie,especie_sem_autor,nome_comum,habito,ameaca_flora_brasileira,endemismo,cap,dap,seccional,ht,coord_x,coord_y
0,1,1,2526,Fabaceae,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,19.0,6.047888,0.002873,5.5,729754.298,6959150.263
1,2,1,2512,Fabaceae,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,17.0,5.411268,0.0023,6.0,729754.298,6959150.263
2,3,1,2513,Fabaceae,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,16.0,5.092958,0.002037,7.0,729754.298,6959150.263
3,4,1,2514,Apocynaceae,Tabernaemontana catharinensis A.DC.,Tabernaemontana catharinensis,Cata-vento,Árvore,NE,não é endêmica do Brasil,13.5,4.297183,0.00145,4.0,729754.298,6959150.263
4,5,1,2515,Fabaceae,Mimosa bimucronata (DC.) Kuntze,Mimosa bimucronata,Maricá,Arbusto; Árvore,NE,não é endêmica do Brasil,28.0,8.912677,0.006239,4.5,729754.298,6959150.263


Agora podemos proceder com o cálculo do volume de madeira de cada árvore.
Para tal, usaremos a técnica do Fator de Forma, amplamente utilizada para florestas Nativas no Brasil.

Para se calcular o volume do
cilindro e obter a sua área seccional basta utilizar
a altura comercial (Hc
) e o diâmetro com casca
tomado a 1,30 metro de altura na árvore (DAP).
Assim o volume é calculado como: Vcilindro =
[(PI x DAP2)/40000] x Hc
, sendo o DAP tomado
em centímetros. O fator de forma consiste em um índice que atenua a cilindricidade da árvore, tornando seu volume mais próximo do real. Quanto mais cilíndrica é uma árvore, mais próxima de 1 é seu fator de forma.

![image.png](attachment:image.png)

In [31]:
((data['dap']**2)*pi/40000) * data['ht'] * 0.6854


0      0.010829
1      0.009458
2      0.009774
3      0.003976
4      0.019243
         ...   
654    0.013783
655    0.034318
656    0.015752
657    0.006452
658    0.017044
Length: 659, dtype: float64

In [33]:
ff = 0.6854
data.insert(13, 'vol', (data['seccional'] * data['ht'] * ff))

Podemos também proceder com o cálculo do volume de madeira empilhado de cada árvore (em estéreo)
Ou seja, este é o volume da madeira empilhada, enquanto o volume anterior se refere ao volume líquido, em m³.
PAra isso, usamos um fator de 'cubicação', geralmente entre 1.5 e 2.0

In [34]:
fc = 1.5
data.insert(14, 'vol_st', (data['vol'] * fc))

In [35]:
# Vamos checar quais as classes existentes nos campos 'hábito', 'ameaca_flora_brasileira' e 'endemismo'...
# para identificarmos se há alguma feature com erro de grafia, duplicada, ou outro tipo de erro.

In [36]:
# Primeiro para o campo 'habito' (porte da planta)
data.habito.value_counts()

Árvore               436
Arbusto; Árvore      164
-                     30
Erva                  13
árvore                10
Arbusto                3
Palmeira               1
Feto arborescente      1
Arborescente           1
Name: habito, dtype: int64

In [37]:
# Como observado, há 10 registros de 'árvore' que não estão contabilizados juntamente com "Árvore". 
# Para ajustar essa inconformidade e homogeneizar a categoria, basta ajustarmos o valor desse dado...
# em cada linha onde ocorre o erro,
# Aproveitando, vamos atualizar o campo "-" para "Indefinido", cujo nome é mais adequado à sintaxe oficial.
habito_mapping = {'árvore': 'Árvore', '-': 'Indefinido'}
data['habito'] = data['habito'].replace(habito_mapping)

In [38]:
# Checando a homogeneição acima
data.habito.value_counts()

Árvore               446
Arbusto; Árvore      164
Indefinido            30
Erva                  13
Arbusto                3
Palmeira               1
Feto arborescente      1
Arborescente           1
Name: habito, dtype: int64

In [39]:
# Agora repetindo o processo para a coluna 'ameaca_flora_brasileira':
data.ameaca_flora_brasileira.value_counts()

NE    586
LC     42
-      31
Name: ameaca_flora_brasileira, dtype: int64

In [40]:
data[data['ameaca_flora_brasileira'].eq("-")]

Unnamed: 0,n_arv,parcela,placa,familia,especie,especie_sem_autor,nome_comum,habito,ameaca_flora_brasileira,endemismo,cap,dap,seccional,vol,vol_st,ht,coord_x,coord_y
162,163,14,2852,Morta,Morta,Morta,Morta,Indefinido,-,-,70.0,22.281692,0.038993,0.213806,0.320709,8.0,729960.584,6959254.318
170,171,15,2685,Myrtaceae,Eugenia sp.,Eugenia sp.,Guamirim,Indefinido,-,-,65.0,20.690143,0.033621,0.322618,0.483927,14.0,729953.957,6959204.112
176,177,15,2691,Morta,Morta,Morta,Morta,Indefinido,-,-,41.0,13.050705,0.013377,0.155866,0.233799,17.0,729953.957,6959204.112
192,193,16,2682,Myrtaceae,Eugenia sp.,Eugenia sp.,Guamirim,Indefinido,-,-,78.0,24.828171,0.048415,0.530938,0.796406,16.0,729950.796,6959151.569
199,200,17,2562,Morta,Morta,Morta,Morta,Indefinido,-,-,36.0,11.459156,0.010313,0.031809,0.047714,4.5,730003.078,6959150.201
214,215,17,2554,Myrtaceae,Eugenia sp.,Eugenia sp.,Guamirim,Indefinido,-,-,40.0,12.732395,0.012732,0.130902,0.196353,15.0,730003.078,6959150.201
253,254,22,2649,Morta,Morta,Morta,Morta,Indefinido,-,-,14.0,4.456338,0.00156,0.005345,0.008018,5.0,730042.038,6959448.178
269,270,22,2643,Morta,Morta,Morta,Morta,Indefinido,-,-,14.0,4.456338,0.00156,0.005345,0.008018,5.0,730042.038,6959448.178
293,294,24,2664,Asteraceae,Vernonia sp.,Vernonia sp.,Vassoura,Árvore,-,-,27.0,8.594367,0.005801,0.031809,0.047714,8.0,730001.204,6959419.4
318,319,26,2587,Morta,Morta,Morta,Morta,Indefinido,-,-,16.0,5.092958,0.002037,0.002234,0.003351,1.6,730090.06,6959396.228


In [41]:
# Os registros 'NE' são os "Não avaliados" (Not Evaluated). Na prá tica, indeterminados.
# Os registros '-' são os casos onde não se aplica: Ocorrem duas situações:
# 1. Identificação da espécie apenas em nível de gênero (e a avaliação da ameaça se dá em nível de espécie)
# 2. Invivíduos morto (ou não identificado).
# Por isso, vamos substituir o "-" por "NA" (Não aplicável).
data['ameaca_flora_brasileira'] = data['ameaca_flora_brasileira'].replace('-','NA')
data.ameaca_flora_brasileira.value_counts()

NE    586
LC     42
NA     31
Name: ameaca_flora_brasileira, dtype: int64

In [42]:
# No campo 'endemismo', podemos fazer uma melhoria.
# Originalmente as caegorias são strings longas.
# Podemos simplificar usando siglas.
data.endemismo.value_counts()

não é endêmica do Brasil    546
é endêmica do Brasil         82
-                            31
Name: endemismo, dtype: int64

In [43]:
# PAra evitar confusões com as siglas do campos "ameaca_flora_brasileira" Usarei:
# EEB: Espécie Endemica no Brasil e
# ENE: Espécie não-endêmica
# NAP: Não aplicável
data['endemismo'] = data['endemismo'].replace('-','NAP')
data['endemismo'] = data['endemismo'].replace('não é endêmica do Brasil','ENE')
data['endemismo'] = data['endemismo'].replace('é endêmica do Brasil','EEB')
data.endemismo.value_counts()

ENE    546
EEB     82
NAP     31
Name: endemismo, dtype: int64

## FITOSSOCIOLOGIA

A fitossociologia é uma disciplina da ecologia que se dedica ao estudo das comunidades vegetais. Na fitossociologia de florestas nativas, o objetivo é caracterizar a composição florística e estrutura da vegetação em determinada área. 

Para uma boa análise fitossociológica são necessários parâmetros qualitativos e quantitativos. Os parâmetros qualitativos referem-se à identificação das espécies presentes na área de estudo, o que é feito por meio de inventários florísticos. Já os parâmetros quantitativos referem-se à frequência, densidade, dominância e valor de importância das espécies. 

A frequência é a proporção de parcelas amostrais em que a espécie ocorre, enquanto a densidade é o número de indivíduos por parcela. A dominância é a contribuição relativa de cada espécie para a área basal da comunidade, enquanto o valor de importância é a soma ponderada dos três parâmetros anteriores. 

Além desses parâmetros, outros fatores podem ser considerados na análise fitossociológica, como a altura e o diâmetro das árvores, a distribuição de classes de tamanho, a diversidade de espécies e a similaridade entre áreas de estudo. 

A partir da análise fitossociológica é possível avaliar a estrutura e dinâmica das comunidades vegetais, identificar espécies indicadoras de perturbação ambiental, planejar ações de manejo e conservação e gerar informações para estudos de biogeografia e ecologia de comunidades.

In [44]:
data.especie.value_counts()

Mimosa bimucronata (DC.) Kuntze                                      141
Alchornea triplinervia (Spreng.) Müll.Arg.                            54
Pera glabrata (Schott) Poepp. ex Baill.                               51
Guarea macrophylla Vahl                                               46
Alchornea glandulosa Poepp. & Endl.                                   42
Miconia cinerascens Miq.                                              32
Casearia sylvestris Sw.                                               32
Tabernaemontana catharinensis A.DC.                                   30
Tibouchina pulchra Cogn.                                              25
Eugenia sp.                                                           16
Jacaranda puberula Cham.                                              15
Endlicheria paniculata (Spreng.) J.F.Macbr.                           15
Syagrus romanzoffiana (Cham.) Glassman                                13
Morta                                              

In [45]:
data.familia.value_counts()

Fabaceae           157
Euphorbiaceae      100
Melastomataceae     59
Peraceae            51
Meliaceae           46
Salicaceae          32
Myrtaceae           32
Apocynaceae         30
Lauraceae           24
Bignoniaceae        24
Arecaceae           14
Morta               12
Rubiaceae           11
Erythroxylaceae      9
Aquifoliaceae        7
Clusiaceae           7
Thymelaeaceae        7
Annonaceae           7
Monimiaceae          6
Primulaceae          6
Asteraceae           6
Sapindaceae          3
Verbenaceae          3
Urticaceae           1
Rutaceae             1
Piperaceae           1
Cunoniaceae          1
Cyatheaceae          1
Nyctaginaceae        1
Name: familia, dtype: int64

In [46]:
# Analisando o resumo de parâmetros do dataset podemos ter um resultado geral da área avaliada
data.describe()

Unnamed: 0,n_arv,parcela,placa,cap,dap,seccional,vol,vol_st,ht,coord_x,coord_y
count,659.0,659.0,659.0,659.0,659.0,659.0,659.0,659.0,659.0,659.0,659.0
mean,330.0,24.930197,2985.033384,31.135964,9.910885,0.011617,0.09942,0.14913,8.253111,729949.730094,6959368.0
std,190.381197,12.359163,323.647594,22.162409,7.054514,0.022895,0.26468,0.39702,3.847231,92.775999,236.7392
min,1.0,1.0,2512.0,10.0,3.183099,0.000796,0.001844,0.002765,1.6,729744.143,6959111.0
25%,165.5,14.0,2685.5,17.0,5.411268,0.0023,0.008659,0.012988,5.0,729897.751,6959204.0
50%,330.0,26.0,2861.0,23.5,7.480282,0.004395,0.021991,0.032987,7.0,729960.584,6959273.0
75%,494.5,37.0,3291.5,37.0,11.777466,0.010894,0.070687,0.10603,10.0,730029.981,6959448.0
max,659.0,42.0,3499.0,198.0,63.025357,0.311976,3.421248,5.131873,21.0,730099.519,6959837.0


In [47]:
data.parcela.value_counts()

42    37
39    30
40    30
22    30
37    29
26    26
41    24
15    24
30    22
17    19
27    19
36    19
31    18
34    18
6     18
32    18
14    17
29    17
38    16
13    16
11    14
3     13
33    13
25    13
10    13
21    12
23    12
12    11
8     11
7     11
5     11
35    10
24    10
1     10
4      8
9      8
2      7
16     7
18     6
28     5
19     4
20     3
Name: parcela, dtype: int64

In [62]:
# Vamos criar um novo dataframe, com o resultado de parâmetros divididos por parcela.
# Aproveitando, já vamos criando as colunas necessárias para os cálculos futuros.
unique_parcela = data['parcela'].unique()
data_ua = pd.DataFrame(columns=('parcela', 'soma_dap', 'soma_g', 'soma_vol'))
data_ua['parcela'] = unique_parcela
data_ua.head()

Unnamed: 0,parcela,soma_dap,soma_g,soma_vol
0,1,,,
1,2,,,
2,3,,,
3,4,,,
4,5,,,


In [63]:
# Agora podemos preencher cada coluna com o somatório dos valores encontrados em cada parcela
data_ua['soma_dap'] = data['dap'].groupby('parcela').cumsum()
data_ua['soma_g'] = data['area_seccional'].groupby('parcela').cumsum()
data_ua['soma_vol'] = data['vol'].groupby('parcela').cumsum()
data_ua.head()

KeyError: 'parcela'

In [76]:
# Aqui agora deu certo.
# Célula para testar o problema acima.
agrupado = data.groupby('parcela')['dap']
print(agrupado.sum())
# Agora basta alimentar o DF com esta variável.

parcela
1      65.094372
2      54.749300
3      87.216909
4      44.722539
5      76.553528
6     104.723953
7      66.526766
8     189.076072
9      70.028175
10    160.109873
11    156.290154
12    181.022832
13    201.808468
14    200.376073
15    260.059177
16    132.416913
17    235.390161
18     51.566202
19     63.980287
20     41.061975
21    100.426769
22    222.021146
23    106.474657
24     86.898599
25    110.612685
26    218.042272
27    214.063398
28     40.902820
29    152.629590
30    229.501428
31    191.622551
32    172.046493
33    160.109873
34    230.297203
35    173.956353
36    200.662552
37    315.285942
38    144.194378
39    278.361995
40    220.270441
41    230.933822
42    289.184532
Name: dap, dtype: float64
