In [189]:
import pandas as pd
import os
import requests

In [190]:
dirname = os.getcwd()
data_in = f"{dirname}/data/raw/"
data_out = f"{dirname}/data/processed/"
output = f"{dirname}/data/output/"

def create_directory(path):
    """Creates directories if they don't exist"""
    if not os.path.exists(path):
        os.makedirs(path)

paths = [data_in, data_out, output]

list(map(create_directory, paths))

[None, None, None]

In [191]:
# URL obtained from the network inspection
url = 'https://www.snisb.gov.br/portal-snisb/api/file/download/4/dados-rsb-2022.xlsx'

# Send a GET request to the URL
response = requests.get(url)

# Save the XLSX content to a file
with open('dados-rsb-2022.xlsx', 'wb') as file:
    file.write(response.content)

df = pd.read_excel("dados-rsb-2022.xlsx", sheet_name=0)


In [192]:
# URL obtained from the network inspection
url = 'https://www.snisb.gov.br/portal-snisb/api/file/download/4/dados-rsb-2022.xlsx'

# Send a GET request to the URL
response = requests.get(url)

# Check if the response was successful
if response.status_code == 200:
    # Save the content to a file
    with open('dados-rsb-2022.xlsx', 'wb') as file:
        file.write(response.content)

    # Read the Excel file into a DataFrame
    df = pd.read_excel('dados-rsb-2022.xlsx')

    # Display or process your data
    print(df.head())  # Display the first few rows of the DataFrame
else:
    print("Failed to retrieve the file: Status code", response.status_code)

   Código SNISB       Nome da Barragem Nome Secundário Uso Principal  UF  \
0          1736  Barragem Esperança_IV             NaN   Aquicultura  AC   
1          1743      Barragem Bambuí_I             NaN   Aquicultura  AC   
2          1744     Barragem Bambuí_II             NaN   Aquicultura  AC   
3          1691            Barragem JJ             NaN   Aquicultura  AC   
4          1721          Barragem JJ_I             NaN   Aquicultura  AC   

  Município Categoria de Risco Dano Potencial Associado  \
0    BUJARI              Médio                    Baixo   
1    BUJARI              Médio                    Baixo   
2    BUJARI              Médio                    Baixo   
3    BUJARI              Médio                    Baixo   
4    BUJARI              Médio                    Baixo   

                Nome do Empreendedor Tipo de Empreendedor  ...  \
0                      Kionori Kioki        Pessoa Física  ...   
1  Antonio Luciano de Oliveira Filho        Pessoa Físic

In [193]:
df.head()

Unnamed: 0,Código SNISB,Nome da Barragem,Nome Secundário,Uso Principal,UF,Município,Categoria de Risco,Dano Potencial Associado,Nome do Empreendedor,Tipo de Empreendedor,...,Tem informação de volume?,Faixa de volume,Tem informação de altura e volume?,classificada quanto ao CRI?,classificada quanto ao DPA?,Houve alguma inspeção no período deste RSB?,Houve alguma fiscalização no período deste RSB?,Está entre as que mais preocupam o fiscalizador?,N,sequência
0,1736,Barragem Esperança_IV,,Aquicultura,AC,BUJARI,Médio,Baixo,Kionori Kioki,Pessoa Física,...,Sim,Pequena até 1 hm³,Sim,Sim,Sim,Não,Não,Não,1,151
1,1743,Barragem Bambuí_I,,Aquicultura,AC,BUJARI,Médio,Baixo,Antonio Luciano de Oliveira Filho,Pessoa Física,...,Sim,Pequena até 1 hm³,Sim,Sim,Sim,Não,Não,Não,1,152
2,1744,Barragem Bambuí_II,,Aquicultura,AC,BUJARI,Médio,Baixo,Antonio Luciano de Oliveira Filho,Pessoa Física,...,Sim,Pequena até 1 hm³,Sim,Sim,Sim,Não,Não,Não,1,160
3,1691,Barragem JJ,,Aquicultura,AC,BUJARI,Médio,Baixo,José Romildo Martins,Pessoa Física,...,Sim,Pequena até 1 hm³,Sim,Sim,Sim,Não,Não,Não,1,165
4,1721,Barragem JJ_I,,Aquicultura,AC,BUJARI,Médio,Baixo,José Romildo Martins,Pessoa Física,...,Sim,Pequena até 1 hm³,Sim,Sim,Sim,Não,Não,Não,1,173


## Filter the Data ##
We can reduce our dataset straight away - we only need dams registered in Rio Grande do Sul (UF as `RS`).

In [194]:
df_cut = df.loc[df["UF"] == "RS", :]

## Understand the structure ##

In [195]:
print(f"Number of rows: {df_cut.shape[0]}\nNumber of columns: {df_cut.shape[1]}")

Number of rows: 10106
Number of columns: 53


In [196]:
# Get overview of each column
df_cut.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10106 entries, 2415 to 23526
Data columns (total 53 columns):
 #   Column                                            Non-Null Count  Dtype         
---  ------                                            --------------  -----         
 0   Código SNISB                                      10106 non-null  int64         
 1   Nome da Barragem                                  10106 non-null  object        
 2   Nome Secundário                                   5 non-null      object        
 3   Uso Principal                                     10106 non-null  object        
 4   UF                                                10106 non-null  object        
 5   Município                                         10106 non-null  object        
 6   Categoria de Risco                                10106 non-null  object        
 7   Dano Potencial Associado                          10106 non-null  object        
 8   Nome do Empreendedor        

In [197]:
missing_values = df_cut.isnull().sum()
perc_missing = round((missing_values / df_cut.shape[0])*100,1)
duplicates = df_cut.duplicated().sum()
dtype = df_cut.dtypes
data = {
    "data_type": dtype,
    "missing_values": missing_values, 
    "percentage_missing": perc_missing,
    "n_duplicates": duplicates
    }
df2 = pd.DataFrame(data)
df2

Unnamed: 0,data_type,missing_values,percentage_missing,n_duplicates
Código SNISB,int64,0,0.0,0
Nome da Barragem,object,0,0.0,0
Nome Secundário,object,10101,100.0,0
Uso Principal,object,0,0.0,0
UF,object,0,0.0,0
Município,object,0,0.0,0
Categoria de Risco,object,0,0.0,0
Dano Potencial Associado,object,0,0.0,0
Nome do Empreendedor,object,0,0.0,0
Tipo de Empreendedor,object,0,0.0,0


## Evaluate Columns ##
We must focus on columns that directly relate to:
- Dam identification and location
- Risk and potential damage
- Inspection and regulation details
- Structural characteristics

In [198]:
df_cut.columns

Index(['Código SNISB', 'Nome da Barragem', 'Nome Secundário', 'Uso Principal',
       'UF', 'Município', 'Categoria de Risco', 'Dano Potencial Associado',
       'Nome do Empreendedor', 'Tipo de Empreendedor', 'Órgão Fiscalizador',
       'Código Barragem no Fiscalizador', 'Regulada pela PNSB',
       'Número da Autorização', 'Possui PAE', 'Possui Plano de Segurança',
       'Possui Revisão Periódica', 'Data da Última Fiscalização',
       'Barragem Autuada', 'Altura Fundação (m)', 'Altura Terreno (m)',
       'Capacidade (hm³)', 'Comprimento Coroamento (m)', 'Tipo de Material',
       'Uso Complementar', 'Classe de Resíduo', 'Código Curso Dágua Barrado',
       'Nome_Curso_dágua ', 'Região Hidrográfica', 'Unidade de Gestão',
       'Data da Última Inspeção', 'Tipo da Última Inspeção',
       'Nível de Perigo Global', 'Possui Eclusa', 'Fase da Vida', 'Latitude',
       'Longitude', 'Completude dos dados', 'Barragem Outorgada?',
       'Empreendedor Identificado?', 'Tem informação de al

In [199]:
df2.loc[df2["percentage_missing"] > 90]

Unnamed: 0,data_type,missing_values,percentage_missing,n_duplicates
Nome Secundário,object,10101,100.0,0
Possui PAE,object,9882,97.8,0
Data da Última Fiscalização,datetime64[ns],10089,99.8,0
Comprimento Coroamento (m),float64,9851,97.5,0
Uso Complementar,object,10067,99.6,0
Classe de Resíduo,object,10106,100.0,0
Data da Última Inspeção,datetime64[ns],10101,100.0,0
Tipo da Última Inspeção,object,10101,100.0,0
Nível de Perigo Global,object,10105,100.0,0
Possui Eclusa,object,9993,98.9,0


In [200]:
df_cut["Está entre as que mais preocupam o fiscalizador?"].value_counts()

Está entre as que mais preocupam o fiscalizador?
Não    10095
sim       11
Name: count, dtype: int64

In [201]:
df_cut['Órgão Fiscalizador'].unique()

array(['RS - Secretaria de Meio Ambiente e Infraestrutura - SEMA',
       'Agência Nacional de Águas e Saneamento Básico - ANA',
       'Agência Nacional de Energia Elétrica - ANEEL',
       'Agência Nacional de Mineração - ANM'], dtype=object)

In [202]:
columns_to_keep = [
    # Identification
    'Código SNISB', 'Nome da Barragem',
    # Location
    'UF', 'Município', 'Latitude', 'Longitude',
    # Risk + Regulation
    'Categoria de Risco', 'Dano Potencial Associado',
    'Regulada pela PNSB', 'Possui Plano de Segurança',
    'Possui Revisão Periódica', 'Completude dos dados',
    # Structural Info   
    'Altura Fundação (m)', 'Capacidade (hm³)', 
    'Nome_Curso_dágua ', 
    'Faixa de altura','Faixa de volume',]

In [203]:
df_cut_refined = df_cut[columns_to_keep]

df_cut_refined.head()

Unnamed: 0,Código SNISB,Nome da Barragem,UF,Município,Latitude,Longitude,Categoria de Risco,Dano Potencial Associado,Regulada pela PNSB,Possui Plano de Segurança,Possui Revisão Periódica,Completude dos dados,Altura Fundação (m),Capacidade (hm³),Nome_Curso_dágua,Faixa de altura,Faixa de volume
2415,5324,Elias Scholsser Doviggi,RS,BARRA DO QUARAÍ,-30.21858,-57.48136,Não Classificado,Não Classificado,Sim,Não,Não,média,8.19,3.192,Arroio Quaraí Chico,"7,5 m < h < 15 m",Pequena entre 3 e 5 hm³
2465,5420,COOPERATIVA AGRICOLA MISTA SÃO MARCOS LTDA.,RS,URUGUAIANA,-29.54631,-56.82289,Não Classificado,Não Classificado,Sim,Não,Não,média,7.0,60.965,SEM NOME,"h < 7,5 m",Média
2468,6421,Instituto Rio Grandense do Arroz,RS,CACHOEIRA DO SUL,-30.225,-52.93972,Não Classificado,Não Classificado,Sim,Não,Não,média,13.5,34.779,Arroio Capanezinho,"7,5 m < h < 15 m",Média
2682,6514,AUD - Associação dos Usuários do Perímetro de ...,RS,CAMAQUÃ,-30.82069,-51.84369,Médio,Alto,Sim,Não,Não,boa,26.0,170.0,Arroio Duro,15 m < h < 30 m,Grande
7729,17114,Associação dos Moradores do Assentamento Filho...,RS,VIAMÃO,-30.07369,-50.86181,Não Classificado,Não Classificado,Sim,Não,Não,média,14.62,12.973,SEM NOME,"7,5 m < h < 15 m",Média


In [204]:
df_cut_refined.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10106 entries, 2415 to 23526
Data columns (total 17 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Código SNISB               10106 non-null  int64  
 1   Nome da Barragem           10106 non-null  object 
 2   UF                         10106 non-null  object 
 3   Município                  10106 non-null  object 
 4   Latitude                   10106 non-null  float64
 5   Longitude                  10106 non-null  float64
 6   Categoria de Risco         10106 non-null  object 
 7   Dano Potencial Associado   10106 non-null  object 
 8   Regulada pela PNSB         10106 non-null  object 
 9   Possui Plano de Segurança  10106 non-null  object 
 10  Possui Revisão Periódica   10106 non-null  object 
 11  Completude dos dados       10106 non-null  object 
 12  Altura Fundação (m)        1564 non-null   float64
 13  Capacidade (hm³)           9108 non-null   float

## Check Data Types, Convert if Necessary ##
We don't need to change any dtype for now. All data types seem to match our actual data.

## Standardize Categorical Data ##
Let's identify our **key categorical columns**:
Identify Key Categorical Columns: Determine which columns are suitable for standardization, such as:
- `UF`
- `Município` 
- `Categoria de Risco` 
- `Dano Potencial Associado` 
- `Regulada pela PNSB` 
- `Possui Plano de Segurança` 
- `Possui Revisão Periódica`
- `Completude dos dados` 
- `Faixa de altura`
- `Faixa de volume`

### 1. `UF` 

In [205]:
df_cut_refined["UF"].unique()

array(['RS'], dtype=object)

No need for any transformation - `RS` is the only category.

### 2. `Município`

In [206]:
df_cut_refined["Município"].unique()

array(['BARRA DO QUARAÍ', 'URUGUAIANA', 'CACHOEIRA DO SUL', 'CAMAQUÃ',
       'VIAMÃO', 'SÃO GABRIEL', 'PORTO ALEGRE', 'CANELA', 'BAGÉ',
       'RIO GRANDE', 'TAPES', 'ROSÁRIO DO SUL', 'ARROIO GRANDE',
       'DOM PEDRITO', 'CRISTAL', 'SÃO LOURENÇO DO SUL', 'JAGUARÃO',
       'CANDIOTA', 'ACEGUÁ', 'ENCRUZILHADA DO SUL', 'ITAQUI',
       'SÃO VICENTE DO SUL', 'SÃO PEDRO DO SUL', 'TURUÇU', 'SANTO ÂNGELO',
       'JÓIA', 'ENTRE-IJUÍS', 'TUPANCIRETÃ', 'IJUÍ', 'CRUZ ALTA',
       'NOVA RAMADA', 'CAMPO NOVO', 'BOM JESUS', 'PINHAL DA SERRA',
       'SÃO JOSÉ DOS AUSENTES', 'QUARAÍ', "SANT'ANA DO LIVRAMENTO",
       'PALMEIRA DAS MISSÕES', 'DOUTOR MAURÍCIO CARDOSO',
       'BENTO GONÇALVES', 'PASSO DO SOBRADO', 'SÃO FRANCISCO DE PAULA',
       'VENÂNCIO AIRES', 'IPÊ', 'RIO PARDO', 'MINAS DO LEÃO',
       'CAMPESTRE DA SERRA', 'NOVA PRATA', 'JAQUIRANA', 'SANTA TEREZA',
       'AGUDO', 'SÃO JERÔNIMO', 'SANTIAGO', 'SÃO LUIZ GONZAGA',
       'CAMPINA DAS MISSÕES', 'ROLADOR', 'UNISTALDA',
       'S

Let's use a Title Case format, as these words will only show up in labels and tooltips.

In [207]:
def title_except_prepositions(name):
    lowercase_words = ['de', 'do', 'da', 'dos', 'das', 'e']
    words = name.split()
    # Capitalize words conditionaly
    capitalized_words = [word.capitalize() if word.lower() not in lowercase_words  else word.lower() for word in words]
    # Join the words back into a single string
    return " ".join(capitalized_words)


In [208]:
# Apply the function to the column
df_cut_refined.loc[:, 'Município'] = df_cut_refined['Município'].apply(title_except_prepositions)


In [209]:
df_cut_refined["Município"].unique()

array(['Barra do Quaraí', 'Uruguaiana', 'Cachoeira do Sul', 'Camaquã',
       'Viamão', 'São Gabriel', 'Porto Alegre', 'Canela', 'Bagé',
       'Rio Grande', 'Tapes', 'Rosário do Sul', 'Arroio Grande',
       'Dom Pedrito', 'Cristal', 'São Lourenço do Sul', 'Jaguarão',
       'Candiota', 'Aceguá', 'Encruzilhada do Sul', 'Itaqui',
       'São Vicente do Sul', 'São Pedro do Sul', 'Turuçu', 'Santo Ângelo',
       'Jóia', 'Entre-ijuís', 'Tupanciretã', 'Ijuí', 'Cruz Alta',
       'Nova Ramada', 'Campo Novo', 'Bom Jesus', 'Pinhal da Serra',
       'São José dos Ausentes', 'Quaraí', "Sant'ana do Livramento",
       'Palmeira das Missões', 'Doutor Maurício Cardoso',
       'Bento Gonçalves', 'Passo do Sobrado', 'São Francisco de Paula',
       'Venâncio Aires', 'Ipê', 'Rio Pardo', 'Minas do Leão',
       'Campestre da Serra', 'Nova Prata', 'Jaquirana', 'Santa Tereza',
       'Agudo', 'São Jerônimo', 'Santiago', 'São Luiz Gonzaga',
       'Campina das Missões', 'Rolador', 'Unistalda',
       'S

### 3. `Categoria de Risco`

In [210]:
df_cut_refined["Categoria de Risco"].unique()

array(['Não Classificado', 'Médio', 'Baixo', 'Não se Aplica', 'Alto'],
      dtype=object)

We can just apply an order, as it is a nominal, ordered variable.

In [211]:
risk_order = ["Baixo", "Médio", "Alto", "Não Classificado", "Não se Aplica"]
df_cut_refined.loc[:, "Categoria de Risco"] = pd.Categorical(df_cut_refined["Categoria de Risco"], categories=risk_order, ordered=True)

In [212]:
df_cut_refined["Categoria de Risco"].unique()

array(['Não Classificado', 'Médio', 'Baixo', 'Não se Aplica', 'Alto'],
      dtype=object)

### 4. `Dano Potencial Associado` 

In [213]:
risk_order = ["Baixo", "Médio", "Alto", "Não Classificado"]

df_copy = df_cut_refined.copy()
df_copy["Dano Potencial Associado"] = pd.Categorical(
    df_copy["Dano Potencial Associado"],
    categories=risk_order,
    ordered=True
)

In [214]:
df_copy["Dano Potencial Associado"].unique()

['Não Classificado', 'Alto', 'Médio', 'Baixo']
Categories (4, object): ['Baixo' < 'Médio' < 'Alto' < 'Não Classificado']

### 5. `Regulada pela PNSB` 

In [215]:
df_copy["Regulada pela PNSB"].unique()

array(['Sim', 'Não Classificada', 'Não'], dtype=object)

### 5. `Possui Plano de Segurança` 


In [216]:
df_copy["Possui Plano de Segurança"].unique()

array(['Não', 'Sim'], dtype=object)

### 6. `Possui Revisão Periódica`

In [217]:
df_copy["Possui Revisão Periódica"].unique()

array(['Não', 'Sim'], dtype=object)

### 7. `Completude dos dados` 

In [218]:
df_copy["Completude dos dados"].unique()

array(['média', 'boa', 'mínima', 'ótima', 'baixa'], dtype=object)

In [219]:
df_copy["Completude dos dados"] = df_copy["Completude dos dados"].str.title()


# df_cut_refined.loc[:, "Categoria de Risco"] = pd.Categorical(df_cut_refined["Categoria de Risco"], categories=risk_order, ordered=True)

In [220]:
data_completeness_order = df_copy["Completude dos dados"].unique()
data_completeness_order = ["Mínima", "Baixa", "Média", "Boa", "Ótima"]

df_copy.loc[:, "Completude dos dados"] = pd.Categorical(df_copy["Completude dos dados"], categories=data_completeness_order, ordered=True )

In [221]:
df_copy.head()

Unnamed: 0,Código SNISB,Nome da Barragem,UF,Município,Latitude,Longitude,Categoria de Risco,Dano Potencial Associado,Regulada pela PNSB,Possui Plano de Segurança,Possui Revisão Periódica,Completude dos dados,Altura Fundação (m),Capacidade (hm³),Nome_Curso_dágua,Faixa de altura,Faixa de volume
2415,5324,Elias Scholsser Doviggi,RS,Barra do Quaraí,-30.21858,-57.48136,Não Classificado,Não Classificado,Sim,Não,Não,Média,8.19,3.192,Arroio Quaraí Chico,"7,5 m < h < 15 m",Pequena entre 3 e 5 hm³
2465,5420,COOPERATIVA AGRICOLA MISTA SÃO MARCOS LTDA.,RS,Uruguaiana,-29.54631,-56.82289,Não Classificado,Não Classificado,Sim,Não,Não,Média,7.0,60.965,SEM NOME,"h < 7,5 m",Média
2468,6421,Instituto Rio Grandense do Arroz,RS,Cachoeira do Sul,-30.225,-52.93972,Não Classificado,Não Classificado,Sim,Não,Não,Média,13.5,34.779,Arroio Capanezinho,"7,5 m < h < 15 m",Média
2682,6514,AUD - Associação dos Usuários do Perímetro de ...,RS,Camaquã,-30.82069,-51.84369,Médio,Alto,Sim,Não,Não,Boa,26.0,170.0,Arroio Duro,15 m < h < 30 m,Grande
7729,17114,Associação dos Moradores do Assentamento Filho...,RS,Viamão,-30.07369,-50.86181,Não Classificado,Não Classificado,Sim,Não,Não,Média,14.62,12.973,SEM NOME,"7,5 m < h < 15 m",Média


In [222]:
df_copy["Completude dos dados"].unique()

array(['Média', 'Boa', 'Mínima', 'Ótima', 'Baixa'], dtype=object)

### 6. `Nome_Curso_dágua`

In [223]:
df_copy["Nome_Curso_dágua "].value_counts()

Nome_Curso_dágua 
SEM NOME                2347
Rio Jacuí                220
Rio Uruguai              147
Arroio Araçá             106
Lajeado Grande           104
                        ... 
Arroio São José            1
Lajeado dos Nasários       1
Arroio Daltro Filho        1
Arroio Vicente Rosa        1
Arroio Xadrez              1
Name: count, Length: 859, dtype: int64

In [224]:
df_copy["Nome_Curso_dágua "].replace("SEM NOME", "S/N", inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_copy["Nome_Curso_dágua "].replace("SEM NOME", "S/N", inplace=True)


### 7 . `Faixa de altura`


In [225]:
df_copy["Faixa de altura"].unique()

array(['7,5 m < h < 15 m', 'h < 7,5 m', '15 m < h < 30 m',
       'Sem Informação', '30 m < h < 60 m', '60 m < h < 100'],
      dtype=object)

In [226]:
# Define a mapping dictionary to rename the categories
faixa_mapping = {
    '7,5 m < h < 15 m': '7.5-15m',
    'h < 7,5 m': '<7.5m',
    '15 m < h < 30 m': '15-30m',
    '30 m < h < 60 m': '30-60m',
    '60 m < h < 100': '60-100m'
}

# Replace the values in the 'Faixa de altura' column using the mapping
df_copy['Faixa de altura'] = df_copy['Faixa de altura'].replace(faixa_mapping)

In [227]:
df_copy.sample(3)

Unnamed: 0,Código SNISB,Nome da Barragem,UF,Município,Latitude,Longitude,Categoria de Risco,Dano Potencial Associado,Regulada pela PNSB,Possui Plano de Segurança,Possui Revisão Periódica,Completude dos dados,Altura Fundação (m),Capacidade (hm³),Nome_Curso_dágua,Faixa de altura,Faixa de volume
19377,5493,*136000000000,RS,Uruguaiana,-29.64806,-56.50833,Não Classificado,Alto,Sim,Não,Não,Mínima,,0.714,S/N,Sem Informação,Pequena até 1 hm³
13022,3000,956/2005,RS,Flores da Cunha,-29.03778,-51.14333,Não Classificado,Não Classificado,Não Classificada,Não,Não,Mínima,3.5,0.003,S/N,<7.5m,Pequena até 1 hm³
21283,11583,# Lenoar Assi Adriz,RS,Jóia,-28.8058,-54.23532,Não Classificado,Não Classificado,Não Classificada,Não,Não,Mínima,,0.001,Rio Piratini,Sem Informação,Pequena até 1 hm³


### 8. `Faixa de volume`

In [228]:
df_copy["Faixa de volume"].unique()

array(['Pequena entre 3 e 5 hm³', 'Média', 'Grande', 'Pequena até 1 hm³',
       'Pequena entre 1 e 3 hm³', 'Sem Informação', 'Muito Grande'],
      dtype=object)

In [229]:
# Extracting Size and Volume Range by defining patterns
import re

# Function to extract size
def extract_size(value):
    size_mapping = {
        'Pequena': 'Pequena',
        'Média': 'Média',
        'Grande': 'Grande',
        'Muito Grande': 'Muito Grande'
    }
    for keyword, size in size_mapping.items():
        if keyword in value:
            return size
    return 'Sem Informação'

# Function to extract volume range
def extract_volume_range(value):
    match = re.search(r'\d+ hm³|\d+ e \d+ hm³', value)
    if match:
        return match.group()
    elif 'Sem Informação' in value:
        return 'Sem Informação'
    else:
        return ''

# Create two new columns using the above functions
df_copy['Faixa Volume'] = df_copy['Faixa de volume'].apply(extract_size)
df_copy['Volume Intervalo'] = df_copy['Faixa de volume'].apply(extract_volume_range)


In [230]:
df_copy = df_copy.reset_index(drop=True)

In [231]:
df_copy.sample(5)

Unnamed: 0,Código SNISB,Nome da Barragem,UF,Município,Latitude,Longitude,Categoria de Risco,Dano Potencial Associado,Regulada pela PNSB,Possui Plano de Segurança,Possui Revisão Periódica,Completude dos dados,Altura Fundação (m),Capacidade (hm³),Nome_Curso_dágua,Faixa de altura,Faixa de volume,Faixa Volume,Volume Intervalo
6646,6586,# Agostinho Pasa,RS,Caxias do Sul,-29.17417,-51.29194,Não Classificado,Médio,Sim,Não,Não,Mínima,,0.001,S/N,Sem Informação,Pequena até 1 hm³,Pequena,1 hm³
1878,13300,# José Francisco Leal Machado,RS,São Sepé,-30.20426,-53.40016,Não Classificado,Não Classificado,Não Classificada,Não,Não,Mínima,,0.008,Arroio Santa Bárbara,Sem Informação,Pequena até 1 hm³,Pequena,1 hm³
2998,9800,# Irmo Elzário Sagrillo,RS,São Francisco de Assis,-29.25895,-55.27254,Não Classificado,Não Classificado,Não Classificada,Não,Não,Mínima,,0.051,Rio Itu,Sem Informação,Pequena até 1 hm³,Pequena,1 hm³
309,3378,1488/2012,RS,Rio Pardo,-30.10472,-52.61528,Não Classificado,Não Classificado,Não Classificada,Não,Não,Mínima,5.56,0.311,Rio Jacuí,<7.5m,Pequena até 1 hm³,Pequena,1 hm³
6430,10242,# LIRIA SEIBERT BASTIAN,RS,Campina das Missões,-27.98572,-54.90714,Não Classificado,Não Classificado,Não Classificada,Não,Não,Mínima,,0.004,Rio Comandaí,Sem Informação,Pequena até 1 hm³,Pequena,1 hm³


In [241]:
df_copy.drop(columns=["Faixa de volume"], inplace=True)

In [242]:
df_copy["Nome da Barragem"].unique()

array(['Elias Scholsser Doviggi',
       'Cooperativa Agricola Mista São Marcos Ltda.',
       'Instituto Rio Grandense Do Arroz', ...,
       ' Barragem E009 – Fazenda Anonni',
       'Barragem E013 – Fazenda Anonni', 'Barragem Cp Fepagro Viamão'],
      dtype=object)

In [243]:
import re

# Function to clean and title case
def clean_and_title(name):
    # Ensure the input is a string
    name_str = str(name)
    # Check if it's numeric
    if name_str.isdigit():
        return name_str
    # Remove unwanted symbols like *, #, etc.
    cleaned_name = re.sub(r'[*#]', '', name_str)
    # Convert to title case
    return cleaned_name.title()

# Apply the function to the column after converting it to strings
df_copy['Nome da Barragem'] = df_copy['Nome da Barragem'].astype(str).apply(clean_and_title)

# Verify the changes
print(df_copy['Nome da Barragem'].head())


0                              Elias Scholsser Doviggi
1          Cooperativa Agricola Mista São Marcos Ltda.
2                     Instituto Rio Grandense Do Arroz
3    Aud - Associação Dos Usuários Do Perímetro De ...
4    Associação Dos Moradores Do Assentamento Filho...
Name: Nome da Barragem, dtype: object


In [244]:
df_copy.head()

Unnamed: 0,Código SNISB,Nome da Barragem,UF,Município,Latitude,Longitude,Categoria de Risco,Dano Potencial Associado,Regulada pela PNSB,Possui Plano de Segurança,Possui Revisão Periódica,Completude dos dados,Altura Fundação (m),Capacidade (hm³),Nome_Curso_dágua,Faixa de altura,Faixa Volume,Volume Intervalo
0,5324,Elias Scholsser Doviggi,RS,Barra do Quaraí,-30.21858,-57.48136,Não Classificado,Não Classificado,Sim,Não,Não,Média,8.19,3.192,Arroio Quaraí Chico,7.5-15m,Pequena,3 e 5 hm³
1,5420,Cooperativa Agricola Mista São Marcos Ltda.,RS,Uruguaiana,-29.54631,-56.82289,Não Classificado,Não Classificado,Sim,Não,Não,Média,7.0,60.965,S/N,<7.5m,Média,
2,6421,Instituto Rio Grandense Do Arroz,RS,Cachoeira do Sul,-30.225,-52.93972,Não Classificado,Não Classificado,Sim,Não,Não,Média,13.5,34.779,Arroio Capanezinho,7.5-15m,Média,
3,6514,Aud - Associação Dos Usuários Do Perímetro De ...,RS,Camaquã,-30.82069,-51.84369,Médio,Alto,Sim,Não,Não,Boa,26.0,170.0,Arroio Duro,15-30m,Grande,
4,17114,Associação Dos Moradores Do Assentamento Filho...,RS,Viamão,-30.07369,-50.86181,Não Classificado,Não Classificado,Sim,Não,Não,Média,14.62,12.973,S/N,7.5-15m,Média,


## Export cleaning data.

In [246]:
import datetime

timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")

In [247]:
df_copy.to_csv(f"{data_out}dam_data_clean_{timestamp}.csv", index=False, encoding="utf-8")