In [3]:
import os 
import pandas as pd 
import hydrobr
import plotly.express as px
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import folium
from folium.plugins import MarkerCluster
from zipfile import ZipFile
import geopandas as gpd
from utils import * 

In [4]:
path_raiz = os.path.join(os.getcwd(), 'BRUTO')

dataframes = []

# Iterar sobre todos os arquivos .zip no diretório
for path_zip in os.listdir(path_raiz):
    if path_zip.endswith('.zip'):
        caminho = os.path.join(path_raiz, path_zip)
        
        # Abrir o arquivo zip
        with ZipFile(caminho) as z:
            # Iterar sobre todos os arquivos dentro do zip
            for name in z.namelist():
                if name.endswith('.csv') and 'Chuvas' in name:
                    with z.open(name) as f:
                        # Ler o CSV e adicionar à lista de DataFrames
                        df_temp = pd.read_csv(
                            f,
                            encoding='latin1',
                            skiprows=13,
                            on_bad_lines='skip',
                            sep=';'  # ou ajuste o delimitador caso necessário
                        )
                        dataframes.append(df_temp)  # Adicionar o DataFrame à lista

# Concatenar todos os DataFrames em um único
df_final = pd.concat(dataframes, ignore_index=True)


In [5]:
df_final


Unnamed: 0,EstacaoCodigo,NivelConsistencia,Data,TipoMedicaoChuvas,Maxima,Total,DiaMaxima,NumDiasDeChuva,MaximaStatus,TotalStatus,...,Chuva22Status,Chuva23Status,Chuva24Status,Chuva25Status,Chuva26Status,Chuva27Status,Chuva28Status,Chuva29Status,Chuva30Status,Chuva31Status
0,1547002,1,01/04/2013,1,,,,,0.0,0.0,...,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
1,1547002,1,01/03/2013,1,316,1448,21.0,8.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
2,1547002,1,01/02/2013,1,334,1290,1.0,10.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0
3,1547002,1,01/01/2013,1,723,4082,10.0,20.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
4,1547002,2,01/12/2012,1,238,1375,15.0,16.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19113,1648020,1,01/03/2013,1,685,4004,30.0,25.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
19114,1648020,1,01/02/2013,1,385,1327,6.0,9.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0
19115,1648020,1,01/01/2013,1,1107,4477,16.0,20.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
19116,1648020,1,01/12/2012,1,595,2423,2.0,13.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


In [6]:
df_final_cp = df_final.copy()

In [7]:
df_final_cp

Unnamed: 0,EstacaoCodigo,NivelConsistencia,Data,TipoMedicaoChuvas,Maxima,Total,DiaMaxima,NumDiasDeChuva,MaximaStatus,TotalStatus,...,Chuva22Status,Chuva23Status,Chuva24Status,Chuva25Status,Chuva26Status,Chuva27Status,Chuva28Status,Chuva29Status,Chuva30Status,Chuva31Status
0,1547002,1,01/04/2013,1,,,,,0.0,0.0,...,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
1,1547002,1,01/03/2013,1,316,1448,21.0,8.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
2,1547002,1,01/02/2013,1,334,1290,1.0,10.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0
3,1547002,1,01/01/2013,1,723,4082,10.0,20.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
4,1547002,2,01/12/2012,1,238,1375,15.0,16.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19113,1648020,1,01/03/2013,1,685,4004,30.0,25.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
19114,1648020,1,01/02/2013,1,385,1327,6.0,9.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0
19115,1648020,1,01/01/2013,1,1107,4477,16.0,20.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
19116,1648020,1,01/12/2012,1,595,2423,2.0,13.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


In [8]:
# Gráfico de Gantt 
gantt_serie_gap_overlap(df_final_cp, "EstacaoCodigo", "Data")

In [9]:
# Estações que possuem sobreposição de dados (2007 - 2023)
# lista_estacoes_interesse = ['1547004', '1547008' ,'1547009' ,'1547010', '1547013', '1547014','1547015','1547017','1547018', '1547019', '1547020', '1547021','1547022',
#                             '1547029', '1547032', '1547040', '1547041', '1547043', '1547044', '1547048', '1547078', '1548033','1548034', '1647009', # Novas estações para teste
                            
#                             '1548005','1548006','1548007','1548008','1548010']
# print("Quantidade de estações com sobreposição de dados: ", len(lista_estacoes_interesse))

In [10]:
# Estações que possuem sobreposição de dados (1979 - 2023)

lista_estacoes_interesse = ['1547004', '1547008' ,'1547009' ,'1547010', '1547013', '1547014','1547015','1547017','1547018', '1547019', '1547020', '1547021','1547022','1548005','1548006','1548007','1548008', '1548010']
print("Quantidade de estações com sobreposição de dados: ", len(lista_estacoes_interesse))

Quantidade de estações com sobreposição de dados:  18


In [11]:
df_final_cp['EstacaoCodigo'] = df_final_cp['EstacaoCodigo'].astype(str)  # Converter a coluna de estação para string

In [12]:
df_final_cp_filtro = df_final_cp[df_final_cp['EstacaoCodigo'].isin(lista_estacoes_interesse)]

In [13]:
df_final_cp_filtro.sort_values(by=["EstacaoCodigo", "Data"])  # Ordenar por estação e data

Unnamed: 0,EstacaoCodigo,NivelConsistencia,Data,TipoMedicaoChuvas,Maxima,Total,DiaMaxima,NumDiasDeChuva,MaximaStatus,TotalStatus,...,Chuva22Status,Chuva23Status,Chuva24Status,Chuva25Status,Chuva26Status,Chuva27Status,Chuva28Status,Chuva29Status,Chuva30Status,Chuva31Status
1574,1547004,1,01/01/1962,1,710,1569,25.0,15.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,4.0,1.0
1563,1547004,1,01/01/1963,1,444,1774,6.0,10.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
1551,1547004,1,01/01/1964,1,615,4633,16.0,25.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
1539,1547004,1,01/01/1965,1,321,2758,21.0,22.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
1527,1547004,1,01/01/1966,1,493,2307,17.0,22.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16800,1548010,1,01/12/2019,1,466,1945,10.0,,2.0,2.0,...,2.0,4.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
16788,1548010,1,01/12/2020,1,,2669,,,0.0,1.0,...,4.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
16777,1548010,1,01/12/2021,1,698,3584,20.0,,1.0,1.0,...,4.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
16765,1548010,1,01/12/2022,1,440,2784,24.0,,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,0.0,0.0,4.0,1.0,1.0


In [14]:
df_final_cp_filtro_ano = inserir_mes_ano(df_final_cp_filtro, "Data")
df_quantidade_anos = df_final_cp_filtro_ano.groupby(['EstacaoCodigo','ANO'])['ANO'].count().reset_index(name='count')
contagem_anos = df_quantidade_anos.groupby('EstacaoCodigo')['ANO'].nunique()
contagem_anos_df = contagem_anos.reset_index()
contagem_anos_df.columns = ['EstacaoCodigo','QuantidadeAnos']
contagem_anos_df

Unnamed: 0,EstacaoCodigo,QuantidadeAnos
0,1547004,64
1,1547008,54
2,1547009,54
3,1547010,55
4,1547013,54
5,1547014,51
6,1547015,50
7,1547017,43
8,1547018,47
9,1547019,47


## COORDENADAS DAS ESTAÇÕES HIDROMEOROLÓGICAS

In [15]:
estacoes_hidrometerologicas = pd.read_csv(os.path.join(os.getcwd(), 
                                                       'BRUTO','Estações Hidrometeorológicas.csv'),
                                          sep=';')

In [16]:
estacoes_hidrometerologicas_cp = estacoes_hidrometerologicas.copy()

In [17]:
estacoes_hidrometerologicas_cp = estacoes_hidrometerologicas_cp[(estacoes_hidrometerologicas_cp['Operando']=='Sim') & (estacoes_hidrometerologicas_cp['TipoEstacao']=='Pluviométrica')]

In [18]:
num_cols = ['TipoEstacaoCodigo','Latitude', 'Longitude','Altitude', 'x', 'y']
dt_cols = ['EscalaNivelInicio','RegistradorNivelInicio','PluviometroConvencional',
            'PluviometroConvencionalInicio',
            'PluviometroConvencionalFim',
            'RegistradorChuva',
            'RegistradorChuvaInicio',
            'RegistradorChuvaFim',
            'TanqueEvaporimetrico',
            'TanqueEvaporimetricoInicio',
            'TanqueEvaporimetricoFim',
            'EstacaoClimatologica',
            'EstacaoClimatologicaInicio',
            'EstacaoClimatologicaFim',
            'EstacaoPiezometria',
            'EstacaoPiezometriaInicio',
            'EstacaoPiezometriaFim',
            'EstacaoTelemetrica',
            'EstacaoTelemetricaInicio',
            'EstacaoTelemetricaFim'
            ]
str_cols = ['Codigo','Nome','TipoEstacao','Operando']


estacoes_hidrometerologicas_cp[num_cols] = estacoes_hidrometerologicas_cp[num_cols].astype(str).apply(lambda x: x.str.replace(',','.'), axis=1)
estacoes_hidrometerologicas_cp[num_cols] = estacoes_hidrometerologicas_cp[num_cols].apply(pd.to_numeric, errors='coerce')
estacoes_hidrometerologicas_cp[dt_cols] = estacoes_hidrometerologicas_cp[dt_cols].apply(pd.to_datetime, errors='coerce')

estacoes_hidrometerologicas_cp['Codigo'] = estacoes_hidrometerologicas_cp['Codigo'].replace('\.','',regex=True)
estacoes_hidrometerologicas_cp[str_cols] = estacoes_hidrometerologicas_cp[str_cols].astype(str)


Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.




Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.






Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.




Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.




Could not infer format, so each element will be parsed individually, falling back to `dateutil`. To ensure parsing is consistent and as-expected, please specify a format.







In [19]:
estacoes_hidrometerologicas_cp.sort_values(by='PluviometroConvencionalInicio',inplace=True)

In [20]:
estacoes_hidrometerologicas_cp

Unnamed: 0,Codigo,Nome,TipoEstacao,TipoEstacaoCodigo,Operando,CodigoAdicional,Latitude,Longitude,Altitude,AreaDrenagem,...,RedeCursoDagua,RedeEstrategica,RedeCaptacao,RedeRHNR,RedeQA,RedeClasseVazao,Descricao,Geom,x,y
3,1547006,BRASÍLIA - AEROPORTO,Pluviométrica,2,Sim,83378,-15.850,-47.900,1.060,,...,Nulo,Não,Nulo,Não,Não,Não,,,-47.900,-15.850
1,1547004,BRASÍLIA,Pluviométrica,2,Sim,83377,-15.790,-47.923,,,...,Não,Não,Sim,Não,Não,Não,TELEMÉTRICA,,-47.923,-15.790
2,1547005,BRASÍLIA (NÚCLEO BANDEIRANTE),Pluviométrica,2,Sim,83380,-15.783,-47.933,1.158,,...,Não,Não,Não,Não,Não,Não,,,-47.933,-15.783
6,1547010,CONTAGEM,Pluviométrica,2,Sim,,-15.653,-47.879,1.242,,...,Não,Não,Nulo,Não,Não,Não,,,-47.879,-15.653
86,1548005,GAMA ETE ALAGADO,Pluviométrica,2,Sim,,-16.025,-48.098,980.000,,...,Não,Sim,Nulo,Não,Não,Não,,,-48.098,-16.025
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
107,1548055,DESCOBERTO - CHACARA 89,Pluviométrica,2,Sim,,-15.709,-48.234,,,...,Não,Não,Nulo,Não,Não,Não,TELEMÉTRICA - VAISALA_GOES,,-48.234,-15.709
113,1548061,DESCOBERTO - BARRAGEM (ADASA),Pluviométrica,2,Sim,ADASA,-15.778,-48.231,1.033,,...,Não,Não,Nulo,Não,Não,Não,,,-48.231,-15.778
114,1548062,DESCOBERTO - CHACARA 89 (ADASA),Pluviométrica,2,Sim,ADASA,-15.709,-48.234,1.035,,...,Não,Não,Nulo,Não,Não,Não,TELEMÉTRICA - VAISALA_GOES,,-48.234,-15.709
115,1548063,RODEADOR - DF 435 (ADASA),Pluviométrica,2,Sim,ADASA,-15.725,-48.168,1.035,,...,Não,Não,Nulo,Não,Não,Não,TELEMÉTRICA - VAISALA_GOES,,-48.168,-15.725


In [21]:
estacoes_hidrometerologicas_cp[(estacoes_hidrometerologicas_cp['TipoEstacao']=='Pluviométrica') & (estacoes_hidrometerologicas_cp['Operando']=='Sim')]

Unnamed: 0,Codigo,Nome,TipoEstacao,TipoEstacaoCodigo,Operando,CodigoAdicional,Latitude,Longitude,Altitude,AreaDrenagem,...,RedeCursoDagua,RedeEstrategica,RedeCaptacao,RedeRHNR,RedeQA,RedeClasseVazao,Descricao,Geom,x,y
3,1547006,BRASÍLIA - AEROPORTO,Pluviométrica,2,Sim,83378,-15.850,-47.900,1.060,,...,Nulo,Não,Nulo,Não,Não,Não,,,-47.900,-15.850
1,1547004,BRASÍLIA,Pluviométrica,2,Sim,83377,-15.790,-47.923,,,...,Não,Não,Sim,Não,Não,Não,TELEMÉTRICA,,-47.923,-15.790
2,1547005,BRASÍLIA (NÚCLEO BANDEIRANTE),Pluviométrica,2,Sim,83380,-15.783,-47.933,1.158,,...,Não,Não,Não,Não,Não,Não,,,-47.933,-15.783
6,1547010,CONTAGEM,Pluviométrica,2,Sim,,-15.653,-47.879,1.242,,...,Não,Não,Nulo,Não,Não,Não,,,-47.879,-15.653
86,1548005,GAMA ETE ALAGADO,Pluviométrica,2,Sim,,-16.025,-48.098,980.000,,...,Não,Sim,Nulo,Não,Não,Não,,,-48.098,-16.025
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
107,1548055,DESCOBERTO - CHACARA 89,Pluviométrica,2,Sim,,-15.709,-48.234,,,...,Não,Não,Nulo,Não,Não,Não,TELEMÉTRICA - VAISALA_GOES,,-48.234,-15.709
113,1548061,DESCOBERTO - BARRAGEM (ADASA),Pluviométrica,2,Sim,ADASA,-15.778,-48.231,1.033,,...,Não,Não,Nulo,Não,Não,Não,,,-48.231,-15.778
114,1548062,DESCOBERTO - CHACARA 89 (ADASA),Pluviométrica,2,Sim,ADASA,-15.709,-48.234,1.035,,...,Não,Não,Nulo,Não,Não,Não,TELEMÉTRICA - VAISALA_GOES,,-48.234,-15.709
115,1548063,RODEADOR - DF 435 (ADASA),Pluviométrica,2,Sim,ADASA,-15.725,-48.168,1.035,,...,Não,Não,Nulo,Não,Não,Não,TELEMÉTRICA - VAISALA_GOES,,-48.168,-15.725


In [22]:
estacoes_hidrometerologicas_cp['Responsavel'].unique()

array(['Diretoria de Eletrônica e Proteção ao Voo do Ministério da Aeronáutica',
       'Instituto Nacional de Meteorologia',
       'Companhia de Saneamento Ambiental do Distrito Federal',
       'Empresa Brasileira de Pesquisa Agropecuária',
       'Furnas Centrais Elétricas S.A.', 'Agência Nacional de Águas ',
       'Agência Reguladora de Águas e Saneamento - DF',
       'Eugênio Giovenardi',
       'Centro Nacional de Monitoramento e Alertas de Desastres Naturais.',
       'CEB Geração S.A.'], dtype=object)

In [23]:
estacoes_hidrometerologicas_selecionadas = estacoes_hidrometerologicas_cp[estacoes_hidrometerologicas_cp['Codigo'].isin(lista_estacoes_interesse)]

In [24]:
estacoes_hidrometerologicas_selecionadas

Unnamed: 0,Codigo,Nome,TipoEstacao,TipoEstacaoCodigo,Operando,CodigoAdicional,Latitude,Longitude,Altitude,AreaDrenagem,...,RedeCursoDagua,RedeEstrategica,RedeCaptacao,RedeRHNR,RedeQA,RedeClasseVazao,Descricao,Geom,x,y
1,1547004,BRASÍLIA,Pluviométrica,2,Sim,83377.0,-15.79,-47.923,,,...,Não,Não,Sim,Não,Não,Não,TELEMÉTRICA,,-47.923,-15.79
6,1547010,CONTAGEM,Pluviométrica,2,Sim,,-15.653,-47.879,1.242,,...,Não,Não,Nulo,Não,Não,Não,,,-47.879,-15.653
86,1548005,GAMA ETE ALAGADO,Pluviométrica,2,Sim,,-16.025,-48.098,980.0,,...,Não,Sim,Nulo,Não,Não,Não,,,-48.098,-16.025
4,1547008,ETE SUL,Pluviométrica,2,Sim,,-15.841,-47.909,1.005,,...,Não,Sim,Nulo,Não,Não,Não,,,-47.909,-15.841
5,1547009,ETE NORTE,Pluviométrica,2,Sim,,-15.743,-47.877,1.01,,...,Não,Sim,Nulo,Não,Não,Não,,,-47.877,-15.743
87,1548006,TAGUATINGA - ETA RD,Pluviométrica,2,Sim,,-15.79,-48.113,1.269,,...,Não,Sim,Nulo,Não,Não,Não,,,-48.113,-15.79
88,1548007,ETA - BRAZLÂNDIA,Pluviométrica,2,Sim,,-15.659,-48.191,1.098,,...,Não,Sim,Nulo,Não,Não,Não,,,-48.191,-15.659
7,1547013,TAQUARA,Pluviométrica,2,Sim,,-15.632,-47.52,1.053,,...,Não,Sim,Nulo,Não,Não,Não,,,-47.52,-15.632
9,1547015,ETE - SOBRADINHO,Pluviométrica,2,Sim,,-15.661,-47.812,1.04,,...,Não,Sim,Nulo,Não,Não,Não,,,-47.812,-15.661
8,1547014,ÁREA ALFA,Pluviométrica,2,Sim,,-15.979,-47.975,1.206,,...,Não,Sim,Nulo,Não,Não,Não,,,-47.975,-15.979


In [25]:
# Georreferenciar as estações hidrometeorológicas do dataframe

gdf_estacoes_selecionadas = gpd.GeoDataFrame(estacoes_hidrometerologicas_selecionadas,
                                    geometry=gpd.points_from_xy(estacoes_hidrometerologicas_selecionadas.x,
                                                                estacoes_hidrometerologicas_selecionadas.y))

In [26]:
gdf_estacoes_selecionadas.geometry

1     POINT (-47.92300 -15.79000)
6     POINT (-47.87900 -15.65300)
86    POINT (-48.09800 -16.02500)
4     POINT (-47.90900 -15.84100)
5     POINT (-47.87700 -15.74300)
87    POINT (-48.11300 -15.79000)
88    POINT (-48.19100 -15.65900)
7     POINT (-47.52000 -15.63200)
9     POINT (-47.81200 -15.66100)
8     POINT (-47.97500 -15.97900)
13    POINT (-47.84600 -15.89100)
11    POINT (-47.95200 -15.67000)
90    POINT (-48.02500 -15.89100)
89    POINT (-48.23000 -15.77900)
16    POINT (-47.43300 -15.79200)
15    POINT (-47.62700 -15.83900)
14    POINT (-47.78400 -15.79700)
12    POINT (-47.99800 -15.80600)
Name: geometry, dtype: geometry

In [27]:
estacoes_coord = [[point.xy[1][0], point.xy[0][0]] for point in gdf_estacoes_selecionadas.geometry]

In [28]:
# Create a Map instance

first_geometry = gdf_estacoes_selecionadas.geometry.iloc[0]

m = folium.Map(location=first_geometry.coords[0][::-1], zoom_start=10, control_scale=True)

folium.TileLayer(
        tiles = 'https://mt1.google.com/vt/lyrs=y&x={x}&y={y}&z={z}',
        attr = 'Google',
        name = 'Google Satellite Hybrid',
        overlay = True,
        control = True
    ).add_to(m)


# Write a loop to add points one by one to the map
for coordinates in estacoes_coord:
    folium.CircleMarker(
        location=coordinates,
        radius=3,  # raio do círculo
        color='blue',  # cor da borda do círculo
        fill=True,
        fill_color='blue'  # cor de preenchimento do círculo
    ).add_to(m)

m

## SELECIONAR SÉRIE HISTÓRICA - 1979 a 2023

In [29]:
df_final_cp_filtro['Data'] = pd.to_datetime(df_final_cp_filtro['Data'])

In [30]:
df_final_cp_filtro_cp = df_final_cp_filtro.copy()

In [31]:
df_final_cp_filtro_cp[df_final_cp_filtro_cp['EstacaoCodigo'] == '1547004'].sort_values(by='Data')

Unnamed: 0,EstacaoCodigo,NivelConsistencia,Data,TipoMedicaoChuvas,Maxima,Total,DiaMaxima,NumDiasDeChuva,MaximaStatus,TotalStatus,...,Chuva22Status,Chuva23Status,Chuva24Status,Chuva25Status,Chuva26Status,Chuva27Status,Chuva28Status,Chuva29Status,Chuva30Status,Chuva31Status
1578,1547004,1,1961-01-08,1,10,10,23.0,1.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
1577,1547004,1,1961-01-09,1,00,00,1.0,0.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0
1576,1547004,1,1961-01-10,1,95,252,27.0,7.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,4.0
1575,1547004,1,1961-01-11,1,103,514,8.0,8.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0
1574,1547004,1,1962-01-01,1,710,1569,25.0,15.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,4.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
831,1547004,1,2024-01-01,1,697,3897,3.0,23.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
830,1547004,1,2024-01-02,1,354,1422,10.0,15.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0
829,1547004,1,2024-01-03,1,410,1435,26.0,18.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
828,1547004,1,2024-01-04,1,652,1759,2.0,11.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0


In [32]:
# Filtrar dados de 2024 e anteriores a 1979
def filtrar_dados_data(df, data_inicial, data_final):
    return df[(df['Data'] >= pd.to_datetime(data_inicial)) & (df['Data'] < pd.to_datetime(data_final))]

In [33]:
# Testar nova série - 2007 a 2023
# df_final_cp_filtro_cp = filtrar_dados_data(df_final_cp_filtro_cp, '2007-01-01', '2024-01-01')


In [34]:
df_final_cp_filtro_cp = filtrar_dados_data(df_final_cp_filtro_cp, '1979-01-01', '2024-01-01')

In [35]:
df_final_cp_filtro_cp

Unnamed: 0,EstacaoCodigo,NivelConsistencia,Data,TipoMedicaoChuvas,Maxima,Total,DiaMaxima,NumDiasDeChuva,MaximaStatus,TotalStatus,...,Chuva22Status,Chuva23Status,Chuva24Status,Chuva25Status,Chuva26Status,Chuva27Status,Chuva28Status,Chuva29Status,Chuva30Status,Chuva31Status
832,1547004,1,2023-01-12,1,285,1300,31.0,15.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
833,1547004,1,2023-01-11,1,280,1297,1.0,12.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0
834,1547004,1,2023-01-10,1,290,1089,8.0,12.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
835,1547004,1,2023-01-09,1,232,492,1.0,5.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0
836,1547004,1,2023-01-08,1,89,219,30.0,4.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
17285,1548010,1,1979-01-05,1,258,304,30.0,3.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
17286,1548010,1,1979-01-04,1,606,1238,1.0,9.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0
17287,1548010,1,1979-01-03,1,570,3266,19.0,17.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
17288,1548010,1,1979-01-02,1,632,1814,7.0,17.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0


In [36]:
gantt_serie_gap_overlap(df_final_cp_filtro_cp, "EstacaoCodigo", "Data")

In [37]:
df_final_cp_filtro_cp

Unnamed: 0,EstacaoCodigo,NivelConsistencia,Data,TipoMedicaoChuvas,Maxima,Total,DiaMaxima,NumDiasDeChuva,MaximaStatus,TotalStatus,...,Chuva22Status,Chuva23Status,Chuva24Status,Chuva25Status,Chuva26Status,Chuva27Status,Chuva28Status,Chuva29Status,Chuva30Status,Chuva31Status
832,1547004,1,2023-01-12,1,285,1300,31.0,15.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
833,1547004,1,2023-01-11,1,280,1297,1.0,12.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0
834,1547004,1,2023-01-10,1,290,1089,8.0,12.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
835,1547004,1,2023-01-09,1,232,492,1.0,5.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0
836,1547004,1,2023-01-08,1,89,219,30.0,4.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
17285,1548010,1,1979-01-05,1,258,304,30.0,3.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
17286,1548010,1,1979-01-04,1,606,1238,1.0,9.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0
17287,1548010,1,1979-01-03,1,570,3266,19.0,17.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
17288,1548010,1,1979-01-02,1,632,1814,7.0,17.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0


In [38]:
df_final_cp_filtro_cp.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9566 entries, 832 to 17289
Data columns (total 75 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   EstacaoCodigo         9566 non-null   object        
 1   NivelConsistencia     9566 non-null   int64         
 2   Data                  9566 non-null   datetime64[ns]
 3   TipoMedicaoChuvas     9566 non-null   int64         
 4   Maxima                9278 non-null   object        
 5   Total                 9523 non-null   object        
 6   DiaMaxima             9290 non-null   float64       
 7   NumDiasDeChuva        8921 non-null   float64       
 8   MaximaStatus          9566 non-null   float64       
 9   TotalStatus           9566 non-null   float64       
 10  NumDiasDeChuvaStatus  9566 non-null   float64       
 11  TotalAnual            4320 non-null   object        
 12  TotalAnualStatus      9560 non-null   float64       
 13  Chuva01             

In [39]:
df_final_cp_filtro_cp = inserir_mes_ano(df_final_cp_filtro_cp, "Data")

In [40]:
df_final_cp_filtro_cp['Total'] = df_final_cp_filtro_cp['Total'].apply(lambda x: x.replace(',', '.') if isinstance(x, str) else x)
df_final_cp_filtro_cp['Total'] = df_final_cp_filtro_cp['Total'].astype(float)

In [41]:
df_media_historia_ano = df_final_cp_filtro_cp.groupby(['EstacaoCodigo','ANO'])['Total'].sum().reset_index(name='MediaHistoricaAno')
df_media_historia_ano



Unnamed: 0,EstacaoCodigo,ANO,MediaHistoricaAno
0,1547004,1979,1539.7
1,1547004,1980,1677.9
2,1547004,1981,1875.7
3,1547004,1982,1492.9
4,1547004,1983,2017.9
...,...,...,...
799,1548010,2019,1644.2
800,1548010,2020,1674.4
801,1548010,2021,1709.9
802,1548010,2022,1310.0


In [42]:
df_media_historia = df_media_historia_ano.groupby('EstacaoCodigo')['MediaHistoricaAno'].mean().reset_index(name='MediaHistorica')
df_media_historia

Unnamed: 0,EstacaoCodigo,MediaHistorica
0,1547004,1481.906667
1,1547008,1352.076667
2,1547009,1334.472
3,1547010,1477.990222
4,1547013,1281.722889
5,1547014,1479.619778
6,1547015,1344.048837
7,1547017,1234.160976
8,1547018,1480.72
9,1547019,1436.553333


## JUNTAR BASES DE DADOS

In [43]:
gdf_estacoes_selecionadas['Codigo']

1     1547004
6     1547010
86    1548005
4     1547008
5     1547009
87    1548006
88    1548007
7     1547013
9     1547015
8     1547014
13    1547019
11    1547017
90    1548010
89    1548008
16    1547022
15    1547021
14    1547020
12    1547018
Name: Codigo, dtype: object

In [44]:
df_media_historia['EstacaoCodigo']

0     1547004
1     1547008
2     1547009
3     1547010
4     1547013
5     1547014
6     1547015
7     1547017
8     1547018
9     1547019
10    1547020
11    1547021
12    1547022
13    1548005
14    1548006
15    1548007
16    1548008
17    1548010
Name: EstacaoCodigo, dtype: object

In [45]:
gdf_join_estacao_dados = pd.merge(gdf_estacoes_selecionadas, 
                                 df_media_historia,
                                 left_on='Codigo', 
                                 right_on='EstacaoCodigo',
                                 how='inner')

In [46]:
gdf_join_estacao_dados

Unnamed: 0,Codigo,Nome,TipoEstacao,TipoEstacaoCodigo,Operando,CodigoAdicional,Latitude,Longitude,Altitude,AreaDrenagem,...,RedeRHNR,RedeQA,RedeClasseVazao,Descricao,Geom,x,y,geometry,EstacaoCodigo,MediaHistorica
0,1547004,BRASÍLIA,Pluviométrica,2,Sim,83377.0,-15.79,-47.923,,,...,Não,Não,Não,TELEMÉTRICA,,-47.923,-15.79,POINT (-47.92300 -15.79000),1547004,1481.906667
1,1547010,CONTAGEM,Pluviométrica,2,Sim,,-15.653,-47.879,1.242,,...,Não,Não,Não,,,-47.879,-15.653,POINT (-47.87900 -15.65300),1547010,1477.990222
2,1548005,GAMA ETE ALAGADO,Pluviométrica,2,Sim,,-16.025,-48.098,980.0,,...,Não,Não,Não,,,-48.098,-16.025,POINT (-48.09800 -16.02500),1548005,1527.942222
3,1547008,ETE SUL,Pluviométrica,2,Sim,,-15.841,-47.909,1.005,,...,Não,Não,Não,,,-47.909,-15.841,POINT (-47.90900 -15.84100),1547008,1352.076667
4,1547009,ETE NORTE,Pluviométrica,2,Sim,,-15.743,-47.877,1.01,,...,Não,Não,Não,,,-47.877,-15.743,POINT (-47.87700 -15.74300),1547009,1334.472
5,1548006,TAGUATINGA - ETA RD,Pluviométrica,2,Sim,,-15.79,-48.113,1.269,,...,Não,Não,Não,,,-48.113,-15.79,POINT (-48.11300 -15.79000),1548006,1472.875556
6,1548007,ETA - BRAZLÂNDIA,Pluviométrica,2,Sim,,-15.659,-48.191,1.098,,...,Não,Não,Não,,,-48.191,-15.659,POINT (-48.19100 -15.65900),1548007,1479.353333
7,1547013,TAQUARA,Pluviométrica,2,Sim,,-15.632,-47.52,1.053,,...,Não,Não,Não,,,-47.52,-15.632,POINT (-47.52000 -15.63200),1547013,1281.722889
8,1547015,ETE - SOBRADINHO,Pluviométrica,2,Sim,,-15.661,-47.812,1.04,,...,Não,Não,Não,,,-47.812,-15.661,POINT (-47.81200 -15.66100),1547015,1344.048837
9,1547014,ÁREA ALFA,Pluviométrica,2,Sim,,-15.979,-47.975,1.206,,...,Não,Não,Não,,,-47.975,-15.979,POINT (-47.97500 -15.97900),1547014,1479.619778


In [47]:
gdf_join_estacao_dados.info()

<class 'geopandas.geodataframe.GeoDataFrame'>
RangeIndex: 18 entries, 0 to 17
Data columns (total 78 columns):
 #   Column                           Non-Null Count  Dtype         
---  ------                           --------------  -----         
 0   Codigo                           18 non-null     object        
 1   Nome                             18 non-null     object        
 2   TipoEstacao                      18 non-null     object        
 3   TipoEstacaoCodigo                18 non-null     int64         
 4   Operando                         18 non-null     object        
 5   CodigoAdicional                  1 non-null      object        
 6   Latitude                         18 non-null     float64       
 7   Longitude                        18 non-null     float64       
 8   Altitude                         17 non-null     float64       
 9   AreaDrenagem                     0 non-null      float64       
 10  Bacia                            18 non-null     object 

In [48]:
# Converter campos datetime para string
dt_cols = gdf_join_estacao_dados.select_dtypes(include=['datetime64[ns]']).columns
gdf_join_estacao_dados[dt_cols] = gdf_join_estacao_dados[dt_cols].astype(str)


# Definir o sistema de referência de coordenadas (CRS) inicial
gdf_join_estacao_dados = gdf_join_estacao_dados.set_crs('EPSG:4326')

# Aplicar sistema de projeção
gdf_join_estacao_dados = gdf_join_estacao_dados.to_crs('EPSG:31983')

# Salvar em um arquivo shapefile
# gdf_join_estacao_dados.to_file(
#     os.path.join(os.getcwd(), 'VETOR', 'Estacoes_Hidrometeorologicas_Media_Historica_1979_2023.shp'),
#     driver='ESRI Shapefile'
# )

In [49]:
# Determinar número de classes para a classificação

import math

# Regra de Observações
regra_observacoes = math.sqrt(len(gdf_join_estacao_dados['MediaHistorica']))

# Regra de Sturges

regra_sturges = 1 + 3.322 * math.log10(len(gdf_join_estacao_dados['MediaHistorica']))

# Comparar os resultados

print("Regra de Observações: ", regra_observacoes)
print("Regra de Sturges: ", regra_sturges)

Regra de Observações:  4.242640687119285
Regra de Sturges:  5.170015261953183


In [50]:
# Distribuição de frequencia com intervalos de classe

amplitude_total = gdf_join_estacao_dados['MediaHistorica'].max() - gdf_join_estacao_dados['MediaHistorica'].min()

print("Amplitude Total: ", amplitude_total)


amplitude_intervalo = amplitude_total / round(regra_observacoes,0)

print("Amplitude do Intervalo: ", amplitude_intervalo)


Amplitude Total:  293.78124661246625
Amplitude do Intervalo:  73.44531165311656


In [51]:
# Criar os intervalos de classe
bins = pd.interval_range(start=gdf_join_estacao_dados['MediaHistorica'].min(), end=gdf_join_estacao_dados['MediaHistorica'].max(), freq=round(amplitude_intervalo,0))
gdf_join_estacao_dados['Intervalo'] = pd.cut(gdf_join_estacao_dados['MediaHistorica'], bins)

# Contar as frequências em cada intervalo
tabela_frequencia = gdf_join_estacao_dados['Intervalo'].value_counts().sort_index()

# Criar a tabela de frequência
tabela_frequencia_df = pd.DataFrame(tabela_frequencia).reset_index()
tabela_frequencia_df.columns = ['Intervalo', 'Frequência']

# Exibir a tabela de frequência
tabela_frequencia_df

Unnamed: 0,Intervalo,Frequência
0,"(1234.160975609756, 1307.160975609756]",3
1,"(1307.160975609756, 1380.160975609756]",4
2,"(1380.160975609756, 1453.160975609756]",2
3,"(1453.160975609756, 1526.160975609756]",7
