In [1]:
# Importando as bibliotecas necessárias

import pandas as pd
import numpy as np

In [3]:
# Carregando o CSV com dados do meu estado (Bahia)

df = pd.read_csv('data_sample_BA.csv', sep=';' , encoding='latin-1', on_bad_lines='skip')

In [4]:
df

Unnamed: 0,Data,Hora UTC,PRECIPITAO TOTAL. HORARIO (mm),PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO. HORARIA (mB),PRESSAO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSAO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),RADIACAO GLOBAL (Kj/m2),TEMPERATURA DO AR - BULBO SECO. HORARIA (C),TEMPERATURA DO PONTO DE ORVALHO (C),TEMPERATURA MAXIMA NA HORA ANT. (AUT) (C),...,VENTO. RAJADA MAXIMA (m/s),VENTO. VELOCIDADE HORARIA (m/s),REGIAO,UF,ESTACAO,CODIGO (WMO),LATITUDE,LONGITUDE,ALTITUDE,DATA DE FUNDACAO
0,2020/09/10,1200 UTC,0.0,958.7,958.7,958.5,2870.2,24.0,13.3,24.2,...,11.5,3.8,NE,BA,GUANAMBI,A426,-14.208056,-42.749722,552.23,24/04/08
1,2021/03/13,0500 UTC,0.0,963.4,963.9,963.4,,21.7,19.9,22.3,...,4.5,2.2,NE,BA,EUCLIDES DA CUNHA,A442,-10.537233,-38.996605,431.96,31/03/08
2,2020/06/09,1800 UTC,,1006.4,1006.8,1006.4,1675.1,27.4,22.4,27.5,...,4.3,1.6,NE,BA,UNA,A437,-15.280278,-39.091389,74.08,25/06/08
3,2020/11/18,1200 UTC,0.0,871.1,871.2,871.1,1693.6,21.4,15.8,21.5,...,4.4,2.4,NE,BA,PIATA,A430,-13.155681,-41.774125,1283.95,03/05/08
4,2020/08/16,1400 UTC,0.0,952.0,952.7,952.0,2731.2,31.1,15.7,31.3,...,4.9,1.9,NE,BA,CORRENTINA,A416,-13.332500,-44.617500,551.71,09/11/07
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,2021/07/19,0600 UTC,,,,,,,,,...,,,NE,BA,UAUA,A435,-9.833611,-39.495556,450.60,20/05/08
99996,2021/12/16,0100 UTC,,,,,,,,,...,,,NE,BA,ABROLHOS,A422,-17.963056,-38.703333,20.93,21/07/08
99997,2022/03/04,2300 UTC,,,,,,,,,...,,,NE,BA,PORTO SEGURO,A427,-16.388889,-39.182500,86.36,10/07/08
99998,2020/05/11,0800 UTC,0.0,995.3,995.3,994.7,,21.1,20.5,21.2,...,3.2,0.2,NE,BA,RIBEIRA DO AMPARO,A458,-11.058611,-38.444167,182.00,20/09/18


In [10]:
# 1. Calcular a média da temperatura da amostra

media_temperatura = df['TEMPERATURA DO AR - BULBO SECO. HORARIA (C)'].mean()
print(f"Média da temperatura: {media_temperatura:.2f} °C")

Média da temperatura: 26.24 °C


In [11]:
# 2. Retirar nulos da coluna 'RADIACAO GLOBAL (Kj/m2)'

df = df.dropna(subset=['RADIACAO GLOBAL (Kj/m2)'])
df.shape
df['RADIACAO GLOBAL (Kj/m2)']

0        2870.2
2        1675.1
3        1693.6
4        2731.2
5        2561.1
          ...  
99985    1099.6
99991    2295.9
99992    3155.9
99994    1615.8
99999     935.9
Name: RADIACAO GLOBAL (Kj/m2), Length: 35975, dtype: float64

In [19]:
# 3. Copiar o DataFrame reduzindo para 3 colunas e 1000 linhas aleatórias


colunas_selecionadas = ['TEMPERATURA DO AR - BULBO SECO. HORARIA (C)', 'RADIACAO GLOBAL (Kj/m2)', 'UMIDADE RELATIVA DO AR. HORARIA (%)']
df_reduzido = df[colunas_selecionadas].sample(n=1000, random_state=1)
df_reduzido = df_reduzido.reset_index(drop=True)

df_reduzido

Unnamed: 0,TEMPERATURA DO AR - BULBO SECO. HORARIA (C),RADIACAO GLOBAL (Kj/m2),UMIDADE RELATIVA DO AR. HORARIA (%)
0,30.1,2581.8,62.0
1,19.2,133.7,86.0
2,27.8,1691.7,100.0
3,21.3,171.1,97.0
4,31.7,3996.8,37.0
...,...,...,...
995,26.2,582.4,79.0
996,22.5,6.6,
997,33.1,2691.0,36.0
998,34.2,3324.5,35.0


In [21]:
# Bônus I: normalizar coluna (qualquer uma)
# Normalizar a coluna 'UMIDADE RELATIVA DO AR. HORARIA (%)'

df_normalizado = df.copy()

coluna = "UMIDADE RELATIVA DO AR. HORARIA (%)"

df_normalizado[coluna] = (df_normalizado[coluna] - df_normalizado[coluna].min()) / (df_normalizado[coluna].max() - df_normalizado[coluna].min())

df_normalizado[coluna]

0        0.473118
2        0.731183
3        0.688172
4        0.354839
5        0.860215
           ...   
99985    0.741935
99991    0.516129
99992    0.354839
99994    0.677419
99999    0.806452
Name: UMIDADE RELATIVA DO AR. HORARIA (%), Length: 35975, dtype: float64

## Bônus II: Pesquisar sobre outras formas de processamento de dados além das vistas em sala de aula




* Análise de componentes principais (PCA): Para redução de dimensionalidade;
* Filtragem de dados: Usando técnicas como suavização, filtragem de Kalman, etc;
* Transformação de dados: Como transformações logarítmicas ou exponenciais para dados não-lineares;
* Interpolação de dados: Preencher valores ausentes com métodos como interpolação linear ou polinomial;
* Agrupamento (Clustering): Algoritmos como K-means para segmentação de dados.