## Dados utilizados da cidade do Rio de Janeiro do Forte de Copacabana no ano 2023

In [1]:
import pandas as pd

df = pd.read_csv('RIO-DE-JANEIRO_FORTE-DE-COPACABANA_2023.csv', delimiter=';', skiprows=8, encoding='latin1')

In [2]:
df.columns

Index(['Data', 'Hora UTC', 'PRECIPITAÇÃO TOTAL, HORÁRIO (mm)',
       'PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)',
       'PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)',
       'PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB)',
       'RADIACAO GLOBAL (Kj/m²)',
       'TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)',
       'TEMPERATURA DO PONTO DE ORVALHO (°C)',
       'TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C)',
       'TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C)',
       'TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C)',
       'TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C)',
       'UMIDADE REL. MAX. NA HORA ANT. (AUT) (%)',
       'UMIDADE REL. MIN. NA HORA ANT. (AUT) (%)',
       'UMIDADE RELATIVA DO AR, HORARIA (%)',
       'VENTO, DIREÇÃO HORARIA (gr) (° (gr))', 'VENTO, RAJADA MAXIMA (m/s)',
       'VENTO, VELOCIDADE HORARIA (m/s)', 'Unnamed: 19'],
      dtype='object')

**1. Calcular a média da temperatura da amostra**

In [3]:
print(df['TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)'].dtype)


object


In [7]:
df['TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)'] = pd.to_numeric(df['TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)'], errors='coerce')

media = df['TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)'].mean()
print(f"A média da temperatura é de {media:.2f}°C.")

A média da temperatura é de 24.15°C.


**2. Retirar nulos da coluna 'RADIACAO GLOBAL (Kj/m²)'**

In [13]:
df_sem_nulos_coluna = df.dropna(subset=['RADIACAO GLOBAL (Kj/m²)'])
df_sem_nulos_coluna

Unnamed: 0,Data,Hora UTC,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),RADIACAO GLOBAL (Kj/m²),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",Unnamed: 19
9,2023/01/01,0900 UTC,0,10102,10102,10092,1246,23.0,,232,227,,,,,,266.0,33,1,
10,2023/01/01,1000 UTC,0,10109,10109,10102,8871,24.0,,242,229,,,,,,226.0,25,11,
11,2023/01/01,1100 UTC,0,10111,10112,10109,15337,,262,263,237,,,,,99.0,100.0,19,",9",
12,2023/01/01,1200 UTC,0,10116,10116,10111,19833,,205,265,242,26,20,99.0,77.0,79.0,254.0,3,17,
13,2023/01/01,1300 UTC,0,10115,10116,10115,30948,,211,278,242,227,202,79.0,68.0,68.0,161.0,3,15,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8754,2023/12/31,1800 UTC,0,10116,1012,10116,11335,,208,257,246,216,206,83.0,75.0,79.0,88.0,32,13,
8755,2023/12/31,1900 UTC,0,1011,10116,1011,749,,211,251,244,213,206,82.0,78.0,82.0,63.0,35,13,
8756,2023/12/31,2000 UTC,",2",10108,10111,10107,4702,,207,246,238,214,205,83.0,81.0,83.0,95.0,63,45,
8757,2023/12/31,2100 UTC,0,1011,1011,10108,1421,,209,238,233,211,206,87.0,82.0,86.0,100.0,65,51,


**3. Copiar o dataframe reduzindo para 3 colunas e 1000 linhas aleatórias**

In [21]:
# Selecionar colunas específicas
df_reduzido = df[['Data', 'UMIDADE RELATIVA DO AR, HORARIA (%)', 'VENTO, VELOCIDADE HORARIA (m/s)']]

df_reduzido.head()

Unnamed: 0,Data,"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, VELOCIDADE HORARIA (m/s)"
0,2023/01/01,67.0,2
1,2023/01/01,80.0,1
2,2023/01/01,,13
3,2023/01/01,,14
4,2023/01/01,,",6"


In [23]:
# Selecionar 1000 linhas aleatórias
df_reduzido = df_reduzido.sample(n=1000, random_state=42)

df_reduzido

Unnamed: 0,Data,"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, VELOCIDADE HORARIA (m/s)"
8046,2023/12/02,,",7"
3910,2023/06/12,,3
411,2023/01/18,78.0,12
3146,2023/05/12,70.0,11
8664,2023/12/28,82.0,13
...,...,...,...
6152,2023/09/14,37.0,48
7550,2023/11/11,,46
8476,2023/12/20,96.0,",8"
828,2023/02/04,67.0,16


#### **Bônus I: Normalizar uma coluna**

#### Coluna usada: 'UMIDADE RELATIVA DO AR, HORARIA (%)'

In [24]:
df['Coluna_normalizada'] = (df['UMIDADE RELATIVA DO AR, HORARIA (%)'] - df['UMIDADE RELATIVA DO AR, HORARIA (%)'].min()) / (df['UMIDADE RELATIVA DO AR, HORARIA (%)'].max() - df['UMIDADE RELATIVA DO AR, HORARIA (%)'].min())
df['Coluna_normalizada']

0       0.625000
1       0.772727
2            NaN
3            NaN
4            NaN
          ...   
8755    0.795455
8756    0.806818
8757    0.840909
8758    0.886364
8759    0.829545
Name: Coluna_normalizada, Length: 8760, dtype: float64

#### **Bônus II: Outra forma de processamento de dados**

#### Filtrar linhas com base em condições:

Coluna usada: 'VENTO, VELOCIDADE HORARIA (m/s)'

In [39]:
df['VENTO, VELOCIDADE HORARIA (m/s)'] = pd.to_numeric(df['VENTO, VELOCIDADE HORARIA (m/s)'], errors='coerce')

filtrado = df[df['VENTO, VELOCIDADE HORARIA (m/s)'] > 2]
filtrado

Unnamed: 0,Data,Hora UTC,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),RADIACAO GLOBAL (Kj/m²),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),...,TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",Unnamed: 19,Coluna_normalizada
39,2023/01/02,1500 UTC,0,10079,10089,10079,39579,,201,287,...,21,195,65.0,60.0,62.0,76.0,52,3.0,,0.568182
81,2023/01/04,0900 UTC,0,10025,10025,10023,541,,169,295,...,175,169,54.0,47.0,47.0,335.0,87,3.0,,0.397727
96,2023/01/05,0000 UTC,0,10059,10059,10058,,,,235,...,,,,,,267.0,67,3.0,,
101,2023/01/05,0500 UTC,0,10048,10053,10047,,,,224,...,,,,,,263.0,7,3.0,,
115,2023/01/05,1900 UTC,0,10063,10067,10062,2829,,,22,...,,,,,,266.0,109,4.0,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8657,2023/12/27,1700 UTC,0,10123,10128,10123,30325,,213,284,...,226,212,77.0,69.0,76.0,251.0,63,3.0,,0.727273
8659,2023/12/27,1900 UTC,0,10118,10121,10118,23618,,219,273,...,224,216,78.0,73.0,77.0,245.0,67,3.0,,0.738636
8685,2023/12/28,2100 UTC,0,10081,10084,1008,1758,,218,251,...,218,214,85.0,81.0,85.0,95.0,98,7.0,,0.829545
8728,2023/12/30,1600 UTC,0,10094,10094,10088,10265,,237,262,...,239,232,92.0,84.0,92.0,262.0,85,4.0,,0.909091
