# Prática 03 – Análise de Temperaturas

## Objetivo
Praticar estruturas de controle (for, while, if/elif/else), funções com argumentos padrão e operações com tuplas.

## Dataset
`datasets/temperaturas_cidades.csv`

**Colunas:** Cidade, Estado, Data, Temp_Min, Temp_Max, Umidade, Choveu

## Referências do Curso
- **Notebook:** `Programacao_Intensiva_Ciencia_de_Dados.ipynb`
  - Seção 1.3 – Estruturas de Controle (for, while, if/elif/else)
  - Seção 1.2 – Estruturas de Dados Fundamentais (tuplas para coordenadas, sets para cidades únicas)
  - Seção 1.5 – Funções Avançadas (argumentos padrão, docstrings)
- **Documentação:** `documentacao_completa.md`
  - Seção 2.2 – Tuplas e Sets
  - Seção 2.3 – Funções (argumentos padrão, *args, **kwargs)

## Tarefas

### Nível Básico
1. Ler o CSV e armazenar os dados em uma lista de listas
2. Usando um loop `for`, calcular a amplitude térmica (Temp_Max - Temp_Min) de cada registro
3. Usando `if/elif/else`, classificar cada dia como: "Frio" (max < 22), "Agradável" (22-30), "Quente" (> 30)
4. Contar quantos dias choveu e quantos não choveu

In [118]:
import pandas as pd

db = pd.read_csv("datasets/temperaturas_cidades.csv")

In [119]:
db.head()

Unnamed: 0,Cidade,Estado,Data,Temp_Min,Temp_Max,Umidade,Choveu
0,Porto Alegre,RS,2025-01-17,21.2,26.0,57,Nao
1,Manaus,AM,2025-02-17,17.2,32.2,44,Sim
2,Belem,PA,2025-01-14,22.5,39.0,78,Nao
3,Recife,PE,2025-01-10,22.7,37.6,61,Sim
4,Belem,PA,2025-03-29,22.8,27.5,35,Nao


In [120]:
for temp_min, temp_max in zip(db["Temp_Min"], db["Temp_Max"]):
    amplitude_termica = temp_max - temp_min
    #print(f"Amplitude térmica: {amplitude_termica:.1f}")

    '''if amplitude_termica < 22:
        print("Clima Frio")
    elif 22 <= amplitude_termica < 30:
        print("Clima Agradável")
    else:
        print("Clima Quente")
'''


choveu = 0
nao_choveu = 0

for dia in db["Choveu"]:
    if dia == "Sim":
        choveu += 1
    else:
        nao_choveu += 1

print(f"Choveu: {choveu}")
print(f"Não choveu: {nao_choveu}")


Choveu: 26
Não choveu: 22


### Nível Intermediário
5. Criar um set com todas as cidades únicas do dataset
6. Usar tuplas para armazenar pares (cidade, temperatura_media) e ordená-los
7. Criar uma função `estatisticas_cidade(dados, cidade, metrica='media')` com argumento padrão que calcule média, máxima ou mínima da temperatura para uma cidade
8. Usando um loop `while`, encontrar a primeira sequência de 3 dias consecutivos sem chuva

In [121]:
Cidades = set(db["Cidade"])
print(f"Cidades: {Cidades}")

Cidades: {'Brasilia', 'Joao Pessoa', 'Salvador', 'Porto Alegre', 'Maceio', 'Teresina', 'Campinas', 'Belo Horizonte', 'Goiania', 'Sao Paulo', 'Curitiba', 'Manaus', 'Belem', 'Fortaleza', 'Florianopolis', 'Recife', 'Sao Luis', 'Rio de Janeiro'}


In [122]:
cidade_temperaturas: list[tuple[str,float]] = []
for cidade, temp_max,temp_min in zip(db["Cidade"], db["Temp_Max"], db["Temp_Min"]):
    temp_media = round((temp_max + temp_min) / 2, 1)
    cidade_temperaturas.append((cidade, temp_media))

ordenado = sorted(cidade_temperaturas, key=lambda x: x[1], reverse=True)


In [123]:

def estatisticas_cidade(
    dados: pd.DataFrame, cidade: str, metrica: str = "media"
) -> float:

    cidade_dados = dados[dados["Cidade"] == cidade]

    if metrica == "media":
        return cidade_dados[["Temp_Min", "Temp_Max"]].mean().mean()
    elif metrica == "min":  # noqa: RET505
        return cidade_dados["Temp_Min"].min()
    elif metrica == "max":
        return cidade_dados["Temp_Max"].max()
    else:
        msg = "Métrica desconhecida. Use 'media', 'min' ou 'max'."
        raise ValueError(msg)

print(estatisticas_cidade(db, "Belem", metrica="media"))

26.583333333333332


In [124]:
db.head()

Unnamed: 0,Cidade,Estado,Data,Temp_Min,Temp_Max,Umidade,Choveu
0,Porto Alegre,RS,2025-01-17,21.2,26.0,57,Nao
1,Manaus,AM,2025-02-17,17.2,32.2,44,Sim
2,Belem,PA,2025-01-14,22.5,39.0,78,Nao
3,Recife,PE,2025-01-10,22.7,37.6,61,Sim
4,Belem,PA,2025-03-29,22.8,27.5,35,Nao


In [125]:
#db["Data"] = pd.to_datetime(db["Data"])

# MUITO IMPORTANTE: ordenar por cidade e data
db_ordenado = db.sort_values(["Data"]).reset_index(drop=True)

In [134]:
db_ordenado[db_ordenado["Cidade"] == "Fortaleza"]

Unnamed: 0,Cidade,Estado,Data,Temp_Min,Temp_Max,Umidade,Choveu
5,Fortaleza,CE,2025-01-09,18.0,27.0,88,Sim
7,Fortaleza,CE,2025-01-10,19.2,28.5,91,Sim
8,Fortaleza,CE,2025-01-11,20.1,29.0,93,Sim
11,Fortaleza,CE,2025-01-12,18.0,33.8,32,Nao


In [136]:
i: int = 0
contador: int = 0

while i < len(db_ordenado):
    if db_ordenado.loc[i, "Choveu"] == "Sim":
        contador += 1

        if contador == 3:
            dias = db_ordenado.loc[i-2:i, "Data"]
            print("3 dias consecutivos de chuva:")
            print(dias)
            break
    else:
        contador = 0

    i += 1


3 dias consecutivos de chuva:
5    2025-01-09
6    2025-01-10
7    2025-01-10
Name: Data, dtype: str


### Nível Avançado
9. Criar uma função que receba `*cidades` (argumentos variáveis) e retorne um dicionário com estatísticas de cada cidade
10. Calcular a correlação simples entre umidade e ocorrência de chuva (sem bibliotecas externas)
11. Identificar os dias com temperatura extrema (outliers): temp_max > média + 2*desvio_padrão
12. Gerar um relatório em arquivo .txt com resumo por cidade e por estado

In [159]:
from typing import Any 

def estatisticas_cidades(
    db: pd.DataFrame, *cidades: str
) -> dict[str, dict[str, Any]]:

    resultado: dict[str, dict[str, Any]] = {}

    for cidade in cidades:
        db_cidade = db[db["Cidade"] == cidade]

        if db_cidade.empty:
            resultado[cidade] = {"erro": "Cidade não encontrada"}
            continue

        dias_chuva = (db_cidade["Choveu"] == "Sim").sum()

        resultado[cidade] = {
            "total_registros": len(db_cidade),
            "media_temp_max": round(db_cidade["Temp_Max"].mean(), 2),
            "media_temp_min": round(db_cidade["Temp_Min"].mean(), 2),
            "media_umidade": round(db_cidade["Umidade"].mean(), 2),
            "dias_chuva": int(dias_chuva),
            "percentual_chuva": round((dias_chuva / len(db_cidade)) * 100, 2),
        }

    return resultado

stats = estatisticas_cidades(
    db,
    "Rio de Janeiro",
    "Curitiba",
    "Maceio",
)

print(stats)

{'Rio de Janeiro': {'total_registros': 2, 'media_temp_max': np.float64(29.2), 'media_temp_min': np.float64(21.85), 'media_umidade': np.float64(77.5), 'dias_chuva': 0, 'percentual_chuva': np.float64(0.0)}, 'Curitiba': {'total_registros': 1, 'media_temp_max': np.float64(34.8), 'media_temp_min': np.float64(20.3), 'media_umidade': np.float64(90.0), 'dias_chuva': 0, 'percentual_chuva': np.float64(0.0)}, 'Maceio': {'total_registros': 5, 'media_temp_max': np.float64(33.12), 'media_temp_min': np.float64(20.82), 'media_umidade': np.float64(74.6), 'dias_chuva': 2, 'percentual_chuva': np.float64(40.0)}}


In [160]:
import math


def correlacao_umidade_chuva(db: pd.DataFrame) -> float:

    y = [1 if valor == "Sim" else 0 for valor in db["Choveu"]]
    x = db["Umidade"].tolist()

    n = len(x)

    media_x = sum(x) / n
    media_y = sum(y) / n

    for i in range(n):
        # Desvio de cada ponto em relação à média
        dx = x[i] - media_x
        dy = y[i] - media_y

    soma_num = 0
    soma_x = 0
    soma_y = 0

    for i in range(n):
        # Desvio de cada ponto em relação à média
        dx = x[i] - media_x
        dy = y[i] - media_y

        # Cálculo de coeficiente de correlação de Pearson
        soma_num += dx * dy
        soma_x += dx**2
        soma_y += dy**2

    denominador = math.sqrt(soma_x * soma_y)

    if denominador == 0:
        return 0.0


    return soma_num / denominador

r = correlacao_umidade_chuva(db)
print("Correlação:", round(r, 4))

Correlação: -0.0436


In [161]:
db_corr = db.copy()

db_corr["Choveu_bin"] = db_corr["Choveu"].map({
    "Sim": 1,
    "Nao": 0
})

r_pandas = db_corr["Umidade"].corr(db_corr["Choveu_bin"])
print("Correlação (pandas):", round(r_pandas, 6))

Correlação (pandas): -0.04358


In [None]:
def temp_outliers(db: pd.DataFrame) -> pd.DataFrame:
    media = db["Temp_Max"].mean()
    desvio = db["Temp_Max"].std()

    limiteMax = media + 2 * desvio
    limiteMin = media - 2 * desvio


    outliersMax = db[db["Temp_Max"] > limiteMax].copy()
    outliersMax["Limite"] = limiteMax

    outliersMin = db[db["Temp_Max"] < limiteMin].copy()
    outliersMin["Limite"] = limiteMin

    return pd.concat([outliersMax, outliersMin])


temp_outliers(db)

Unnamed: 0,Cidade,Estado,Data,Temp_Min,Temp_Max,Umidade,Choveu,Limite


In [None]:
def gerar_relatorio(db: pd.DataFrame, nome_arquivo: str = "relatorio_pratica3.txt") -> None:
    media = db["Temp_Max"].mean()
    desvio = db["Temp_Max"].std()
    limite = media + 2 * desvio

    outliers = db[db["Temp_Max"] > limite]

    with open(nome_arquivo, "w", encoding="utf-8") as f:
        f.write("RELATÓRIO CLIMÁTICO\n")
        f.write("=" * 50 + "\n\n")

        f.write(f"Média geral Temp_Max: {media:.2f}\n")
        f.write(f"Desvio padrão Temp_Max: {desvio:.2f}\n")
        f.write(f"Limite de outlier: {limite:.2f}\n\n")

        # =============================
        # Resumo por Cidade
        # =============================
        f.write("RESUMO POR CIDADE\n")
        f.write("-" * 50 + "\n")

        for cidade, grupo in db.groupby("Cidade"):
            media_cidade = grupo["Temp_Max"].mean()
            total = len(grupo)
            extremos = len(grupo[grupo["Temp_Max"] > limite])

            f.write(f"\nCidade: {cidade}\n")
            f.write(f"Total registros: {total}\n")
            f.write(f"Média Temp_Max: {media_cidade:.2f}\n")
            f.write(f"Dias extremos: {extremos}\n")

        # =============================
        # Resumo por Estado
        # =============================
        f.write("\n\nRESUMO POR ESTADO\n")
        f.write("-" * 50 + "\n")

        for estado, grupo in db.groupby("Estado"):
            media_estado = grupo["Temp_Max"].mean()
            total = len(grupo)
            extremos = len(grupo[grupo["Temp_Max"] > limite])

            f.write(f"\nEstado: {estado}\n")
            f.write(f"Total registros: {total}\n")
            f.write(f"Média Temp_Max: {media_estado:.2f}\n")
            f.write(f"Dias extremos: {extremos}\n")

        # =============================
        # Lista de dias extremos
        # =============================
        f.write("\n\nDIAS COM TEMPERATURA EXTREMA\n")
        f.write("-" * 50 + "\n")

        for _, row in outliers.iterrows():
            f.write(
                f"{row['Data']} - {row['Cidade']} ({row['Estado']}) - "
                f"Temp_Max: {row['Temp_Max']}\n"
            )

    print(f"Relatório gerado: {nome_arquivo}")


gerar_relatorio(db)