<a href="https://colab.research.google.com/github/GabrielaSchubert/Python_no_Google_Colaboratory/blob/main/Aula_04_Estat%C3%ADstica_Descritiva_Medidas_de_Tendencia_Variacao_Posicao_Desafio_02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Estatística do Vento**

### **Introdução**:

Os dados foram modificados para conter alguns valores ausentes, identificados por NaN.

1. Os dados no arquivo `wind.data` têm o seguinte formato:

```
Yr Mo Dy   RPT   VAL   ROS   KIL   SHA   BIR   DUB   CLA   MUL   CLO   BEL   MAL
61  1  1 15.04 14.96 13.17  9.29   NaN  9.87 13.67 10.25 10.83 12.58 18.50 15.04
61  1  2 14.71   NaN 10.83  6.50 12.62  7.67 11.50 10.04  9.79  9.67 17.54 13.83
61  1  3 18.50 16.88 12.33 10.13 11.17  6.17 11.25   NaN  8.50  7.67 12.75 12.71
```

**Observação**: as três primeiras colunas são **ano**, **mês** e **dia**. As 12 colunas restantes representam as velocidades médias do vento em nós em 12 locais na Irlanda naquele dia.   

### Passo 1. Importar as bibliotecas necessárias

In [None]:
import pandas as pd
import numpy as np

### Passo 2. Leia o arquivo `wind.data` e converta-o para um dataframe chamado `df`. Combine as 3 primeiras colunas para formar um data no formato (ano-mes-dia) e defina-as como se fossem um índice do dataframe.

> **Observação**: a coluna original do arquivo "wind.data" que é a "Yr" está com o valor de dois dígitos. esta coluna representa os anos de 1961 até 1978. Porém, os valores desta coluna possuem somente o valor do ano. coloque o século nela, ou seja, ao invés de aparecer 61, deve aparecer 1961. e assim por diante.
>
> Sugestão: crie uma função para arrumar isto.

In [None]:
df = pd.read_csv('/content/wind.data', delim_whitespace=True)

df["Yr"] = df["Yr"] + 1900

ano = df["Yr"].astype(str)
mes = df["Mo"].astype(str).str.zfill(2)
dia = df["Dy"].astype(str).str.zfill(2)

data_texto = ano + "-" + mes + "-" + dia

df["Yr_Mo_Dy"] = pd.to_datetime(data_texto, format="%Y-%m-%d")

df.set_index("Yr_Mo_Dy", inplace=True)
df.drop(columns=["Yr", "Mo", "Dy"], inplace=True)

print(df.head())

              RPT    VAL    ROS    KIL    SHA   BIR    DUB    CLA    MUL  \
Yr_Mo_Dy                                                                   
1961-01-01  15.04  14.96  13.17   9.29    NaN  9.87  13.67  10.25  10.83   
1961-01-02  14.71    NaN  10.83   6.50  12.62  7.67  11.50  10.04   9.79   
1961-01-03  18.50  16.88  12.33  10.13  11.17  6.17  11.25    NaN   8.50   
1961-01-04  10.58   6.63  11.75   4.58   4.54  2.88   8.63   1.79   5.83   
1961-01-05  13.33  13.25  11.42   6.17  10.71  8.21  11.92   6.54  10.92   

              CLO    BEL    MAL  
Yr_Mo_Dy                         
1961-01-01  12.58  18.50  15.04  
1961-01-02   9.67  17.54  13.83  
1961-01-03   7.67  12.75  12.71  
1961-01-04   5.88   5.46  10.88  
1961-01-05  10.34  12.92  11.83  


  df = pd.read_csv('/content/wind.data', delim_whitespace=True)


### Passo 3. Calcule quantos valores estão faltando para cada local em todo dataset.


#### Eles devem ser ignorados em todos os cálculos abaixo.

In [None]:
missing = df.isnull().sum()
missing = missing[missing > 0].sort_values(ascending=False)
print(missing)

RPT    6
KIL    5
MAL    4
VAL    3
MUL    3
DUB    3
SHA    2
ROS    2
CLA    2
CLO    1
dtype: int64


### Passo 4. Calcule quantos valores não ausentes existem no total.

In [None]:
value_not = df.notnull().sum()
print(value_not)

RPT    6568
VAL    6571
ROS    6572
KIL    6569
SHA    6572
BIR    6574
DUB    6571
CLA    6572
MUL    6571
CLO    6573
BEL    6574
MAL    6570
dtype: int64


### Passo 5. Calcule as velocidades médias do vento em todos os locais e em todos os horários.

#### Observação: deve ser um único número para todo dataset.

In [None]:
df.sum().sum() / df.notna().sum().sum()

np.float64(10.227883764282181)

### Passo 6. Calcule as velocidades mínima, máxima e média do vento e os desvios padrão das velocidades do vento em cada local ao longo de todos os dias


In [None]:
media = df.mean()
minimo = df.min()
maximo = df.max()
desvio = df.std()

print(f"Média: {media}")
print(f"Mínimo: {minimo}")
print(f"Máximo: {maximo}")
print(f"Desvio: {desvio}")

Média: RPT    12.362987
VAL    10.644314
ROS    11.660526
KIL     6.306468
SHA    10.455834
BIR     7.092254
DUB     9.797343
CLA     8.495053
MUL     8.493590
CLO     8.707332
BEL    13.121007
MAL    15.599079
dtype: float64
Mínimo: RPT    0.67
VAL    0.21
ROS    1.50
KIL    0.00
SHA    0.13
BIR    0.00
DUB    0.00
CLA    0.00
MUL    0.00
CLO    0.04
BEL    0.13
MAL    0.67
dtype: float64
Máximo: RPT    35.80
VAL    33.37
ROS    33.84
KIL    28.46
SHA    37.54
BIR    26.16
DUB    30.37
CLA    31.08
MUL    25.88
CLO    28.21
BEL    42.38
MAL    42.54
dtype: float64
Desvio: RPT    5.618413
VAL    5.267356
ROS    5.008450
KIL    3.605811
SHA    4.936125
BIR    3.968683
DUB    4.977555
CLA    4.499449
MUL    4.166872
CLO    4.503954
BEL    5.835037
MAL    6.699794
dtype: float64


### Passo 7. Crie um DataFrame chamado ``day_stats`` e calcule a velocidade mínima, máxima e média do vento e os desvios padrão das velocidades do vento em todos os locais para cada dia.

#### Um conjunto diferente de números para cada dia.

In [None]:
day_stats = pd.DataFrame()

day_stats['min'] = df.min(axis=1)
day_stats['max'] = df.max(axis=1)
day_stats['mean'] = df.mean(axis=1)
day_stats['std'] = df.std(axis=1)

print(day_stats.head())

             min    max       mean       std
Yr_Mo_Dy                                    
1961-01-01  9.29  18.50  13.018182  2.808875
1961-01-02  6.50  17.54  11.336364  3.188994
1961-01-03  6.17  18.50  11.641818  3.681912
1961-01-04  1.79  11.75   6.619167  3.198126
1961-01-05  6.17  13.33  10.630000  2.445356


### Passo 8. Encontre a velocidade média do vento em janeiro para cada local.

#### Observação: Trate janeiro de 1961 e janeiro de 1962 como janeiro.

In [None]:
media = df[df.index.month == 1].mean()
print(media)

RPT    14.847325
VAL    12.914560
ROS    13.299624
KIL     7.199498
SHA    11.667734
BIR     8.054839
DUB    11.819355
CLA     9.512047
MUL     9.543208
CLO    10.053566
BEL    14.550520
MAL    18.028763
dtype: float64


### Passo 9. Reduza os registros de data para uma frequência anual para cada local.

In [None]:
frequencia_anual = df.resample('Y').mean()
print(frequencia_anual)

                  RPT        VAL        ROS       KIL        SHA       BIR  \
Yr_Mo_Dy                                                                     
1961-12-31  12.299583  10.351796  11.362369  6.958227  10.881763  7.729726   
1962-12-31  12.246923  10.110438  11.732712  6.960440  10.657918  7.393068   
1963-12-31  12.813452  10.836986  12.541151  7.330055  11.724110  8.434712   
1964-12-31  12.363661  10.920164  12.104372  6.787787  11.454481  7.570874   
1965-12-31  12.451370  11.075534  11.848767  6.858466  11.024795  7.478110   
1966-12-31  13.461973  11.557205  12.020630  7.345726  11.805041  7.793671   
1967-12-31  12.737151  10.990986  11.739397  7.143425  11.630740  7.368164   
1968-12-31  11.835628  10.468197  11.409754  6.477678  10.760765  6.067322   
1969-12-31  11.166356   9.723699  10.902000  5.767973   9.873918  6.189973   
1970-12-31  12.600329  10.726932  11.730247  6.217178  10.567370  7.609452   
1971-12-31  11.273123   9.095178  11.088329  5.241507   9.440329

  frequencia_anual = df.resample('Y').mean()


### Passo 10. Reduza os registros de data para uma frequência mensal para cada local.

In [None]:
frequencia_mensal = df.resample('M').mean()
print(frequencia_mensal)

                  RPT        VAL        ROS       KIL        SHA        BIR  \
Yr_Mo_Dy                                                                      
1961-01-31  14.841333  11.988333  13.431613  7.736774  11.072759   8.588065   
1961-02-28  16.269286  14.975357  14.441481  9.230741  13.852143  10.937500   
1961-03-31  10.890000  11.296452  10.752903  7.284000  10.509355   8.866774   
1961-04-30  10.722667   9.427667   9.998000  5.830667   8.435000   6.495000   
1961-05-31   9.860968   8.850000  10.818065  5.905333   9.490323   6.574839   
...               ...        ...        ...       ...        ...        ...   
1978-08-31   9.645161   8.259355   9.032258  4.502903   7.368065   5.935161   
1978-09-30  10.913667  10.895000  10.635000  5.725000  10.372000   9.278333   
1978-10-31   9.897742   8.670968   9.295806  4.721290   8.525161   6.774194   
1978-11-30  16.151667  14.802667  13.508000  7.317333  11.475000   8.743000   
1978-12-31  16.175484  13.748065  15.635161  7.09483

  frequencia_mensal = df.resample('M').mean()


### Passo 11. Reduza os registros de data para uma frequência semanal para cada local.

In [None]:
frequencia_semanal = df.resample('W').mean()
print(frequencia_semanal)

                  RPT        VAL        ROS        KIL        SHA        BIR  \
Yr_Mo_Dy                                                                       
1961-01-01  15.040000  14.960000  13.170000   9.290000        NaN   9.870000   
1961-01-08  13.541429  11.486667  10.487143   6.417143   9.474286   6.435714   
1961-01-15  12.468571   8.967143  11.958571   4.630000   7.351429   5.072857   
1961-01-22  13.204286   9.862857  12.982857   6.328571   8.966667   7.417143   
1961-01-29  19.880000  16.141429  18.225714  12.720000  17.432857  14.828571   
...               ...        ...        ...        ...        ...        ...   
1978-12-03  14.934286  11.232857  13.941429   5.565714  10.215714   8.618571   
1978-12-10  20.740000  19.190000  17.034286   9.777143  15.287143  12.774286   
1978-12-17  16.758571  14.692857  14.987143   6.917143  11.397143   7.272857   
1978-12-24  11.155714   8.008571  13.172857   4.004286   7.825714   6.290000   
1978-12-31  14.951429  11.801429  16.035

### Passo 12. Calcule as velocidades mínima, máxima e média do vento e os desvios-padrão das velocidades do vento em todos os locais para cada semana (suponha que a primeira semana comece em 2 de janeiro de 1961) durante as primeiras 52 semanas.

In [None]:
stats = df.resample('W-Mon').agg(['min', 'max', 'mean', 'std'])

primeira_semana = pd.to_datetime('1961-01-02')
primeiras_52_semanas = stats.loc[primeira_semana:primeira_semana + pd.DateOffset(weeks=51)]

print(primeiras_52_semanas.head())

              RPT                                VAL                    \
              min    max       mean       std    min    max       mean   
Yr_Mo_Dy                                                                 
1961-01-02  14.71  15.04  14.875000  0.233345  14.96  14.96  14.960000   
1961-01-09  10.58  18.50  13.237143  2.596592   6.63  16.88  11.392857   
1961-01-16   9.04  19.75  13.017143  3.858751   3.54  12.08   9.027143   
1961-01-23   4.92  19.83  13.221429  5.349631   3.42  14.37   9.678571   
1961-01-30  12.21  25.04  19.158333  5.499583  11.17  23.91  16.350000   

                        ROS         ...        CLO              BEL         \
                 std    min    max  ...       mean       std    min    max   
Yr_Mo_Dy                            ...                                      
1961-01-02       NaN  10.83  13.17  ...  11.125000  2.057681  17.54  18.50   
1961-01-09  3.613939   7.62  12.33  ...   8.412857  1.651027   5.46  16.62   
1961-01-16  3.194