# Mudanças Climáticas

Nesse problemas vamos estudar a relação entre algumas variáveis e a temperatura. O arquivo [climate_change.csv](https://raw.githubusercontent.com/abnr/ml-data/main/climate_change.csv) tem dados climáticos de Maio de 1983 até Dezembro de 2008, com a variáveis:

* Year: o ano da observação.
* Month: o mês da observação.
* Temperature: a diferença em graus Celsius entre a média global de temperatura naquele período e um valor de referência. Dado proveniente da [Climatic Research Unit at the University of East Anglia](https://sites.uea.ac.uk/cru/).
* CO2, N2O, CH4, CFC.11, CFC.12: concentração atmosférica de dióxido de carbono (CO2), óxido nitroso (N2O), metano (CH4), triclorofluormetano (CCl3F, conhecido como CFC-11) e diclorofluormetano (CCl2F2, conhecido como CFC-12). Esses dados foram coletados da  [ESRL/NOAA Global Monitoring Division](http://www.esrl.noaa.gov/gmd/ccgg/data-products.html).
* Aerosols:  a media da profundidade óptica do aerosol estratosférico à 500 nm. Essa variável é ligada com a atividade vulcânica, já que essa atividade lança partículas na atmosfera que afetam o quanto da energia do sol é refletida novamente para o espaço. Esse dado é do [Godard Institute for Space Studies at NASA](http://data.giss.nasa.gov/modelforce/strataer/).
* TSI: o total da irradiãncia solar em W/m2 (a quantidade de energia solar depositada por unidade de área). Devido a manchas solares e outros fenômenos solares, essa quantidade de energia pode variar com o tempo. Dado proveniente do [SOLARIS-HEPPA](http://solarisheppa.geomar.de/solarisheppa/cmip5).
* MEI: multivariate El Nino Southern Oscillation index (MEI), uma medida de força do El Nino/La Nina. Dado do [ESRL/NOAA Physical Sciences Division](https://www.esrl.noaa.gov/psd/).



In [1]:
#Libraries import
import pandas as pd
import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt

## Problema 1

Nos estamos interessados em saber como alterações nessas variáveis afetam as temperaturas futuras e como essas variáveis explicam as mudanças na temperatura. Para fazer isso, leia o dataset, divida em um dataset para treino usando dados até 2006 (incluso). O dataset de treino é aquele que vai ser usado para encontrar os parâmetros do modelo. 

Crie um modelo de regressão para prever Temp usando MEI, CO2, CH4, N2), CFC.11, CFC.12, TSI e Aerosol (Não use ano e mês).

Qual o valor de $R^2$ que você encontrou?

In [3]:
#Data Read
df_climate_change = pd.read_csv('climate_change.csv')
df_climate_change

Unnamed: 0,Year,Month,MEI,CO2,CH4,N2O,CFC-11,CFC-12,TSI,Aerosols,Temp
0,1983,5,2.556,345.96,1638.59,303.677,191.324,350.113,1366.1024,0.0863,0.109
1,1983,6,2.167,345.52,1633.71,303.746,192.057,351.848,1366.1208,0.0794,0.118
2,1983,7,1.741,344.15,1633.22,303.795,192.818,353.725,1366.2850,0.0731,0.137
3,1983,8,1.130,342.25,1631.35,303.839,193.602,355.633,1366.4202,0.0673,0.176
4,1983,9,0.428,340.17,1648.40,303.901,194.392,357.465,1366.2335,0.0619,0.149
...,...,...,...,...,...,...,...,...,...,...,...
303,2008,8,-0.266,384.15,1779.88,321.405,244.200,535.072,1365.6570,0.0036,0.407
304,2008,9,-0.643,383.09,1795.08,321.529,244.083,535.048,1365.6647,0.0043,0.378
305,2008,10,-0.780,382.99,1814.18,321.796,244.080,534.927,1365.6759,0.0046,0.440
306,2008,11,-0.621,384.13,1812.37,322.013,244.225,534.906,1365.7065,0.0048,0.394


In [8]:
df_climate_change.dtypes

Year          int64
Month         int64
MEI         float64
CO2         float64
CH4         float64
N2O         float64
CFC-11      float64
CFC-12      float64
TSI         float64
Aerosols    float64
Temp        float64
dtype: object

In [9]:
df_climate_change.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 308 entries, 0 to 307
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Year      308 non-null    int64  
 1   Month     308 non-null    int64  
 2   MEI       308 non-null    float64
 3   CO2       308 non-null    float64
 4   CH4       308 non-null    float64
 5   N2O       308 non-null    float64
 6   CFC-11    308 non-null    float64
 7   CFC-12    308 non-null    float64
 8   TSI       308 non-null    float64
 9   Aerosols  308 non-null    float64
 10  Temp      308 non-null    float64
dtypes: float64(9), int64(2)
memory usage: 26.6 KB


In [12]:
print(df_climate_change.isna().sum()) 

Year        0
Month       0
MEI         0
CO2         0
CH4         0
N2O         0
CFC-11      0
CFC-12      0
TSI         0
Aerosols    0
Temp        0
dtype: int64


In [22]:
#df_climate_change_train =
df_climate_change_train = df_climate_change[df_climate_change['Year'] < 2007]
df_climate_change_train.sample()

Unnamed: 0,Year,Month,MEI,CO2,CH4,N2O,CFC-11,CFC-12,TSI,Aerosols,Temp
65,1988,10,-1.35,349.08,1708.91,306.938,250.566,453.848,1366.1118,0.0065,0.12


In [28]:
X = df_climate_change_train[['MEI', 'CO2', 'CH4', 'N2O', 'CFC-11', 'CFC-12', 'TSI', 'Aerosols']]
Y = df_climate_change_train[['Temp']]
X = sm.add_constant(X)
modelo_linear_climate_change  = sm.OLS(Y, X)
modelo_linear_climate_change = modelo_linear_climate_change.fit()
print(modelo_linear_climate_change.summary())

                            OLS Regression Results                            
Dep. Variable:                   Temp   R-squared:                       0.751
Model:                            OLS   Adj. R-squared:                  0.744
Method:                 Least Squares   F-statistic:                     103.6
Date:                Sat, 22 May 2021   Prob (F-statistic):           1.94e-78
Time:                        23:31:16   Log-Likelihood:                 280.10
No. Observations:                 284   AIC:                            -542.2
Df Residuals:                     275   BIC:                            -509.4
Df Model:                           8                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       -124.5943     19.887     -6.265      0.0

Qual o valor de  𝑅²  que você encontrou?

R-squared = 0.751

Isso indica que uma grande proporção da variância da variável resposta é explicada pela regressão

## Problema 2

Quais variáveis foram significativas?

## Problema 3

A opinião científica atual é que N20 e CFC-11 são gases de efeito estufa. Entretanto os coeficientes dessas variáveis na regressão deram negativos, indicando que o aumento da concentração desses gases estariam associadas com baixas temperaturas. 

Qual a explicação para essa contradição?

## Problema 4

Calcule a correlação entre todas as variáveis do conjunto de treinamento. 

1. Quais outras variáveis são muito correlacionadas com N2O (correlação > 0.7) ? 
2. Quais outras variáveis são muito correlacionadas com CFC.11 ?

## Problema 5

Vamos simplificar o modelo e remover as variáveis muito correlacionadas. Crie um modelo com MEI, TSI, Aerosols e N2O. 

1. Qual o coeficiente do N2O nesse novo modelo?
2. Qual o valor do $R^2$ ?

# Dados do PISA

O Programme for International Student Assessment (PISA) é um teste feito no mundo todo a cada 3 anos para estudantes de 15 anos para avaliar a performance em matemática, leitura e ciências. A ideia do teste é fornecer uma maneira de comparar estudantes de diferentes partes do mundo. O objetivo dessa questão é prever as notas de leitura dos estudantes dos Estados Unidos para o PISA de 2009.

O dataset [pisa2009train.csv](https://raw.githubusercontent.com/abnr/ml-data/main/pisa2009train.csv) e [pisa2009test.csv](https://raw.githubusercontent.com/abnr/ml-data/main/pisa2009test.csv) contem informação sobre demografia e escolas dos estudantes norte-americanos que fazem os exame, extraidos do dataset 2009 Pisa Public-Use Data Files distribuido pela United States National Center for Education Statistics (NCES). Esse dataset não possui informações que tornem possível a identificação dos estudantes.
 
Cada linha do dataset pisa2009train.csv e pisa2009test.csv representa um estudante que fez a prova. Os datasets possuem as seguintes variáveis:

* grade: A série do aluno na escola (a maior parte dos alunos está na 10ª) 

* male: Se o estudante é do sexo masculino (1/0)

* raceeth: A raça/etnia do estudante.

* preschool: Se o estudante cursou a pré-escola (1/0)

* expectBachelors: Se o estudante espera fazer graduação superior (1/0)

* motherHS: Se a mãe do estudante completou o ensino médio (1/0) 

* motherBachelors: Se a mãe do estudante completou a graduação superior (1/0)

* motherWork: Se a mãe do estudante possui um emprego  (1/0)

* fatherHS: Se o pai do estudante completou o ensino médio  (1/0)

* fatherBachelors: Se o pai do estudante obteve graduação superior (1/0)

* fatherWork: Se o pai do estudante possui um emprego (1/0)

* selfBornUS: Se o estudante nasceu nos Estados Unidos (1/0)

* motherBornUS: Se a mãe do estudante nasceu nos Estados Unidos (1/0)

* fatherBornUS: Se o pai do estudante nasceu nos Estados Unidos (1/0)

* englishAtHome: Se o estudante fala inglês em casa (1/0)

* computerForSchoolwork: Se o estudante tem acesso a um computador para tarefas da escola (1/0)

* read30MinsADay: Se o estudante lê por prazer 30 minutos/dia (1/0)

* minutesPerWeekEnglish: Número de minutos que o estudante passa por semana em aulas de inglês

* studentsInEnglish: Número de estudantes na sala de inglês da escola. 

* schoolHasLibrary: Se a escola do estudante possui uma biblioteca.  (1/0)

* publicSchool: Se o estudante estuda em uma escola pública  (1/0)

* urban: Se o estudante estuda em uma escola em uma área urbana  (1/0)

* schoolSize: O número de estudante na escola 

* readingScore: A nota do estudante em leitura em uma escala de 1000 pontos. 

## Problema 1: Perguntas sobre o dataset:

1. Quantos alunos tem no dataset?
2. Qual a média da nota de leitura dos estudantes com valor de $male == 1$ e $male == 0$ ?
3. Quais variáveis possuem valores faltantes?
4. Escolha e explique uma estratégia para lidar com os valroes faltantes.
5. Quais variáveis são nominais com pelo menos 3 possívels valores? Quais variáveis são ordinais com pelo menos 3 possívels valores?


## Problema 2

Crie um modelo de regressão com dados de treino e teste com o de testes. Use variáveis dummies para as variáveis categóricas. Qual o valor do $R^2$ e erro médio quadrático para o conjunto de treinamento ?

## Problema 3

Considere dois estudantes A e B. Eles possuem todos os valores iguais exceto que o estudante A é da série 11 e o estudante B é da sala 9. Qual é a nota prevista para o estudante A menos a nota prevista para o estudante B ?

## Problema 4

Quais variáveis você considera que são candidatas para remoção do modelo?

## Problema 5

Use o dataset de treino para estimar as notas de alunos que não foram usados no treinamento. Qual o $R^2$ e RMSE para esse conjunto?

# Dados do Google Flu

A epidemia de gripe é um grande problema de saúde pública que causa um grande número de hospitalizações e mortes. De acordo com o National Vital Statistics Reports, publicado em outubro de 2012, influenza é a oitava causa de mortes em 2011 nos Estados Unidos. Para o mundo todo, a cada ano, morrem de 250000 à 500000 pessoas por ano de influenza.

O Centro de Controle de Doenças (CDC) e o 
European Influenza Surveillance Scheme (EISS) detectam influenza através de dados clínicos, entretanto essas informações são publicadas com atraso de 1-2 semanas.

O Google Flu Trends é um projeto que foi criado para testar se é possível identificar a quantidade de casos de gripe baseado na quantidade de buscas sobre o assunto, já que esse dado pode ser recuperado imediatamente.

Nosso objetivo é estimar o número de doenças similares a influenza (influenza-like illness ILI) usando a informação das buscas do Google. 

Uma das fontes de dados, o Google Search Queries - Google Trends fornece a contagem semanal de buscas dos usuários do google ao redor do mundo. Para cada local, a contagem é normalizada dividindo a contadem de cada busca na semana pelo número total de buscas. Dessa forma os valores estão entre 0 e 1.
 
 O arquivo csv [FluTrain](https://raw.githubusercontent.com/abnr/ml-data/main/FluTrain.csv) agrega os dois dados de Janeiro de 2004 até Dezembro de 2011, com as colunas:

"Week" - A faixa de datas a qual a observação foi feita, no formato ano/mes/dia.

"ILI" - A porcentagem de casos de ILI reportados na semana.

"Queries" - A fração das buscas de ILI naquela semana.






## Problema 1

Verifique se ILI segue uma distribuição normal. Caso não seja normal, utilize alguma estratégia para transformar esses dados.



## Problema 2

Ajuste um modelo de regressão linear e calcule o $R^2$.



## Problema 3

O arquivo [FluTest.csv](https://raw.githubusercontent.com/abnr/ml-data/main/FluTest.csv) contem os dados de 2012, utilize esses dados para teste. Calcule as métricas de erro para esse dataset e faça a análise residual.




## Problema 4

Crie uma nova variável usando a coluna ILI com lag de 2. Utilize essa variável, além das buscas do google como entrada. Treine o modelo de regressão, refaça análise residual e verifique quais variáveis foram significativas. Compare as métricas de erro do dataset de teste desse modelo com o modelo anterior.

# Baseball

Vamos usar o [dataset de baseball](https://raw.githubusercontent.com/abnr/ml-data/main/baseball.csv) para tentar prever quem vai ser o campeão da temporada. Esse dataset é composto pelas variáveis:

* Team: O código para o nome do time.
* League: A liga que o time pertence, pode ser AL ou NL
* Year: Ano do registro
* RS: o número de runs do time no ano.
* RA: O número de runs permitidos pelo time no ano.
* W: O número de vitórias na temporada 
* OBP: A porcentagem de 'on-base' 
* SLG: A slugging percentage do time no ano
* BA: A batting average do time no ano
* Playoffs: Se o time foi ou não para os playoffs
* RankSeason: Entre os times no playoff o rank final dele no ano.
* RankPlayoffs: O rank do time no playoff. O campeão tem rank 1.
* G: O número de partidas jogadas no ano.
* OOBP: A porcentagem de 'on-base' dos oponentes do ano.
* OSLG: A slugging percentage dos oponentes no ano.


## Problema 1

Use o rank final dos Playoffs para modelar um classficador para identificar o campeão daquele ano. Selecione e justifique as variáveis e compare os modelos.