# Introdução ao Pandas

Neste notebook, estão apresentadas as resoluções das questões da segunda atividade do curso [_Introduction to Data Sicence in Python_](https://www.coursera.org/programs/universidade-de-sao-paulo-br-on-coursera-mvxtw/learn/python-data-analysis), correspondente à semana 2 do curso, que traz uma introdução ao Pandas, à séries de dados e a dataframes.

As questões dessa atividade são sobre [dados de imunização](NISPUF17.csv) de uma pesquisa de 2017 nos EUA. Foi disponibilizado também um [guia de uso dos dados](NIS-PUF17-DUG.pdf), onde as variáveis estão melhor explicadas.

Mesmo com o guia, antes de começar, é importante visualizar o dataset e entender sua organização na prática:

In [20]:
import pandas as pd

dataset = pd.read_csv('NISPUF17.csv', index_col='Unnamed: 0')
dataset.head()

Unnamed: 0,SEQNUMC,SEQNUMHH,PDAT,PROVWT_D,RDDWT_D,STRATUM,YEAR,AGECPOXR,HAD_CPOX,AGEGRP,...,XVRCTY2,XVRCTY3,XVRCTY4,XVRCTY5,XVRCTY6,XVRCTY7,XVRCTY8,XVRCTY9,INS_STAT2_I,INS_BREAK_I
1,128521,12852,2,,235.916956,1031,2017,,2,1,...,,,,,,,,,,
2,10741,1074,2,,957.35384,1068,2017,,2,1,...,,,,,,,,,,
3,220011,22001,2,,189.611299,1050,2017,,2,3,...,,,,,,,,,,
4,86131,8613,1,675.430817,333.447418,1040,2017,,2,1,...,,,,,,,,,1.0,2.0
5,227141,22714,1,482.617748,278.768063,1008,2017,,2,1,...,,,,,,,,,2.0,1.0


Pode-se perceber, de início, muitos valores faltando. O dataset em si é um pouco confuso e "sujo". O guia de uso auxilia no seu entendimento mas, em muitos casos, as classificações presentes no dataset não ficam muito claras. Buscando entender melhor essas classificações encontrou-se, através de pesquisa, [este documento](NIS-PUF17-README.TXT) que, por sua vez, levou a [este codebook](NIS-PUF17-CODEBOOK.pdf), onde as categorias estão melhores discriminadas. Com isso, é possível conferir qual classificação corresponde a qual informação, permitindo a proposta mais certeira de soluções para as questões da atividade.

## Questão 1

A primeira questão busca responder qual a proporção de crianças cuja mãe tem determinado nível de escolaridade. 

Consultando o guia e o codebook, percebe-se que a coluna "EDUC1" diz respeito à educação da mãe e está dividida nas categorias (1) <12 YEARS; (2) 12 YEARS; (3) >12 YEARS, NON-COLLEGE GRAD; e (4) COLLEGE GRAD. 

A questão classifica isso como "less than high school (<12), high school (12), more than high school but not a college graduate (>12) and college degree" e pede uma resposta em dicionário no formato:
```
    {"less than high school":0.2,
    "high school":0.4,
    "more than high school but not college":0.2,
    "college":0.2}
```

In [26]:
lesshs = dataset.loc[dataset['EDUC1'] == 1, 'EDUC1'].count() #filtra a coluna 'EDUC1' onde 'EDUC1' = 1 e conta os valores obtidos.
hschool = dataset.loc[dataset['EDUC1'] == 2, 'EDUC1'].count()
morehs = dataset.loc[dataset['EDUC1'] == 3, 'EDUC1'].count()
college = dataset.loc[dataset['EDUC1'] == 4, 'EDUC1'].count()
total = dataset['EDUC1'].count()
    
proportions = {"less than high school":(lesshs/total), #dividindo o valor obtido pelo total, temos a proporção
     "high school":(hschool/total),
     "more than high school but not college":(morehs/total),
     "college":(college/total)}

print(proportions)

{'less than high school': 0.10202002459160373, 'high school': 0.172352011241876, 'more than high school but not college': 0.24588090637625154, 'college': 0.47974705779026877}


## Questão 2

Na segunda questão, vamos explorar a relação entre ser amamentado na infância e ser vacinado contra gripe.

Consultando os documentos disponíveis, temos:
* A coluna "CBF_01", registrando se a criança foi amamentada ou alimentada com leite materno, sendo as categorias: (1) YES; (2) NO; (77) DON'T KNOW; e (99) REFUSED.
* A coluna "P_NUMFLU", registrando o número total de doses recebidas da vacina de gripe.

A questão pede uma tupla com o número médio de vacinas de gripe recebidas por crianças que foram amamentadas e com o número médio de vacinas de gripe recebidas por crianças que não foram amamentadas:
```
(2.5, 0.1)
```

In [29]:
y = dataset.loc[dataset['CBF_01'] == 1, 'P_NUMFLU'].mean() #filtra a coluna 'P_NUMFLU' onde 'CBF_01' = 1 e tira a média dos valores obtidos
n = dataset.loc[dataset['CBF_01'] == 2, 'P_NUMFLU'].mean()

print((y,n))

(1.8799187420058687, 1.5963945918878317)


## Questão 3

