# Modulo Pandas

<img src='https://cdn-images-1.medium.com/max/1600/0*kVETqwtYsQ8BFJDc.gif' style='width:40%'>

# Comandos básicos.

#### Abrindo e escrevendo arquivos CSV:
Para ler arquivos CSV codificados em ISO
- pd.read_csv('nome_do_arquivo.csv', encoding='ISO-8859-1')

Para escrever arquivos CSV
- pd.to_csv('nome_do_arquivo_para_salvar.csv')

#### Abrindo arquivos de Excel:
- xlsx = pd.ExcelFile('seu_arquivo_excel.xlsx')
- df = pd.read_excel(xlsx, 'Planilha 1'

#### Abrindo HTML
- df = pd.read_html(‘linktoonlinehtmlfile’)

#### Removendo linhas e colunas: 
Removendo linhas pelo index
- s.drop([0, 1]) 

Removendo colunas utilizando o argumento axis=1
- df.drop('País', axis=1)

#### Coletando informações básicas sobre o DataFrame: 
Quantidade de linhas e colunas do DataFrame
- df.shape

Descrição do Index
- df.index 

Colunas presentes no DataFrame
- df.columns 

Contagem de dados não-nulos
- df.count()

#### Criando uma nova coluna em um DataFrame: 
- df['Nova Coluna'] = 0

#### Renomeando colunas de um DataFrame: 
#Se seu DataFrame possui 3 colunas, passe 3 novos valores em uma lista
- df.columns = ['Coluna 1', 'Coluna 2', 'Coluna 3']

#### Resumo dos dados: 

- df.sum() 
#Soma dos valores de um DataFrame
- df.min()
#Menor valor de um DataFrame
- df.max()
#Maior valor
- df.idmin()
#Index do menor valor
- df.idmax()
#Index do maior valor
- df.describe()
#Resumo estatístico do DataFrame, com quartis, mediana, etc.
- df.mean()
#Média dos valores
- df.median()
#Mediana dos valores

#### Aplicando funções: 
Aplicando uma função que substitui a por b
- df.apply(lambda x: x.replace('a', 'b'))

#### Ordenando valores:
Ordenando em ordem crescente
- df.sort_values()

Ordenando em ordem decrescente
- df.sort_values(ascending=False) 

#### Operações aritméticas em Series: 
- s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])

#Somando todos os valores presentes na Series por 2
- s.add(2)

#Subtraindo 2 de todos os valores
- s.sub(2)

#Multiplicando todos os valores por 2
- s.mul(2)

#Dividindo valores por 2
- s.div(2)

### Indexação por Boolean:
#Filtrando o DataFrame para mostrar apenas valores pares
- df[df['População'] % 2 == 0]

Filtrando Apenas valores maiores que 2
- df[df['Pessoas na casa'] > 2 == 0]

#### Selecionando valores: 
#Selecionando a primeira linha da coluna país
- df.loc[0, 'País']


1. *Conhecendo o Dr. Ignaz Semmelweis*
---


<img src='https://upload.wikimedia.org/wikipedia/commons/thumb/f/f8/Ignaz_Semmelweis_1860.jpg/225px-Ignaz_Semmelweis_1860.jpg'>

Esse doutor da foto se chama Ignaz Semmelweis, um médico Hungaro nascido em 1818 que trabalhava no hospital geral de Vienna. O olhar com mistura de tristeza e seriedade do Dr. Semmelweis, provalmente é motivado por estar pensando em seus estudos sobre a "a febre dos recem-nascidos", uma doença que em sua época afetava mulheres que haviam dado a luz. Seus estudos começaram por meiados nos anos 1840 no hospital em que trabalhava, pois, mais de 10% das mulheres que realizavam trabalho de parto em seu hospital morriam de febre. Ele pensava sobre o assunto, pois entendi o motivo das mortes: Era uma contaminação das mãos dos médicos, e mesmo conversando com outros médicos sobre a importancia de lavar as mãos antes dos procedimentos cirurgicos, os médicos não os dava ouvidos.

Esse notebook tem como objetivo fazer uma re-análise dos dados coletados pelo proprorio Sr. Semmelweis que demonstrou a importancia de se lavar as mãos.

## Tarefas

- [ ] Importar o modulo pandas
- [ ] Ler o arquivo com os dados que estão no diretório '../DataScience/datas/doctor/birth_deaths_by_clinic.csv'
- [ ] Imprimir os dados.

In [None]:
import os
import pandas as pd
print(os.listdir("../DataScience"))
#data = pd.read_csv('../DataScience/datas/doctor/birth_deaths_by_clinic.csv')



## 2. Um número alarmante de mortes.
Observe que a tabela mostra o numero de mulheres que tiveram filhos em duas clinicas distintas do hospital de Vienna entre os anos de 1841 à 1846. Pode-se perceber que ao ter filhos a taxa de mortalidade é muito alta, muitas mulheres morriam ao dar a luz, morte essa motivada principalmente pela febre do recem-nascido.

Para vermos os dados de forma mais clara, faremos uma proporção de quantas mulheres morrem ao dar a luz.

Com os dados carregados, faça:

- [ ] Crie uma nova coluna. Ela deve se chamar M.M.N (Média de Morte por nascimento).
- [ ] Media_Morte_Nasc vai receber a porcentagem de mulheres que morrem ao dar a luz.
- [ ] Carregue as Colunas da Clinica 1 Para data_clinica1 e os da clinica 2 para data_clinica2


## 3. Visualizando os dados !
Agora que nossas variáveis estão separadas, fica mais facil realizar um grafico com elas. Vamos plotar-lo usando a biblioteca matlibplot !



## Tarefas

- [ ] Importar o modulo de plotar graficos
- [ ] Plotar M.M.N por ano das duas clinicas utilizando o método dataFrame plot
- [ ] Utilize label's no grafico ! eixo.set_ylabel('Label')

In [None]:
# This makes plots appear in the notebook
%matplotlib inline 
#DataFrame.plot(x=None, y=None, kind='line', ax=None, subplots=False, sharex=None, sharey=False, layout=None,
#figsize=None, use_index=True, title=None, grid=None, legend=True, style=None, logx=False, logy=False, loglog=False,
#xticks=None, yticks=None, xlim=None, ylim=None, rot=None, fontsize=None, colormap=None, table=False, yerr=None,
#xerr=None, secondary_y=False, sort_columns=False, **kwds)



## 4. Início da asspesia.

<img src='https://assetsnffrgf-a.akamaihd.net/assets/m/102016087/univ/art/102016087_univ_cnt_2_xl.jpg', style='width:50%'>

Por que a proporção de mortes é tão maior na clinica 1?

No início de 1847, um amigo e colega de trabalho de Ignaz, chamado Jakob Kolletschka, morreu por causa de uma infecção generalizada. Ele se machucou enquanto examinava um cadáver e foi contaminado. Ignaz leu o relatório da causa da morte do seu amigo. Alguns dos resultados eram idênticos aos das mulheres que morriam de febre do pós-parto. Assim, Ignaz percebeu que talvez fosse algum tipo de contaminação que vinha dos  cadáveres que causava aquela doença. Os médicos e estudantes de medicina muitas vezes mexiam com cadáveres antes de examinar as mulheres grávidas ou de auxiliar as que estavam em trabalho de parto. Sem saber, eles estavam transmitindo a doença àquelas mulheres. O número de mães que morria na segunda maternidade era menor porque os alunos do curso de partos não mexiam com cadáveres.

Semmelweis comecou a desconfiar que tinha alguma coisa nos cadáveres, que ficava impregnado nas mãos dos médicos e que causavam a febre. Então como uma medida de desespero, ele decretou que todos deveriam lavar as mãos. Ninguém em Vienna sabia sobre bactérias naquele tempo.

Vamos analizar os dados do relatório mensal de Semmelweis, afim de examinar o que suas medidas acarretaram.

## Tarefas

- [ ] Ler o arquivo com os dados que estão no diretório '../datas/doctor/monthly_deaths.csv' na variavel dadosMes
- [ ] Calcule a relação de mortes por nascimento em uma nova variável na lista.
- [ ] Faça o grafico de mortes em relação ao tempo.


## 5. O resultado de lavar as mãos.
Com os dados dos meses carregados, podemos perceber a relação de mortes com o tempo. 

Podemos ver que a mortalidade das mães diminuiu drasticamente. Esse resultado foi graças a influencia de Semmelweis que tornou obrigatório apartir do verão de 1847, lavar as mãos. Esse efeito pode ser melhor evidenciado ao detarcar-mos esse periodo no gráfico.

 ## Tarefas

- [ ] Crie uma variavel contendo a data de inicio dos procedimentos médicos que recebe o valor pd.to_datetime('1847-06-01').
- [ ] Criar uma variável que contem os dados de proporção de mortes antes e depois da mudança.
- [ ] Utilize o método de média.
- [ ] Crie uma variável contendo diferença entre as médias.


In [None]:
inicioLavarMaos = pd.to_datetime('1847-06-01')


## 6. Então lavar as mãos reduziu a mortalidade para as mães? em quantas mortes?

Na média, quanto foi a redução de mortes em comparação aos dois períodos?

## Tarefas

- [ ] Utilize o método de média na proporção de mortes antes e depois da rotina médica de lavar as mãos.
- [ ] Crie uma variável contendo diferença entre as médias.


## 7. O destino do Dr. Semmelweis

Percebermos que lavar as mãos reduz a mortalidade de mães em quase 10 pontos percentuais, parece que Semmelweis tinha provas sólidas de que a lavagem das mãos era um procedimento simples, mas altamente eficaz, que poderia salvar muitas vidas. Porém, tradigamente, apesar das evidencias, a teoria de Semmelweis sobre a febre do parto que era causada por alguma substancia (que hoje conhecemos como bactérias) adquirida através das autopsias foi ridicularizada pelos cientistas de sua época. A comunidade médica rejeitou sua descobertas e Semmelweis foi forçado em 1849 a se retirar do hospital.

Uma razão para isso, é que métodos estatisticos, assim como argumentos estatíscos não eram aceitos na comunidade médica dos anos 80s. Sommelweis só publicou seus dados como extensas tabelas de dados brutos, sem realizar qualquer gráfico ou intervalos de confiança. Talvez, se tivesse tido o conhecimento da análise que fizemos hoje, os médicos de Viennese tiream dado mais credibilidade a seu trabalho.

In [None]:
doutores_devem_lavar_as_maos = True;