## Criar um novo ambiente

Criar um ambiente específico é boa prática quando trabalhamos num projeto.

Diferentes projetos habitualmente precisam de bibliotecas/pacotes diferentes, e alguns pacotes podem ser incompatíveis com outros ou precisar de versões diferentes.

Se estivermos a utilizar uma instalação específica para data science, como o Anaconda ou Miniconda, podemos instalar os nosso pacotes relevantes diretamente na instalação geral, visto que é tão importante isolar as dependências e a instalação é ela própria a ferramenta de trabalho.

Mas se estamos a trabalhar num projeto específico ou com a instalação genérica do python, é recomendável isolar os nossos pacotes.

Para criar um novo ambiente, abrimos o terminal, navegamos para a pasta do projeto e corremos o seguinte comando:

```
python -m venv /path/to/new/virtual/environment
```

Explicação: Estamos a invocar a instalação geral do python, com a flag `-m` para invocar o módulo `venv` e passar o caminho para o nosso novo ambiente.

Existem outras formas de trabalhar:

* Poetry: uma ferramenta para trabalhar com base em projetos
* uv: parecido com o poetry mas também substitui outras ferramentas
* Anaconda ou Miniconda: instalações python específicas orientadas para data science

Nós vamos usar a forma genérica de trabalhar porque é uma boa base para comprender o funcionamento do python e não requer mais instalações.

## Importar packages

Precisamos primeiro de instalar os nossos pacotes.

Os pacotes com que vamos trabalhar são os seguintes:

* Pandas
* Numpy
* Scipy

Para encontrar os comandos para instalar os pacotes, convém verificar o site do autor ou ir ao site [Pypi](https://pypi.org), encontrar o pacote e verificar na *release history* se este é tão antigo quanto esperamos. Existem tentativas frequentes de criar pacotes com nomes parecidos, que contém código malicioso (virus, trojans, etc) e que é ativado quando tentamos usar os pacotes.

Para instalar, vamos abrir o terminal, entrar na pasta do nosso projeto, **ativar o nosso ambiente** e correr os seguintes comandos:

```
pip install pandas
pip install numpy
pip install scipy
```

Além disso, se quisermos abrir ficheiros XLSX precisamos do pacote openpyxl:

```
pip install openpyxl
```

## Carregar dataframes

## Juntar dataframes

A maior parte destas dataframes partilha informação que não nos interessa muito (nome), e tem o nop como chave identificadora de cada um dos utentes.

Para o caso, a data da avaliação também não nos interessa, e é mais cómodo para nós juntar todas as dataframes numa só, assim podemos usar esses dados como a nossa "tabela-mestre".

Existem diferentes formas de juntar dataframes.

Para este caso vamos definir o nop como índice/index, e utilizar a função [concat](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html) do pandas.

In [None]:
# Preparar as dataframes dos problemas de saúde - Vamos criar uma coluna com o boolean true


# Preparar a dataframe da creatinina - [renomear a coluna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rename.html#pandas.DataFrame.rename)



In [None]:
# Definir o index


In [None]:
# Concatenar todas as dataframes


## Observar dados, identificar problemas

Agora, precisamos de perceber que dados carregámos, qual é o aspeto deles, se há algo de errado com eles.

Isto é bom de fazer no início mas é frequente termos de voltar atrás no nosso processo quando descobrimos outras aberrações nos dados.

A creatinina devia ser float64, tem de ser recodificada.

In [None]:
# Contar os valores

In [None]:
# descrever

algo anormal se passa com a altura, 16 metros é claramente demasiado.

In [None]:
# ver os elementos mais altos

Para já, não podemos fazer nada quanto à creatinina, temos de transformar em números para analisar.

## Recodificar variáveis

Recodificar variáveis pode ser diferentes coisas. Desde alterar variáveis categóricas para outra nomenclatura, alterar os tipos de dados, converter datas de string para datetime...

Neste caso, precisamos de

* alterar a creatinina para numérica
* vamos alterar a categorização do sexo para facilitar a nossa vida também

In [None]:
# Como está a creatinina?

pelo aspeto geral, parece ser suficiente partir pelo espaço entre o valor e a unidade. Vamos inspecionar as unidades para ver se é correto

In [None]:
# que tipos de unidades temos?

parece ok, vamos assumir que o 'mg' é mg/dL

In [None]:
# cast para float?

As vírgulas têm de passar a pontos primeiro

In [None]:
df.creatinina.str.split(' ').str[0].str.replace(',', '.').astype('float64')

In [None]:
# tudo ok, vamos trocar os dados

In [None]:
df.creatinina.describe()

213 de creatinina parece estranho...

In [None]:
df[df.creatinina>10]

In [None]:
df.sexo.unique()

In [None]:
df = df.assign(sexo=df.sexo.map({'Mulher':'f', 'Homem':'m'}))

df.sexo.unique()

## Remover dados inválidos

Vamos remover os dados inválidos.

In [None]:
df.hist(bins=60)

In [None]:
df.loc[df.creatinina > 50, 'creatinina'] = np.nan

In [None]:
df.loc[df.altura > 250, 'altura'] = df.loc[df.altura > 250, 'altura'].apply(lambda x: x/10)

## Calcular GFR (Cockcroft-Gault)

mL/min = (140 – age) × (weight, kg) × (0.85 if female) / (72 × Cr, mg/dL)

In [None]:
def calc_gfr(row):
    pass


In [None]:
# aplicar as ops

In [None]:
df.cl_creat.describe()

## Estatística descritivas: média, mediana, quartis, percentis, frequência

In [None]:
df.describe()

In [None]:
df.cl_creat.quantile(0.90)

In [None]:
df.sexo.value_counts()

In [None]:
df.groupby('sexo').count()

### Pirâmide etária, como extrair os valores.

Precisamos de dividir as idades das pessoas em grupos [0, 5[

Para isso, vamos usar o [cut](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html)

Depois, agrupamos os dados.

In [None]:
bins = range(0, int(df.idade.max()) + 5, 5)

bins

In [None]:
# cut

In [None]:
# group by e size

In [None]:
# Uma forma melhor de apresentar: crosstab

## Estatística inferencial: Correlação

Obter a correlação entre duas variáveis é bastante simples e o pandas expõe um método especificamente para isso.

In [None]:
# correlação ['idade', 'peso', 'altura', 'creatinina', 'cl_creat']

## Estatística inferencial: T-Student

Para calcular o T-Test, precisamos de utilizar o SciPy: [T-Test](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html#ttest-ind)

In [None]:
# média peso

In [None]:
# ttest_ind

Nota: 11 zeros, ou seja p=0.00000000002

In [None]:
# média

In [None]:
# ttest_ind