## Pandas (Parte II)

In [2]:
import numpy as np
import pandas as pd

## Leitura de dados

Pandas permiter trabalhar com formatos diferentes de entrada e saída (IO). Exemplo:

* JSON : pd.read_json()
* HTML  pd.read_html()
* CSV : pd.read_csv()
* Excel : pd.read_excel()
* SQL : pd.read_sql()

## Carregando dados de um csv e do excel com Pandas

No dia a dia é mais comum que tenhamos acesso à fontes de dados em arquivos de formato csv, xlsx, ou acesso direto a bancos de dados. Dessa forma, o pandas pode ser utilizado parar carregar os dados disponíveis em formato de data frame. 

Aqui iremos demonstrar o carregamento de um arquivo csv.

Mas o que é um arquivo csv?

CSV: **C**omma **S**eparated **V**alues<br>
Arquivo separado por vírgulas.

<img src=https://s3.amazonaws.com/cdn.freshdesk.com/data/helpdesk/attachments/production/1080247870/original/UDHlNQUo4ju-0SSFws_XskGYvIf5KZNn4w.png?1563457877>

Trazendo dados de um csv

pd.```read_csv```<br>
<a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html">Clique Aqui</a> para saber mais!

pd.read_csv(```file_path_buffer```, ```delimiter```)

* ```filepath_or_buffer```: Caminho do arquivo. Pode ser também um link da internet (github, kaggle)
* ```delimiter```: Pode ser ',' ';', entre outros.

### Abrindo uma planilha excel.

In [3]:
base = pd.read_excel('sample.xlsx', sheet_name='Plan1')
base.head()

Unnamed: 0,index,estado,cidade,temperatura,velocidadevento,umidadedoar
0,1,RJ,RIO DE JANEIRO,36,6,69
1,2,RJ,RIO DE JANEIRO,34,7,63
2,3,RJ,RIO DE JANEIRO,36,10,63
3,4,RJ,RIO DE JANEIRO,32,15,68
4,5,RJ,RIO DE JANEIRO,38,13,69


In [4]:
base = pd.read_excel('sample.xlsx', sheet_name='Plan2')
base.head()

Unnamed: 0,index,estado,cidade,temperatura,velocidadevento,umidadedoar
0,1,SP,SÃO PAULO,34,13,61
1,2,SP,SÃO PAULO,35,7,63
2,3,SP,SÃO PAULO,34,14,63
3,4,SP,SÃO PAULO,35,7,68
4,5,SP,SÃO PAULO,32,13,62


In [5]:
base = pd.read_excel('sample.xlsx', sheet_name=['Plan1','Plan2'])

In [6]:
print(type(base))

<class 'dict'>


In [7]:
print(base)

{'Plan1':     index estado          cidade  temperatura  velocidadevento  umidadedoar
0       1     RJ  RIO DE JANEIRO           36                6           69
1       2     RJ  RIO DE JANEIRO           34                7           63
2       3     RJ  RIO DE JANEIRO           36               10           63
3       4     RJ  RIO DE JANEIRO           32               15           68
4       5     RJ  RIO DE JANEIRO           38               13           69
5       6     RJ  RIO DE JANEIRO           33                6           69
6       7     RJ  RIO DE JANEIRO           39               11           67
7       8     RJ  RIO DE JANEIRO           34               13           68
8       9     RJ  RIO DE JANEIRO           31               11           65
9      10     RJ         NITEROI           33               12           69
10     11     RJ         NITEROI           32               15           62
11     12     RJ         NITEROI           34               10           68
12

In [8]:
base_rj = pd.DataFrame(base['Plan1'])
base_sp = pd.DataFrame(base['Plan2'])

In [9]:
base_rj.head(2)

Unnamed: 0,index,estado,cidade,temperatura,velocidadevento,umidadedoar
0,1,RJ,RIO DE JANEIRO,36,6,69
1,2,RJ,RIO DE JANEIRO,34,7,63


In [10]:
base_sp.head(2)

Unnamed: 0,index,estado,cidade,temperatura,velocidadevento,umidadedoar
0,1,SP,SÃO PAULO,34,13,61
1,2,SP,SÃO PAULO,35,7,63


## Acessando dados - Diabetes Pima
---
Site de referencia: https://www.kaggle.com/uciml/pima-indians-diabetes-database

In [13]:
## Entrada de dados:
df = pd.read_csv('diabetes.csv', delimiter = ",")
# OU 
# df = pd.read_csv('diabetes.csv', sep = ",")

In [14]:
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [15]:
## Renomeando as colunas:
df.columns = ['qtd_gravidez','glicose','pressao_sanguinea','espessura_da_pele',
              'insulina','imc','diabetes_funcao_pedigree','idade','resultado']

In [16]:
## Conhecendo as primeiras linhas
df.head()

Unnamed: 0,qtd_gravidez,glicose,pressao_sanguinea,espessura_da_pele,insulina,imc,diabetes_funcao_pedigree,idade,resultado
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [17]:
## Conhecendo a base
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   qtd_gravidez              768 non-null    int64  
 1   glicose                   768 non-null    int64  
 2   pressao_sanguinea         768 non-null    int64  
 3   espessura_da_pele         768 non-null    int64  
 4   insulina                  768 non-null    int64  
 5   imc                       768 non-null    float64
 6   diabetes_funcao_pedigree  768 non-null    float64
 7   idade                     768 non-null    int64  
 8   resultado                 768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


In [18]:
df.describe()

Unnamed: 0,qtd_gravidez,glicose,pressao_sanguinea,espessura_da_pele,insulina,imc,diabetes_funcao_pedigree,idade,resultado
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


In [37]:
# Quantidade de pessoas com pressão sanguinea igual a zero
len(df[df.pressao_sanguinea == 0])

35

In [38]:
# Media da quantidade de gravidez de pessoas acima de 40 anos
df.qtd_gravidez[df.idade >= 40].mean()


6.613526570048309

In [40]:
base2 = df.drop("resultado", axis = 1)

In [41]:
base2.head()

Unnamed: 0,qtd_gravidez,glicose,pressao_sanguinea,espessura_da_pele,insulina,imc,diabetes_funcao_pedigree,idade
0,6,148,72,35,0,33.6,0.627,50
1,1,85,66,29,0,26.6,0.351,31
2,8,183,64,0,0,23.3,0.672,32
3,1,89,66,23,94,28.1,0.167,21
4,0,137,40,35,168,43.1,2.288,33


In [None]:
base2.to_excel()

Podemos acessar linhas e colunas simultaneamente por meio dos comandos ```.loc```

#### Vamos revisitar o exercicio 4 da aula passada:
---
#### 4 - Qual é a média da glicose das paciêntes que tiveram mais de uma gravidez? e compare com a média geral do dataframe.

In [None]:
print("Média da glicose das paciêntes que tiveram mais de uma gravidez é de",
      df.loc[:,'glicose'][df.loc[:,'qtd_gravidez'] > 1].mean())

In [None]:
print("Média da glicose das paciêntes que tiveram mais de uma gravidez é de",
      df.loc[df.loc[:,'qtd_gravidez'] > 1,'glicose'].mean())

#### Vamos verificar o passo a passo da análise:

In [None]:
print("Primeiro Processo:",df.loc[0]['glicose'])
print("Segundo Processo:",df.loc[0,'glicose'])

In [None]:
### Primeiro Processo:
## Passo 0: Seleção do dataframe:
display(df)

## Passo 1: Seleção de variáveis(colunas):
display(df.loc[:,'glicose'])

## Passo 2: Seleção de linhas com condições(linhas de interesse):
display(df.loc[:,'glicose'][df.loc[:,'qtd_gravidez']])

## Passo 3: Inserir as condições(hipoteses!):
display(df.loc[:,'glicose'][df.loc[:,'qtd_gravidez'] > 1])

## Passo 4: Resumo ou calculo ou agregação(resultado do problema de análise de dados):
display(df.loc[:,'glicose'][df.loc[:,'qtd_gravidez'] > 1].mean())

In [None]:
### Segundo Processo:

## Ordenação
---

In [39]:
# Ordenando por pressao_sanguinea (ordem crescente)
df.sort_values('pressao_sanguinea', ascending=True)

Unnamed: 0,qtd_gravidez,glicose,pressao_sanguinea,espessura_da_pele,insulina,imc,diabetes_funcao_pedigree,idade,resultado
347,3,116,0,0,0,23.5,0.187,23,0
494,3,80,0,0,0,0.0,0.174,22,0
222,7,119,0,0,0,25.2,0.209,37,0
81,2,74,0,0,0,0.0,0.102,22,0
78,0,131,0,0,0,43.2,0.270,26,1
...,...,...,...,...,...,...,...,...,...
549,4,189,110,31,0,28.5,0.680,37,0
43,9,171,110,24,240,45.4,0.721,54,1
177,0,129,110,46,130,67.1,0.319,26,1
691,13,158,114,0,0,42.3,0.257,44,1


In [None]:
# Ordenando por mais de uma coluna (decrescente)
df.sort_values(['glicose','pressao_sanguinea'], ascending=False)

In [None]:
# tail
df.tail()

## Transformando os dados

### Respostas do desafio da aula passada.

#### 1 - A coluna 'glicose' crie uma nova coluna chamada 'analise_glicose' informando: 'conforme' e 'nao_conforme'.

In [None]:
df = df.assign(analise_glicose = np.where(df['glicose'] > 100, 'nao_conforme', 'conforme'))

#### 2 - A coluna 'imc' crie uma nova coluna chamada 'class_imc' informando: 'magreza', 'normal', 'sobrepeso', 'obsidade_ii', 'obsidade_iii'

In [None]:
condicoes = [
    (df['imc'] < 18.5),
    (df['imc'] >= 18.5) & (df['imc'] < 24.9),
    (df['imc'] >= 25) & (df['imc'] < 29.9),
    (df['imc'] >= 30) & (df['imc'] < 39.9),
    (df['imc'] > 40)
    ]

# create a list of the values we want to assign for each condition
valores = ['magreza', 'normal', 'sobrepeso', 'obesidade_ii', 'obesidade_iii']

# create a new column and use np.select to assign values to it using our lists as arguments
df['class_imc'] = np.select(condicoes, valores)

#### 3 - A coluna 'resultado' crie uma coluna 'class_resultado' informando: 'positivo' e 'negativo'

In [None]:
df = df.assign(class_resultado = np.where(df['resultado'] == 0, 'negativo', 'positivo'))

In [None]:
df.head()

#### Resumos estatísticos:

In [None]:
display("Resumos estatísticos: Análise - Glicose")
display(df[df.loc[:,"analise_glicose"] == 'nao_conforme'].describe().transpose().round(2))
display(df[df.loc[:,"analise_glicose"] == 'conforme'].describe().transpose().round(2))

display("Resumos estatísticos: Análise - IMC")
display(df[df.loc[:,"class_imc"] == 'magreza'].describe().transpose().round(2))
display(df[df.loc[:,"class_imc"] == 'normal'].describe().transpose().round(2))
display(df[df.loc[:,"class_imc"] == 'sobrepeso'].describe().transpose().round(2))
display(df[df.loc[:,"class_imc"] == 'obesidade_ii'].describe().transpose().round(2))
display(df[df.loc[:,"class_imc"] == 'obesidade_iii'].describe().transpose().round(2))

display("Resumos estatísticos: Análise - Resultado")
display(df[df.loc[:,"class_resultado"] == 'positivo'].describe().transpose().round(2))
display(df[df.loc[:,"class_resultado"] == 'negativo'].describe().transpose().round(2))

### Excluir

In [None]:
#sem o inplace=True
#documentação do drop: axis{0 or ‘index’, 1 or ‘columns’}, default 0    

In [None]:
df.drop('resultado', axis=1, inplace=False)

In [None]:
#com inplace=True
df.drop('resultado', axis=1, inplace=True)

### Apagado!!!

### Exercício 1:

### Quais pacientes estão com o IMC classificado como sobrepeso e o resultado do exame foi positivo?

### Exercicio 2:

### Quais pacientes estão com o IMC classificado como magreza, analise da glicose não conforme e o resultado do exame foi negativo?

### Exercicio 3:

### Quais pacientes estão com o IMC classificado como obesidade 2, acima dos 50 anos e o resultado do exame foi positivo?

## Exportando o Data Frame

In [None]:
# Exportando para csv:
df.to_csv('diabetes_pandas.csv', sep=';')

In [None]:
# Exportando para Excel:
df.to_excel('diabetes_pandas.xlsx')

In [None]:
#Verifique a pasta em que o jupyter notebook foi salvo!

## Desafio:
---

#### Vamos análisar o seguinte gráfico:

In [None]:
# Bibliotecas para construção de gráficos:
import seaborn as sns
import matplotlib.pyplot as plt

# Gráfico de histograma do resultado negativo:
sns.histplot(df.loc[df.loc[:,'class_resultado']=='negativo', 'idade'], label='Negativo', kde=True, color = "Green")

# Gráfico de histograma do resultado positivo:
sns.histplot(df.loc[df.loc[:,'class_resultado']=='positivo', 'idade'], label='Positivo', kde=True, color = "Orange")

# Customização do gráfico:
plt.legend(prop={'size': 12})
plt.title('A relação entre o resultado do exame e a idade \n', fontsize = 16)
plt.xlabel('Idade')
plt.ylabel('Contagem')  
sns.set(rc={'figure.figsize':(10,4)})

A primeira impressão verificamos quanto mais novo as paciêntes a ocorrência de resultados dos exames negativos são bem maiores do que os positivos, existe tambem uma caracteristica que a ocorrência que os resultados positivos são quase continuos entre 20 e 45 anos.

1 - Utilizando a variável 'idade' criar uma coluna de faixas etárias com 4 faixas com quantidades iguais.(Dica: pesquise sobre a função qcut e utilize 'labels' nas colunas)

2 - Construa um resumo estatístico com a primeira faixa etária com o resultado do exame positivo.

3 - Construa um resumo estatístico com a última faixa etária com o resultado do exame negativo.

4 - Construa um resumo estatístico com as variáveis glicose, pressão sanguinea e insulina de cada faixa etária criada.

5 - Criar uma base que o resultado do exame é negativo e tem IMC classificado de obesidade de grau 2 e exporte esse DataFrame Pandas para MS Excel.