# Análise exploratória de dados

## 0. Imports

In [15]:
from IPython.display import display, Markdown, Image
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import inflection 

colors = ["#9467bd", "#057476", "#FF7A00"]
# sns.set_style("whitegrid")
sns.set_theme(style="ticks")
sns.set_palette(sns.color_palette(colors))

### 0.1 Coleta dos dados

In [5]:
df_raw = sns.load_dataset('healthexp')

In [7]:
df_raw.to_csv('../data/raw/df_raw.csv', index = False)
df_raw.head()

Unnamed: 0,Year,Country,Spending_USD,Life_Expectancy
0,1970,Germany,252.311,70.6
1,1970,France,192.143,72.2
2,1970,Great Britain,123.993,71.9
3,1970,Japan,150.437,72.0
4,1970,USA,326.961,70.9


## 1. Descrição dos dados

In [8]:
df1 = df_raw.copy()

<img src="../imgs/healthexp.PNG" alt="Descrição da imagem" width="500" height="500" style="display:block; margin:auto;">



<div style="text-align: justify;">
<span style="font-family: 'Times New Roman', Times, serif;">Este conjunto de dados contém informações sobre <strong>gastos com saúde</strong> e <strong>expectativa de vida</strong> em diversos países ao longo de 1970 a 2020. Cada entrada no conjunto de dados representa um país em um determinado ano e inclui o valor dos gastos com saúde em dólar e a expectativa de vida média em anos. Países como <strong>Alemanha, França, Reino Unido, Japão, EUA e Canadá </strong>estão incluídos, oferecendo uma análise das tendências globais ao longo do tempo.</span>
</div>


### 1.1 Dicionário de Dados

In [12]:
dicionario = pd.DataFrame([
    {
       "variavel" : "year",
       "descricao": "Indica o ano em que os dados foram registrados",
       "tipo"     : "quantitativa",
       "subtipo"  : "discreta"
    },
    {
       "variavel" : "country",
       "descricao": "Indica o país para o qual os dados se referem",
       "tipo"     : "qualitativa",
       "subtipo"  : "nominal"   
    },
    {
       "variavel" : "spending_usd",
       "descricao": "Representa o valor dos gastos com saúde em dolar para o país e o ano específico",
       "tipo"     : "quantitativa",
       "subtipo"  : "contínua"
    },
    {
       "variavel" : "life_expectancy",
       "descricao": "Indica a expectativa de vida média em anos para o país e o ano específico",
       "tipo"     : "quantitativa",
       "subtipo"  : "discreta"
    }
])

In [11]:
dicionario.to_csv('../data/external/dictionary.csv', index=False)
dicionario


Unnamed: 0,variavel,descricao,tipo,subtipo
0,year,,quantitativa,discreta
1,country,,qualitativa,nominal
2,spending_usd,,quantitativa,contínua
3,life_expectancy,,quantitativa,discreta


### 1.2 Rename Columns

In [21]:
df1.columns

Index(['Year', 'Country', 'Spending_USD', 'Life_Expectancy'], dtype='object')

In [23]:
cols_old = ['Year', 'Country', 'Spending_USD', 'Life_Expectancy']

In [28]:
snakecase = lambda x: inflection.underscore( x )

cols_new = list (map (snakecase, cols_old))

#rename columns
df1.columns = cols_new

In [29]:
df1.columns

Index(['year', 'country', 'spending_usd', 'life_expectancy'], dtype='object')

### 1.2 Data Dimensions

In [13]:
print (' Number of Rows: {}'.format(df1.shape[0]))
print (' Number of Cols: {}'.format(df1.shape[1]))

 Number of Rows: 274
 Number of Cols: 4


### 1.3 Data Types

In [14]:
df1.dtypes

Year                 int64
Country             object
Spending_USD       float64
Life_Expectancy    float64
dtype: object

In [31]:
df1.dtypes.value_counts()

float64    2
int64      1
object     1
Name: count, dtype: int64

In [33]:
df1.columns

Index(['year', 'country', 'spending_usd', 'life_expectancy'], dtype='object')

In [32]:
df1.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
year,274.0,1996.992701,14.180933,1970.0,1985.25,1998.0,2009.0,2020.0
spending_usd,274.0,2789.338905,2194.939785,123.993,1038.357,2295.578,4055.61,11859.179
life_expectancy,274.0,77.909489,3.276263,70.6,75.525,78.1,80.575,84.7


### 1.4 Check NA

In [16]:
df1.isna().sum()

Year               0
Country            0
Spending_USD       0
Life_Expectancy    0
dtype: int64

---

## 2. Perguntas de partida e hipóteses

## 3. Insights

## 4. Observação