<a href="https://colab.research.google.com/github/sandro003/MVP2/blob/main/An%C3%A1lise_de_Dados_e_Boas_Pr%C3%A1ticas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

##INTRODUÇÃO:

A expectativa de vida em um determinado país está bastante relacionada com a qualidade de vida que um indivíduo possui, já que fatores como educação, saúde, assistência social, segurança, guerras e conflitos internos influenciam-na diretamente. Este notebook busca abordar essas lacunas desenvolvendo um conjunto de dados abrangentes, sem análises de valores ausentes, utilizando dados de muitos anos de 193 países diferentes permitindo que os países priorizem atuações que poderiam melhorar mais efetivamente a saúde e a expectativa de vida de suas populações.
Com base acima entendi que o problema "Conjunto de dados de expectativa de vida dos países" seria um problema supervisionado uma vez que usam dados brutos com rótulos significativos e levei como premissa "A qualidade de vida está diretamente ligada a longevidade do indivíduo". Lembrando que os dados foram selecionados baseando-se nas consistências dos mesmos.

#ATRIBUTOS DO DATASET:
Country: nome do país.

Year: ano da análise.

Status: status do país (variável binária).

Life expectancy: expectativa média de vida.

Adult mortality: probabilidade de morrer entre 15 e 60 anos por 1.000
habitantes.

Infant deaths: mortes infantis por 1.000 bebês.

Alcohol: consumo individual médio de álcool puro entre pessoas com mais de 15
anos.

Percentage expenditure: porcentagem do PIB per capita gasto em assistência
médica.

Hepatitis B: cobertura de imunização contra hepatite B entre crianças de 1 ano
em porcentagem.

Measles: número relatado de casos de sarampo por 1.000 pessoas.

BMI: IMC médio de toda a população.

Under-five deaths: número de mortes de menores de cinco anos por 1.000 pessoas.

Polio: cobertura de imunização contra pólio entre crianças de 1 ano em
porcentagem.

Total expenditure: despesa geral do governo com saúde como uma porcentagem da despesa total do governo.

Diphtheria: cobertura de imunização contra difteria entre crianças de 1 ano em porcentagem.

HIV/AIDS: mortes escalonadas por 1.000 nascidos vivos por HIV/AIDS.

GDP: PIB de cada país em USD.

Population: população total do país.

Thinness 1-19 years: prevalência de magreza entre crianças e adolescentes de 10 a 19 anos em porcentagem.

Thinness 5-9 years: prevalência de magreza entre crianças de 5 a 9 anos em porcentagem.

Income composition of resources: índice de desenvolvimento humano (IDH) em termos de composição de renda dos recursos.

Schooling: número médio de anos na escola.

PREPARANDO O AMBIENTE PARA CRIAÇÃO DO MVP ANÁLISE DE DADOS E BOAS PRÁTICAS

In [None]:
from google.colab import drive
drive.mount('/content/drive'),

In [13]:
# Biblioteca responsável por fazer a leitura e impressão da base de dados
import pandas as pd #Importando PANDAS e criando alias para facilitar na digitação
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns # para gerar gráficos mais atrativos com códigos mais limpos e mais simples.
from scipy.stats import pearsonr
import copy

In [14]:
#Realizando a importação do arquivo csv
# Ler o arquivo csv
df = pd.read_csv('https://raw.githubusercontent.com/sandro003/MVP2/refs/heads/main/expectativdevida.csv')

In [None]:
# Visualizando o arquivo
display(df.head(500))  # Print the first few rows of the DataFrame

In [None]:
# Criando o histograma
plt.hist(df['Life expectancy'], bins=20, color='skyblue', edgecolor='black')

# Adicionando rótulos e título
plt.xlabel('Expectativa de Vida')
plt.ylabel('Frequência')
plt.title('Histograma da Expectativa de Vida')

##ANALISE DE DADOS

Nesta etapa a ideia é entender a informação que está disponível levando-se em conta algumas estatísticas descritivas para uma possível necessidade de transformação na etapa de preparação de dados. Abaixo foram dispostos alguns comandos bem como suas finalidades.

In [17]:
#Informa a quantidade de atributos e instâncias existentes
print(df.shape)

(2938, 22)


In [None]:
# Informa quais são os tipos de dados dos atributos
print(df.dtypes)

In [None]:
# Verifica as primeiras linhas do dataset e não foram encontradas inconsistências
df.describe()

In [None]:
# Verifica se há valores faltantes, discrepantes e/ou inconsistentes
missing_values = df.isnull().sum()
print("Valores faltantes por coluna:")
print(missing_values)

In [21]:
# Resumo estatístico dos atributos com valor numérico (mínimo, máximo, mediana, moda, média, desvio-padrão e número de valores ausentes).
# Filtrar apenas as colunas numéricas
numeric_df = df.select_dtypes(include=['float64', 'int64'])

In [22]:
# Resumo estatístico básico (média, desvio-padrão, mínimo, máximo, etc.)
stats_summary = numeric_df.describe()

In [23]:
# Cálculo da mediana para cada coluna numérica
median_values = numeric_df.median()

In [24]:
# Cálculo da moda para cada coluna numérica
mode_values = numeric_df.mode().iloc[0]

In [25]:
# Contagem de valores ausentes
missing_values = numeric_df.isnull().sum()

In [None]:
# Exibir o resumo completo
print("Resumo Estatístico:")
print(stats_summary)
print("\nMedianas:")
print(median_values)
print("\nModas:")
print(mode_values)
print("\nNúmero de valores ausentes por coluna:")
print(missing_values)

##PRÉ-PROCESSAMENTO DE DADOS
Nesta etapa a ideia é realizar operações de limpeza, tratamento e preparação dos dados. Como o dataset dispõe da coluna categórica "Country", que não pode ser usada diretamente pelo modelo, optei por usar a operação "one-hot encoding" para transformar a categoria em formato numérico.

In [27]:
# Usando a operação "one-hot encoding" na coluna "Country".
encoded_df = pd.get_dummies(df, columns=['Country'])

In [None]:
# Exibir as primeiras linhas do dataset com as colunas one-hot encoded
print(encoded_df.head())

In [None]:
# Tratando/Limpando e padronizando os dados

X = pd.read_csv('https://raw.githubusercontent.com/sandro003/MVP2/refs/heads/main/expectativdevida.csv')

print(X.shape)
print(X.head())

country_col = X[['Country']]
X.drop(['Country'], axis=1, inplace = True)

# OBS: Os dados se mostraram limpos e foram padronizados

In [None]:
# Carregando o DataFrame como 'df'

# Encontrando linhas com valores nulos em qualquer coluna
null_rows = df[df.isnull().any(axis=1)]

# Exibindo linhas com valores nulos
display(null_rows)

In [None]:
# Limpando e padronizando os dados

X = pd.read_csv('https://raw.githubusercontent.com/sandro003/MVP2/refs/heads/main/expectativdevida.csv')

print(X.shape)
print(X.head())

country_col = X[['Country']]
X.drop(['Country'], axis=1, inplace = True)

# OBS: Os dados se mostraram limpos e foram padronizados

Análise Exploratória de Dados

In [None]:
 # Visualizando a matriz de correlação e o vetor de correlação com a expectativa de vida
corr_matrix = X.corr()
sns.heatmap(corr_matrix, annot=False, cmap='coolwarm', linewidths=0.5)
plt.show()


In [None]:
sns.heatmap(corr_matrix[['Life expectancy']].sort_values(by='Life expectancy').T, annot=False, cmap='coolwarm', linewidths=0.5)
plt.show()

In [None]:
print(corr_matrix[['Life expectancy']].sort_values(by='Life expectancy'))

In [35]:
# Criando Diagrama de dispersão de álcool e expectativa de vida
vida = pd.read_csv('https://raw.githubusercontent.com/sandro003/MVP2/refs/heads/main/expectativdevida.csv')

In [None]:
vida_with_status = vida.copy()
vida_with_status.Status = vida.Status.map({-0.4593985099361714: "Developing", 2.1767593459085: "Developed"})
sns.scatterplot(data = vida_with_status, x = "Alcohol", y = "Life expectancy", hue = "Status")
plt.show()

Verificação de outliers - Após as transformação, verifiquei novamente se há outliers que possam ter surgido com as novas variáveis.

In [None]:
# Gerar boxplot novamente para verificar outliers
df[numeric_df.columns].plot(kind='box', figsize=(12, 8), vert=False)
plt.title("Boxplot das colunas numéricas após transformações")
plt.show()

##AUTOAVALIAÇÃO

Neste MVP deparei com algumas situações que até então nem se quer imaginava que teria e vou tentar contextualizar abaixo bem como algumas dores operacionais que tive.

1- Da definição do problema - tive muita dificuldade para encontrar o dataset correto pois, como estou iniciando, ainda tenho dificuldade para contar uma história com os meus dados e por isso perdi muito mais tempo coletando do que analisando os mesmos.

2- Uma vez com algumas perguntas elencadas fui buscar uma base de dados confiável e segura e optei por seguir a indicação do curso.

3- Baixei o arquivo csv localmente e depois subi para o Github de forma manual.

4- Por fim, consegui determinar que existe sim a correlação entre consumo de álcool e a expectativa de vida e isso se deve ao fato de que países mais desenvolvidos tendem a consumir mais álcool. Em função disso alguns países tem adotado a Lei Seca para minimizar os danos causados à sociedadde pela ingestão exessiva de álcool.

##BIBLIOGRAFIA:

Engenharia de Dados: o que é, o que faz e um Guia completo. Alura, 2023. Disponível em: https://www.alura.com.br/artigos/engenharia-dados?srsltid=AfmBOorWZVr2iVRqWcdb_6UGxSMEo0bEje0oltL2ydb8COmuYBDUr43E. Acesso em: 08/08/2024.

Análise Exploratória: primeiros passos | Alura. Alura, 2020. Disponível em: https://www.alura.com.br/artigos/analise-exploratoria?srsltid=AfmBOoq-dS3MUBDAaLrzw7QccXQAqhhtfmdXZ4sEOEdZMGHRrTzk5bdB. Acesso em: 11/08/2024.

Introdução à Ciência de Dados (Data Science): Didática Tech. Youtube, 2022. Disponível em: https://www.youtube.com/watch?v=sjpBNi4DgI0. Acesso em: 06/09/2024

Como criar um projeto de Data Science do zero para seu Portfólio | Hipsters: Portfólio Dev. Youtube, 2024. Disponível em: https://www.youtube.com/watch?v=hV3ORe7F8Q4. Acesso em: 09/09/2024

Cleaned Countries Life Expectancy Dataset. Kaggle, 2021. Disponível em: https://www.kaggle.com/datasets/paperxd/cleaned-life-expectancy-dataset/data. Acesso em: 16/09/2024.