In [107]:
import pandas as pd


In [108]:
df = pd.read_csv('data/Life_Expectancy_Data.csv')
print (df)

          Country  Year      Status  Life expectancy   Adult Mortality  \
0     Afghanistan  2015  Developing              65.0              263   
1     Afghanistan  2014  Developing              59.9              271   
2     Afghanistan  2013  Developing              59.9              268   
3     Afghanistan  2012  Developing              59.5              272   
4     Afghanistan  2011  Developing              59.2              275   
...           ...   ...         ...               ...              ...   
1644     Zimbabwe  2004  Developing              44.3              723   
1645     Zimbabwe  2003  Developing              44.5              715   
1646     Zimbabwe  2002  Developing              44.8               73   
1647     Zimbabwe  2001  Developing              45.3              686   
1648     Zimbabwe  2000  Developing              46.0              665   

      infant deaths  Alcohol  percentage expenditure  Hepatitis B  Measles   \
0                62     0.01    

In [109]:
print(df.info(100))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1649 entries, 0 to 1648
Data columns (total 22 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Country                          1649 non-null   object 
 1   Year                             1649 non-null   int64  
 2   Status                           1649 non-null   object 
 3   Life expectancy                  1649 non-null   float64
 4   Adult Mortality                  1649 non-null   int64  
 5   infant deaths                    1649 non-null   int64  
 6   Alcohol                          1649 non-null   float64
 7   percentage expenditure           1649 non-null   float64
 8   Hepatitis B                      1649 non-null   int64  
 9   Measles                          1649 non-null   int64  
 10   BMI                             1649 non-null   float64
 11  under-five deaths                1649 non-null   int64  
 12  Polio               

# Analisar os dataset 

A análise deste dataset terá como objetivo principal identificar e aplicar otimizações que facilitem o uso dos dados em trabalhos futuros. Para isso, será essencial garantir que o dataset esteja bem estruturado e livre de inconsistências. Os passos a serem seguidos incluem:

1. **Identificação de valores ausentes (missing values)**: Uma das primeiras tarefas será verificar se existem valores nulos ou ausentes em qualquer uma das colunas. 
Estes valores podem comprometer a análise e, portanto, será necessário tratá-los de forma adequada.

2. **Tratamento de valores ausentes**: Caso sejam identificados valores ausentes, eles serão substituídos por valores calculados, como a média ou a mediana da respectiva coluna. Esta abordagem ajuda a preservar a integridade estatística do dataset e evita a exclusão de dados relevantes.

3. **Limpeza dos dados**: Remover espaços desnecessários nos nomes das colunas e padronizar os formatos dos dados (por exemplo, datas, números e categorias) para assegurar a consistência e facilitar a análise posterior.

4. **Normalização de dados**: Avaliar se as variáveis numéricas precisam de normalização ou padronização, especialmente se forem usadas em algoritmos de machine learning.

5. **Estruturação dos dados**: Organizar os dados de forma que fiquem prontos para análises mais complexas, como visualizações, geração de relatórios e modelagem preditiva. Isso inclui transformar variáveis categóricas em variáveis dummy, se necessário, ou criar colunas derivadas com informações adicionais.

6. **Verificação de outliers**: Identificar valores extremos ou inconsistentes que possam indicar erros ou dados atípicos, e decidir como lidar com eles, seja removendo-os ou ajustando-os.

7. **Documentação**: Registrar todas as alterações e otimizações feitas no dataset para que o processo seja replicável e transparente para futuros trabalhos.

Ao final, o dataset resultante será otimizado para diversas aplicações, desde análises exploratórias até a criação de modelos de machine learning. Esta preparação permitirá não apenas uma análise mais eficiente, mas também resultados mais confiáveis e aplicáveis ao problema em questão. Caso desejes, posso começar a trabalhar em cada um desses passos com o dataset fornecido.

In [110]:
missing_values = df.isnull().sum()
print (missing_values)

Country                            0
Year                               0
Status                             0
Life expectancy                    0
Adult Mortality                    0
infant deaths                      0
Alcohol                            0
percentage expenditure             0
Hepatitis B                        0
Measles                            0
 BMI                               0
under-five deaths                  0
Polio                              0
Total expenditure                  0
Diphtheria                         0
 HIV/AIDS                          0
GDP                                0
Population                         0
 thinness  1-19 years              0
 thinness 5-9 years                0
Income composition of resources    0
Schooling                          0
dtype: int64


In [111]:
df.columns = df.columns.str.replace(' ', '') 
df.columns = [df.columns[0].lower()] + df.columns[1:].str.capitalize().tolist()  

print (df)


          country  Year      Status  Lifeexpectancy  Adultmortality  \
0     Afghanistan  2015  Developing            65.0             263   
1     Afghanistan  2014  Developing            59.9             271   
2     Afghanistan  2013  Developing            59.9             268   
3     Afghanistan  2012  Developing            59.5             272   
4     Afghanistan  2011  Developing            59.2             275   
...           ...   ...         ...             ...             ...   
1644     Zimbabwe  2004  Developing            44.3             723   
1645     Zimbabwe  2003  Developing            44.5             715   
1646     Zimbabwe  2002  Developing            44.8              73   
1647     Zimbabwe  2001  Developing            45.3             686   
1648     Zimbabwe  2000  Developing            46.0             665   

      Infantdeaths  Alcohol  Percentageexpenditure  Hepatitisb  Measles  ...  \
0               62     0.01              71.279624          65     

In [112]:
filtrarDados = df[(df["Year"] >= 2000) & (df["Year"] <= 2015)][["Year","country", "Population", "Alcohol","Hiv/aids", "Hepatitisb", "Lifeexpectancy", "Adultmortality"]]
filtrarDados = filtrarDados.sort_values(by="Year", ascending=False)
print (filtrarDados)

filtrarDados.to_csv('datasetFiltrado.csv', index=False)



      Year       country  Population  Alcohol  Hiv/aids  Hepatitisb  \
0     2015   Afghanistan  33736494.0     0.01       0.1          65   
16    2015       Albania     28873.0     4.60       0.1          99   
247   2014      Bulgaria   7223938.0    12.03       0.1          95   
1112  2014       Nigeria   1764652.0     0.01       3.9          49   
217   2014      Botswana   2168573.0     0.01       2.3          95   
...    ...           ...         ...      ...       ...         ...   
1390  2000         Spain   4567864.0    11.12       0.1          77   
107   2000       Austria    811566.0    13.20       0.1          33   
1375  2000  South Africa  44896856.0     7.30      21.3          73   
762   2000        Jordan     51313.0     0.49       0.1          93   
1648  2000      Zimbabwe  12222251.0     1.68      43.5          79   

      Lifeexpectancy  Adultmortality  
0               65.0             263  
16              77.8              74  
247             74.3          

Pais com maior consumo de álcool em 2015: France
Consumo de álcool: 13.63


  df_2015 = filtrarDados[df['Year'] == 2000]  # Filtra os dados para o ano de 2015
