# Avaliação A4 - Análise de Negócios com Uso de Big Data

Integrantes: 

   <ul>
       <li>Jean Marcel Maia de Oliveira</li>
       <li>Gustavo Neves</li>
       <li>Alexandre da Silva Neves Filho</li>
   </ul>

# Dataset - Expectativa de Vida Mundial e Fatores Socio-econômicos 

Link de acesso ao DataSet na plataforma Kaggle: https://www.kaggle.com/datasets/mjshri23/life-expectancy-and-socio-economic-world-bank/code

Análise de indicadores socio-econômicos nos períodos de 2000 á 2019. O objetivo deste documento é realizar a análise da expectativa de vida dos cidadãos de determinadas regiões e países ao redor do mundo, e como outros indicadores impactam nos índices de expectativa de vida, e com isto, propor soluções através da Análise de Dados, que sejam suficientes para a mudança deste indicador.

Indicadores que serão utilizados para análise do DataSet:
<ul>
    <li>Country: Nome do país</li>
    <li>Region: Região do globo</li>
    <li>IncomeGroup: Agrupa países baseados em renda</li>
    <li>Year: Ano em que os dados foram resgatados</li>
    <li>Life expectancy: Principal indicador da análise. Expectativa de vida ao nascer</li>
    <li>Prevalence of Undernourishment (% população): Percentual de população em estado de subnutrição</li>
    <li>Sanitation (%): Percentual de pessoas que usufruem de saneamento básico</li>
</ul>

# Importação de bibliotecas e criação do DataFrame

In [95]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

In [10]:
data_frame = pd.read_csv('life-expectancy.csv')

Selecionando apenas os indicadores que serão utilizados

In [224]:
table = data_frame[['Country Name', 'Region', 'IncomeGroup', 'Year', 'Life Expectancy World Bank', 'Prevelance of Undernourishment', 'Sanitation']]
display(table)

Unnamed: 0,Country Name,Region,IncomeGroup,Year,Life Expectancy World Bank,Prevelance of Undernourishment,Sanitation
0,Afghanistan,South Asia,Low income,2001,56.308,47.8,
1,Angola,Sub-Saharan Africa,Lower middle income,2001,47.059,67.5,
2,Albania,Europe & Central Asia,Upper middle income,2001,74.288,4.9,40.520895
3,Andorra,Europe & Central Asia,High income,2001,,,21.788660
4,United Arab Emirates,Middle East & North Africa,High income,2001,74.544,2.8,
...,...,...,...,...,...,...,...
3301,Vanuatu,East Asia & Pacific,Lower middle income,2019,70.474,12.4,
3302,Samoa,East Asia & Pacific,Lower middle income,2019,73.321,4.4,47.698788
3303,South Africa,Sub-Saharan Africa,Upper middle income,2019,64.131,6.3,
3304,Zambia,Sub-Saharan Africa,Low income,2019,63.886,,


# Dados estatísticos

O método "describe()" retorna estatísticas de indicadores númericos, como média e valores mínimo e máximo.

In [225]:
table.describe()

Unnamed: 0,Year,Life Expectancy World Bank,Prevelance of Undernourishment,Sanitation
count,3306.0,3118.0,2622.0,2059.0
mean,2010.0,69.748362,10.663654,52.738785
std,5.478054,9.408154,11.285897,30.126762
min,2001.0,40.369,2.5,2.377647
25%,2005.0,63.642,2.5,24.746007
50%,2010.0,72.1685,6.2,49.317481
75%,2015.0,76.809,14.775,80.278847
max,2019.0,84.356341,70.9,100.000004


Os dados acima serão utilizados para comparar os indicadores com base na expectativa de vida.

# Expectativa de vida ao redor do mundo

## Plotagem do gráfico de expectativa ao redor do mundo

O gráfico abaixo representa a expectativa de vida média por região do planeta. A região da África Sub-Sahaariana é a região do planeta com menor expectativa de vida.

In [201]:
life_expectancy_region = data_frame.groupby('Region').mean() 
life_expectancy_region = life_expectancy_region[['Life Expectancy World Bank']].sort_values(by = 'Life Expectancy World Bank', ascending = True)

life_expectancy_graph = px.bar(life_expectancy_region, x = life_expectancy_region.index, y = 'Life Expectancy World Bank')
life_expectancy_graph.show()


The default value of numeric_only in DataFrameGroupBy.mean is deprecated. In a future version, numeric_only will default to False. Either specify numeric_only or select only columns which should be valid for the function.



# Impacto da subnutrição na expectativa de vida

Um dos indicadores que serão utilizados como método comparativo dos valores de expectativa de vida, é a prevalência da subnutrição em países e regiões, a análise deste indicador pode estar associada á análise do indicador de expectativa de vida.

In [202]:
undernourishment_per_region = data_frame.groupby('Region').mean()
undernourishment_per_region = undernourishment_per_region[['Prevelance of Undernourishment']].sort_values(by='Prevelance of Undernourishment', ascending=False)
display(undernourishment_per_region)


The default value of numeric_only in DataFrameGroupBy.mean is deprecated. In a future version, numeric_only will default to False. Either specify numeric_only or select only columns which should be valid for the function.



Unnamed: 0_level_0,Prevelance of Undernourishment
Region,Unnamed: 1_level_1
Sub-Saharan Africa,21.456579
South Asia,16.068421
Latin America & Caribbean,10.773482
East Asia & Pacific,9.485965
Middle East & North Africa,7.503644
Europe & Central Asia,3.296534
North America,2.5


A tabela acima apresenta valores de média para cada região do planeta, quanto ao percentual de pessoas subnutridas. É notório que a região da África sub-sahaariana é a que mais apresenta pessoas subnutridas.

## Plotagem de gráfico da média de subnutrição das regiões globais

In [203]:
undernourishment_graphic = px.bar(undernourishment_per_region, x = undernourishment_per_region.index, y = 'Prevelance of Undernourishment')
undernourishment_graphic.show()

A Somalia é o pais com o pior índice de subnutrição da região sub-sahaariana da África. Além disso, apresenta baixa expectativa de vida, que é relacionada á subnutrição.

In [217]:
africa_indicators = table.query('Region == "Sub-Saharan Africa"')
africa_indicators = table[['Country Name', 'Year', 'IncomeGroup', 'Life Expectancy World Bank', 'Prevelance of Undernourishment']]
africa_indicators = africa_indicators.sort_values(by = 'Prevelance of Undernourishment', ascending = False)
africa_indicators.head(10)

Unnamed: 0,Country Name,Year,IncomeGroup,Life Expectancy World Bank,Prevelance of Undernourishment
1188,Somalia,2007,Low income,52.998,70.9
1536,Somalia,2009,Low income,53.654,70.9
1014,Somalia,2006,Low income,52.669,70.9
840,Somalia,2005,Low income,52.346,70.8
1362,Somalia,2008,Low income,53.326,70.8
666,Somalia,2004,Low income,52.043,70.7
492,Somalia,2003,Low income,51.762,70.6
144,Somalia,2001,Low income,51.213,70.6
318,Somalia,2002,Low income,51.492,70.5
1710,Somalia,2010,Low income,53.99,70.4


Entre o período de 2009 á 2017, é notório a diminuição do percentual de pessoas em situação de subnutrição, e diretamente propocional, o aumento da expectativa de vida na Somalia. 

In [223]:
somalia_life_expectancy = table[(table['Country Name'] == 'Somalia')]

somalia_life_expectancy_graph = px.line(somalia_life_expectancy, x="Year", y="Life Expectancy World Bank", title='Expectativa de Vida em Somalia', markers = True)
somalia_life_expectancy_graph.show()

Alternativamente, a região da América do Norte é a que possui menores índices de subnutrição. Consequentemente, a expectativa de vida é maior do que a de todo a região do sub-sahaara.  

In [218]:
north_america_indicators = table.query('Region == "North America"')
north_america_indicators = north_america_indicators[['Country Name', 'IncomeGroup', 'Year', 'Life Expectancy World Bank', 'Prevelance of Undernourishment']]
north_america_indicators = north_america_indicators.sort_values(by = 'Prevelance of Undernourishment', ascending = False)
north_america_indicators.head(10)

Unnamed: 0,Country Name,IncomeGroup,Year,Life Expectancy World Bank,Prevelance of Undernourishment
29,Canada,High income,2001,79.339024,2.5
2465,Canada,High income,2015,81.9,2.5
1906,United States,High income,2011,78.641463,2.5
1943,Canada,High income,2012,81.64878,2.5
2080,United States,High income,2012,78.741463,2.5
2117,Canada,High income,2013,81.74878,2.5
2254,United States,High income,2013,78.741463,2.5
2291,Canada,High income,2014,81.8,2.5
2428,United States,High income,2014,78.841463,2.5
2602,United States,High income,2015,78.690244,2.5


# Impacto do saneamento básico na expectativa de vida

Outro ponto importante que se relaciona com a expectativa de vida é a quantidade de pessoas que tem acesso á saneamento básico e usufruem desta necessidade. Baixo saneamento básico é presente na maioria das vezes, em países mais carentes.

In [219]:
income = data_frame.groupby('IncomeGroup').mean() 
sanitation = income[['Sanitation']].sort_values(by = 'Sanitation', ascending = True)

sanitation = px.bar(sanitation, x = sanitation.index, y = 'Sanitation')
sanitation.show()


The default value of numeric_only in DataFrameGroupBy.mean is deprecated. In a future version, numeric_only will default to False. Either specify numeric_only or select only columns which should be valid for the function.



In [221]:
somalia_sanitation_graph = table[(table['Country Name'] == 'Somalia')]

fig = px.line(somalia_sanitation_graph, x="Life Expectancy World Bank", y="Sanitation", title='Expectativa de Vida com Base em Saneamento em Somalia', markers = True)
fig.show()

Comparando novamente com a região da América do Norte, região esta de alto poder financeiro, é destoante como o saneamento básico está associado e impacta positivamente no aumento da expectativa de vida.

In [222]:
canada_sanitation_graph = table[(table['Country Name'] == 'Canada')]

fig = px.line(canada_sanitation_graph, x="Life Expectancy World Bank", y="Sanitation", title='Expectativa de Vida com Base em Saneamento no Canada', markers = True)
fig.show()

# Conclusão

Através desta análise, pode ser concluído que o indicador de expectativa de vida está fortemente atrelado e é diretamente proporcional a outros indicadores como prevalência da subnutrição e saneamento básico. Ambos indicadores apresentam índices menores em países mais pobres.  

Soluções previstas para o cenário analisado, serão, maiores investimentos em saneamento básico e auxílio externo de instituições capazes de doar alimentos e arrecadação de capital para que hajam melhorias em ambos.

Com isto, países mais carentes quais apresentam baixa expectativa de vida, decorrente da carência de saneamento básico e alta subnutrição. Devem investir em soluções como a abordada acima, visando o aumento do indicador de saneamento básico e arrecadação de alimentos para á população. Desta forma, ocorrerá aumento dos índices do indicador de expectativa de vida a longo prazo.