<font color="#0D9DF0"><h3><B>Trabalho Final - Python para Ciência de Dados</b></h3></font>
***

# 

---
## 1. Título e Introdução
- Apresente o **tema do projeto**.
    Análise do Desenvolvimento Humano e Econômico Global com base nos dados obtidos no site Gapminder

- Descreva **brevemente os objetivos da análise**.
    O objetivo da análise é averiguar o quanto índices de corrupção e guerras, por exemplo, resultam em um baixo desenvolvimento humano e qualidade de vida nos países

- Explique o **contexto da base de dados Gapminder**.
    A base reune métricas desde 1952 de fatores como renda per capta, expectativa de vida, continente e população

- Liste as **etapas que serão realizadas** no notebook.
    Coleta de dados
    Limpeza e preparação
    Análise e modelagem
    Visualização
    Interpretação
    Síntese e Conclusão

---
## 2. Coleta, Limpeza e Análise Exploratória (AED)

### Objetivo
Preparar os dados, tratando inconsistências e identificando padrões iniciais.

### Itens a incluir
- **Carregamento do dataset** Gapminder.  
- **Verificação de valores ausentes**.  
- **Remoção de duplicados**.  
- **Análise estatística descritiva inicial** (médias, medianas, desvios etc.).  
- **Visualizações exploratórias básicas** (ex: histogramas, boxplots, contagens por continente).  

### Markdown deve conter
- Justificativas das decisões tomadas.  
- Observações sobre a qualidade dos dados.  
- Interpretação dos primeiros resultados.

Neste primeiro momento, estaremos tratando a base principal

In [1]:
import sys
sys.path.append('../avaliacao-python-ciencia-dados/')

from utils.data_info import *

In [2]:
base_gapminder = importa_csv(dataframe_name='../../avaliacao-python-ciencia-dados/Bases/gapminder_full.csv', separador=',', encoding='utf-8')
base_gapminder.head()

Importando o dataframe: ../../avaliacao-python-ciencia-dados/Bases/gapminder_full.csv ...
Dataframe importado com sucesso! 
Dimensão: (1736, 6)


Unnamed: 0,country,year,pop,continent,lifeExp,gdpPercap
0,Afghanistan,1952,8425333.0,Asia,28.801,779.445314
1,Afghanistan,1957,9240934.0,Asia,30.332,820.85303
2,Afghanistan,1962,10267083.0,Asia,31.997,853.10071
3,Afghanistan,1967,11537966.0,Asia,34.02,836.197138
4,Afghanistan,1972,13079460.0,Asia,36.088,739.981106


In [3]:
analisa_dados_ausentes(base_gapminder)

Unnamed: 0,variavel_analisada,Quantidade,Percentual


In [4]:
verifica_dados_duplicados(base_gapminder)

Foram encontrados 32 registros duplicados

Prévia dos dados duplicados:


Unnamed: 0,country,year,pop,continent,lifeExp,gdpPercap
72,Afghanistan,1997,22227415.0,Asia,41.763,635.341351
145,Bolivia,1987,6156369.0,Americas,57.251,2753.69149
146,Bolivia,1992,6893451.0,Americas,59.957,2961.699694
147,Bolivia,1997,7693188.0,Americas,62.05,3326.143191
148,Bolivia,2002,8445134.0,Americas,63.883,3413.26269


In [5]:
base_limpa = remove_dados_duplicados(base_gapminder)
base_limpa.head()

Removendo dados duplicados ...
Foram encontrados 32 registros duplicados

Prévia dos dados duplicados:
Dados duplicados removidos com sucesso! 
Dimensão: (1704, 6)


Unnamed: 0,country,year,pop,continent,lifeExp,gdpPercap
0,Afghanistan,1952,8425333.0,Asia,28.801,779.445314
1,Afghanistan,1957,9240934.0,Asia,30.332,820.85303
2,Afghanistan,1962,10267083.0,Asia,31.997,853.10071
3,Afghanistan,1967,11537966.0,Asia,34.02,836.197138
4,Afghanistan,1972,13079460.0,Asia,36.088,739.981106


In [6]:
# Problemas encontrados:
# 1. Índia -> Pop com Notação Científica - Verificar se precisa tratar
# 2. China -> Pop com decimal
base_limpa.info()
base_limpa.describe()

<class 'pandas.core.frame.DataFrame'>
Index: 1704 entries, 0 to 1735
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   country    1704 non-null   object 
 1   year       1704 non-null   int64  
 2   pop        1704 non-null   float64
 3   continent  1704 non-null   object 
 4   lifeExp    1704 non-null   float64
 5   gdpPercap  1704 non-null   float64
dtypes: float64(3), int64(1), object(2)
memory usage: 93.2+ KB


Unnamed: 0,year,pop,lifeExp,gdpPercap
count,1704.0,1704.0,1704.0,1704.0
mean,1979.5,29601210.0,59.474439,7215.327081
std,17.26533,106157900.0,12.917107,9857.454543
min,1952.0,60011.0,23.599,241.165876
25%,1965.75,2793664.0,48.198,1202.060309
50%,1979.5,7023596.0,60.7125,3531.846988
75%,1993.25,19585220.0,70.8455,9325.462346
max,2007.0,1318683000.0,82.603,113523.1329


In [7]:
# Reduzir renda per capita para 2 casas decimais
# Reduzir expectativa de vida para 1 casa decimal
# Tratar população da Índia e China
# Rwanda teve uma guerra civil em 1994, o que impactou a expectativa de vida do país. Talvez seja interessante analisar esse ponto.
# Analisar quais paises tem anos faltando -> Não parece ter impacto
#anos_por_pais = base_limpa.groupby("country").count()["year"].reset_index().sort_values(by="year", ascending=True)
#anos_por_pais.head(1000)

base_limpa['gdpPercap'] = base_limpa['gdpPercap'].round(2)
base_limpa['lifeExp'] = base_limpa['lifeExp'].round(1)
base_limpa["pop"] = base_limpa["pop"].astype("int64")
base_limpa["pop"] = base_limpa["pop"].apply(lambda x: f"{x:,.0f}".replace(",", "."))

base_limpa[base_limpa['country'] == 'China'].head(30)
#base_limpa[base_limpa['country'] == 'India'].head(30)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  base_limpa['gdpPercap'] = base_limpa['gdpPercap'].round(2)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  base_limpa['lifeExp'] = base_limpa['lifeExp'].round(1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  base_limpa["pop"] = base_limpa["pop"].astype("int64")
A value is trying to be set on a copy

Unnamed: 0,country,year,pop,continent,lifeExp,gdpPercap
297,China,1952,556.263.527,Asia,44.0,400.45
298,China,1957,637.408.000,Asia,50.5,575.99
299,China,1962,665.770.000,Asia,44.5,487.67
300,China,1967,754.550.000,Asia,58.4,612.71
301,China,1972,862.030.000,Asia,63.1,676.9
302,China,1977,943.455.000,Asia,64.0,741.24
303,China,1982,1.000.281.000,Asia,65.5,962.42
304,China,1987,1.084.035.000,Asia,67.3,1378.9
305,China,1992,1.164.970.000,Asia,68.7,1655.78
306,China,1997,1.230.075.000,Asia,70.4,2289.23


In [8]:
# Tratar a base de mortes por guerra e adicionar na brincadeira:
mortes_guerra = importa_csv(dataframe_name='../../avaliacao-python-ciencia-dados/Bases/deaths-in-armed-conflicts-by-type.csv', separador=',', encoding='utf-8')

analisa_dados_ausentes(mortes_guerra)
verifica_dados_duplicados(mortes_guerra) # tem 0 registros duplicados

mortes_guerra.describe()

#Realizar agregação por pais e ano, equalizando a coluna de ano com as da base principal
#A base de mortes em guerra vai de 89 a 2024 e a base principal de 1952 a 2007. teremos apenas um pequeno intervalo de anos de interseçã0
#que será agregado e analisado
anos = [1952, 1957, 1962, 1967, 1972,1977,1982,1987,1992,1997,2002,2007]
colunas_agrupadas = ['Deaths in ongoing conflicts (best estimate) - Conflict type: one-sided violence','Deaths in ongoing conflicts (best estimate) - Conflict type: non-state conflict','Deaths in ongoing conflicts (best estimate) - Conflict type: extrasystemic','Deaths in ongoing conflicts (best estimate) - Conflict type: intrastate','Deaths in ongoing conflicts (best estimate) - Conflict type: interstate']
rename_one_column(mortes_guerra, old_name='Year', new_name='year', inplace=True)

mortes_guerra = agrega_anos(mortes_guerra, anos, colunas_agrupadas,coluna_agrupamento = ['Entity'])
mortes_guerra.head()
#juncao = junta_dataframes(base_limpa, mortes_guerra, chave=['country', 'year'], tipo_juncao='left')
#juncao.head()

Importando o dataframe: ../../avaliacao-python-ciencia-dados/Bases/deaths-in-armed-conflicts-by-type.csv ...
Dataframe importado com sucesso! 
Dimensão: (7632, 8)
Foram encontrados 0 registros duplicados

Prévia dos dados duplicados:


Unnamed: 0,Entity,Deaths in ongoing conflicts (best estimate) - Conflict type: one-sided violence_sum,Deaths in ongoing conflicts (best estimate) - Conflict type: non-state conflict_sum,Deaths in ongoing conflicts (best estimate) - Conflict type: extrasystemic_sum,Deaths in ongoing conflicts (best estimate) - Conflict type: intrastate_sum,Deaths in ongoing conflicts (best estimate) - Conflict type: interstate_sum,year
0,Abkhazia,0,0,0,0,0,1992
1,Abkhazia,0,0,0,0,0,1997
2,Abkhazia,0,0,0,0,0,2002
3,Abkhazia,0,0,0,0,0,2007
4,Abyei,0,0,0,0,0,1992


In [9]:
# renomeiar colunas para facilitar o uso e entendimento do que tá rolando.
rename_one_column(mortes_guerra, old_name='Entity', new_name='country', inplace=True)
rename_one_column(mortes_guerra, old_name='Deaths in ongoing conflicts (best estimate) - Conflict type: one-sided violence_sum', new_name='oneSidedViolence', inplace=True)
rename_one_column(mortes_guerra, old_name='Deaths in ongoing conflicts (best estimate) - Conflict type: non-state conflict_sum', new_name='nonStateConflict', inplace=True)
rename_one_column(mortes_guerra, old_name='Deaths in ongoing conflicts (best estimate) - Conflict type: extrasystemic_sum', new_name='extrasystemic', inplace=True)
rename_one_column(mortes_guerra, old_name='Deaths in ongoing conflicts (best estimate) - Conflict type: intrastate_sum', new_name='intrastate', inplace=True)
rename_one_column(mortes_guerra, old_name='Deaths in ongoing conflicts (best estimate) - Conflict type: interstate_sum', new_name='interstate', inplace=True)

Unnamed: 0,country,oneSidedViolence,nonStateConflict,extrasystemic,intrastate,interstate,year
0,Abkhazia,0,0,0,0,0,1992
1,Abkhazia,0,0,0,0,0,1997
2,Abkhazia,0,0,0,0,0,2002
3,Abkhazia,0,0,0,0,0,2007
4,Abyei,0,0,0,0,0,1992
...,...,...,...,...,...,...,...
843,Zambia,0,0,0,0,0,2007
844,Zimbabwe,51,0,0,0,0,1992
845,Zimbabwe,0,0,0,0,0,1997
846,Zimbabwe,0,0,0,0,0,2002


In [10]:
# Validando o caso de Rwanda pra ver se deu tudo certo
filtro = mortes_guerra['country'] == 'Rwanda'
ausentes = mortes_guerra[filtro].index
mortes_guerra.loc[ausentes].head()

# A soma pra Rwanda deu bom \o/

Unnamed: 0,country,oneSidedViolence,nonStateConflict,extrasystemic,intrastate,interstate,year
620,Rwanda,3013,0,0,1366,0,1992
621,Rwanda,782261,92,0,3344,0,1997
622,Rwanda,708,0,0,3139,0,2002
623,Rwanda,0,0,0,0,0,2007


In [11]:
#Agora a gente junta as 2 bases pra ver no que dá
juncao = junta_dataframes(base_limpa, mortes_guerra, chave=['country', 'year'], tipo_juncao='left')
juncao.head()

Dataframes unidos com sucesso! 
Dimensão: (1704, 11)


Unnamed: 0,country,year,pop,continent,lifeExp,gdpPercap,oneSidedViolence,nonStateConflict,extrasystemic,intrastate,interstate
0,Afghanistan,1952,8.425.333,Asia,28.8,779.45,,,,,
1,Afghanistan,1957,9.240.934,Asia,30.3,820.85,,,,,
2,Afghanistan,1962,10.267.083,Asia,32.0,853.1,,,,,
3,Afghanistan,1967,11.537.966,Asia,34.0,836.2,,,,,
4,Afghanistan,1972,13.079.460,Asia,36.1,739.98,,,,,


In [12]:
#Agora vamos agregar a tabela de GDP ajustado pela inflação
base_gdp_ajustado = importa_csv(dataframe_name='../../avaliacao-python-ciencia-dados/Bases/gdp_pcap_inflaction_adjusted.csv', separador=',', encoding='utf-8')
base_gdp_ajustado.head()

Importando o dataframe: ../../avaliacao-python-ciencia-dados/Bases/gdp_pcap_inflaction_adjusted.csv ...
Dataframe importado com sucesso! 
Dimensão: (193, 303)


Unnamed: 0,geo,name,1800,1801,1802,1803,1804,1805,1806,1807,...,2091,2092,2093,2094,2095,2096,2097,2098,2099,2100
0,afg,Afghanistan,480.75476,480.75476,480.75476,480.75476,480.75476,480.75476,480.75476,480.75476,...,4684.97868,4793.65905,4905.29816,5019.97187,5137.75735,5258.73302,5382.97857,5510.5749,5641.60409,5776.14935
1,ago,Angola,373.05144,374.25872,376.06965,377.88058,379.08787,380.8988,382.70973,384.52066,...,24542.76609,25049.27925,25561.99308,26080.79692,26605.57338,27136.19842,27672.54146,28214.4655,28761.82726,29314.47731
2,alb,Albania,469.30821,470.65412,472.00389,473.35753,474.71505,476.07647,477.44178,478.81102,...,54455.30605,55061.03873,55663.53627,56262.63285,56858.16757,57449.98463,58037.93335,58621.86829,59201.64931,59777.14164
3,and,Andorra,1370.15106,1372.44036,1374.72967,1378.16364,1380.45294,1382.74225,1385.03156,1387.32087,...,79877.72947,80165.94404,80449.12,80727.31187,81000.57506,81268.96576,81532.54087,81791.35793,82045.47508,82294.95092
4,are,UAE,1142.36487,1145.79884,1150.37745,1154.95607,1159.53469,1162.96865,1167.54727,1172.12588,...,92569.33855,92603.91018,92637.70452,92670.73861,92703.02914,92734.59243,92765.44449,92795.60097,92825.07719,92853.88818


In [13]:
#Trata a tabela usando a função que vai ser reutilizada nas próximas tb

base_gdp_ajustado = transpoe_e_trata_dataframe(base_gdp_ajustado, nome_coluna_resultado='gdpPerCaptaInflactionAdjusted')
base_gdp_ajustado.head()

Removendo dados duplicados ...
Foram encontrados 0 registros duplicados

Prévia dos dados duplicados:
Dados duplicados removidos com sucesso! 
Dimensão: (58093, 3)


Unnamed: 0,country,year,gdpPerCaptaInflactionAdjusted
0,Afghanistan,1800,480.75
1,Afghanistan,1801,480.75
2,Afghanistan,1802,480.75
3,Afghanistan,1803,480.75
4,Afghanistan,1804,480.75


In [14]:
#Agora a gente junta as 2 bases pra ver no que dá
juncao = junta_dataframes(juncao, base_gdp_ajustado, chave=['country', 'year'], tipo_juncao='left')
juncao.head()

Dataframes unidos com sucesso! 
Dimensão: (1704, 12)


Unnamed: 0,country,year,pop,continent,lifeExp,gdpPercap,oneSidedViolence,nonStateConflict,extrasystemic,intrastate,interstate,gdpPerCaptaInflactionAdjusted
0,Afghanistan,1952,8.425.333,Asia,28.8,779.45,,,,,,1540.11
1,Afghanistan,1957,9.240.934,Asia,30.3,820.85,,,,,,1708.81
2,Afghanistan,1962,10.267.083,Asia,32.0,853.1,,,,,,1869.5
3,Afghanistan,1967,11.537.966,Asia,34.0,836.2,,,,,,1930.54
4,Afghanistan,1972,13.079.460,Asia,36.1,739.98,,,,,,1602.84


In [15]:
#Adicionando a base de extrema pobreza
base_extrema_pobreza = importa_csv(dataframe_name='../../avaliacao-python-ciencia-dados/Bases/gm_extreme_poverty_rate.csv', separador=',', encoding='utf-8')
base_extrema_pobreza.head()

Importando o dataframe: ../../avaliacao-python-ciencia-dados/Bases/gm_extreme_poverty_rate.csv ...
Dataframe importado com sucesso! 
Dimensão: (190, 303)


Unnamed: 0,geo,name,1800,1801,1802,1803,1804,1805,1806,1807,...,2091,2092,2093,2094,2095,2096,2097,2098,2099,2100
0,afg,Afghanistan,91.28,91.28,91.28,91.28,91.28,91.28,91.28,91.28,...,4.57,4.49,4.15,3.83,3.55,3.28,2.97,2.71,2.68,2.39
1,ago,Angola,91.81,91.81,91.81,91.81,91.81,91.33,91.33,91.33,...,1.78,1.64,1.51,1.5,1.39,1.29,1.28,1.18,1.09,1.09
2,alb,Albania,92.42,92.42,92.42,92.4,92.4,92.01,92.01,92.01,...,0.11,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.09
3,are,UAE,30.6,29.5,29.5,29.5,29.59,29.59,29.37,29.37,...,,,,,,,,,,
4,arg,Argentina,38.64,37.0,37.01,36.49,36.27,36.27,36.04,36.04,...,0.1,0.1,0.1,0.09,0.09,0.09,0.09,0.09,0.09,0.08


In [16]:
#Transposição da base
#Redução de casas decimais
#Ajuste do nome das colunas
base_extrema_pobreza = transpoe_e_trata_dataframe(base_extrema_pobreza, nome_coluna_resultado='extremePovertyRate')
base_extrema_pobreza.head()

Removendo dados duplicados ...
Foram encontrados 0 registros duplicados

Prévia dos dados duplicados:
Dados duplicados removidos com sucesso! 
Dimensão: (53916, 3)


Unnamed: 0,country,year,extremePovertyRate
0,Afghanistan,1800,91.28
1,Afghanistan,1801,91.28
2,Afghanistan,1802,91.28
3,Afghanistan,1803,91.28
4,Afghanistan,1804,91.28


In [17]:
juncao = junta_dataframes(juncao, base_extrema_pobreza, chave=['country', 'year'], tipo_juncao='left')
juncao.head()

Dataframes unidos com sucesso! 
Dimensão: (1704, 13)


Unnamed: 0,country,year,pop,continent,lifeExp,gdpPercap,oneSidedViolence,nonStateConflict,extrasystemic,intrastate,interstate,gdpPerCaptaInflactionAdjusted,extremePovertyRate
0,Afghanistan,1952,8.425.333,Asia,28.8,779.45,,,,,,1540.11,43.7
1,Afghanistan,1957,9.240.934,Asia,30.3,820.85,,,,,,1708.81,37.13
2,Afghanistan,1962,10.267.083,Asia,32.0,853.1,,,,,,1869.5,30.54
3,Afghanistan,1967,11.537.966,Asia,34.0,836.2,,,,,,1930.54,33.47
4,Afghanistan,1972,13.079.460,Asia,36.1,739.98,,,,,,1602.84,43.66


In [18]:
#Adicionando a base de mortalidade infantil
base_mortalidade_infantil = importa_csv(dataframe_name='../../avaliacao-python-ciencia-dados/Bases/child_mortality_0_5_year_olds_dying_per_1000_born.csv', separador=',', encoding='utf-8')
base_mortalidade_infantil.head()

Importando o dataframe: ../../avaliacao-python-ciencia-dados/Bases/child_mortality_0_5_year_olds_dying_per_1000_born.csv ...
Dataframe importado com sucesso! 
Dimensão: (192, 303)


Unnamed: 0,geo,name,1800,1801,1802,1803,1804,1805,1806,1807,...,2091,2092,2093,2094,2095,2096,2097,2098,2099,2100
0,afg,Afghanistan,468.58,468.58,468.58,468.58,468.58,468.58,469.98,469.98,...,10.6577,10.473,10.2963,10.1103,9.9446,9.7574,9.576,9.4139,9.2223,9.0653
1,ago,Angola,485.68,485.68,485.68,485.68,485.68,485.68,485.68,485.68,...,23.1019,22.802,22.5032,22.145,21.824,21.5334,21.2922,21.0403,20.8104,20.5798
2,alb,Albania,,,,,,,,,...,1.8035,1.7809,1.7565,1.7306,1.709,1.6871,1.6672,1.6437,1.6208,1.6005
3,and,Andorra,,,,,,,,,...,1.0973,1.0704,1.047,1.0227,0.9977,0.9737,0.9492,0.9264,0.9049,0.883
4,are,UAE,,,,,,,,,...,1.1265,1.1064,1.0879,1.0685,1.0476,1.0305,1.0133,0.997,0.9795,0.9624


In [19]:
base_mortalidade_infantil = transpoe_e_trata_dataframe(base_mortalidade_infantil, nome_coluna_resultado='childMortalityPer1000Born')
base_mortalidade_infantil.head()

Removendo dados duplicados ...
Foram encontrados 0 registros duplicados

Prévia dos dados duplicados:
Dados duplicados removidos com sucesso! 
Dimensão: (51880, 3)


Unnamed: 0,country,year,childMortalityPer1000Born
0,Afghanistan,1800,468.58
1,Afghanistan,1801,468.58
2,Afghanistan,1802,468.58
3,Afghanistan,1803,468.58
4,Afghanistan,1804,468.58


In [20]:
juncao = junta_dataframes(juncao, base_mortalidade_infantil, chave=['country', 'year'], tipo_juncao='left')
juncao.head()

Dataframes unidos com sucesso! 
Dimensão: (1704, 14)


Unnamed: 0,country,year,pop,continent,lifeExp,gdpPercap,oneSidedViolence,nonStateConflict,extrasystemic,intrastate,interstate,gdpPerCaptaInflactionAdjusted,extremePovertyRate,childMortalityPer1000Born
0,Afghanistan,1952,8.425.333,Asia,28.8,779.45,,,,,,1540.11,43.7,408.55
1,Afghanistan,1957,9.240.934,Asia,30.3,820.85,,,,,,1708.81,37.13,375.91
2,Afghanistan,1962,10.267.083,Asia,32.0,853.1,,,,,,1869.5,30.54,345.84
3,Afghanistan,1967,11.537.966,Asia,34.0,836.2,,,,,,1930.54,33.47,318.37
4,Afghanistan,1972,13.079.460,Asia,36.1,739.98,,,,,,1602.84,43.66,290.73


In [21]:
#Adicionando Arquivo de densidade populacional
base_densidade_populacional = importa_csv(dataframe_name='../../avaliacao-python-ciencia-dados/Bases/population_density_per_square_km.csv', separador=',', encoding='utf-8')
base_densidade_populacional.head()

Importando o dataframe: ../../avaliacao-python-ciencia-dados/Bases/population_density_per_square_km.csv ...
Dataframe importado com sucesso! 
Dimensão: (195, 153)


Unnamed: 0,geo,name,1950,1951,1952,1953,1954,1955,1956,1957,...,2091,2092,2093,2094,2095,2096,2097,2098,2099,2100
0,afg,Afghanistan,11.976,12.135,12.302,12.47,12.641,12.825,13.021,13.227,...,191.145,192.292,193.424,194.529,195.581,196.594,197.607,198.622,199.626,200.551
1,ago,Angola,3.651,3.692,3.731,3.775,3.823,3.876,3.934,3.995,...,111.43,112.496,113.54,114.571,115.587,116.58,117.55,118.508,119.446,120.354
2,alb,Albania,45.545,46.586,47.754,49.039,50.408,51.787,53.172,54.674,...,49.057,48.332,47.627,46.943,46.281,45.639,45.016,44.411,43.824,43.251
3,and,Andorra,12.757,12.38,11.607,11.326,11.919,13.118,14.393,15.744,...,112.299,110.923,109.54,108.177,106.832,105.501,104.198,102.92,101.682,100.473
4,are,UAE,1.049,1.12,1.193,1.269,1.347,1.426,1.506,1.588,...,338.973,342.111,345.263,348.432,351.621,354.832,358.069,361.336,364.633,367.964


In [22]:
base_densidade_populacional = transpoe_e_trata_dataframe(base_densidade_populacional, nome_coluna_resultado='popDensityPerSquareKm')
base_densidade_populacional.head()

Removendo dados duplicados ...
Foram encontrados 0 registros duplicados

Prévia dos dados duplicados:
Dados duplicados removidos com sucesso! 
Dimensão: (29445, 3)


Unnamed: 0,country,year,popDensityPerSquareKm
0,Afghanistan,1950,11.98
1,Afghanistan,1951,12.14
2,Afghanistan,1952,12.3
3,Afghanistan,1953,12.47
4,Afghanistan,1954,12.64


In [23]:
juncao = junta_dataframes(juncao, base_densidade_populacional, chave=['country', 'year'], tipo_juncao='left')
juncao.head()

Dataframes unidos com sucesso! 
Dimensão: (1704, 15)


Unnamed: 0,country,year,pop,continent,lifeExp,gdpPercap,oneSidedViolence,nonStateConflict,extrasystemic,intrastate,interstate,gdpPerCaptaInflactionAdjusted,extremePovertyRate,childMortalityPer1000Born,popDensityPerSquareKm
0,Afghanistan,1952,8.425.333,Asia,28.8,779.45,,,,,,1540.11,43.7,408.55,12.3
1,Afghanistan,1957,9.240.934,Asia,30.3,820.85,,,,,,1708.81,37.13,375.91,13.23
2,Afghanistan,1962,10.267.083,Asia,32.0,853.1,,,,,,1869.5,30.54,345.84,14.48
3,Afghanistan,1967,11.537.966,Asia,34.0,836.2,,,,,,1930.54,33.47,318.37,16.18
4,Afghanistan,1972,13.079.460,Asia,36.1,739.98,,,,,,1602.84,43.66,290.73,18.26


In [24]:
#Adicionando a base de desenvolvimento humano (HDI)
base_hdi = importa_csv(dataframe_name='../../avaliacao-python-ciencia-dados/Bases/hdi_human_development_index.csv', separador=',', encoding='utf-8')
base_hdi.head()

Importando o dataframe: ../../avaliacao-python-ciencia-dados/Bases/hdi_human_development_index.csv ...
Dataframe importado com sucesso! 
Dimensão: (192, 36)


Unnamed: 0,geo,name,1990,1991,1992,1993,1994,1995,1996,1997,...,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
0,afg,Afghanistan,0.285,0.291,0.301,0.311,0.305,0.329,0.334,0.338,...,0.497,0.496,0.495,0.496,0.498,0.507,0.501,0.486,0.495,0.496
1,ago,Angola,,,,,,,,,...,0.577,0.603,0.609,0.61,0.611,0.611,0.61,0.609,0.615,0.616
2,alb,Albania,0.654,0.638,0.622,0.624,0.629,0.638,0.647,0.645,...,0.797,0.797,0.797,0.798,0.801,0.805,0.794,0.794,0.806,0.81
3,and,Andorra,,,,,,,,,...,0.866,0.869,0.872,0.873,0.875,0.876,0.851,0.871,0.893,0.913
4,are,UAE,0.713,0.724,0.729,0.736,0.742,0.747,0.753,0.761,...,0.853,0.857,0.861,0.884,0.901,0.915,0.909,0.903,0.921,0.94


In [25]:
base_hdi = transpoe_e_trata_dataframe(base_hdi, nome_coluna_resultado='humanDevelopmentIndex')
#base_hdi['humanDevelopmentIndex'] = base_hdi['humanDevelopmentIndex'].mul(100).map("{:.0f}%".format)
# Eu ia converter, mas pesquisando, o HDI é normalmente representado como um número decimal entre 0 e 1 mas não necessariamente é um indicador de porcentagem, só é do calculo mesmo, então vou deixar assim mesmo.
base_hdi.head()

Removendo dados duplicados ...
Foram encontrados 0 registros duplicados

Prévia dos dados duplicados:
Dados duplicados removidos com sucesso! 
Dimensão: (5906, 3)


Unnamed: 0,country,year,humanDevelopmentIndex
0,Afghanistan,1990,0.28
1,Afghanistan,1991,0.29
2,Afghanistan,1992,0.3
3,Afghanistan,1993,0.31
4,Afghanistan,1994,0.3


In [26]:
juncao = junta_dataframes(juncao, base_hdi, chave=['country', 'year'], tipo_juncao='left')
juncao.head()

Dataframes unidos com sucesso! 
Dimensão: (1704, 16)


Unnamed: 0,country,year,pop,continent,lifeExp,gdpPercap,oneSidedViolence,nonStateConflict,extrasystemic,intrastate,interstate,gdpPerCaptaInflactionAdjusted,extremePovertyRate,childMortalityPer1000Born,popDensityPerSquareKm,humanDevelopmentIndex
0,Afghanistan,1952,8.425.333,Asia,28.8,779.45,,,,,,1540.11,43.7,408.55,12.3,
1,Afghanistan,1957,9.240.934,Asia,30.3,820.85,,,,,,1708.81,37.13,375.91,13.23,
2,Afghanistan,1962,10.267.083,Asia,32.0,853.1,,,,,,1869.5,30.54,345.84,14.48,
3,Afghanistan,1967,11.537.966,Asia,34.0,836.2,,,,,,1930.54,33.47,318.37,16.18,
4,Afghanistan,1972,13.079.460,Asia,36.1,739.98,,,,,,1602.84,43.66,290.73,18.26,


In [234]:
#Escreve o arquivo em uma base tratada
exporta_csv(base_limpa, '../../avaliacao-python-ciencia-dados/Bases/tratada/gapminder_tratada.csv', separador=';', encoding='utf-8', index=False)
exporta_csv(mortes_guerra, '../../avaliacao-python-ciencia-dados/Bases/tratada/mortes_guerra_tratada.csv', separador=';', encoding='utf-8', index=False)
exporta_csv(base_gdp_ajustado, '../../avaliacao-python-ciencia-dados/Bases/tratada/gdp_ajustado_inflacao_tratada.csv', separador=';', encoding='utf-8', index=False)
exporta_csv(base_extrema_pobreza, '../../avaliacao-python-ciencia-dados/Bases/tratada/base_extrema_pobreza_tratada.csv', separador=';', encoding='utf-8', index=False)
exporta_csv(base_mortalidade_infantil, '../../avaliacao-python-ciencia-dados/Bases/tratada/base_mortalidade_infantil_tratada.csv', separador=';', encoding='utf-8', index=False)
exporta_csv(base_densidade_populacional, '../../avaliacao-python-ciencia-dados/Bases/tratada/base_densidade_populacional_tratada.csv', separador=';', encoding='utf-8', index=False)
exporta_csv(base_hdi, '../../avaliacao-python-ciencia-dados/Bases/tratada/base_hdi_tratada.csv', separador=';', encoding='utf-8', index=False)
exporta_csv(juncao, '../../avaliacao-python-ciencia-dados/Bases/tratada/gapminder_juncao_tratada.csv', separador=';', encoding='utf-8', index=False)


Exportando o dataframe para o arquivo: ../../avaliacao-python-ciencia-dados/Bases/tratada/gapminder_tratada.csv ...
Dataframe exportado com sucesso!
Exportando o dataframe para o arquivo: ../../avaliacao-python-ciencia-dados/Bases/tratada/mortes_guerra_tratada.csv ...
Dataframe exportado com sucesso!
Exportando o dataframe para o arquivo: ../../avaliacao-python-ciencia-dados/Bases/tratada/gdp_ajustado_inflacao_tratada.csv ...
Dataframe exportado com sucesso!
Exportando o dataframe para o arquivo: ../../avaliacao-python-ciencia-dados/Bases/tratada/base_extrema_pobreza_tratada.csv ...
Dataframe exportado com sucesso!
Exportando o dataframe para o arquivo: ../../avaliacao-python-ciencia-dados/Bases/tratada/base_mortalidade_infantil_tratada.csv ...
Dataframe exportado com sucesso!
Exportando o dataframe para o arquivo: ../../avaliacao-python-ciencia-dados/Bases/tratada/base_densidade_populacional_tratada.csv ...
Dataframe exportado com sucesso!
Exportando o dataframe para o arquivo: ../../

---
## 3. Funções de Visualização e Análise Gráfica

### Objetivo
Criar funções reutilizáveis para gerar gráficos e apoiar a análise.

### Itens a incluir
- Definição de **funções dinâmicas** para gráficos (usando parâmetros flexíveis).  
- Tipos de gráficos recomendados:
  - Evolução temporal (ex: expectativa de vida ao longo dos anos).  
  - Comparações entre continentes.  
  - Relações entre PIB per capita, expectativa de vida e população.  
- Exemplos de uso das funções com resultados visuais.  

### Markdown deve conter
- Explicação do propósito de cada função.  
- Descrição dos tipos de visualizações utilizadas.  
- Observações sobre padrões ou correlações identificadas.

---
## 4. Interpretação das Visualizações

### Objetivo
Interpretar criticamente os dados com base nos gráficos e tabelas.

### Itens a incluir
- Explicação de cada gráfico gerado.  
- Justificativa da escolha do tipo de visualização.  
- Interpretação dos resultados observados.  
- Discussão sobre **tendências globais** e **diferenças regionais**.

---
## 5. Síntese dos Principais Insights

### Objetivo
Resumir os principais achados da análise.

### Itens a incluir
- **Padrões e tendências principais** (ex: crescimento da expectativa de vida, desigualdade econômica).  
- **Anomalias** ou exceções notáveis.  
- **Correlação** entre os indicadores analisados (PIB, população, expectativa de vida).  

### Markdown deve conter
- **Resumo analítico** dos resultados obtidos.  
- **Aplicações práticas**:
  - Implicações para políticas públicas.  
  - Relação com o desenvolvimento social e econômico.  
  - Observações sobre desigualdade global.

---
## 6. Conclusão e Reflexão

### Objetivo
Refletir sobre o processo de análise e o aprendizado obtido.

### Itens a incluir
- **Maiores desafios enfrentados** durante o trabalho.  
- **Principais aprendizados** obtidos.  
- **Habilidades desenvolvidas** (técnicas e analíticas).  
- **Reflexão final** sobre o impacto e relevância da análise.

#### Membros
1. Andre Augusto Ferreira Cabelo
2. Bruno Braga Guedes Cardoso
3. Bruno dos Santos Crivelli
4. Marcelo Tranche de Souza Junior

### Adicionando a importação do arquivo Utils