<font color="#0D9DF0"><h3><B>Trabalho Final - Python para Ciência de Dados</b></h3></font>
***

# 

---
## 1. Título e Introdução
- Apresente o **tema do projeto**.
    Análise do Desenvolvimento Humano e Econômico Global com base nos dados obtidos no site Gapminder

- Descreva **brevemente os objetivos da análise**.
    O objetivo da análise é averiguar o quanto índices de corrupção e guerras, por exemplo, resultam em um baixo desenvolvimento humano e qualidade de vida nos países

- Explique o **contexto da base de dados Gapminder**.
    A base reune métricas desde 1952 de fatores como renda per capta, expectativa de vida, continente e população

- Liste as **etapas que serão realizadas** no notebook.
    Coleta de dados
    Limpeza e preparação
    Análise e modelagem
    Visualização
    Interpretação
    Síntese e Conclusão

---
## 2. Coleta, Limpeza e Análise Exploratória (AED)

### Objetivo
Preparar os dados, tratando inconsistências e identificando padrões iniciais.

### Itens a incluir
- **Carregamento do dataset** Gapminder.  
- **Verificação de valores ausentes**.  
- **Remoção de duplicados**.  
- **Análise estatística descritiva inicial** (médias, medianas, desvios etc.).  
- **Visualizações exploratórias básicas** (ex: histogramas, boxplots, contagens por continente).  

### Markdown deve conter
- Justificativas das decisões tomadas.  
- Observações sobre a qualidade dos dados.  
- Interpretação dos primeiros resultados.

---
## 3. Funções de Visualização e Análise Gráfica

### Objetivo
Criar funções reutilizáveis para gerar gráficos e apoiar a análise.

### Itens a incluir
- Definição de **funções dinâmicas** para gráficos (usando parâmetros flexíveis).  
- Tipos de gráficos recomendados:
  - Evolução temporal (ex: expectativa de vida ao longo dos anos).  
  - Comparações entre continentes.  
  - Relações entre PIB per capita, expectativa de vida e população.  
- Exemplos de uso das funções com resultados visuais.  

### Markdown deve conter
- Explicação do propósito de cada função.  
- Descrição dos tipos de visualizações utilizadas.  
- Observações sobre padrões ou correlações identificadas.

---
## 4. Interpretação das Visualizações

### Objetivo
Interpretar criticamente os dados com base nos gráficos e tabelas.

### Itens a incluir
- Explicação de cada gráfico gerado.  
- Justificativa da escolha do tipo de visualização.  
- Interpretação dos resultados observados.  
- Discussão sobre **tendências globais** e **diferenças regionais**.

---
## 5. Síntese dos Principais Insights

### Objetivo
Resumir os principais achados da análise.

### Itens a incluir
- **Padrões e tendências principais** (ex: crescimento da expectativa de vida, desigualdade econômica).  
- **Anomalias** ou exceções notáveis.  
- **Correlação** entre os indicadores analisados (PIB, população, expectativa de vida).  

### Markdown deve conter
- **Resumo analítico** dos resultados obtidos.  
- **Aplicações práticas**:
  - Implicações para políticas públicas.  
  - Relação com o desenvolvimento social e econômico.  
  - Observações sobre desigualdade global.

---
## 6. Conclusão e Reflexão

### Objetivo
Refletir sobre o processo de análise e o aprendizado obtido.

### Itens a incluir
- **Maiores desafios enfrentados** durante o trabalho.  
- **Principais aprendizados** obtidos.  
- **Habilidades desenvolvidas** (técnicas e analíticas).  
- **Reflexão final** sobre o impacto e relevância da análise.

#### Membros
1. Andre Augusto Ferreira Cabelo
2. Bruno Braga Guedes Cardoso
3. Bruno dos Santos Crivelli
4. Marcelo Tranche de Souza Junior

### Adicionando a importação do arquivo Utils

In [1]:
import sys
sys.path.append('../avaliacao-python-ciencia-dados/')

from utils.data_info import *

In [2]:
base_gapminder = importa_csv(dataframe_name='../../avaliacao-python-ciencia-dados/Bases/gapminder_full.csv', separador=',', encoding='utf-8')
base_gapminder.head()

Importando o dataframe: ../../avaliacao-python-ciencia-dados/Bases/gapminder_full.csv ...
Dataframe importado com sucesso! 
Dimensão: (1736, 6)


Unnamed: 0,country,year,pop,continent,lifeExp,gdpPercap
0,Afghanistan,1952,8425333.0,Asia,28.801,779.445314
1,Afghanistan,1957,9240934.0,Asia,30.332,820.85303
2,Afghanistan,1962,10267083.0,Asia,31.997,853.10071
3,Afghanistan,1967,11537966.0,Asia,34.02,836.197138
4,Afghanistan,1972,13079460.0,Asia,36.088,739.981106


In [3]:
analisa_dados_ausentes(base_gapminder)

Unnamed: 0,variavel_analisada,Quantidade,Percentual


In [4]:
verifica_dados_duplicados(base_gapminder)


Foram encontrados 32 registros duplicados

Prévia dos dados duplicados:


Unnamed: 0,country,year,pop,continent,lifeExp,gdpPercap
72,Afghanistan,1997,22227415.0,Asia,41.763,635.341351
145,Bolivia,1987,6156369.0,Americas,57.251,2753.69149
146,Bolivia,1992,6893451.0,Americas,59.957,2961.699694
147,Bolivia,1997,7693188.0,Americas,62.05,3326.143191
148,Bolivia,2002,8445134.0,Americas,63.883,3413.26269


In [5]:
base_limpa = remove_dados_duplicados(base_gapminder)
base_limpa.head()

Removendo dados duplicados ...
Foram encontrados 32 registros duplicados

Prévia dos dados duplicados:
Dados duplicados removidos com sucesso! 
Dimensão: (1704, 6)


Unnamed: 0,country,year,pop,continent,lifeExp,gdpPercap
0,Afghanistan,1952,8425333.0,Asia,28.801,779.445314
1,Afghanistan,1957,9240934.0,Asia,30.332,820.85303
2,Afghanistan,1962,10267083.0,Asia,31.997,853.10071
3,Afghanistan,1967,11537966.0,Asia,34.02,836.197138
4,Afghanistan,1972,13079460.0,Asia,36.088,739.981106


In [6]:
# Problemas encontrados:
# 1. Índia -> Pop com Notação Científica - Verificar se precisa tratar
# 2. China -> Pop com decimal
base_limpa.info()
base_limpa.describe()

<class 'pandas.core.frame.DataFrame'>
Index: 1704 entries, 0 to 1735
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   country    1704 non-null   object 
 1   year       1704 non-null   int64  
 2   pop        1704 non-null   float64
 3   continent  1704 non-null   object 
 4   lifeExp    1704 non-null   float64
 5   gdpPercap  1704 non-null   float64
dtypes: float64(3), int64(1), object(2)
memory usage: 93.2+ KB


Unnamed: 0,year,pop,lifeExp,gdpPercap
count,1704.0,1704.0,1704.0,1704.0
mean,1979.5,29601210.0,59.474439,7215.327081
std,17.26533,106157900.0,12.917107,9857.454543
min,1952.0,60011.0,23.599,241.165876
25%,1965.75,2793664.0,48.198,1202.060309
50%,1979.5,7023596.0,60.7125,3531.846988
75%,1993.25,19585220.0,70.8455,9325.462346
max,2007.0,1318683000.0,82.603,113523.1329


In [16]:
# Reduzir renda per capita para 2 casas decimais
# Reduzir expectativa de vida para 1 casa decimal
# Tratar população da Índia e China
# Rwanda teve uma guerra civil em 1994, o que impactou a expectativa de vida do país. Talvez seja interessante analisar esse ponto.
# Analisar quais paises tem anos faltando -> Não parece ter impacto
#anos_por_pais = base_limpa.groupby("country").count()["year"].reset_index().sort_values(by="year", ascending=True)
#anos_por_pais.head(1000)

base_limpa['gdpPercap_tratada'] = base_limpa['gdpPercap'].round(2)
base_limpa['lifeExp_tratada'] = base_limpa['lifeExp'].round(1)
base_limpa["pop_tratada"] = base_limpa["pop"].apply(lambda x: f"{x:,.0f}".replace(",", "."))
base_limpa["pop"] = base_limpa["pop"].astype("int64")

base_limpa[base_limpa['country'] == 'China'].head()
base_limpa[base_limpa['country'] == 'India'].head()


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  base_limpa['gdpPercap_tratada'] = base_limpa['gdpPercap'].round(2)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  base_limpa['lifeExp_tratada'] = base_limpa['lifeExp'].round(1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  base_limpa["pop_tratada"] = base_limpa["pop"].apply(lambda x: f"{x:,.0f}".r

Unnamed: 0,country,year,pop,continent,lifeExp,gdpPercap,gdpPercap_tratada,lifeExp_tratada,pop_tratada
728,India,1952,372000000,Asia,37.373,546.565749,546.57,37.4,372.000.000
729,India,1957,409000000,Asia,40.249,590.061996,590.06,40.2,409.000.000
730,India,1962,454000000,Asia,43.605,658.347151,658.35,43.6,454.000.000
731,India,1967,506000000,Asia,47.193,700.770611,700.77,47.2,506.000.000
732,India,1972,567000000,Asia,50.651,724.032527,724.03,50.7,567.000.000


In [None]:
# Adicionar a base de mortes por guerra na brincadeira:
mortes_guerra = importa_csv(dataframe_name='../../avaliacao-python-ciencia-dados/Bases/deaths-in-armed-conflicts-by-type.csv', separador=',', encoding='utf-8')
mortes_guerra['country'] = mortes_guerra['Entity']

mortes_guerra.head()

#Realizar agregação por pais e ano, equalizando a coluna de ano com as da base principal
#A base de mortes em guerra vai de 89 a 2024 e a base principal de 1952 a 2007. teremos apenas um pequeno intervalo de anos de interseçã0
#que será agregado e analisado
anos = [1952, 1957, 1962, 1967, 1972,1977,1982,1987,1992,1997,2002,2007]


#juncao = junta_dataframes(base_limpa, mortes_guerra, chave=['country', 'year'], tipo_juncao='left')
#juncao.head()

Importando o dataframe: ../../avaliacao-python-ciencia-dados/Bases/deaths-in-armed-conflicts-by-type.csv ...
Dataframe importado com sucesso! 
Dimensão: (7632, 8)


Unnamed: 0,Entity,Code,Year,Deaths in ongoing conflicts (best estimate) - Conflict type: one-sided violence,Deaths in ongoing conflicts (best estimate) - Conflict type: non-state conflict,Deaths in ongoing conflicts (best estimate) - Conflict type: extrasystemic,Deaths in ongoing conflicts (best estimate) - Conflict type: intrastate,Deaths in ongoing conflicts (best estimate) - Conflict type: interstate,country
0,Abkhazia,OWID_ABK,1989,0,0,0,0,0,Abkhazia
1,Abkhazia,OWID_ABK,1990,0,0,0,0,0,Abkhazia
2,Abkhazia,OWID_ABK,1991,0,0,0,0,0,Abkhazia
3,Abkhazia,OWID_ABK,1992,0,0,0,0,0,Abkhazia
4,Abkhazia,OWID_ABK,1993,0,0,0,0,0,Abkhazia


In [26]:
#Escreve o arquivo em uma base tratada
exporta_csv(base_limpa, '../../avaliacao-python-ciencia-dados/Bases/tratada/gapminder_tratada.csv', separador=';', encoding='utf-8', index=False)
exporta_csv(juncao, '../../avaliacao-python-ciencia-dados/Bases/tratada/gapminder_tratada_juncao_mortes_guerra.csv', separador=';', encoding='utf-8', index=False)


Exportando o dataframe para o arquivo: ../../avaliacao-python-ciencia-dados/Bases/tratada/gapminder_tratada.csv ...
Dataframe exportado com sucesso!
Exportando o dataframe para o arquivo: ../../avaliacao-python-ciencia-dados/Bases/tratada/gapminder_tratada_juncao_mortes_guerra.csv ...
Dataframe exportado com sucesso!
