# **Análise do dataset 'Gapminder' utilizando as bibliotecas Pandas e Matplotlib**

##**Importando as bibliotecas necessárias e o dataset**

In [1]:
#Importando as bibliotecas necessárias para a análise
import pandas as pd
import matplotlib.pyplot as plt;
import plotly.express as px;

In [56]:
#Importando o dataset diretamente do repositório no GitHub
df = pd.read_csv('https://raw.githubusercontent.com/isabela-rossetti/analise_de_dados_python_pandas/main/datasets/Gapminder.csv', sep=';')

In [57]:
#Visualizando as primeiras linhas do dataset
df.head()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.85303
2,Afghanistan,Asia,1962,31.997,10267083,853.10071
3,Afghanistan,Asia,1967,34.02,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106


In [58]:
#Renomeando as colunas do dataset
df = df.rename(columns={'country':'Pais', 'continent': 'Continente', 'year':'Ano', 'lifeExp':'Expectativa de vida', 'pop':'Pop Total', 'gdpPercap': 'PIB'})

In [59]:
df.head(10)

Unnamed: 0,Pais,Continente,Ano,Expectativa de vida,Pop Total,PIB
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.85303
2,Afghanistan,Asia,1962,31.997,10267083,853.10071
3,Afghanistan,Asia,1967,34.02,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
5,Afghanistan,Asia,1977,38.438,14880372,786.11336
6,Afghanistan,Asia,1982,39.854,12881816,978.011439
7,Afghanistan,Asia,1987,40.822,13867957,852.395945
8,Afghanistan,Asia,1992,41.674,16317921,649.341395
9,Afghanistan,Asia,1997,41.763,22227415,635.341351


In [60]:
#Conhecendo o tamanho, o tipo das variáveis e se há valores nulos no dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3312 entries, 0 to 3311
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Pais                 3312 non-null   object 
 1   Continente           3011 non-null   object 
 2   Ano                  3312 non-null   int64  
 3   Expectativa de vida  3312 non-null   float64
 4   Pop Total            3312 non-null   int64  
 5   PIB                  3312 non-null   float64
dtypes: float64(2), int64(2), object(2)
memory usage: 155.4+ KB


##**Tratando os dados faltantes**

In [61]:
df.isnull().sum()

Pais                     0
Continente             301
Ano                      0
Expectativa de vida      0
Pop Total                0
PIB                      0
dtype: int64

In [62]:
df['Continente'].value_counts()

Europe      1302
Africa       613
Asia         557
Americas     343
FSU          122
Oceania       74
Name: Continente, dtype: int64

In [64]:
#Lista do nome de Países sem o Continente
df1 = df[df['Continente'].isnull()]
df1['Pais'].unique()

array(['Armenia', 'Aruba', 'Australia', 'Bahamas', 'Barbados', 'Belize',
       'Canada', 'French Guiana', 'French Polynesia', 'Georgia',
       'Grenada', 'Guadeloupe', 'Haiti', 'Hong Kong, China', 'Maldives',
       'Martinique', 'Micronesia, Fed. Sts.', 'Netherlands Antilles',
       'New Caledonia', 'Papua New Guinea', 'Reunion', 'Samoa',
       'Sao Tome and Principe', 'Tonga', 'Uzbekistan', 'Vanuatu'],
      dtype=object)

In [None]:
#Insersão dos Continentes nos Países sem esse dado
armenia = df.loc[df['Pais'] == 'Armenia']
armenia['Continente'].fillna('Asia', inplace=True)
aruba = df.loc[df['Pais'] == 'Aruba']
aruba['Continente'].fillna('Americas', inplace=True)
australia = df.loc[df['Pais'] == 'Australia']
australia['Continente'].fillna('Oceania', inplace=True)
bahamas = df.loc[df['Pais'] == 'Bahamas']
bahamas['Continente'].fillna('Americas', inplace=True)
barbados = df.loc[df['Pais'] == 'Barbados']
barbados['Continente'].fillna('Americas', inplace=True)
Belize = df.loc[df['Pais'] == 'Belize']
Belize['Continente'].fillna('Americas', inplace=True)
Canada = df.loc[df['Pais'] == 'Canada']
Canada['Continente'].fillna('Americas', inplace=True)
FrenchGuiana = df.loc[df['Pais'] == 'French Guiana']
FrenchGuiana['Continente'].fillna('Americas', inplace=True)
FrenchPolynesia = df.loc[df['Pais'] == 'French Polynesia']
FrenchPolynesia['Continente'].fillna('Oceania', inplace=True)
Georgia = df.loc[df['Pais'] == 'Georgia']
Georgia['Continente'].fillna('Europe', inplace=True)
Grenada = df.loc[df['Pais'] == 'Grenada']
Grenada['Continente'].fillna('Americas', inplace=True)
Guadeloupe = df.loc[df['Pais'] == 'Guadeloupe']
Guadeloupe['Continente'].fillna('Americas', inplace=True)
Haiti = df.loc[df['Pais'] == 'Haiti']
Haiti['Continente'].fillna('Americas', inplace=True)
HongKong = df.loc[df['Pais'] == 'Hong Kong, China']
HongKong['Continente'].fillna('Asia', inplace=True)
Maldives = df.loc[df['Pais'] == 'Maldives']
Maldives['Continente'].fillna('Asia', inplace=True)
Martinique = df.loc[df['Pais'] == 'Martinique']
Martinique['Continente'].fillna('Americas', inplace=True)
Micronesia = df.loc[df['Pais'] == 'Micronesia, Fed. Sts.']
Micronesia['Continente'].fillna('Oceania', inplace=True)
NetherlandsAntilles = df.loc[df['Pais'] == 'Netherlands Antilles']
NetherlandsAntilles['Continente'].fillna('Americas', inplace=True)
NewCaledonia = df.loc[df['Pais'] == 'New Caledonia']
NewCaledonia['Continente'].fillna('Oceania', inplace=True)
PapuaNewGuinea = df.loc[df['Pais'] == 'Papua New Guinea']
PapuaNewGuinea['Continente'].fillna('Oceania', inplace=True)
Reunion = df.loc[df['Pais'] == 'Reunion']
Reunion['Continente'].fillna('Africa', inplace=True)
Samoa = df.loc[df['Pais'] == 'Samoa']
Samoa['Continente'].fillna('Oceania', inplace=True)
SaoTome = df.loc[df['Pais'] == 'Sao Tome and Principe']
SaoTome['Continente'].fillna('Africa', inplace=True)
Tonga = df.loc[df['Pais'] == 'Tonga']
Tonga['Continente'].fillna('Oceania', inplace=True)
Uzbekistan = df.loc[df['Pais'] == 'Uzbekistan']
Uzbekistan['Continente'].fillna('Asia', inplace=True)
vanuatu = df.loc[df['Pais'] == 'Vanuatu']
vanuatu['Continente'].fillna('Oceania', inplace=True)

In [66]:
#Junção dos dataframes
df = pd.concat ([df, armenia, aruba, australia, bahamas, barbados, Belize, Canada, FrenchGuiana, FrenchPolynesia, Georgia, Grenada, Guadeloupe, Haiti, HongKong, Maldives,
Martinique, Micronesia, NetherlandsAntilles, NewCaledonia, PapuaNewGuinea, Reunion, Samoa, SaoTome, Tonga, Uzbekistan, vanuatu])

In [67]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3613 entries, 0 to 3239
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Pais                 3613 non-null   object 
 1   Continente           3312 non-null   object 
 2   Ano                  3613 non-null   int64  
 3   Expectativa de vida  3613 non-null   float64
 4   Pop Total            3613 non-null   int64  
 5   PIB                  3613 non-null   float64
dtypes: float64(2), int64(2), object(2)
memory usage: 197.6+ KB


In [68]:
#Excluindo as linhas com o valor NaN do dataset
df = df.dropna(subset=['Continente'])

In [69]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3312 entries, 0 to 3239
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Pais                 3312 non-null   object 
 1   Continente           3312 non-null   object 
 2   Ano                  3312 non-null   int64  
 3   Expectativa de vida  3312 non-null   float64
 4   Pop Total            3312 non-null   int64  
 5   PIB                  3312 non-null   float64
dtypes: float64(2), int64(2), object(2)
memory usage: 181.1+ KB


In [70]:
df.isnull().sum()

Pais                   0
Continente             0
Ano                    0
Expectativa de vida    0
Pop Total              0
PIB                    0
dtype: int64

##**Exploração dos dados**

In [None]:
#Conhecendo um resumo estatístico do dataset
df.describe()

Unnamed: 0,Ano,Expectativa de vida,Pop Total,PIB
count,3312.0,3312.0,3312.0,3312.0
mean,1980.30163,65.246871,31614890.0,11317.115805
std,16.927294,11.768412,104119300.0,11369.142739
min,1950.0,23.599,59412.0,241.165876
25%,1967.0,58.3375,2678572.0,2514.625266
50%,1982.0,69.61,7557218.0,7838.505123
75%,1996.0,73.65775,19585220.0,17357.87917
max,2007.0,82.67,1318683000.0,113523.1329


In [None]:
#Agrupando o número de Países por Continente
df.groupby('Continente')['Pais'].nunique()

Continente
Africa      53
Americas    36
Asia        45
Europe      36
FSU          6
Oceania     11
Name: Pais, dtype: int64

In [8]:
#Agrupando Expectativa de vida por País
df.groupby('Pais')['Expectativa de vida'].mean().round()

Pais
Afghanistan           37.0
Albania               68.0
Algeria               59.0
Angola                38.0
Argentina             69.0
                      ... 
Vietnam               57.0
West Bank and Gaza    60.0
Yemen, Rep.           47.0
Zambia                46.0
Zimbabwe              53.0
Name: Expectativa de vida, Length: 187, dtype: float64

In [10]:
#Agrupando Expectativa de vida por Ano
df.groupby('Ano')['Expectativa de vida'].mean().round(1)

Ano
1950    62.0
1951    65.9
1952    49.2
1953    66.7
1954    67.5
1955    67.8
1956    68.0
1957    51.6
1958    68.8
1959    68.2
1960    68.5
1961    68.9
1962    54.0
1963    69.6
1964    70.1
1965    70.3
1966    70.4
1967    56.3
1968    70.7
1969    70.7
1970    71.0
1971    71.1
1972    58.5
1973    71.5
1974    71.8
1975    71.9
1976    72.2
1977    60.4
1978    72.7
1979    73.0
1980    73.1
1981    73.3
1982    62.4
1983    73.8
1984    74.1
1985    74.1
1986    74.5
1987    64.0
1988    74.8
1989    74.9
1990    74.3
1991    74.4
1992    65.0
1993    74.3
1994    74.5
1995    74.6
1996    75.0
1997    65.9
1998    75.6
1999    75.7
2000    76.0
2001    76.3
2002    66.8
2003    76.6
2004    76.9
2005    76.7
2006    77.9
2007    67.9
Name: Expectativa de vida, dtype: float64

In [11]:
df['PIB'].mean().round(2)

11317.12

In [12]:
df['PIB'].sum().round(2)

37482287.55

##**Visualização dos dados em gráficos**

In [13]:
#Observando o gráfico de PIB x Expectativa de vida no ano de 2007 por Continente - a função log foi utilizada para melhor visualização dos dados nos gráficos
df_2007 = df[df['Ano'] == 2007]
fig = px.scatter(df_2007, x = 'PIB', y = 'Expectativa de vida',  hover_name = 'Pais', log_x = True, size_max = 60, facet_col = 'Continente')
fig.update_traces(marker = dict(size = 12,line = dict(width = 2)),selector = dict(mode = 'markers'))
fig.update_layout(title = 'Logaritmo do PIB X Expectativa de vida no ano de 2007')
fig.update_xaxes(title = 'Log (PIB)')
fig.update_yaxes(title = 'Expectativa de vida')
fig.show()

In [None]:
#Observando o gráfico de PIB x Expectativa de vida no ano de 2007 com marcações de tipo e cor diferentes para facilitar a visualização
fig = px.scatter(df_2007, x = 'PIB', y = 'Expectativa de vida', symbol = 'Continente', color = 'Continente', hover_name = 'Pais', 
                 log_x = True, size_max = 60, width = 800)
fig.update_traces(marker = dict(size = 12,line=dict(width=2)),selector=dict(mode = 'markers'))
fig.update_layout(title = 'Logaritmo do PIB X Expectativa de vida no ano de 2007')
fig.update_xaxes(title = 'Log (PIB)')
fig.update_yaxes(title = 'Expectativa de vida')
fig.show()

In [None]:
#Observando o gráfic'o animado da mudança no tamanho da população, expectativa de vida e renda per capta por país e continente ao longo dos anos
px.scatter(df, x = 'PIB', y = 'Expectativa de vida', animation_frame = 'Ano', animation_group = 'Pais',
           size = 'Pop Total', color = 'Continente', hover_name = 'Pais', log_x = True, width = 900,
           size_max = 60, range_x = [100,100000], range_y = [15,90])