# **Introdução à Biblioteca Pandas**
## **Python Para Análise de Dados (Pandas)**

In [1]:
import pandas as pd

In [103]:
df =  pd.read_csv('Gapminder.csv', sep=';', encoding='utf-8', on_bad_lines='skip')

In [104]:
# retorna as cinco primeiras linhas do dataframe
df.head()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.85303
2,Afghanistan,Asia,1962,31.997,10267083,853.10071
3,Afghanistan,Asia,1967,34.02,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106


In [114]:
# renomeia nome das colunas
df.rename(columns={'country':'pais', 'continent':'continente', 'year':'ano', 'lifeExp':'Expec de Vida', 'pop':'Polucacao Tot', 'gdpPercap':'PIB Per Capita'}, inplace=True)

In [116]:
# renomeia nome das linhas
df.rename(columns={'pais':'Pais', 'ano':'Ano', 'continente':'Continente'}, inplace=True)

In [117]:
# retorna as cinco últimas linhas do dataframe ja com as colunas renomeadas
df.tail()

Unnamed: 0,Pais,Continente,Ano,Expec de Vida,Polucacao Tot,PIB Per Capita
3307,Zimbabwe,Africa,1987,62.351,9216418,706.157306
3308,Zimbabwe,Africa,1992,60.377,10704340,693.420786
3309,Zimbabwe,Africa,1997,46.809,11404948,792.44996
3310,Zimbabwe,Africa,2002,39.989,11926563,672.038623
3311,Zimbabwe,Africa,2007,43.487,12311143,469.709298


In [118]:
# faz a contagem de valores únicos de cada coluna  
df.nunique()

Pais               187
Continente           6
Ano                 58
Expec de Vida     2570
Polucacao Tot     3311
PIB Per Capita    3312
dtype: int64

In [144]:
# retorna o total de linhas e colunas do dataframe
df.shape

(3312, 6)

In [145]:
# retorna todas as colunas presentes no dataframe
df.columns

Index(['Pais', 'Continente', 'Ano', 'Expec de Vida', 'Polucacao Tot',
       'PIB Per Capita'],
      dtype='object')

In [146]:
# retorna uma descricao estatistica do dataframe
df.describe()

Unnamed: 0,Ano,Expec de Vida,Polucacao Tot,PIB Per Capita
count,3312.0,3312.0,3312.0,3312.0
mean,1980.30163,65.246871,31614890.0,11317.115805
std,16.927294,11.768412,104119300.0,11369.142739
min,1950.0,23.599,59412.0,241.165876
25%,1967.0,58.3375,2678572.0,2514.625266
50%,1982.0,69.61,7557218.0,7838.505123
75%,1996.0,73.65775,19585220.0,17357.87917
max,2007.0,82.67,1318683000.0,113523.1329


In [148]:
# retorna valores unicos de uma coluna  
df['Continente'].unique()

array(['Asia', 'Europe', 'Africa', 'Americas', nan, 'FSU', 'Oceania'],
      dtype=object)

In [152]:
# retorna todos os paises de um continente especifico
df.loc[df['Continente'] == 'Africa']

Unnamed: 0,Pais,Continente,Ano,Expec de Vida,Polucacao Tot,PIB Per Capita
24,Algeria,Africa,1952,43.077,9279525,2449.008185
25,Algeria,Africa,1957,45.685,10270856,3013.976023
26,Algeria,Africa,1962,48.303,11000948,2550.816880
27,Algeria,Africa,1967,51.407,12760499,3246.991771
28,Algeria,Africa,1972,54.518,14760787,4182.663766
...,...,...,...,...,...,...
3307,Zimbabwe,Africa,1987,62.351,9216418,706.157306
3308,Zimbabwe,Africa,1992,60.377,10704340,693.420786
3309,Zimbabwe,Africa,1997,46.809,11404948,792.449960
3310,Zimbabwe,Africa,2002,39.989,11926563,672.038623


In [157]:
# retorna todos os paises de um continente especifico remove as duplicatas
df.loc[df['Continente'] == 'Africa']['Pais'].unique()

array(['Algeria', 'Angola', 'Benin', 'Botswana', 'Burkina Faso',
       'Burundi', 'Cameroon', 'Cape Verde', 'Central African Republic',
       'Chad', 'Comoros', 'Congo, Dem. Rep.', 'Congo, Rep.',
       "Cote d'Ivoire", 'Djibouti', 'Egypt', 'Equatorial Guinea',
       'Eritrea', 'Ethiopia', 'Gabon', 'Gambia', 'Ghana', 'Guinea',
       'Guinea-Bissau', 'Kenya', 'Lesotho', 'Liberia', 'Libya',
       'Madagascar', 'Malawi', 'Mali', 'Mauritania', 'Mauritius',
       'Morocco', 'Mozambique', 'Namibia', 'Niger', 'Nigeria', 'Rwanda',
       'Senegal', 'Sierra Leone', 'Somalia', 'South Africa', 'Sudan',
       'Swaziland', 'Tanzania', 'Togo', 'Tunisia', 'Uganda', 'Zambia',
       'Zimbabwe'], dtype=object)

In [158]:
# faz um agrupamento de dados por ano e retorna a expectativa de vida media por ano
df.groupby('Ano')['Expec de Vida'].mean()

Ano
1950    62.002568
1951    65.904167
1952    49.206867
1953    66.674563
1954    67.459817
1955    67.806757
1956    67.950637
1957    51.614590
1958    68.815936
1959    68.226579
1960    68.470837
1961    68.862480
1962    54.035234
1963    69.595735
1964    70.063105
1965    70.259881
1966    70.447526
1967    56.263629
1968    70.689081
1969    70.653896
1970    70.961141
1971    71.103976
1972    58.474481
1973    71.500338
1974    71.778504
1975    71.939218
1976    72.158050
1977    60.429090
1978    72.717567
1979    73.018717
1980    73.064524
1981    73.337399
1982    62.365871
1983    73.787778
1984    74.100741
1985    74.112222
1986    74.452222
1987    63.984860
1988    74.760000
1989    74.924444
1990    74.283438
1991    74.374848
1992    65.008443
1993    74.324545
1994    74.456667
1995    74.552727
1996    75.029394
1997    65.873799
1998    75.569697
1999    75.703636
2000    76.026364
2001    76.257879
2002    66.835695
2003    76.586667
2004    76.921562
2005  

In [159]:
# retorna a media do PIB
df['PIB Per Capita'].mean()

11317.115804696648

In [160]:
# retorna a soma dos PIBs
df['PIB Per Capita'].sum()

37482287.5451553

In [149]:
# faz um agrupamento de dados por continente e retorna a soma de paises unicos por continente
df.groupby('Continente')['Pais'].nunique()

Continente
Africa      51
Americas    25
Asia        41
Europe      35
FSU          6
Oceania      3
Name: Pais, dtype: int64

In [124]:
# faz um agrupamento de dados por pais e retorna a expectativa de vida média de cada um
df.groupby('Pais')['Expec de Vida'].mean('Expec de Vida')

Pais
Afghanistan           37.478833
Albania               68.432917
Algeria               59.030167
Angola                37.883500
Argentina             69.060417
                        ...    
Vietnam               57.479500
West Bank and Gaza    60.328667
Yemen, Rep.           46.780417
Zambia                45.996333
Zimbabwe              52.663167
Name: Expec de Vida, Length: 187, dtype: float64

In [175]:
# faz um agrupamento de dados por continente e retorna o pib per capita médio de cada um
df.groupby('Continente')['PIB Per Capita'].mean('PIB Per Capita').sort_values(ascending=False)

Continente
Europe      16551.177664
Oceania     13078.961304
Asia        10070.908182
Americas     8979.564475
FSU          7903.069822
Africa       2138.088351
Name: PIB Per Capita, dtype: float64