# Carregando o primeiro conjunto de dados
---

Usando o comando de Python `import pandas`. É necessário que a biblioteca Pandas esteja instalada no computador, uma maneira de facilitar isso é instalando a distribuição Anaconda.

In [2]:
import pandas as pd

Para carregar um conjunto de dados pode-se usar a função de Pandas `read_csv`, por padrão essa função carrega dados separados por ';', no caso do conjunto usado, as colunas são separadas por tabulações. o método `head` mostra as 5 primeiras linhas do arquivo.

In [3]:
# Atribuindo o conjunto de dados à variável df (dataframe)
df = pd.read_csv('gapminder.tsv', sep='\t')

In [4]:
# Exibindo as cinco primeiras linhas do dataframe
df.head()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.85303
2,Afghanistan,Asia,1962,31.997,10267083,853.10071
3,Afghanistan,Asia,1967,34.02,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106


In [5]:
# Exibindo o tipo da variável df
print(type(df))

<class 'pandas.core.frame.DataFrame'>


Todo objeto `DataFrame` de Pandas tem um atributo `shape`, que mostra o número de linhas e colunas desse objeto:

In [6]:
# (linhas, colunas)
df.shape

(1704, 6)

In [7]:
# Obtendo o nome das colunas
df.columns

Index(['country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap'], dtype='object')

In [8]:
# Obtendo o tipo de cada coluna
df.dtypes

country       object
continent     object
year           int64
lifeExp      float64
pop            int64
gdpPercap    float64
dtype: object

In [9]:
# Informações mais completas sobre o dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1704 entries, 0 to 1703
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   country    1704 non-null   object 
 1   continent  1704 non-null   object 
 2   year       1704 non-null   int64  
 3   lifeExp    1704 non-null   float64
 4   pop        1704 non-null   int64  
 5   gdpPercap  1704 non-null   float64
dtypes: float64(2), int64(2), object(2)
memory usage: 80.0+ KB


## Obtendo subconjunto de dados de um `DataFrame`

In [10]:
# Obtendo a coluna country
country_df = df['country']

# Mostrando os 5 primeiros elementos de country_df
country_df.head()

0    Afghanistan
1    Afghanistan
2    Afghanistan
3    Afghanistan
4    Afghanistan
Name: country, dtype: object

In [11]:
# Mostrando as 5 últimas de linhas de country_df
country_df.tail()

1699    Zimbabwe
1700    Zimbabwe
1701    Zimbabwe
1702    Zimbabwe
1703    Zimbabwe
Name: country, dtype: object

Quando queremos várias colunas de um `DataFrame` usamos uma lista em python. Podemos declarar diretamente a lista na atribuição da variável da seguinte forma:

~~~
    sub_df = df[['coluna1',...,'coluna2']]
~~~

Ou podemos criar uma variável para a lista de colunas que queremos, e em seguida fazemos a atribuição na variável:

~~~
    colunas = ['coluna1',...,'coluna2']
    sub_df = df[colunas]
~~~

In [12]:
# Criando a lista de colunas que queremos e fazendo a atribuição na variável
colunas = ['country','continent', 'year']
sub_df = df[colunas]

# Mostrando o começo e o fim do dataframe
print(sub_df.head())
print(sub_df.tail())

       country continent  year
0  Afghanistan      Asia  1952
1  Afghanistan      Asia  1957
2  Afghanistan      Asia  1962
3  Afghanistan      Asia  1967
4  Afghanistan      Asia  1972
       country continent  year
1699  Zimbabwe    Africa  1987
1700  Zimbabwe    Africa  1992
1701  Zimbabwe    Africa  1997
1702  Zimbabwe    Africa  2002
1703  Zimbabwe    Africa  2007
