### Importando arquivos .csv

*Import* da biblioteca **Pandas** e configuração do ambiente para uma visualização mais prática.

In [23]:
# importando biblioteca Pandas
import pandas as pd

pd.options.display.float_format = '{:,.2f}'.format 
pd.set_option('display.width', 85)
pd.set_option('display.max_columns', 8)

- Lendo o arquivo dos dados, dando novos nomes para as colunas;
- Passando o argumento de valor 1 para escapar a primeira linha;
- Passando uma lista de colunas para o comando `parse_dates`, para criar uma coluna de data a partir das colunas listadas;
- Configurando `low_memory` para `False` para reduzir o uso da memória durante o processo de importação.

In [24]:
landtemps = pd.read_csv('data/landtempssample.csv',
    names=[
        'stationid', 
        'year', 
        'month', 
        'avgtemp', 
        'latitude', 
        'longitude', 
        'elevation', 
        'station', 
        'contryid', 
        'country'],
    skiprows=1,
    parse_dates=[['month','year']],
    low_memory=False
    )

In [25]:
type(landtemps)

pandas.core.frame.DataFrame

- Getting a glimpse of the data. View the first few rows;
- Show the data type for all columns, as well as the number of rows and columns.

In [26]:
landtemps.head(7)

Unnamed: 0,month_year,stationid,...,contryid,country
0,2000-04-01,USS0010K01S,...,US,United States
1,1940-05-01,CI000085406,...,CI,Chile
2,2013-12-01,USC00036376,...,US,United States
3,1963-02-01,ASN00024002,...,AS,Australia
4,2001-11-01,ASN00028007,...,AS,Australia
5,1991-04-01,USW00024151,...,US,United States
6,1993-12-01,RSM00022641,...,RS,Russia


In [27]:
landtemps.dtypes

month_year    datetime64[ns]
stationid             object
avgtemp              float64
latitude             float64
longitude            float64
elevation            float64
station               object
contryid              object
country               object
dtype: object

In [28]:
landtemps.shape

(100000, 9)

Renomeando a coluna de data e visualizando um sumário estatístico para coluna `avgtemp`

In [29]:
landtemps.rename(
    columns={'month_year':'measuredate'},
    inplace=True
)

landtemps.dtypes

measuredate    datetime64[ns]
stationid              object
avgtemp               float64
latitude              float64
longitude             float64
elevation             float64
station                object
contryid               object
country                object
dtype: object

In [30]:
landtemps.avgtemp.describe()

count   85,554.00
mean        10.92
std         11.52
min        -70.70
25%          3.46
50%         12.22
75%         19.57
max         39.95
Name: avgtemp, dtype: float64

Procurando por células sem valores para cada coluna.

Usamos `isnull`, que retorna `True` para cada valor que está faltando em cada coluna, e `Falso` quando não falta nenhum valor.
Adicionamos `sum` para contar os valores que faltam em cada coluna.

In [31]:
landtemps.isnull().sum()

measuredate        0
stationid          0
avgtemp        14446
latitude           0
longitude          0
elevation          0
station            0
contryid           0
country            5
dtype: int64

Removendo linhas com dados faltando para coluna `avgtemp`.

- Usando o parâmetro `subset` para "dizer" ao `dropna` para deletar linhas onde o dado `avgtemp` está em branco.
- Configurando `inplace` para `True`. (Deixando em `False`, o dataframe será disponibilizado sem as mudanças realizadas.)
- Usamos o atributo `shape` para o daframe e podemos ver o número de linhas e colunas.

In [32]:
landtemps.dropna(subset=['avgtemp'], inplace=True)
landtemps.shape

(85554, 9)