# Importanto dados em R 

Quando vamos fazer nossa análise de dados, comumente devemos trazer esses dados de algum outro arquivo, o que nos pede um pouco de cuidado. <br> Por exemplo, é importante sabermos qual é o tipo de arquivo que estamos importando, pois isso pode fazer nosso programa ler os dados errôneamente. <br> Um dos formatos mais comums para a análise de dados é o **CSV**, ou *Comma separeted values*, que é o tipo de arquivo do excel por exemplo.

Assim, se for salvar uma planilha de dados, não se esqueça de salvar como CSV.

![img](img/csv_meme.jpg)

Outro fator importante que devemos levar em conta na hora de importar o arquivo é o local em que ele está salvo. Se ele for salvo no mesmo diretório que o programa que se está usando para ler os dados, ou alguma pasta dentro deste, isso acarretará que podemos apenas escrever o nome do arquivo, sem a necessidade de escrever todo o caminho. <br> Vamos ver um exemplo abaixo:

### Importando um arquivo CSV 

```R
mydata <- read.csv("Data.csv", header=TRUE)
```

Aqui ```mydata``` é o nome da variável que atribuiremos o conteúdo do arquivo que estamos lendo <br>
A função ```read.csv``` lê arquivos que possuem este formato, aí uma importância de sabermos o formato do arquivo que estamos trabalhando. <br>
O nome do arquivo deve vir dentro de aspas (simples ou dupla). Neste caso o arquivo está no mesmo diretório em que o nosso programa está sendo salvo, por isso não há necessidade de especificar diretórios anteriores. <br>
Um argumento diferente da função deve ser separado por vírgula, aqui colocamos a função ```header=TRUE``` que significa que a primeira linha do nosso arquivo contém o nome das colunas (*labels*). Caso a primeira linha já contenha dados, vc deve trocar esse argumento por ```header=FALSE``` .

Caso o arquivo esteja em um diretório diferente, é necessário identificá-lo. Vamos ver um exemplo:

```R
mydata <- read.csv("C:/Usuarios/Caminho/do/arquivo/Data.csv", header=TRUE)
```

### Importando um arquivo TXT 

Uma outra alternativa é se seus dados não estão no formato CSV, mas em TXT. Nesse caso, você deve usar a seguinte linha de código:

``` R 
mydata2 <- read.table("Data2.txt", header=TRUE)
```

### Importando um arquivo da internet 

Caso você queira importar dados diretamente de algum site:

``` R
library(RCurl)
site <- "https://algum_site"
dados <- getURL(site)
mydata3 <- read.table(text = dados, header = TRUE)
```

Note que é necessário importar a biblioteca ``` RCurl ```, e que a função para ler os dados é a mesma do TXT, ```read.table()```.

### Alguns problemas 

É comum importarmos um arquivo e este não parecer estar com um formato adequado, como por exemplo uma coluna sem dados, ou duplicada. Nestes casos, é importante checar se os dados estão da mesma forma que seu programa está lendo. Uma forma de descobrir isso é abrir os dados em um programa como o excel, ou leitor de texto e verificar se a divisão das colunas está sendo feita por vírgula ```,``` ou ponto e vírgula ```;```.

Caso o separador não seja a vírgula, podemos usar o argumento  ```sep=" "``` como o separador desejado:

``` R 
mydata4 <- read.csv("Data3.csv", header=TRUE, sep=";")
```

## Boas Práticas 

Caso você não queira ter problemas na hora de importar dados para fazer suas análises, são necessárias algumas boas práticas na hora de criar seu arquivo.

Neste WorkShop, usaremos o dataset Adults, que possui dados do censo norte americano sobre fatores socioeconômicos. Vamos visualizá-lo no Excel para entender sua estrutura:

![img2](img/excel_adults.png)

Datasets também podem ser montados num simples arquivo de texto:

```
Id,age,marital.status,occupation,relationship,race,sex,capital.gain,capital.loss,hours.per.week,native.country,income
16280,34,Divorced,Exec-managerial,Own-child,White,Male,0,0,44,United-States,<=50K
16281,58,Married-civ-spouse,Transport-moving,Husband,White,Male,0,0,40,United-States,<=50K
```

### Como escrever então seu arquivo de dados?

1. Comece pela primeira linha e primeira coluna, ou seja, não pule células
2. Inclua uma linha de títulos para cada coluna
3. Tenha certeza que o número de títulos é igual ao número de colunas dos seus dados
4. Não junte células, isso pode fazer seu programa ter problemas na hora de ler o arquivo
5. No caso de arquivos de texto, use preferencialmente ```,``` como separador dos dados

## Importando o arquivo do Workshop 

In [3]:
mydata <- read.csv("dados/adults.csv", header=TRUE)
head(mydata, 5)

"não foi possível abrir o arquivo 'dados/adults.csv': No such file or directory"

ERROR: Error in file(file, "rt"): não é possível abrir a conexão


Note que por padrão, R lê seu arquivo CSV como se fosse separado por ```,``` <br>
O que acontece então se usarmos outro separador?

In [2]:
my_wrong_data <- read.csv("dados/adults.csv", header=TRUE, sep=";")
head(my_wrong_data, 5)

Id.age.workclass.fnlwgt.education.education.num.marital.status.occupation.relationship.race.sex.capital.gain.capital.loss.hours.per.week.native.country.income
"16280,34,Private,204991,Some-college,10,Divorced,Exec-managerial,Own-child,White,Male,0,0,44,United-States,<=50K"
"16281,58,Local-gov,310085,10th,6,Married-civ-spouse,Transport-moving,Husband,White,Male,0,0,40,United-States,<=50K"
"16282,25,Private,146117,Some-college,10,Never-married,Machine-op-inspct,Not-in-family,White,Male,0,0,42,United-States,<=50K"
"16283,24,Private,138938,Some-college,10,Divorced,Adm-clerical,Not-in-family,White,Female,0,0,40,United-States,<=50K"
"16284,57,Self-emp-inc,258883,HS-grad,9,Married-civ-spouse,Transport-moving,Husband,White,Male,5178,0,60,Hungary,>50K"


<img src="img/surprised_face.jpg" width="300"/>