# Introducción a la Programación para Ciencia de Datos
## Lenguaje de programación R
_Rocío Romero Zaliz_ - rocio@decsai.ugr.es

# Input/Output

Supongamos que tenemos un fichero con este contenido:

><pre>12  
2 5  
641
</pre>

In [None]:
datos <- scan("file.txt")
print(datos)

In [None]:
class(datos)

In [None]:
datos <- scan("file.txt", what=character())
print(datos)
class(datos)

In [None]:
datos <- scan("file.txt", sep="\n")
print(datos)

Podemos usar `scan` para leer desde el teclado si le damos de argumento de entrada una cadena de caracters vacía.

><pre>scan("")  
1: 23 4  
3: 2  
4:   
[1] 23  4  2</pre>

Marcamos con una línea vacía el final de la lectura de datos.

In [None]:
scan("") # Does not work in Jupyter

If you want to read in a single line from the keyboard use `readline`:

><pre>readline("Input data: ")  
Input data: 23 4 2  
[1] 23  4  2</pre>

In [None]:
datos <- readline("Input data: ")
print(datos)

In [None]:
class(datos)

### `cat` vs. `print`

In [2]:
x <- 1:3
print(x^2)
cat(x^2)

[1] 1 4 9
1 4 9

In [3]:
cat(x^2, x, "hola")

1 4 9 1 2 3 hola

In [4]:
vb <- cat(x^2, x, "hola")
vb

1 4 9 1 2 3 hola

NULL

In [None]:
vb <- print(x^2)
vb

In [None]:
print(matrix(c(1,5,3,8), nrow = 2))

cat(matrix(c(1,5,3,8), nrow = 2))

In [None]:
cat(x^2, x, "hola", sep="_")

### Leyendo y escribiendo ficheros

Supongamos que tenemos un fichero "matrix.txt" con el siguiente contenido:

> nombre edad  
John 25  
Mary 28  
Jim 19

La primera línea contiene una cabecera (opcional) que indica los nombres de las columnas.

In [6]:
data <- read.table("matrix.txt", header=TRUE)
data

nombre,edad
<chr>,<int>
John,25
Mary,28
Jim,19


In [7]:
data <- read.table("matrix.txt", header=FALSE)
data

V1,V2
<chr>,<chr>
nombre,edad
John,25
Mary,28
Jim,19


In [8]:
?read.table

read.table                package:utils                R Documentation

_D_a_t_a _I_n_p_u_t

_D_e_s_c_r_i_p_t_i_o_n:

     Reads a file in table format and creates a data frame from it,
     with cases corresponding to lines and variables to fields in the
     file.

_U_s_a_g_e:

     read.table(file, header = FALSE, sep = "", quote = "\"'",
                dec = ".", numerals = c("allow.loss", "warn.loss", "no.loss"),
                row.names, col.names, as.is = !stringsAsFactors, tryLogical = TRUE,
                na.strings = "NA", colClasses = NA, nrows = -1,
                skip = 0, check.names = TRUE, fill = !blank.lines.skip,
                strip.white = FALSE, blank.lines.skip = TRUE,
                comment.char = "#",
                allowEscapes = FALSE, flush = FALSE,
                stringsAsFactors = FALSE,
                fileEncoding = "", encoding = "unknown", text, skipNul = FALSE)
     
     read.csv(file, header = TRUE, sep = ",", quote =

In [9]:
scan("matrix.txt", what=character())

Si queremos escribir en lugar de leer cambiamos el `read.table` por el `write.table`.

In [None]:
write.table(matrix(1:6, nrow=2), "output1.txt", row.names=TRUE, col.names=TRUE)

In [None]:
write.table(matrix(1:6, nrow=2), "output2.txt", row.names=FALSE, col.names=FALSE)

La función `cat` también puede ser usada para escribir en un fichero...

In [None]:
cat("abc\n", file="u.txt")
cat("de\n", file="u.txt", append=TRUE)

In [None]:
data <- read.csv("matrix.txt", header=TRUE)
data

In [None]:
data <- read.csv("ages.csv", header=FALSE)
data

## Input/output en Tidyverse

In [10]:
library(tidyverse) # Necesitamos el paquete "readr"

── [1mAttaching core tidyverse packages[22m ──────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.1.3     [32m✔[39m [34mreadr    [39m 2.1.4
[32m✔[39m [34mforcats  [39m 1.0.0     [32m✔[39m [34mstringr  [39m 1.5.0
[32m✔[39m [34mggplot2  [39m 3.4.3     [32m✔[39m [34mtibble   [39m 3.2.1
[32m✔[39m [34mlubridate[39m 1.9.3     [32m✔[39m [34mtidyr    [39m 1.3.0
[32m✔[39m [34mpurrr    [39m 1.0.2     
── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors


In [None]:
data <- read_csv("ages.csv", col_names = FALSE)
data

In [None]:
write_csv(data, "clon_ages.csv")

In [None]:
# Leyendo ficheros de Excel
library("readxl")

read_excel("results.xlsx")

In [None]:
read_excel("results.xlsx", col_names = TRUE, skip = 1)

In [None]:
data <- read_excel("results.xlsx", col_names = TRUE, skip = 1)
colnames(data)[1:3] <- LETTERS[1:3]
data

In [None]:
read_excel("results.xlsx", sheet = "Fashion MNIST Non-convolutional", col_names = TRUE, skip = 1)

In [None]:
read_excel("results.xlsx", n_max = 3, sheet = 2, col_names = TRUE, skip = 1)

In [None]:
read_excel("results.xlsx", range = cell_cols("B:D"), col_names = TRUE, skip = 1)

In [None]:
read_excel("results.xlsx", range = "C1:E4", col_names = TRUE, skip = 1)

In [None]:
read_excel("results.xlsx", na = "4", col_names = TRUE, skip = 1)

In [None]:
install.packages("writexl")

In [None]:
library("writexl")

write_xlsx(data, "results_out.xlsx")

In [None]:
write_xlsx(list(pag1=data, pag2=data), "results_out.xlsx") # Listas para varias solapas...

In [None]:
data

In [None]:
read_xlsx("results.xlsx", sheet=1, col_names = TRUE, skip = 1) %>%
    ggplot(aes(x=Train,y=Test)) + geom_point()

## Ejercicios
1. Pida al usuario que introduzca con el teclado una cadena de caracteres s y un número n y muestre en pantalla n veces la cadena s (sin espacios entre palabras).
>s="hola", n=3<br/>
holaholahola
2. Crea tres ficheros llamados `dos.txt`, `tres.txt` y `cinco.txt` que contengan la tabla de 2, 3 y 5 respectivamente (sólo incluye los 10 primeros valores de cada uno, un número en una línea separada).
3. Escribe las cinco primeras filas de la matriz creada en el último ejercicio en un nuevo fichero llamado `prime.txt` y las cinco últimas en otro fichero llamado `fin.txt`. Ambos ficheros deben tener los datos separados por comas.
4. Dados dos números, f y c (dados por el usuario mediante el teclado), cree una figura cuadrada de f filas y c columnas con el carácter "x" (sin espacios). Vea a continuación un ejemplo para f=4 y c=3:
> xxx<br/>
 xxx<br/>
 xxx<br/>
 xxx<br/>
5. Cargue la primer y tercera hojas del fichero `resultados.xls` y muestre un gráfico que compare, para los dos datasets, el resultado en entrenamiento y test a medida que aumenta la cantidad de bits utilizados. 