![imagenes](logo.png)

# Dataframes

Generalmente, las bases de datos, o tablas, no las tendrás como objetos propios de **R** sino como archivos externos. Lo más usual es que sean archivos de tipo csv (comma separated values). 

[Aquí](https://github.com/scidatmath2020/Inferencia-Estad-stica-2022/blob/main/data/online_retail2.txt) puedes ver el enlace para descargar un archivo de tipo csv.

Salvo pocas excepciones, el camino que te recomendamos a seguir cuando tienes (o descargas) un csv y lo quieres leer con **R** es el siguiente:

0. Descargar el archivo en una carpeta bien ubicada.
1. Dirigir a **R** hacia esa carpeta. Eso lo haces con la función ``setwd(*dirección dentro de tu equipo donde guardaste el archivo*)``.
2. Leer el archivo con ``read.csv()`` o ``read_csv()`` asignandole un nombre

Una vez que tenemos nuestro archivo csv **como objeto de R**, lo que obtenemos es un *dataframe*.

Como hemos dicho anteriormente, los dataframes son tablas de información: 
![imagenes](im002.png)

En los dataframes tenemos columnas (llamadas *características* o *campos*) y filas (llamadas *observaciones* o *registros*).

Para visualizar un dataframe en **R** utilizamos la función ``View(*nombre del dataframe como objeto de R*)``

A veces los dataframes son muy grandes, y con solo ver los primeros renglones nos podemos hacer una idea del tipo de información que tenemos. Esto lo hacemos con la función ``head(*nombre del dataframe como objeto de R*,*número de renglones que quieres ver*)``

Podemos accesar a los nombres de las columnas con la función ``names(*nombre del dataframe como objeto de R*)``.

Una vez que conocemos los nombres, puedes accesar a cualquier columna con el comando ``$`` tal como sucede en las listas: ``*nombre del dataframe como objeto de R*$*nombre de la columna*``

Otra propiedad importante que tienen los dataframes es que las filas también pueden tener un nombre. Para dar nombres a las filas podemos hacerlo desde la creación del dataframe con la función ``row.names(nombre del dataframe como objeto de R*$*nombre de la columna)``.

En general, para conocer la estructura de un dataframe utilizamos ``str(*nombre del dataframe como objeto de R*)``

Por otra parte, seguramente nos puede interesar obtener rápidamente el número de filas o columnas del dataframe. Para ello contamos con las funciones ``nrow(*nombre del dataframe como objeto de R*)``, ``ncol(*nombre del dataframe como objeto de R*)`` y ``dim(*nombre del dataframe como objeto de R*)``

Otra función de mucha utilidad es ``unique()``. Sirve para encontrar los elementos diferentes en un vector. 

Como las columnas de un dataframe son técnicamente vectores, nos permite hallar los elementos diferentes de una columna: ``unique(*nombre del dataframe como objeto de R*$*nombre de la columna*)``

A su vez, una función parecida es ``table()``. Esta hace lo mismo que ``unique()`` pero además nos dice cuántos registros pertenecen a cada valor único. Es decir, cuántas repeticiones tiene cada valor: ``table(*nombre del dataframe como objeto de R*$*nombre de la columna*)``

## Indexado de dataframes

Como los dataframes tienen dos dimensiones (filas y columnas), su indexado depende de dos parámetros. Es decir, de la forma ``mi_dataframe[*filas*,*columnas*]``

In [None]:
# Elegir las filas de la 100 a la 500:
mi_dataframe[100:500,]

In [None]:
# Elegir las filas 1,5 y 1000:
mi_dataframe[c(1,5,1000),]

In [None]:
# Elegir las columnas Invoice y Price
mi_dataframe[,c("Invoice","Price")] # o mi_dataframe[,c("Price","Invoice")] 

In [None]:
# Elegir las columnas 2, 5 y 7
mi_dataframe[,c(2,5,7)]

In [None]:
# Elegir las columnas 2, 5, 7 y las filas 1, 5 y 1000
mi_dataframe[c(1,5,1000),c(2,5,7)]

In [None]:
# Elegir la subtabla donde el país es Francia
mi_dataframe[mi_dataframe$Country == "France",]

In [None]:
# Elegir la subtabla donde el precio es negativo
mi_dataframe[mi_dataframe$Price < 0,]

In [None]:
# Cambiar el precio a 0 donde el precio es negativo
mi_dataframe[mi_dataframe$Price < 0,] <- 0