# Obtención de datos
 
La materia prima de los proyectos de ciencia de datos son, obviamente, los datos, por lo que la obtención de los mismos es un tema relevante. Por lo general podemos tener diversas fuentes de datos, algunos ejemplos:
* Datos libres: Son datos proporcionados por entidades gubernamentales, ONG o incluso empresas privadas, que son de uso libre para la comunidad, por ejemplo los que proporciona el [gobierno de la ciudad de buenos aires](https://data.buenosaires.gob.ar/)
* API: Cuando estamos trabajando en proyectos privados es muy común encontrarnos con API's, estas son interfaces para consumir o generar datos a una fuente específica y de forma controlada, algunas API's de libre uso son de [Twitter](https://developer.twitter.com/en/docs/twitter-api), [NASA]( https://api.nasa.gov/) e incluso video juegos como [Heartstone](https://develop.battle.net/documentation/hearthstone/game-data-apis).
* Web Scraping: Son softwares que descargan información de páginas web, generalmente simulando la navegación de un humano. Es una técnica muy usada para obtener gran cantidad de datos, sin embargo se debe de tener cuidado de que la página de la cual se están bajando datos permite el uso de esta técnica.
 

# Librerías
 
Una librería es un conjunto de funciones enfocadas a resolver una problemática en general, en algunos casos las librerías generan incluso nuevos tipos de datos, lo cual aumenta considerablemente sus funcionalidades. Estas librerías son realizadas, en su mayoría, por la misma comunidad de programadores.
 
Antes de poder usar una librería por lo general debes de instalar la misma, sin embargo, este es un paso que podemos omitir en Google Colab, gracias a que la plataforma ya cuenta con las librerías más populares preinstaladas.
 
Para poder usar una librería primero debemos decirle a python que queremos usar dicha librería, para esto usamos el comando *import*.
 
## Pandas
 
Pandas es una de las librerías más usadas para analizar y manipular datos. Nos permite trabajar con una nueva estructura de datos, los _Data Frame_, que nos permite visualizar los datos en forma de tabla. 
 
Pandas nos proporciona una gran cantidad de funciones para manipular y transformar los Data Frame de forma sencilla, rápida y cómoda, además de proporcionarnos herramientas para poder leer datos y convertirlos en Data Frames de forma automática.
 
Es muy aconsejable leer la [documentación](https://pandas.pydata.org/docs/) de Pandas ante cualquier duda, ya que la misma cuenta con una explicación detallada y ejemplos para cada función disponible. Adicionalmente a la documentación podemos ver todas las funcionalidades más comunes de la librería en su [hoja de trucos](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf). Y pueden ver [material adicional de w3school](https://www.w3schools.com/python/pandas/pandas_analyzing.asp)


## Dataset

En esta notebook comenzaremos a ver como podemos subir un dataset  hacer una una primera exploración de nuestro dataset con distintos métodos de la libreria pandas para ver el tamaño, las columnas, qué tipo de valores toma, que información incluye, qué tipos de datos hay. Intentaremos completar el archivo de Metadata con la información de cada columna.

Utilizaremos un dataset sobre Encuentros de educación ambiental extraído de https://datos.gob.ar/dataset/ambiente-encuentros-jornadas-educacion-ambiental


In [None]:
#importamos la libreria pandas que utilizaremos
import pandas as pd


### Importamos un archivo CSV (separado por comas)

Podemos leer el archivo y convertirlo en un _Data Frame_ de Pandas. Para esto usamos la función _read_csv_ y le pasamos como argumento el nombre del archivo. 
Pandas cuenta con funciones para convertir todo tipo de archivos a un _Data Frame_. [En esta sección de la documentación oficial](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html), podemos encontrar las diferentes funciones de conversión.

[Documentación de método read_csv](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html?highlight=read_csv)

Hay distintas maneras de subir un archivo a Google Colab: Desde el Drive, seleccionandolo desde la computadora o, en algunos casos, con una URL.


#### Desde el Drive

In [None]:
# Se permite desde la Notebook acceder al Drive

from google.colab import drive
drive.mount('/content/drive')

In [None]:
# usando el método read_csv se coloca la ruta copiada desde el Drive

data = pd.read_csv("ruta",  sep=";") #aclaración punto y coma en este archivo

#### Desde el archivo descargado en la computadora con las librerias **_google.colab_** y **_io_**.

Estas librerías nos ayudaran a leer el archivo que bajamos en nuestros notebook de colab.

La librería _google.colab_ se importa diferente a las demás. Esto es porque cuando sabemos específicamente la función que queremos usar de una librería, y sabemos que no necesitamos más nada de la misma, podemos llamar solo esa función en lugar de toda la librería, y de esta manera sobrecargar menos nuestro código. Por eso al escribir `from google.colab import files` estamos diciendo que, de la librería _google.colab_ solo importe la función _files_.
 
Ahora usaremos las función _files_ de la libreria _google.colab_ esta función nos permite subir un archivo al directorio de trabajo en el que se está ejecutando el notebook. Al ejecutar la celda nos aparece un botón para subir archivos, seleccionamos el archivo de arbolado y le damos a abrir. 


In [None]:
from google.colab import files
import io

In [None]:
filesUploaded = files.upload()

Saving encuentro-educacion-ambiental.csv to encuentro-educacion-ambiental.csv


In [None]:
data = pd.read_csv(io.BytesIO(filesUploaded["encuentro-educacion-ambiental.csv"]), sep=";") 


### Exploración de dataset

Hay diferentes métodos de la libreria pandas que se pueden utilizar para explorar un dataset

- *head()*: los primeros registros de un dataset
- *tail()*: los úlitmos registros de un dataset
- *sample()*: ver registros aleatoriamente

In [None]:
#Creado el objeto data, lo observamos

data

# Como el dataset es pequeño se muesta entero, sino solo muestra los primeros 5 y los últimos 5 registros

In [None]:
# Head sirve para ver las primeras filas, el parámetro dentro del paréntesis indica cuántas
# Si no se completa, por default muestra 5 filas

data.head()


In [None]:
# shape sirve para ver el tamaño del dataset. Resultado: (filas, columnas)

data.shape

In [None]:
# columns demuestra una lista con nombres de las columnas

data.columns

Para ver una sola columna, hay dos métodos: se debe poner el nombre del DataFrame (tabla) y entre corchetes el nombre de la columna entre comillas. También se puede acceder colocando el nombre de la tabla.columna 


nombre_dataset.nombre_columna

nombre_dataset["nombre_columna"]

In [None]:
data["encuentro_anio"]  # puede ser comilla simple o doble

In [None]:
data.encuentro_anio

In [None]:
# Para ver dos columnas se debe armar una lista de columnas que deseo seleccionar

data[["encuentro_anio", "encuentro_numero"]]

Dentro de un DataFrame, cada columna puede tomar distintos tipos de datos. 

- Número entero: int
- Número con decimales: float
- Cadena de caracteres: str
- Object: objeto que no es un numero: object

Dentro de una misma columna no puede haber distintos tipos de datos, por ejemplo: si casi todos los registros de una columna tienen números pero un registro tiene una cadena de carácteres, el tipo de dato es "object" y los números también son considerados como no-numéricos (no se pueden realizar operaciones matemáticas)

In [None]:
# dtypes: tipo de dato de cada columna

data.dtypes

In [None]:
#info: resumen de información general del dataset

data.info()

#### Operaciones matemáticas

Sobre un dataset se pueden realizar operaciones matemáticas utilizando métodos de la libreria pandas. Por ejemplo sumar los valores de una columna (*sum) o seleccionar el valor máximo (*max*) o mínimo (*min*)

In [None]:
# Para conocer la cantidad total de encuentros, sumamos los valores de la columan "encuentro_numero"

data["encuentro_numero"].sum()

In [None]:
# mayor cantidad de participantes
data["encuentro_participantes"].max()

In [None]:
# menor cantidad de participantes
data["encuentro_participantes"].min()

#### Valores que que toman los registros en cada columna

*unique()*: muestra los todos los valores que pueden tomar las registros de una columna

*value_counts()*: cuenta la cantidad de valores. En caso de querer saber cuantas especies existen en el Data Frame y cuantas observaciones hay de cada una podemos usar el método  _values_count_, que devuelve todos los valores distintos que existen en esa columna junto a la cantidad de veces que aparece dicho valor, todo esto ordenado de mayor a menor. 


In [None]:
# unique: para concer los valores únicos que toma una columna

data["encuentro_tematica"].unique()

In [None]:
 # value_counts(): para conocer cuantos registros(filas) hay de cada valor de una columna

 data["encuentro_tematica"].value_counts()

#### Operaciones sobre columnas

Es posible modificar el nombre de una sola columna definiendola con el método *rename* y un diccionario de lo que se desea cambiar. [Documentación método rename](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html)

En el caso que se desee modificar los nombres de todas las columnas, se puede utilizar el método *columns* con una lista de los nombres (siempre tiene que haber la misma cantidad de nombres que de columnas)

Otra acción que se puede realizar sobre una columna es eliminarla con el método *drop*. [Documentación método drop](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html?highlight=drop#pandas.DataFrame.drop)

In [None]:
renombrar = {"Encuentro_destinatarios": "encuentro_destinatario"}

data.rename(columns = renombrar, inplace=True)

# El argumento inplace indica que se haga la modificación en el mismo DataFrame que estamos utilizando, otra posiblidad sería crear un DataFrame nuevo

In [None]:
data.head(2)

In [None]:
data.columns =["anio_encuentro", "cantidad_encuentros", "cantidad_participantes", "encuentro_tematica", "destinatario"]

In [None]:
data.head(2)

In [None]:
data_con_drop = data.drop(columns="anio_encuentro")

#Sin el inplace no se modifica el DataFrame que estamos utilizando, se puede crear uno nuevo.

In [None]:
data.head(2)

### Ejercicios
 1. ¿Cuántas columnas tiene el Dataframe?

 2. Seleccionar únicamente la columna "encuentro_tematica?
 
 3. Ver los últimos 5 registros
 
 4. ¿Cuántos participantes totales hubo?
 
 5. ¿Cuáles son los posibles destinatarios?
 
 6. Completemos el archivo Metadata con la información de cada columna del dataset.