# Obtención de datos
 
La materia prima de los proyectos de análisis de datos son, obviamente, los datos, por lo que la obtención de los mismos es un tema relevante. Por lo general podemos tener diversas fuentes de datos, algunos ejemplos:
* Datos libres: Son datos proporcionados por entidades gubernamentales, ONG o incluso empresas privadas, que son de uso libre para la comunidad, por ejemplo los que proporciona el [gobierno de la ciudad de buenos aires](https://data.buenosaires.gob.ar/)
* API: Cuando estamos trabajando en proyectos privados es muy común encontrarnos con API's, estas son interfaces para consumir o generar datos a una fuente específica y de forma controlada, algunas API's de libre uso son de [Twitter](https://developer.twitter.com/en/docs/twitter-api), [NASA]( https://api.nasa.gov/) e incluso video juegos como [Heartstone](https://develop.battle.net/documentation/hearthstone/game-data-apis).
* Web Scraping: Son softwares que descargan información de páginas web, generalmente simulando la navegación de un humano. Es una técnica muy usada para obtener gran cantidad de datos, sin embargo se debe de tener cuidado de que la página de la cual se están bajando datos permite el uso de esta técnica.
 

# Librerías
 
Una librería es un conjunto de funciones enfocadas a resolver una problemática en general, en algunos casos las librerías generan incluso nuevos tipos de datos, lo cual aumenta considerablemente sus funcionalidades. Estas librerías son realizadas, en su mayoría, por la misma comunidad de programadores.
 
Antes de poder usar una librería por lo general debes de instalar la misma, sin embargo, este es un paso que podemos omitir en Google Colab, gracias a que la plataforma ya cuenta con las librerías más populares preinstaladas.
 
Para poder usar una librería primero debemos decirle a python que queremos usar dicha librería, para esto usamos el comando *import*.
 
## Pandas
 
Pandas es una de las librerías más usadas para analizar y manipular datos. Nos permite trabajar con una nueva estructura de datos, los _Data Frame_, que nos permite visualizar los datos en forma de tabla. 
 
Pandas nos proporciona una gran cantidad de funciones para manipular y transformar los Data Frame de forma sencilla, rápida y cómoda, además de proporcionarnos herramientas para poder leer datos y convertirlos en Data Frames de forma automática.
 
Es muy aconsejable leer la [documentación](https://pandas.pydata.org/docs/) de Pandas ante cualquier duda, ya que la misma cuenta con una explicación detallada y ejemplos para cada función disponible. Adicionalmente a la documentación podemos ver todas las funcionalidades más comunes de la librería en su [hoja de trucos](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf). Y pueden ver [material adicional de w3school](https://www.w3schools.com/python/pandas/pandas_analyzing.asp)


## Dataset

En esta notebook comenzaremos a ver como podemos subir un dataset y hacer una una primera exploración con distintos métodos de la libreria pandas para ver el tamaño, las columnas, qué tipo de valores toma, que información incluye, qué tipos de datos hay. 

Utilizaremos un dataset sobre el Abrbolado de la Ciudad de Buenos Aires extraído de https://data.buenosaires.gob.ar/dataset/arbolado-publico-lineal

Cada fila de este dataset representa UN Árbol


In [1]:
#importamos la libreria pandas que utilizaremos
import pandas as pd


### Importamos un archivo CSV (separado por comas)

Podemos leer el archivo y convertirlo en un _Data Frame_ de Pandas. Para esto usamos la función _read_csv_ y le pasamos como argumento el nombre del archivo. 
Pandas cuenta con funciones para convertir todo tipo de archivos a un _Data Frame_. [En esta sección de la documentación oficial](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html), podemos encontrar las diferentes funciones de conversión.

[Documentación de método read_csv](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html?highlight=read_csv)

Hay distintas maneras de subir un archivo a Google Colab: Desde el Drive, seleccionandolo desde la computadora o, en algunos casos, con una URL.


#### Desde el Drive

In [2]:
# Se permite desde la Notebook acceder al Drive

from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
# usando el método read_csv se coloca la ruta copiada desde el Drive

data = pd.read_csv("/content/drive/MyDrive/Adaptación Plataforma AP/1er Cuatrimestre/Clase 3/arbolado.csv") #aclaración punto y coma en este archivo

In [4]:
data

Unnamed: 0,long,lat,nro_registro,tipo_activ,comuna,manzana,calle_nombre,calle_altura,calle_chapa,direccion_normalizada,ubicacion,nombre_cientifico,ancho_acera,estado_plantera,ubicacion_plantera,nivel_plantera,diametro_altura_pecho,altura_arbol
0,-58.365919,-34.646233,503393,Lineal,4,181,Cerri Daniel Gral.,1100,1140.0,"CERRI, DANIEL, GRAL. 1140",LD3,Fraxinus pennsylvanica,2.4,Ocupada,Regular,A Nivel,27.0,8.0
1,-58.497062,-34.612767,301005,Lineal,10,319,González Joaquín V.,2200.0,2254.0,"GONZALEZ, JOAQUIN V. 2254",Exacta,Tilia x moltkei,3,Ocupada,Regular,Elevada,24.0,5.0
2,-58.486268,-34.640114,359842,Lineal,10,691,Olivera Av.,300.0,375.0,OLIVERA AV. 375,Exacta,Platanus x acerifolia,5.6,Ocupada,Regular,A nivel,55.0,13.0
3,-58.508980,-34.569907,438045,Lineal,12,1251A,Paz Gral. Av.,5000,5000.0,"PAZ, GRAL. AV. 5000",LA,Tipuana tipu,3.5,Ocupada,Regular,A nivel,53.0,13.0
4,-58.517621,-34.622972,297555,Lineal,10,144,Moliere,1850.0,1872.0,MOLIERE 1872,Exacta,Tilia x moltkei,6,Ocupada,Regular,A nivel,26.0,9.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4995,-58.388667,-34.615599,68768,Lineal,1,,México,1500.0,1582.0,MEXICO 1582,Exacta,Cedrus libani,3.2,Ocupada,Regular,A nivel,8.0,2.0
4996,-58.486839,-34.610247,187312,Lineal,11,,El Delta,3100.0,3150.0,EL DELTA 3150,LD,Citrus limon,1.8,Ocupada,Regular,Bajo nivel,10.0,5.0
4997,-58.434420,-34.582932,77855,Lineal,14,,Costa Rica,5500.0,5578.0,COSTA RICA 5578,Exacta,Tilia x moltkei,3.2,Ocupada,Regular,A nivel,19.0,8.0
4998,-58.367635,-34.640776,317806,Lineal,4,119,Magallanes,1200,1211.0,MAGALLANES 1211,Exacta,Robinia pseudoacacia,3.2,Ocupada,Regular,A nivel,28.0,7.0


#### Desde el archivo descargado en la computadora con las librerias **_google.colab_** y **_io_**.

Estas librerías nos ayudaran a leer el archivo que bajamos en nuestros notebook de colab.

La librería _google.colab_ se importa diferente a las demás. Esto es porque cuando sabemos específicamente la función que queremos usar de una librería, y sabemos que no necesitamos más nada de la misma, podemos llamar solo esa función en lugar de toda la librería, y de esta manera sobrecargar menos nuestro código. Por eso al escribir `from google.colab import files` estamos diciendo que, de la librería _google.colab_ solo importe la función _files_.
 
Ahora usaremos las función _files_ de la libreria _google.colab_ esta función nos permite subir un archivo al directorio de trabajo en el que se está ejecutando el notebook. Al ejecutar la celda nos aparece un botón para subir archivos, seleccionamos el archivo de arbolado y le damos a abrir. 


In [5]:
from google.colab import files
import io

In [6]:
filesUploaded = files.upload()

Saving arbolado.csv to arbolado.csv


In [7]:
data = pd.read_csv(io.BytesIO(filesUploaded["arbolado.csv"])) 


In [8]:
data

Unnamed: 0,long,lat,nro_registro,tipo_activ,comuna,manzana,calle_nombre,calle_altura,calle_chapa,direccion_normalizada,ubicacion,nombre_cientifico,ancho_acera,estado_plantera,ubicacion_plantera,nivel_plantera,diametro_altura_pecho,altura_arbol
0,-58.365919,-34.646233,503393,Lineal,4,181,Cerri Daniel Gral.,1100,1140.0,"CERRI, DANIEL, GRAL. 1140",LD3,Fraxinus pennsylvanica,2.4,Ocupada,Regular,A Nivel,27.0,8.0
1,-58.497062,-34.612767,301005,Lineal,10,319,González Joaquín V.,2200.0,2254.0,"GONZALEZ, JOAQUIN V. 2254",Exacta,Tilia x moltkei,3,Ocupada,Regular,Elevada,24.0,5.0
2,-58.486268,-34.640114,359842,Lineal,10,691,Olivera Av.,300.0,375.0,OLIVERA AV. 375,Exacta,Platanus x acerifolia,5.6,Ocupada,Regular,A nivel,55.0,13.0
3,-58.508980,-34.569907,438045,Lineal,12,1251A,Paz Gral. Av.,5000,5000.0,"PAZ, GRAL. AV. 5000",LA,Tipuana tipu,3.5,Ocupada,Regular,A nivel,53.0,13.0
4,-58.517621,-34.622972,297555,Lineal,10,144,Moliere,1850.0,1872.0,MOLIERE 1872,Exacta,Tilia x moltkei,6,Ocupada,Regular,A nivel,26.0,9.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4995,-58.388667,-34.615599,68768,Lineal,1,,México,1500.0,1582.0,MEXICO 1582,Exacta,Cedrus libani,3.2,Ocupada,Regular,A nivel,8.0,2.0
4996,-58.486839,-34.610247,187312,Lineal,11,,El Delta,3100.0,3150.0,EL DELTA 3150,LD,Citrus limon,1.8,Ocupada,Regular,Bajo nivel,10.0,5.0
4997,-58.434420,-34.582932,77855,Lineal,14,,Costa Rica,5500.0,5578.0,COSTA RICA 5578,Exacta,Tilia x moltkei,3.2,Ocupada,Regular,A nivel,19.0,8.0
4998,-58.367635,-34.640776,317806,Lineal,4,119,Magallanes,1200,1211.0,MAGALLANES 1211,Exacta,Robinia pseudoacacia,3.2,Ocupada,Regular,A nivel,28.0,7.0


Podemos utilizar directamente la URL:

In [None]:
data = pd.read_csv("https://cdn.buenosaires.gob.ar/datosabiertos/datasets/arbolado-publico-lineal/arbolado-publico-lineal-2017-2018.csv")
data

Guardandolo en los archivos de la Notebook

In [9]:
data = pd.read_csv("/content/arbolado.csv")

### Exploración de dataset

Hay diferentes métodos de la libreria pandas que se pueden utilizar para explorar un dataset

- *head()*: los primeros registros de un dataset
- *tail()*: los úlitmos registros de un dataset
- *sample()*: ver registros aleatoriamente

El parámetro dentro del paréntesis indica cuántos registos se mostrarán, por dafault son 5

In [10]:
#Creado el objeto data, lo observamos

data

# Muestra los primeros 5 y los últimos 5 registros

Unnamed: 0,long,lat,nro_registro,tipo_activ,comuna,manzana,calle_nombre,calle_altura,calle_chapa,direccion_normalizada,ubicacion,nombre_cientifico,ancho_acera,estado_plantera,ubicacion_plantera,nivel_plantera,diametro_altura_pecho,altura_arbol
0,-58.365919,-34.646233,503393,Lineal,4,181,Cerri Daniel Gral.,1100,1140.0,"CERRI, DANIEL, GRAL. 1140",LD3,Fraxinus pennsylvanica,2.4,Ocupada,Regular,A Nivel,27.0,8.0
1,-58.497062,-34.612767,301005,Lineal,10,319,González Joaquín V.,2200.0,2254.0,"GONZALEZ, JOAQUIN V. 2254",Exacta,Tilia x moltkei,3,Ocupada,Regular,Elevada,24.0,5.0
2,-58.486268,-34.640114,359842,Lineal,10,691,Olivera Av.,300.0,375.0,OLIVERA AV. 375,Exacta,Platanus x acerifolia,5.6,Ocupada,Regular,A nivel,55.0,13.0
3,-58.508980,-34.569907,438045,Lineal,12,1251A,Paz Gral. Av.,5000,5000.0,"PAZ, GRAL. AV. 5000",LA,Tipuana tipu,3.5,Ocupada,Regular,A nivel,53.0,13.0
4,-58.517621,-34.622972,297555,Lineal,10,144,Moliere,1850.0,1872.0,MOLIERE 1872,Exacta,Tilia x moltkei,6,Ocupada,Regular,A nivel,26.0,9.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4995,-58.388667,-34.615599,68768,Lineal,1,,México,1500.0,1582.0,MEXICO 1582,Exacta,Cedrus libani,3.2,Ocupada,Regular,A nivel,8.0,2.0
4996,-58.486839,-34.610247,187312,Lineal,11,,El Delta,3100.0,3150.0,EL DELTA 3150,LD,Citrus limon,1.8,Ocupada,Regular,Bajo nivel,10.0,5.0
4997,-58.434420,-34.582932,77855,Lineal,14,,Costa Rica,5500.0,5578.0,COSTA RICA 5578,Exacta,Tilia x moltkei,3.2,Ocupada,Regular,A nivel,19.0,8.0
4998,-58.367635,-34.640776,317806,Lineal,4,119,Magallanes,1200,1211.0,MAGALLANES 1211,Exacta,Robinia pseudoacacia,3.2,Ocupada,Regular,A nivel,28.0,7.0


In [None]:
data.head()


In [None]:
# shape devuelve el tamaño del dataset. Resultado: (filas, columnas). Recordemos que cada fila representa un Árbol

data.shape

In [None]:
# columns demuestra una lista con nombres de las columnas

data.columns

Para ver una sola columna, hay dos métodos: 

- Poner el nombre del DataFrame (tabla) y entre corchetes el nombre de la columna entre comillas *DataFrame["nombre_columna"]*
- Colocar el nombre del DataFrame, punto y la columna: *DataFrame.columna*


In [None]:
data["nombre_cientifico"]  # puede ser comilla simple o doble

In [None]:
data.nombre_cientifico

In [None]:
# Para ver màs de una columna se debe armar una lista de columnas que deseo seleccionar

data[["nro_registro", "nombre_cientifico"]]

Dentro de un DataFrame, cada columna puede tomar distintos tipos de datos. 

- Número entero: int
- Número con decimales: float
- Cadena de caracteres: str
- Object: objeto que no es un numero

Dentro de una misma columna no puede haber distintos tipos de datos, por ejemplo: si casi todos los registros de una columna tienen números pero un registro tiene una cadena de carácteres, el tipo de dato es "object" y los números también son considerados como no-numéricos (no se pueden realizar operaciones matemáticas)

In [None]:
# dtypes: tipo de dato de cada columna

data.dtypes

In [None]:
#info devuelve un resumen de información general del dataset

data.info()

#### Operaciones matemáticas

Sobre un dataset se pueden realizar operaciones matemáticas utilizando métodos de la libreria pandas. Por ejemplo sobre una columna es posible contar los valores (*count*), sumar los valores (*sum*) o seleccionar el valor máximo (*max*) o mínimo (*min*)

In [None]:
# Cuántos árboles hay

data["nro_registro"].count()

In [None]:
# Cuánto es la altura sumada de todos los árboles

data["altura_arbol"].sum()

In [None]:
# Cuál es la altura del árbol más alto

data["altura_arbol"].max()

In [None]:
# Cuál es la altura del árbol más bajo

data["altura_arbol"].min()

#### Valores que que toman los registros en cada columna

*unique()*: muestra los todos los valores que pueden tomar las registros de una columna

*value_counts()*: cuenta la cantidad de valores. En caso de querer saber cuantas especies existen en el Data Frame y cuantas observaciones hay de cada una podemos usar el método  _values_count_, que devuelve todos los valores distintos que existen en esa columna junto a la cantidad de veces que aparece dicho valor  ordenado de mayor a menor. 


In [None]:
# unique: para concer los valores únicos que toma una columna

data["nombre_cientifico"].unique()

In [None]:
 # value_counts(): para conocer cuantos registros(filas) hay de cada valor de una columna

data["nombre_cientifico"].value_counts()

#### Operaciones sobre columnas

Es posible modificar el nombre de una sola columna definiendola con el método *rename* y un diccionario de lo que se desea cambiar. [Documentación método rename](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html)

En el caso que se desee modificar los nombres de todas las columnas, se puede utilizar el método *columns* con una lista de los nombres (siempre tiene que haber la misma cantidad de nombres que de columnas)

Otra acción que se puede realizar sobre una columna es eliminarla con el método *drop*. [Documentación método drop](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html?highlight=drop#pandas.DataFrame.drop)

In [None]:
renombrar = {"long": "longitud"}

data.rename(columns = renombrar, inplace=True)

# El argumento inplace indica que se haga la modificación en el mismo DataFrame que estamos utilizando, otra posiblidad sería crear un DataFrame nuevo

In [None]:
data.head(2)

In [None]:
data.columns =["longitud", "latitud", "nro_registro", "tipo_activ", "comuna", "manzana","calle_nombre", "calle_altura", "calle_chapa", "direccion_normalizada",
               "ubicacion", "nombre_cientifico", "ancho_acera", "estado_plantera","ubicacion_plantera", "nivel_plantera", "diametro_altura_pecho", "altura_arbol"]

In [None]:
data.head(2)

In [None]:
data_con_drop = data.drop(columns="manzana")

#Sin el inplace no se modifica el DataFrame que estamos utilizando, se puede crear uno nuevo.

In [None]:
data.head(2)

In [None]:
data_con_drop.head(2)