# Pandas

Tiempo estimado: **20** minutos.

## Objetivos

Después de completar este laboratorio será capas de:

*   Capturar datos de diferentes formas.
*   Obtener información de los datos con la biblioteca de Pandas.

## Tabla de contenidos
- [Adquisición de datos](#adquisición-de-datos)
- [Información básica de los conjuntos de datos](#información-básica-de-los-conjuntos-de-datos)
---

# Adquisición de datos

Existen varios formatos en que se pueden presentar los conjuntos de datos o *dataset*: .csv, .json, .xlsx, entre otros. Los conjuntos de datos pueden estar almacenados en diferentes lugares, en la máquina local o en algún lugar de la red (LAN, Internet, Nube).

En esta sección se aprenderá como cargar estos conjuntos de datos dentro de Jupyter Notebook o Python.

Para este laboratorio se va a trabajar con un conjunto de datos automovilístico que se encuentra disponible en línea, el cual, está con un formato CSV (del inglés, comma separated value). Se usará este conjunto de datos como ejemplo para practicar la lectura de datos.

- Fuente de datos: https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data
- Tipo de datos: csv

La biblioteca **Pandas** es una herramienta util que permite leer diversos conjuntos de datos y convertirlos en un **dataframe**; para trabajar con *Jupyter* notebook*, el intérprete de *Python* o *Visual Studio Code* se debe instalar la biblioteca de pandas previamente, de manera tal, que cuando se importe la biblioteca no genere un mensaje de error porque no la encuentra. 

Por ejemplo, en una terminal escribir lo siguiente: `pip install pandas`

In [None]:
# importa las bibliotecas pandas y numpy
import pandas as pd
import numpy as np

## Leer datos

Se utilizará la función `pandas.read_csv()` para leer el archivo *csv*. Entre los paréntesis, se pone el encaminamiento hacia el archivo de entrada entre comillas dobles. De esta forma **pandas** leerá el archivo y lo pondrá en un *dataframe*. El encaminamiento o *path* puede ser, ya sea, una dirección *url* o una dirección a un archivo local en la máquina de trabajo.

Como los datos en el archivo de entrada no incluyen los encabezados, se puede agregar el argumento `headers = None` dentro del método `read_csv()` para que **pandas** no configure de forma automática que la primera fila corresponde al encabezado de los datos en el archivo de entrada.

El conjunto de datos se puede asignar a alguna variable para su creación.

In [None]:
# Lee el archivo de entrada y lo asigna a la variable "df"
ubicacion = "./datos/auto.csv"
df = pd.read_csv(ubicacion, header=None)

Después de leer el conjunto de datos, se puede empezar a utilizar el método `dataframe.head(n)` para verificar las primeras `n` filas del *dataframe*, donde `n` es un entero. Por otro lado, el método `dataframe.tail(n)` mostrará las últimas `n` filas del *dataframe*.


In [None]:
# muestra las primeras 5 filas usando el método dataframe.head()

print("Las primeras 5 filas del dataframe") 
df.head(5)

#### **Pregunta 1:**
**Muestre las últimas 10 filas del dataframe "df".**

In [None]:
# Escriba su código a continuación y presiones Shift+Enter para ejecutarlo 


Doble click **aquí** para ver la solución

<!--
print("Las últimas 10 filas del dataframe\n")
df.tail(10)
-->

### Agrega encabezados

Al observar el conjunto de datos leído se puede notar que **Pandas** automáticamente le asigna un encabezado con números enteros comenzando desde el 0.

Para una mejor descripción de los datos de entrada, se puede agregar un encabezado. Esta información está disponible en: [https://archive.ics.uci.edu/ml/datasets/Automobile](https://archive.ics.uci.edu/ml/datasets/Automobile).

Así, se podría agregar manualmente un encabezado.

Primero, se crea una lista "encabezado" que incluye todos los nombres de columnas en orden. Entonces, se utiliza `dataframe.columns = encabezado` para reemplazar los encabezados numéricos con la lista ya creada.

In [None]:
# crea una lista con el encabezado
encabezado = ["symboling","normalized-losses","make","fuel-type","aspiration","num-of-doors","body-style", "drive-wheels","engine-location","wheel-base","length","width","height","curb-weight","engine-type","num-of-cylinders","engine-size","fuel-system","bore","stroke","compression-ratio","horsepower","peak-rpm","city-mpg","highway-mpg","price"]
print("headers\n", encabezado)

Se reemplaza el encabezado y se verifica que la tarea se realizó con éxito en el dataframe:

In [None]:
df.columns = encabezado
df.head(47)

Ahora se necesita reemplazar los signos de interrogación **?** con **NaN** así el método `dropna()` puede remover los valores perdidos.:


In [None]:
df1=df.replace('?',np.NaN)
df1.head(47)

Así, ahora se pueden liberar los valores perdidos a lo largo de la columna **precio** como se muestra a continuación.


In [None]:
df=df1.dropna(subset=["price"], axis=0)
df.head(47)

Hasta aquí, se ha leído correctamente el conjunto de datos sin procesar y se le ha agregado su correspondiente encabezado en el dataframe.


#### **Pregunta 2:**
**Averigüe como mostrar el nombre de las columnas del dataframe.**

In [None]:
# Escriba su código a continuación y presiones Shift+Enter para ejecutarlo 


Doble click **aquí** para ver la solución

<!--python

print(df.columns)

-->

## Guardar un conjunto de datos
La biblioteca **Pandas** también provee la manera de salvar el conjunto de datos en un archivo con formato **csv**. Utilizando el método `dataframe.to_csv()`, se debe agregar la dirección y nombre del archivo entre comillas dobles dentro de los paréntesis.

Por ejemplo, si se quisiera guardar el dataframe `df` como `automoviles.csv` a un directorio de la máquina local, Se debe usar la sintaxis mostrada a continuación, donde `index = False` significa que el nombre de las columnas no será escrito.

In [None]:
df.to_csv("./datos/automoviles.csv", index=False)

También se pueden leer y guardar archivos con otros formatos. Se pueden usar funciones similares a  `pd.read_csv()` y `df.to_csv()` para otros formatos de datos. Estas funciones están listadas en la tabla que está a continuación.

## Leer/Guardar en otros formatos de datos

| Data Formate |        Read       |            Save |
| ------------ | :---------------: | --------------: |
| csv          |  `pd.read_csv()`  |   `df.to_csv()` |
| json         |  `pd.read_json()` |  `df.to_json()` |
| excel        | `pd.read_excel()` | `df.to_excel()` |
| hdf          |  `pd.read_hdf()`  |   `df.to_hdf()` |
| sql          |  `pd.read_sql()`  |   `df.to_sql()` |
| ...          |        ...        |             ... |


# Información básica de los conjuntos de datos

Después de leer los datos en un dataframe **Pandas**, es tiempo de explorar el conjunto de datos.

Existen varias formas de obtener la información esencial de los datos para ayudarnos a entender mejor el conjunto de datos.

## Tipos de datos

Los datos tienen una variedad de tipos.

El principal tipo de datos almacenados en una dataframe de **Pandas** son **object**, **float**, **int**, **bool** y **datetime64**. Para entender mejor acerca de cada atributo, es siempre bueno conocer el tipo de datos de cada columna. En **Pandas** se utiliza el atributo `dtypes`.


Así, una serie con los tipos de datos de cada columna es retornado.


In [None]:
# Verifica el tipo de datos del dataframe "df" usando .dtypes
print(df.dtypes)

Como se muestra arriba, se puede ver claramente que el tipo de datos de las columnas **symboling** y **curb-weight** son `int64`, **normalized-losses** es `object`, y **wheel-base** es `float64`, entre otros.

Esos tipos de datos pueden ser cambiados; aprenderemos a hacer esto en el siguiente laboratorio.


## Descripción

Si quisiéramos tener un resumen estadístico de cada columna, por ejemplo, la cantidad, el promedio de la columna la desviación estándar de la columna, entre otros, se debe utilizar el método `.describe()`.


Este método proveerá un resumen de varios datos estadísticos de cada columna, excluyendo los valores `NaN` (Not a Number).


In [None]:
df.describe()

Esto muestra el resumen estadístico de toda las columnas que son de tipo numérico (int, float).

Por ejemplo, el atributo **symboling** tiene 205 elementos, el valor promedio de esta columna es 0.83, la desviación estándar es 1.25, El valor mínimo es -2, el percentil del 25% es 0, el percentil del 50% es 1, el percentil del 75% es 2, y el valor máximo es 3.

Sin embargo, que pasa si se quiere chequear todas las columnas, incluyendo esas que son del tipo `object`.

Se puede agregar un argumento `include = "all"` dentro de los paréntesis. Probemos.


In [None]:
# descrive todas las columnas en "df" 
df.describe(include = "all")

Aquí, se muestra el resumen estadístico de todas las columnas, incluyendo las columnas que son del tipo `object`.

Así, se puede observar cuantos valores hay que son únicos, Cual valor es el top y la frecuencia de ese valor top en las columnas que son del tipo `object`.

Algunos valores en la tabla de arriva se muestran como **NaN**. Esto es porque esos números no están disponiblescon respecto al tipo particular de alguna columna.

### **Pregunta 3**

Se puede seleccionar la columna de un *dataframe* indicando el nombre de la columna. Por ejemplo, se pueden seleccionar tres columnas de la siguiente manera.

`dataframe[[' columna 1 ',columna 2', 'columna 3']]`

Donde "columna" es el nombre de la columna, así se puede aplicar el método `.describe()` para obtener las estadísticas de esas columnas como se muestra a continuación.

`dataframe[[' columna 1 ',columna 2', 'columna 3'] ].describe()`

Entonces, aplique el método `.describe()` a las columnas **length** y **compression-ratio**.


In [None]:
# Escriba su código a continuación y presiones Shift+Enter para ejecutarlo 


Doble click **aquí** para ver la solución

<!--python

df[['length', 'compression-ratio']].describe()

-->

## Información

Otro método que se puede utilizar para verificar el conjunto de datos es, `dataframe.info()`.


Este provee un resumen consiso del DataFrame.

Este método imprime información acerca de un DataFrame incluyendo los índices `dtype` y columnas, valores no-nulos y uso de la memoria.


In [None]:
# muestra la información del "df"

df.info()