---
Escuela de Ingeniería de Sistemas y Computación  
Universidad del Valle  
INTRODUCCIÓN A LA PROGRAMACIÓN PARA ANALÍTICA  
Profesor: Ph.D, Robinson Duque - robinson.duque@correounivalle.edu.co  
Última modificación: Julio de 2020

---

# Consideraciones:

Este material presenta textos y ejemplos orientados al propósito del curso de _Introducción a la Programación para Analítica_ de la Universidad del Valle.   Parte de los textos y ejemplos incluidos en este notebook de Introducción a Pandas fueron tomados y ajustados de los libros: 
* [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/index.html) de Jake VanderPlas disponible en GitHub. La obra está bajo una licencia CC-BY-NC-ND que permite: copiar y redistribuir el material, bajo la condicion de reconocer y dar crédito al autor original (Jake VanderPlas).

* [Manual de Python](https://aprendeconalf.es/python/manual/) de Alfredo Sánchez Alberca. La obra está bajo una licencia Atribución–No comercial–Compartir igual 4.0 Internacional de Creative Commons que permite: copiar y redistribuir el material en cualquier medio o formato, remezclar, transformar y construir a partir del material. 

Este material presenta cambios dirigidos hacia textos orientados a la versión 3.0 de Python, para lo cual se han incluido nuevos ejemplos y se proponen ejercicios para validar los conocimientos de los estudiantes orientados al propósito del curso de _Introducción a la Programación para Analítica_ de la Universidad del Valle.

---

# Vínculos de interés:

* [Guía de Usuario de Numpy](https://numpy.org/devdocs/user/quickstart.html )

* [Guía de Usuario de Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html)

* [Guía de Matplotlib](https://matplotlib.org/users/index.html)

* [Kaggle: Your Machine Learning and Data Science Community](https://www.kaggle.com)

---

# Dataframes en Pandas - Atributos

Existen varias propiedades asociadas a algunas características de un DataFrame:
> * `df.shape` : Devuelve una tupla con el número de filas y columnas del DataFrame `df`.
> * `df.size` : Devuelve el número de elementos del DataFrame.
> * `df.columns` : Devuelve una lista con los nombres de las columnas del DataFrame `df`.
> * `df.index` : Devuelve una lista con los nombres de las filas del DataFrame `df`.
> * `df.dtypes` : Devuelve una serie con los tipos de datos de las columnas del DataFrame `df`.


Para explorar estas funcionalidades, tomaremos algunos datasets de  www.datos.gov.co. Iniciaremos con un dataset relacionado con el **Registro nacional de accidentes de transito** diponible en [este enlace](https://www.datos.gov.co/Transporte/Registro-nacional-de-accidentes-de-transito/jb4r-tjbv).

* Detalle del registro nacional de accidentes de tránsito para el año 2010
* Actualizado:16 de agosto de 2017
* Datos proporcionados por: Ministerio de Transporte

In [None]:
import pandas as pd

In [None]:
df=pd.read_csv("Registro_nacional_de_accidentes_de_transito.csv")
df.head()

In [None]:
df.shape

In [None]:
df.size

In [None]:
df.columns

In [None]:
df.index

In [None]:
df.dtypes

# Dataframes en Pandas - Algunos métodos útiles
>
> * `df.info( )` : Devuelve información (número de filas, número de columnas, índices, tipo de las columnas y memoria usado) sobre el DataFrame df.
> * `df.describe(include = tipo)`: Devuelve un DataFrame con un resumen estadístico de las columnas del DataFrame df del tipo tipo. Para los datos numéricos (number) se calcula la media, la desviación típica, el mínimo, el máximo y los cuartiles de las columnas numéricas. Para los datos no numéricos (object) se calcula el número de valores, el número de valores distintos, la moda y su frecuencia. Si no se indica el tipo solo se consideran las columnas numéricas.
> * `df.head(n)` : Devuelve las n primeras filas del DataFrame df.
> * `df.tail(n)` : Devuelve las n últimas filas del DataFrame df.

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.head(3)

In [None]:
df.tail(4)

# Renombrar columnas o índices

* `df.rename(columns=columnas, index=filas)`: Devuelve el DataFrame que resulta de renombrar las columnas indicadas en las claves del diccionario columnas con sus valores y las filas indicadas en las claves del diccionario filas con sus valores en el DataFrame df

In [None]:
df.columns

In [None]:
df.rename(columns={"identiaccidentalidad":"idacc", 
                   "codigodepartamentoalfanumerico2":"cod_dpt",
                  "codigomunicipioalfanumerico5":"cod_m",
                  "nivelriesgoproducto":"nivel_r",
                  "departamento":"dpt"},
         inplace=True)

#Cuidado por defecto la actualización no se hace 'inplace'
df.head()

In [None]:
#También se pueden actualizar los índices
df.rename(index={0:12345,
                1:34579},
         inplace=True)
df.head()

Revisemos si idacc puede ser utilizado como índice (la idea es que sean valores únicos no nulos). Aunque el índice también podría contener valores repetidos.

In [None]:
df["idacc"].unique().shape

In [None]:
df["idacc"].isna().sum()

In [None]:
df.set_index("idacc",inplace=True)


#Otra posible forma de hacerlo:
#df.rename(index=df["idacc"], inplace=True)

# Otra posible forma de hacerlo antes de
#df.index = df["idacc"]
#del df["idacc"]

df.head()

# Acceso a elementos del dataframe
## Acceso a columnas
* `df[columna]` : Devuelve una serie con los elementos de la columna de nombre `columna` del DataFrame `df`
* `df[ [columnas] ]` : Devuelve una serie con los elementos de las columnas de la lista `columnas` del DataFrame `df`
* `df.columna` : Devuelve una serie con los elementos de la columna de nombre `columna` del DataFrame `df`. Es similar al método anterior pero solo funciona cuando el nombre de la columna no tiene espacios en blanco.

In [None]:
df["dpt"]

In [None]:
df[["dpt","municipio"]]

In [None]:
df.dpt

## Acceso a filas
* `df.iloc[i, j]` : Devuelve el elemento que se encuentra en la fila `i` y la columna `j` **(valores implícitos)** del DataFrame `df`. Pueden indicarse secuencias de índices o slices para obtener partes del DataFrame.
* `df.loc[filas, columnas]` : Devuelve un DataFrame con los elementos de las filas de la lista `filas` y de las columnas de la lista `columnas` **(valores expícitos)**.

* `df[columna][filas]` : Devuelve una serie con los elementos de la columna de nombre `columna` del DataFrame `df` con las filas especificadas en `filas` **(las filas deben ser especificadas con el id explícito. Para slicing, funciona con el id implicito lo cual suele ser confuso)**. Hay varias formas de hacerlo sin generar dudas:
   * df[columna].iloc[filas]
   * df[columna].loc[filas]
* `df[ [columnas] ].iloc[filas]` : igual a la anterior pero con listas de columnas
* `df[ [columnas] ].loc[filas]`: igual a la anterior pero con listas de columnas

In [None]:
df.head()

In [None]:
df.iloc[0,1]

In [None]:
df.loc[15218,"cod_dpt"]

In [None]:
df.iloc[1:4, [3,4] ]

In [None]:
df.loc[46849:5694, ["cod_m","municipio"] ]

In [None]:
df["dpt"][4544]

In [None]:
df["dpt"][ [4544,62240]] 

In [None]:
df["dpt"][0:2]

In [None]:
df["dpt"].loc[46849:5694]

In [None]:
df[["dpt","municipio"]].loc[46849:5694]

In [None]:
df["dpt"].iloc[1:4]

In [None]:
df[["dpt","municipio"]].iloc[1:4]

# Algunas operaciones de limpieza/ajuste de datos

Observa los `dtypes` referentes a las columnas `fecha` y `hora`. Deberían tener algún tipo de formato referente a fechas y tiempo...

In [None]:
df.info()

Algunas funciones/métodos diponibles que pueden servir para hacer este tipo de tareas son:
* `df.astype(dtype)`: permite convertir un Dataframe o Serie a el tipo `dtype` indicado.
* `pd.to_datetime(Serie)`: permite convertir una Serie a formato `datetime64`
* `pd.to_numeric(Serie)`: permite convertir una Serie a formato numérico. El valor de retorno por defecto es `float64` o `int64` dependiendo de los datos.
* `pd.to_timedelta(Serie)`:  permite convertir una Serie a formato `timedelta` (o diferencia absoluta entre dos tiempos expresada en unidades (e.g. days, hours, minutes, seconds). 

Acá les presento un resumen de los tipos de datos disponibles:

| Pandas dtype | Python type  | NumPy type                                                     | Usage                                        |
|--------------|--------------|----------------------------------------------------------------|----------------------------------------------|
| object       | str or mixed | string_, unicode_, mixed types                                 | Text or mixed numeric and non-numeric values |
| int64        | int          | int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64 | Integer numbers                              |
| float64      | float        | float_, float16, float32, float64                              | Floating point numbers                       |
| bool         | bool         | bool_                                                          | True/False values                            |
| datetime64   | NA           | datetime64                                                     | Date and time values                         |
| timedelta    | NA           | NA                                                             | Differences between two datetimes            |
| category     | NA           | NA                                                             | Finite list of text values                   |

In [None]:
df["fecha"]

In [None]:
df.dtypes

In [None]:
df["fecha"] = df["fecha"].astype('datetime64')

#Otra forma de hacerlo
#df["fecha"] = pd.to_datetime(df["fecha"])

In [None]:
df.dtypes

Observe ahora el formato de la columna `hora`:

In [None]:
df["hora"]

In [None]:
df["hora"].iloc[0] #Observa que la hora está como un string

- La hora se puede ajustar de varias formas, exploraremos dos de ellas, para lo cual haremos una copia de la colunna hora y la llamaremos "hora_copia"

In [None]:
df["hora_copia"] = df["hora"]

In [None]:
#Trataremos de hacer una conversión a tipo timedelta.
df["hora_copia"] = pd.to_timedelta(df["hora_copia"]) #Esto genera un error. 
#- Si lees el error entenderás que el formato esperado es hh:mm:ss.
#- Los datos que tenemos están en formato hh:mm. Podemos entonces agregarle un extra ":00" a cada valor

In [None]:
df["hora_copia"] = df["hora_copia"]+":00"
df["hora_copia"]

In [None]:
#Intentamos nuevamente:
df["hora_copia"] = pd.to_timedelta(df["hora_copia"]) #Ya funciona 

In [None]:
df["hora_copia"]

In [None]:
df.dtypes #Observa que "hora_copia" ahora es de tipo timedelta64 y podrá ser utilizado para 
          #realizar filtros con fechas

- Esa fue una forma de hacerlo. Vamos a ver otra forma de hacerlo modificando la columna "hora"

- Ninguna de las funciones por defecto nos permitirán convertir, sin embargo, podemos crear nuestra propia función y utilizar la función `apply`:

In [None]:
from datetime import date, time, datetime

def ajustarHora(h): 
    s = h.split(":")
    return time(hour= int(s[0]), minute=int(s[1]))


df["hora"]=df["hora"].apply(ajustarHora)

In [None]:
df["hora"].iloc[0] #Observa ahora que cada dato es un time

In [None]:
df.info() #No obstante la columna "hora" es un objeto object. 
          #Los datos ahora son comparables respecto al tiempo y podrán ser utilizados en máscaras,
          #sin embargo, es posible que al ser una columna tipo object no se utilicen funciones vectorizadas
          #por defecto.

- **Lo ideal** es utilizar el primer enfoque que se utilizó con la columna "hora_copia"