---
Escuela de Ingeniería de Sistemas y Computación  
Universidad del Valle  
INTRODUCCIÓN A LA PROGRAMACIÓN PARA ANALÍTICA  
Profesor: Ph.D, Robinson Duque - robinson.duque@correounivalle.edu.co  
Última modificación: Julio de 2020

---

# Consideraciones:

Este material presenta textos y ejemplos orientados al propósito del curso de _Introducción a la Programación para Analítica_ de la Universidad del Valle.   Parte de los textos y ejemplos incluidos en este notebook de Introducción a Pandas fueron tomados y ajustados de los libros: 
* [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/index.html) de Jake VanderPlas disponible en GitHub. La obra está bajo una licencia CC-BY-NC-ND que permite: copiar y redistribuir el material, bajo la condicion de reconocer y dar crédito al autor original (Jake VanderPlas).

* [Manual de Python](https://aprendeconalf.es/python/manual/) de Alfredo Sánchez Alberca. La obra está bajo una licencia Atribución–No comercial–Compartir igual 4.0 Internacional de Creative Commons que permite: copiar y redistribuir el material en cualquier medio o formato, remezclar, transformar y construir a partir del material. 

Este material presenta cambios dirigidos hacia textos orientados a la versión 3.0 de Python, para lo cual se han incluido nuevos ejemplos y se proponen ejercicios para validar los conocimientos de los estudiantes orientados al propósito del curso de _Introducción a la Programación para Analítica_ de la Universidad del Valle.

---

# Vínculos de interés:

* [Guía de Usuario de Numpy](https://numpy.org/devdocs/user/quickstart.html )

* [Guía de Usuario de Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html)

* [Guía de Matplotlib](https://matplotlib.org/users/index.html)

* [Kaggle: Your Machine Learning and Data Science Community](https://www.kaggle.com)

---

# Pandas: Manejo y Análisis de Datos Estructurados

Las principales características de esta librería son:

* Define nuevas estructuras de datos basadas en los **ndarrays** de la librería `NumPy` pero con nuevas funcionalidades.
* Permite procesar datos heterogéneos
* Permite leer y escribir fácilmente ficheros en formato CSV, JSON, Excel y bases de datos SQL.
* Permite acceder a los datos mediante índices o nombres para **filas** y **columnas**.
* Ofrece métodos para reordenar, dividir y combinar conjuntos de datos.
* Permite trabajar con series temporales.
* Realiza todas estas operaciones de manera muy eficiente (funciones vectorizadas).

## Ejemplo rápido
> Carguemos nuestro archivos CSV de población utilizando pandas y revisemos rápidamente. Para esto incluiremos la librería `pandas`:


In [None]:
import pandas as pd

df = pd.read_csv("population.csv", index_col="ID")
df.head()

In [None]:
print(type(df))

In [None]:
print(type(df["Name"]))

## Tipos de Datos en Pandas

>Como pudimos ver, `Pandas` dispone de las siguientes estructuras para el manejo de datos:
>
> * **Series**: Estructura de una dimensión.
> * **DataFrame**: Estructura de dos dimensiones (tablas).

## Series en Pandas
>
> * Son estructuras similares a los `ndarrays` de una dimensión en `Numpy` 
> * Pueden ser heterogéneas u homogéneas. Sólo las series homogéneas podrán acceder a funciones Universales o vectorizadas (al igual que en Numpy)
> * Tamaño inmutable, es decir, no se puede cambiar, aunque si su contenido.
> * Dispone de un índice que asocia un nombre a cada elemento de la serie (similar a un diccionario), a través de la cuál se accede al elemento.
> * Uso de índices implícitos y explícitos


> ### Creación de series a partir de listas en Python (listas especializadas)
> `Series(data=lista, index=indices, dtype=tipo)` : Devuelve un objeto de tipo `Series` con los datos de la lista `lista`, las filas especificadas en la lista `indices` y el tipo de datos indicado en `tipo`. 
>
> Si no se pasa la lista de índices se utilizan como índices los enteros del `0` al `n−1`, done `n` es el tamaño de la serie. Si no se pasa el tipo de dato se infiere.

In [None]:
#Creación de series a partir de listas en python (índices por defecto)
dias = pd.Series(["lunes","martes","miercoles","jueves","viernes"])
print(dias)
print(dias[2:4])
print(dias.size)
print(dias.index)
print(dias.dtype)

In [None]:
s = pd.Series(['Matemáticas', 'Historia', 'Economía', 'Programación', 'Inglés'], 
              dtype='string')
print(s)
print(s.size)
print(s.index)
print(s.dtype)

In [None]:
dias = pd.Series(["lunes","martes","miercoles","jueves","viernes"],
                 index = [2,3,1,1,5] )

#Observa que pueden haber índices repetidos
print(dias)
print("\n",dias[1])
print(dias.size)
print(dias.index)
print(dias.dtype)

> ### Creación de series a partir de diccionarios en Python (diccionarios especializados)
> `Series(data=diccionario, index=indices)` : Devuelve un objeto de tipo `Series` con los valores del diccionario `diccionario` y las filas especificadas en la lista `indices`. 

In [None]:
d = {'California': 38332521, 
     'Texas': 26448193,
    'New York': 19651127,
    'Florida': 19552860,
    'Illinois': 12882135}

s = pd.Series( d )
print(s)

print(s["California"]) #Índice explícito
print(s[0])   #Índice implícito


> ### Acceso a elementos de una serie
> * `s[i]` : Devuelve el elemento que ocupa la posición `i+1` en la serie `s` si no hay índices explícitos, de lo contrario retornará el valor con índice `i`.
> * `s[nombres]`: Devuelve una serie con los elementos asociados a los nombres de la lista `nombres` en el índice.

In [None]:
dias = pd.Series(["lunes","martes","miercoles","jueves","viernes"],
                 index = [2,3,1,1,5] )

In [None]:
print(dias[2]) #Índice explícito
print(dias[[2,1]]) #Índices explícitos
print(dias[0:2]) #Índices implícitos

In [None]:
print(dias[2:4]) #La operación de slicing puede ser confusa 
                 #(en este caso funciona con los índices implícitos en Pandas)

In [None]:
print(dias.iloc[2:4]) #iloc (implicit location) permite hacer slicing sobre los 
                      # índices implícitos en Pandas

In [None]:
print(dias.loc[3:5]) #loc (location) permite hacer slicing sobre los índices 
                     # explícitos en la creación del array (note ambos valores incluidos)

In [None]:
print(dias.loc[2:1]) 