---
Escuela de Ingeniería de Sistemas y Computación  
Universidad del Valle  
INTRODUCCIÓN A LA PROGRAMACIÓN PARA ANALÍTICA  
Profesor: Ph.D, Robinson Duque - robinson.duque@correounivalle.edu.co  
Última modificación: Julio de 2020

---

# Consideraciones:

Este material presenta textos y ejemplos orientados al propósito del curso de _Introducción a la Programación para Analítica_ de la Universidad del Valle.   Parte de los textos y ejemplos incluidos en este notebook de Introducción a Pandas fueron tomados y ajustados de los libros: 
* [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/index.html) de Jake VanderPlas disponible en GitHub. La obra está bajo una licencia CC-BY-NC-ND que permite: copiar y redistribuir el material, bajo la condicion de reconocer y dar crédito al autor original (Jake VanderPlas).

* [Manual de Python](https://aprendeconalf.es/python/manual/) de Alfredo Sánchez Alberca. La obra está bajo una licencia Atribución–No comercial–Compartir igual 4.0 Internacional de Creative Commons que permite: copiar y redistribuir el material en cualquier medio o formato, remezclar, transformar y construir a partir del material. 

Este material presenta cambios dirigidos hacia textos orientados a la versión 3.0 de Python, para lo cual se han incluido nuevos ejemplos y se proponen ejercicios para validar los conocimientos de los estudiantes orientados al propósito del curso de _Introducción a la Programación para Analítica_ de la Universidad del Valle.

---

# Vínculos de interés:

* [Guía de Usuario de Numpy](https://numpy.org/devdocs/user/quickstart.html )

* [Guía de Usuario de Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html)

* [Guía de Matplotlib](https://matplotlib.org/users/index.html)

* [Kaggle: Your Machine Learning and Data Science Community](https://www.kaggle.com)

---

# Tipos de Datos en Pandas

>Como pudimos ver, `Pandas` dispone de las siguientes estructuras para el manejo de datos:
>
> * **Series**: Estructura de una dimensión.
> * **DataFrame**: Estructura de dos dimensiones (tablas).

# Dataframes en Pandas
>
> * Conjuntos de datos estructurados en forma de tabla
> * Cada columna es una `Serie` homogénea
> * Cada fila es una `Serie`, usualmente heterogénea
> * Maneja índices para las columnas
> * Maneja índices para las filas
> * Las estructuras están basadas en los `ndarrays` de una dimensión de `Numpy`, por lo cual podrán acceder a funciones Universales o vectorizadas (al igual que en Numpy)
> * Tamaño mutable (se pueden agregar filas y columnas)


## Creación de un Dataframe - diccionario de listas

Para crear un DataFrame a partir de un diccionario cuyas claves son los nombres de las columnas y los valores son listas con los datos de las columnas se utiliza el método:

* `DataFrame(data=diccionario, index=filas, columns=columnas, dtype=tipos)` : Devuelve un objeto del tipo `DataFrame` cuyas columnas son las listas contenidas en los valores del diccionario `diccionario`, los nombres de filas indicados en la lista `filas`, las columnas indicadas en la lista `columnas` y los tipos indicados en la lista `tipos`. 

La lista filas tiene que tener el mismo tamaño que las listas del diccionario, mientras que las listas columnas y tipos tienen que tener el mismo tamaño que el diccionario. 

Si no se pasa la lista de filas se utilizan como nombres los enteros empezando en 0. Si no se pasa la lista de columnas se utilizan como nombres las claves del diccionario. Si no se pasa la lista de tipos, se infiere.

In [None]:
import pandas as pd
import numpy as np

In [None]:
datos = {
 'nombre':['María', 'Luis', 'Carmen', 'Antonio'],
 'edad':[18, 22, 20, 21],
 'grado':['Economía', 'Medicina', 'Arquitectura', 'Economía'],
 'correo':['maria@gmail.com', 'luis@yahoo.es', 'carmen@gmail.com', 'antonio@gmail.com']
}

In [None]:
df = pd.DataFrame(datos)
df.head()

In [None]:
df.dtypes

In [None]:
df = pd.DataFrame(datos, index = ["a","b","c","d"])
df.head()

In [None]:
del df["edad"]
df

## Creación de un Dataframe - listas de listas

In [None]:
l = [
    [3793, 'New York', 'USA', 'New York', 8008278],
    [3794, 'Los Angeles', 'USA', 'California', 3694820],
    [3795, 'Chicago', 'USA', 'Illinois', 2896016],
    [3796, 'Houston', 'USA', 'Texas', 1953631],
    [3797, 'Philadelphia', 'USA', 'Pennsylvania', 1517550],
    [3798, 'Phoenix', 'USA', 'Arizona', 1321045],
    [3799, 'San Diego', 'USA', 'California', 1223400],
    [3800, 'Dallas', 'USA', 'Texas', 1188580],
]

df = pd.DataFrame( l, columns=['ID', 'Name', 'CountryCode', 'District', 'Population'])
df.head()

In [None]:
df.set_index(df["ID"], inplace=True)
del df["ID"]
df

## Creación de un Dataframe - listas de diccionarios

In [None]:
l =[
    {'Name': 'New York', 'CountryCode': 'USA', 'Population': 8008278, 'ID': 3793, 'District': 'New York'},
    {'Name': 'Los Angeles', 'CountryCode': 'USA', 'Population': 3694820, 'ID':3794, 'District': 'California'},
    {'Name': 'Chicago', 'CountryCode': 'USA', 'Population': 2896016, 'ID': 3795, 'District': 'Illinois'},
    {'Name': 'Houston', 'CountryCode': 'USA', 'Population': 1953631, 'ID': 3796, 'District': 'Texas'},
    {'Name': 'Philadelphia', 'CountryCode': 'USA', 'Population': 1517550, 'ID': 3797, 'District': 'Pennsylvania'},
    {'Name': 'Phoenix', 'CountryCode': 'USA', 'Population': 1321045, 'ID': 3798, 'District': 'Arizona'},
    {'Name': 'San Diego', 'CountryCode': 'USA', 'Population': 1223400, 'ID': 3799, 'District': 'California'},
    {'Name': 'Dallas', 'CountryCode': 'USA', 'Population': 1188580, 'ID': 3800, 'District': 'Texas'}
]

df = pd.DataFrame(l)
df

In [None]:
df.set_index(df["ID"], inplace=True)
del df["ID"]
df

## Carga de datos desde un archivo CSV o Excel

Dependiendo del tipo de fichero, existen distintas configuraciones para importar un DataFrame:

* `read_csv(fichero.csv, sep=separador, header=n, index_col=m, decimal=separador-decimal)` : Devuelve un objeto del tipo `DataFrame` con los datos del fichero CSV `fichero.csv` usando como separador de los datos la cadena `separador`. Como nombres de columnas se utiliza los valores de la fila `n` y como nombres de filas los valores de la columna `m`. Si no se indica `m` se utilizan como nombres de filas los enteros empezando en `0`.  Para los datos numéricos se utiliza como separador de decimales el carácter indicado en `separador-decimal`.

* `read_excel(fichero.xlsx, sheet_name=hoja, header=n, index_col=m, decimal=separador-decimal)` : Devuelve un objeto del tipo `DataFrame` con los datos de la hoja de cálculo `hoja` del fichero Excel `fichero.xlsx`. Como nombres de columnas se utiliza los valores de la fila `n` y como nombres de filas los valores de la column `m`. Si no se indica `m` se utilizan como nombres de filas los enteros empezando en `0`. Para los datos numéricos se utiliza como separador de decimales el carácter indicado en `separador-decimal`.

In [None]:
df = pd.read_csv("population.csv")
df.head()

In [None]:
df = pd.read_csv("population.csv", index_col="ID")
df.head()

In [None]:
df = pd.read_csv("population2.csv")
df.head()

In [None]:
df = pd.read_csv("population2.csv", sep=";", index_col="ID")
df.head()

In [None]:
df = pd.read_csv("population3.csv", sep=";")
df.head()

In [None]:
df.dtypes

In [None]:
df = pd.read_csv("population3.csv", sep=";", thousands="." , index_col="ID")
df.head()

In [None]:
df.dtypes

In [None]:
df = pd.read_csv("population4.csv", sep=";")
df.head()

In [None]:
df = pd.read_csv("population4.csv", sep=";", 
                 thousands=",", decimal=".", index_col="ID")
df.head()

In [None]:
df.dtypes

## Carga de datos desde un archivo JSON


In [None]:
df = pd.read_json("population5.json")
df.head()

## Almacenamiento de datos en disco
Existen funciones para exportar un DataFrame a un fichero con diferentes formatos:

* `df.to_csv(fichero.csv, sep=separador, columns=booleano, index=booleano)` : Exporta el DataFrame `df` al fichero `fichero.csv` en formato CSV usando como separador de los datos la cadena `separador`. Si se pasa `True` al parámetro `columns` se exporta también la fila con los nombres de columnas y si se pasa `True` al parámetro `index` se exporta también la columna con los nombres de las filas.

* `df.to_excel(fichero.xlsx, sheet_name = hoja, columns=booleano, index=booleano)` : Exporta el DataFrame df a la hoja de cálculo hoja del fichero `fichero.xlsx` en formato Excel.

* `df.to_json(fichero.json, index=booleano)` : Exporta el DataFrame `df` al fichero `fichero.jscon` en formato JSON.

In [None]:
df.to_csv("prueba.csv", index=False)
df.to_json("prueba.json", date_format='iso')