<a href="https://colab.research.google.com/github/al34n1x/DataScience/blob/master/3.Pandas/Pandas_DataLoading.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

>[Carga de datos en Panda](#scrollTo=nelHfwuqPmDH)

>[Leer y escribir datos en formato de texto](#scrollTo=BWuTIsOpoywz)

>>[Funciones](#scrollTo=vcc8_MSHtmtm)

>>[Trabajando con valores faltantes](#scrollTo=NseoQfuAPzpQ)

>>[Leer archivos de texto en partes](#scrollTo=lELr76GBRh1n)

>>[Escribiendo Datos en formato texto](#scrollTo=r31ppoPyT6vS)

>>[Formato CSV](#scrollTo=cRWqIex1hjLb)

>>[JSON Data](#scrollTo=Fumt3vFx_CnF)

>>[XML y HTML Web Scrapping](#scrollTo=RAFNinVHUZVx)

>>[Formato HDF5](#scrollTo=The4cD8zbg4-)

>>[Lectura desde archivos Microsoft Excel](#scrollTo=OOyHUIhxddJW)

>>[Interactuando con APIs](#scrollTo=fTfC_zNBgRGY)

>>[Interactuando con Base de Datos](#scrollTo=PdIyYXWNhY18)



# Carga de datos en Pandas

Como hemos discutdo, acceder a los datos es un importantísimo primer paso proceder con su análisis. 
La entrada y salida de de datos generalmente se pueden dividir en las siguientes categorías, leer archivos de texto u otro formato (csv, tabulado, etc)cargar datos desde una base de datos, e interactuar con recursos de red como puede ser una página web o una interface API.




# Leer y escribir datos en formato de texto

Pandas posee muchas herramientas para leer archivos tabulados e insertarlos en un objeto dataframe. 
Algunas de las funciones con las que trabajarás son **read_csv** y **read_table** 



## Funciones 

Aquí algunas funciones ampliamente utilizadas for Pandas que serán de utilidad para el desarrollo de las actividades.




Función | Descripción
--- | ---
**read_csv** | Cargue datos delimitados de un archivo, URL u objeto similar a un archivo; usar coma como delimitador predeterminado
**read_table** | Cargue datos delimitados de un archivo, URL u objeto similar a un archivo; use tab ('\ t') como delimitador predeterminado
**read_fwf** | 	Leer datos en formato de columna de ancho fijo, (es decir, sin delimitadores
**read_clipboard** | Versión de read_table que lee datos del portapapeles; útil para convertir tablas de páginas web
**read_excel** | Leer datos tabulares de un archivo Excel XLS o XLSX
**read_hdf** | Leer archivos HDF5 escritos por pandas
**read_html**| Leer todas las tablas encontradas en un documento HTML dado
**read_json**	| Leer datos de una representación de cadena JSON (JavaScript Object Notation)
**read_msgpack**|Leer datos de pandas codificados con el formato binario MessagePack
**read_pickle**|Leer un objeto arbitrario almacenado en formato Python pickle
**read_sas**|Leer un conjunto de datos almacenado en uno de los formatos de almacenamiento personalizados del sistema SAS
**read_sql**|Lea los resultados de una consulta SQL (usando SQLAlchemy) como un DataFrame de pandas
**read_stata**|Leer un conjunto de datos del formato de archivo Stata
**read_feather**|Lea el formato de archivo binario Feather





Los argumentos opcionales para estas funciones pueden caer en alguna de estás categorías:

**Indexación**
Puede tratar una o más columnas como el DataFrame devuelto, y si desea obtener nombres de columna del archivo, el usuario, o no obtenerlos.

**Inferencia de tipos y conversión de datos**
Esto incluye las conversiones de valores definidos por el usuario y la lista personalizada de marcadores de valores faltantes.

**Análisis de fecha y hora**
Incluye la capacidad de combinación, incluida la combinación de información de fecha y hora distribuida en varias columnas en una sola columna en el resultado.

**Iterando**
Soporte para iterar sobre fragmentos de archivos muy grandes.

**Problemas de datos sucios/ruido**
Saltar filas o un pie de página, comentarios u otras cosas menores como datos numéricos con miles separados por comas.

In [None]:
import pandas as pd
import os
file = os.path.join('./sample_data/california_housing_train.csv') #Define el path al archivo
df = pd.read_csv(file)
df

In [None]:
pd.read_table('./sample_data/california_housing_train.csv', sep=',') # También podemos usar read_table con un delimitador

Podemos eliminar los headers utilizando el parámetro correspondiente **header=none**

In [None]:
df = pd.read_csv('./sample_data/california_housing_train.csv', header=None, names=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i'])
df

In [None]:
df2 = df.drop(index=0) #Eliminamos la primera fila que nos había quedado con los headers originales 
df2

Podemos crear índices jerárquicos desde multiples columnas o nombres

In [None]:
df3 = pd.read_csv('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/Herarchical_index.csv')
df3 

In [None]:
df_parsed = pd.read_csv('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/Herarchical_index.csv',
                        index_col=['key1', 'key2'])
df_parsed

En algunas situaciones nos encontraremos con archivos que no estan delimitados por comas. en dichos casos, podemos pasar expresioner regulares como delimitadores de la función **read_table**. En el siguiente caso importaremos un archivo con espacios en blanco como delimitador  

In [None]:
df4 = pd.read_table('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/file_spaces.txt', sep='\s+') #Le pasamos el delimitador
df4

Que sucede cuando nos encontramos con archivos que poseen datos innecesarios? 

In [None]:
df5 = pd.read_csv('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/file_comments.csv')
df5

In [None]:
df5 = pd.read_csv ('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/file_comments.csv', skiprows=[0,2,3])
df5

## Trabajando con valores faltantes

El manejo de valores perdidos es una parte importante y frecuentemente matizada del proceso de análisis de archivos. Los datos que faltan generalmente no están presentes o están marcados por algún valor de referencia. Por defecto, Pandas usa un conjunto de referencia comunes, como NA y NULL:

In [None]:
df6 = pd.read_csv('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/missing_values.csv')
df6

In [None]:
pd.isnull(df6)

También podemos agregar valores de referencia y anidarlos como diccionarios por columnas y filas. 

In [None]:
sentinels = {'message': ['foo', 'NA'], 'something': ['two']}
pd.read_csv('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/missing_values.csv', na_values=sentinels)


## Leer archivos de texto en partes

Cuando procesamos archivos muy grandes o descubres el conjunto correcto de argumentos para procesar correctamente un archivo grande, es posible que solo desees leer en una pequeña parte de un archivo o iterar a través de fragmentos más pequeños del mismo.

Antes de mirar un archivo grande, hacemos que la configuración de visualización de pandas sea más compacta:

In [None]:
pd.options.display.max_rows = 10

In [None]:
df7 = pd.read_csv('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/big_file.csv')
df7

In [None]:
df7 = pd.read_csv('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/big_file.csv', nrows=5) #Definimos número de filas
df7

Para poder leer un archivo en diferentes trozos, se debe especificar el parámetro **chunksize** como el número de filas.

In [None]:
import pandas as pd
chunk = pd.read_csv('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/big_file.csv', chunksize=1000)
chunk

In [None]:
for i in chunk:
  print(i)

In [None]:
tot = pd.Series([]) # Creamos un objeto serie
for piece in chunk: #iteramos
    tot = tot.add(piece['key'].value_counts(), fill_value=0) #vamos agregando los valores de chunk en la serie

tot = tot.sort_values(ascending=False)
tot[:10] # Mostramos los primeros 10

## Escribiendo Datos en formato texto

Los datos pueden ser exportados en formato delimitado, por ejemplo consideremos el siguiente archivo de lectura. Tanto los DataFrame como las Series permiten exportar el resultado con el método **.to_csv**


In [None]:
data = pd.read_csv('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/missing_values.csv')
data

Usando el método Dataframe a csv podemos escribir datos a archivos delimitados por coma.



In [None]:
data.to_csv ('./sample_data/missing_values_out.csv')

In [None]:
!cat './sample_data/missing_values_out.csv'

Podemos utilizar otros delimitadores utilizando el método Python **sys.stdout** para imprimir el resultado por consola.

In [None]:
import sys
data.to_csv(sys.stdout, sep='|')

Adicionalmente, se puede especificar nulos en aquellos valores faltantes.

In [None]:
data.to_csv(sys.stdout, na_rep='NULL')

## Formato CSV

Los archivos CSVs suelen venir en diferentes formatos. Se puede definir un formato con diferente delimitadores, convención de cadenas, o terminadores de lineas mediante la implementación de una sublcase. 



In [None]:
import csv
class my_dialect(csv.Dialect):
    lineterminator = '\n'
    delimiter = ','
    quotechar = '"'
    quoting = csv.QUOTE_MINIMAL #add quote only when required
f = open('./sample_data/missing_values_out.csv')
reader = csv.reader(f, dialect=my_dialect)

for line in reader:
  print(line)





Para escribir archivos delimitados de forma manual puedes usar el método **csv.writer**. Accepta los mismo tipos de archivos, dialectos y opciones de formato que el método **csv.reader**


In [None]:
with open('./sample_data/missing_values_out.csv', 'w') as f:
    writer = csv.writer(f, dialect=my_dialect)
    writer.writerow(('one', 'two', 'three'))
    writer.writerow(('1', '2', '3'))
    writer.writerow(('4', '5', '6'))
    writer.writerow(('7', '8', '9'))
  

In [None]:
!cat './sample_data/missing_values_out.csv'

## JSON Data

JSON (abreviatura de JavaScript Object Notation) se ha convertido en uno de los formatos estándar para enviar datos por solicitud HTTP entre navegadores web y otras aplicaciones. Es un formato de datos mucho más libre que un formulario de texto tabular como CSV. 
Al trabajar con archivos en format JSON puedes utilizar infindad de herramientas para evaluar la correcta redacción del código, por ejemplo [JSON Formatter](https://jsonformatter.curiousconcept.com/) 
Aquí hay un ejemplo:

```
{
   "nombre":"Wes",
   "lugares_donde_vivio":[
      "United States",
      "Spain",
      "Germany"],

   "mascotas":null,
   "hermanos":[
      {
         "nombre":"Willy",
         "edad":30,
         "mascotas":[
            "Zeus",
            "Zuko"]
      },
      {
         "nombre":"Wonka",
         "edad":38,
         "mascotas":[
            "Sixes",
            "Stache",
            "Cisco"]
      
      }
   
    ]
}

```




In [None]:
obj = """
{"nombre": "Wes",
 "lugares_donde_vivio": ["United States", "Spain", "Germany"],
 "mascotas": null,
 "hermanos": [{"nombre": "Willy", "edad": 30, "mascotas": ["Zeus", "Zuko"]},
              {"nombre": "Wonka", "edad": 38,
               "mascotas": ["Sixes", "Stache", "Cisco"]}]
}
"""


JSON es casi un código de Python válido con la excepción de su valor nulo y algunos otros matices (como no permitir las comas finales al final de las listas). 
Los tipos básicos son objetos, matrices, cadenas, números, booleanos y nulos. 
Todas las claves en un objeto deben ser cadenas. Hay varias bibliotecas de Python para leer y escribir datos JSON. Usaremos json aquí, ya que está integrado en la biblioteca estándar de Python. Para convertir una cadena JSON a Python, usa **json.loads**:

In [None]:
import json
resultado = json.loads(obj) # importamos el objeto con los datos en formato json
resultado

El método **json.dumps** convierte un objeto Python a JSON

In [None]:
asjson = json.dumps(resultado)

Convertir un objeto JSON o una lista de objetos en un DataFrame o alguna estructura depende del desarrollador. 
Convenientemente, puede pasar una lista de dictados (que anteriormente eran objetos JSON) al constructor DataFrame y seleccionar un subconjunto de los campos de datos:

In [None]:
hermanos = pd.DataFrame(resultado['hermanos'], columns=['nombre', 'edad'])
hermanos

Asimismo puedes leer un archivo en formato JSON y convertirlo directamente a un objeto DataFrame mediante el método **pd.read_json**

In [None]:
data = pd.read_json('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/ejemplo.json')
data

## XML y HTML Web Scrapping

Python tiene muchas librerías para leer y escribir datos en formatos HTML y XML. Los ejemplos incluyen **lxml**, **Beautiful Soup** y **html5lib**. Si bien **lxml** es comparativamente mucho más rápido en general, las otras bibliotecas pueden manejar mejor los archivos HTML o XML con formato incorrecto.

Pandas tiene una función incorporada, **read_html**, que usa librerías como **lxml** y **Beautiful Soup** para analizar automáticamente tablas de archivos HTML como objetos DataFrame. 



Para demostrar cómo funciona esto, descargaremos un archivo HTML  de la agencia gubernamental de la FDIC de los Estados Unidos que muestra las quiebras bancarias.


In [None]:
tablas = pd.read_html('https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/informacion_fdic.html')
len(tablas)

In [None]:
tablas[0].head()

**XML (eXtensible Markup Language)** es otro formato común de datos estructurados que admite datos jerárquicos y anidados con metadatos. 

Es similar a HTML en su apariencia, pero XML se usa para la presentación de datos, mientras que HTML se usa para definir qué datos se están usando. XML está diseñado exclusivamente para enviar y recibir datos entre clientes y servidores.

Anteriormente, se mostró la función **pandas.read_html**, que usa lxml o Beautiful Soup debajo del capó para analizar datos de HTML. XML y HTML son estructuralmente similares, pero XML es más general. 

En el siguiente ejemplo tomaremos un DataSet del *New York Metropolitan Transportation Authority (MTA)* que publica información sobre los servicios de Bus y Trenes.

In [None]:
from urllib.request import urlopen #Importamos Librería de manejo de URL 
from xml.etree.ElementTree import parse #Importamos Librería de gestión de formato XML 
from lxml import objectify


var_url = urlopen("https://raw.githubusercontent.com/al34n1x/DataScience/master/3.Pandas/mta_performance.xml")
xmldoc = objectify.parse(var_url)
root = xmldoc.getroot()
data = []

skip_fields = ['PARENT_SEQ', 'INDICATOR_SEQ',
               'DESIRED_CHANGE', 'DECIMAL_PLACES']





**root.INDICATOR** devuelve un generador para cada elemento <INDICADOR> XML. Para cada entrada, podemos obtener dicho diccionario de los tags como YTD_ACTUAL. 


In [None]:
for elt in root.INDICATOR:  # Iteramos sobre el archivo XML y los diferentes Tags
    el_data = {}
    for child in elt.getchildren():
        if child.tag in skip_fields:
            continue
        el_data[child.tag] = child.pyval
    data.append(el_data) # Agregamos contenidos en la variable data

perf = pd.DataFrame(data) # Convertimos data a un DataFrame
perf.head()


## Formato HDF5

HDF5 es un formato de archivo ampliamente utilizado  destinado a almacenar grandes cantidades de datos científicos. Está disponible como una biblioteca C y tiene interfaces disponibles en muchos otros lenguajes, incluidos Java, Julia, MATLAB y Python. 
"HDF" en HDF5 significa formato de datos jerárquico. 
Cada archivo HDF5 puede almacenar múltiples conjuntos de datos y metadatos compatibles. En comparación con formatos más simples, HDF5 admite la compresión sobre la marcha con una variedad de modos de compresión, lo que permite que los datos con patrones repetidos se almacenen de manera más eficiente. HDF5 puede ser una buena opción para trabajar con conjuntos de datos muy grandes que no caben en memoria, ya que puede leer y escribir eficientemente pequeñas secciones de conjuntos mucho más grandes.

Pandas proporciona una interfaz de alto nivel que simplifica el almacenamiento de objetos Series y DataFrame en dicho formato. La clase HDFStore funciona como un dict y maneja los detalles de bajo nivel:




In [None]:
import pandas as pd
import numpy as np
df = pd.DataFrame({'a': np.random.randn(100)})
df

In [None]:
almacenamiento = pd.HDFStore('./sample_data/mydata.h5')
almacenamiento['obj1'] = df
almacenamiento

In [None]:
almacenamiento['obj1'] #Los objetos almacenados en HDF5 pueden ser obtenidos mediante el mismo dict

HDFStore soporta dos tipos de esquema de almaceiamiento **Fijo** y **Tabla**, siendo el último más lento, pero soporta operaciones de consulta usando syntax especial 


In [None]:
almacenamiento.put('obj2', df, format='table')
almacenamiento.select('obj2', where=['index >= 10 and index <= 15'])

La función **pandas.read_hdf** provee un shortcut a estas herramientas 


In [None]:
df.to_hdf('./sample_data/mydata_2.h5', 'obj3', format='table')
pd.read_hdf('./sample_data/mydata_2.h5', 'obj3', where=['index < 5'])

## Lectura desde archivos Microsoft Excel

Pandas también admite la lectura de datos tabulares almacenados en archivos Excel 2003 (y superiores) utilizando la clase **ExcelFile** o la función **pandas.read_excel**. Internamente, estas herramientas utilizan los paquetes complementarios **xlrd** y **openpyxl** para leer archivos XLS y XLSX, respectivamente. 

In [None]:
xlsx = pd.ExcelFile('https://github.com/al34n1x/DataScience/blob/master/3.Pandas/sample.xlsx?raw=true')
df = pd.read_excel(xlsx, 'Sheet1')
df

Para escribir datos Pandas a formato Excel debes primero crear un ExcelWriter, luego escribir los datos utilizando objetos Pandas a métodos excel




In [None]:
writer = pd.ExcelWriter('./sample_data/sample_output.xlsx')
df.to_excel(writer,'sheet1')
writer.save()

## Interactuando con APIs

Muchos sitios web tienen API públicas que proporcionan datos a través de JSON o algún otro formato. Hay varias formas de acceder a estas API desde Python; Un método fácil de usar que recomiendo es el paquete **requests**

In [None]:
import requests
'''
La siguiente API nos da los últimos 30 issues de Pandas en Github.
Podemos utilizar un método GET HTTP para poder hacernos de la información
'''
url = 'https://api.github.com/repos/pandas-dev/pandas/issues' 
resp = requests.get(url)
resp



In [None]:
datos = resp.json()
datos[0]['title']

In [None]:
issues = pd.DataFrame(datos, columns=['number', 'title',
                  'labels', 'state'])
issues

## Interactuando con Base de Datos

En un entorno empresarial, es posible que la mayoría de los datos no se almacenen en archivos de texto o Excel. Las bases de datos relacionales basadas en SQL (como Oracle, SQL Server, PostgreSQL y MySQL) se usan ampliamente, y muchas bases de datos alternativas se han vuelto bastante populares. 

Cargar datos de SQL en un DataFrame es bastante sencillo, y Pandas tiene algunas funciones para simplificar el proceso. 

In [None]:
import sqlite3

#Creamos una tabla en una base de datos sqlite3

query = """
    CREATE TABLE test 
    ( a VARCHAR(20), 
      b VARCHAR(20),
      c REAL, 
      d INTEGER
    );"""

con = sqlite3.connect('mydata.sqlite')
con.execute(query)



In [None]:
con.commit()

In [None]:
datos = [('Buenos Aires', 'La Plata', 1.25, 6),
              ('Mendoza', 'Ciudad de Mendoza', 2.6, 3),
              ('San Luis', 'San Luis', 1.7, 5)]


query = "INSERT INTO test VALUES(?, ?, ?, ?)"

con.executemany(query, datos)
con.commit()

In [None]:
cursor = con.execute('select * from test')
filas = cursor.fetchall()
filas

Esto es un poco molesto, asumimos que el desarrollador no prefiere repetir estos pasos cada vez que consulta la base de datos. 
El proyecto **SQLAlchemy** es un popular kit de herramientas Python SQL que abstrae muchas de las diferencias comunes entre las bases de datos SQL. 
Pandas tiene una función **read_sql** que le permite leer datos fácilmente desde una conexión SQLAlchemy general. 

In [None]:
!pip install --upgrade 'sqlalchemy<2.0'

In [None]:
import sqlalchemy as sqla
db = sqla.create_engine('sqlite:///mydata.sqlite')
'''
Hacemos un query a la base de datos seleccionando todo 
en la tabla test y se lo asignamos al DataFrame df
'''
df = pd.read_sql('select * from test where b = \'La Plata\' ', db)
df

# Uso de clases de datos para crear modelos de base de datos en Python

En Python, las clases de datos son una forma de definir clases simples para almacenar datos. Se definen utilizando el decorador `@dataclass` y el módulo dataclasses, que se introdujo en Python 3.7.

Una clase de datos se define como una clase normal de Python pero con el decorador @dataclass aplicado.

In [None]:
from dataclasses import dataclass
from sqlalchemy import Column, Integer, String
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import Session
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker

Base = declarative_base()

@dataclass
class Person(Base):
    __tablename__ = 'person'
    id = Column(Integer, primary_key=True)
    name = Column(String)
    age = Column(Integer)

In [None]:
engine = create_engine('sqlite:///test.db')
Base.metadata.create_all(bind=engine)
Session = sessionmaker(bind=engine)
session = Session()

In [None]:
p1 = Person(name="John", age=30)
session.add(p1)
p2 = Person(name="John2222", age=3000)
session.add(p2)
session.commit()


In [None]:
all_persons = session.query(Person).all()
for user in all_persons:
    print(user.name, user.age)

In [None]:
# Usando df podemos hacer la misma consulta
df = pd.read_sql('select * from person where name = \'John\' ', engine)
df