FORMATO CSV
==

In [None]:
import pandas as pd 
dat_csv = pd.read_csv('datos/empleados.csv', encoding = "ISO-8859-1")
dat_csv 
 

>Si queremos que en lugar de todos los datos, se restrinja la salida a las primeras cinco filas, podemos utilizar el método head().

In [None]:
dat_csv.head() 

>En los dos casos anteriores, aparecen los elementos de la primera fila como los nombres de las columnas de datos, si no quisiéramos este comportamiento podemos agregar el atributo header = None, de la siguiente manera:

In [None]:
dat_csv = pd.read_csv('datos/empleados.csv', encoding = "ISO-8859-1", header = None)
dat_csv 

>Si quisiéramos que tomar una determinada línea como cabecera, debemos asignarle al parámetro header el número de fila correspondiente, en el siguiente ejemplo se toma la línea 3 como cabecera:

In [None]:
dat_csv = pd.read_csv('datos/empleados.csv', encoding = "ISO-8859-1", header = 3)
dat_csv 

>Por defecto, read_csv asigna un índice numérico predeterminado que comienza con cero al leer los datos. Sin embargo, es posible alterar este comportamiento pasando el nombre de la columna que utilizaremos como índice. A continuación se dejara la columna id como índice de la tabla:

In [None]:
dat_csv = pd.read_csv('datos/empleados.csv', encoding = "ISO-8859-1", index_col='id')
dat_csv

>En el caso de que queramos restringir la tabla a algunas columnas específicas, podemos realizarlo con el parámetro __usecols__ indicando en una lista las columnas seleccionadas. 

In [None]:
dat_csv  = pd.read_csv('datos/empleados.csv', encoding = "ISO-8859-1", usecols=['Nombre', 'Sueldo'])
dat_csv.head()

>Si queremos eliminar una fila en particular, podemos utilizar el parámetro skiprows, en el siguiente caso se eliminan las filas 1 y 4:

In [None]:
dat_csv  = pd.read_csv('datos/empleados.csv', encoding = "ISO-8859-1", skiprows = [1,4])
dat_csv

>Para presentar un número dado de filas desde el inicio, podemos utilizar el parámetro nrows, en el siguiente ejemplo se presentan las primeras tres filas de datos.

In [None]:
dat_csv  = pd.read_csv('datos/empleados.csv', encoding = "ISO-8859-1",  nrows=3)
dat_csv

>Para seleccionar un rango específico de filas podemos utilizar el método query especificando los límites aplicables sobre una determinada columna:

In [None]:
dat_csv  = pd.read_csv('datos/empleados.csv', encoding = "ISO-8859-1")
dat_csv.query('2 < id < 6')

>Para tratar con los datos de una columna, podemos recuperarlos dentro de una lista mediante el uso de un bucle for, y luego si es necesario convertir la lista en una array como se muestra a continuación:

In [None]:
import pandas as pd
import numpy as np
dat_csv  = pd.read_csv('datos/datos.csv', encoding = "ISO-8859-1")
datos_x = dat_csv.nombre
datos_y = dat_csv.genero
x = []
y = []
for i in dat_csv.nombre:
    x.append(i)
for j in dat_csv.genero:
    y.append(j)
print(x)    
print(y)

x_array = np.array(x)
print(type(x_array))
print(x_array)

FORMATO EXCEL
==

>En el caso de trabajar directamente con un archivo de Excel, podemos utilizar el método __read_excel()__

In [None]:
import pandas as pd 
dat_excel  = pd.read_excel('datos/empleados.xlsx') 
dat_excel.head()

FORMATO JSON
==


In [None]:
import pandas as pd
movies_json = pd.read_json('datos/json1.json')
movies_json.head()

FORMATO HTML
==

In [None]:
import pandas as pd
pd.read_html('datos/index.html')

BASE DE DATOS
==

In [None]:
import pandas as pd
import sqlite3
conn = sqlite3.connect("datos/mibase.sqlite")
df = pd.read_sql_query("SELECT * FROM producto;", conn)
df.head()

FORMATO XML
==

In [None]:
import xml.etree.cElementTree as et
parsed_xml = et.parse("datos/datos.xml")


import pandas as pd
 
def obtenerValorDeNodo(node):
    return node.text if node is not None else None
 
 
def main():
    parsed_xml = et.parse("datos/datos.xml")
    dfcols = ['nombre', 'email', 'telefono', 'calle']
    df_xml = pd.DataFrame(columns=dfcols)
 
    for node in parsed_xml.getroot():
        nombre = node.attrib.get('nombre')
        email = node.find('email')
        telefono = node.find('telefono')
        calle = node.find('direccion/calle')
 
        df_xml = df_xml.append(  pd.Series([nombre, obtenerValorDeNodo(email), 
                 obtenerValorDeNodo(telefono),  obtenerValorDeNodo(calle)], 
                 index=dfcols), ignore_index=True)
    print(df_xml) 
 
main()
