FORMATO CSV
==

In [1]:
import pandas as pd # Importamos pandas con el alias, que es "pd"

# Ahora, lo que hacemos es crear un dataframe (una clase de pandas)
# pd.read_csv: lee un archivo.
# con "delimiter" puedo cambiar el delimitador. delimiter = ";"
# tiene el atributo del encoding
    # Aomprende el español: vocales con acento y 'ñ'
dat_csv = pd.read_csv('empleados.csv', encoding = "ISO-8859-1") 

# Visualizamos el contenido, en forma de tabla.
# la tabla es una representacion grafica del dataframe 
# CSV = "Comma Separated Values" = "Valores separados por comas"
dat_csv 
 

Unnamed: 0,id,Nombre,Sexo,Sueldo
0,1,Juan,m,10000
1,2,Ramón,m,20000
2,3,Anna,f,10500
3,4,Julieta,f,13000
4,5,Pablo,m,30000
5,6,Pedro,m,10500
6,7,Gaby,f,11000
7,8,Cecilia,f,27000


>Si queremos que en lugar de todos los datos, se restrinja la salida a las primeras cinco filas, podemos utilizar el método head().

In [2]:
type(dat_csv) # me dice que estamos trabajando con un
              # dataframe de Pandas

pandas.core.frame.DataFrame

In [3]:
dat_csv.head() # vemos los primeros 5 elementos (1, 2, 3, ...)

Unnamed: 0,id,Nombre,Sexo,Sueldo
0,1,Juan,m,10000
1,2,Ramón,m,20000
2,3,Anna,f,10500
3,4,Julieta,f,13000
4,5,Pablo,m,30000


>En los dos casos anteriores, aparecen los elementos de la primera fila como los nombres de las columnas de datos, si no quisiéramos este comportamiento podemos agregar el atributo header = None, de la siguiente manera:

In [4]:
dat_csv = pd.read_csv('empleados.csv', encoding = "ISO-8859-1", header = None)
dat_csv 
# en este caso es incorrecto, pero eventualmente 
# queremos que esa primera linea no sean headers

Unnamed: 0,0,1,2,3
0,id,Nombre,Sexo,Sueldo
1,1,Juan,m,10000
2,2,Ramón,m,20000
3,3,Anna,f,10500
4,4,Julieta,f,13000
5,5,Pablo,m,30000
6,6,Pedro,m,10500
7,7,Gaby,f,11000
8,8,Cecilia,f,27000


>Si quisiéramos que tomar una determinada línea como cabecera, debemos asignarle al parámetro header el número de fila correspondiente, en el siguiente ejemplo se toma la línea 3 como cabecera:

In [5]:
dat_csv = pd.read_csv('empleados.csv', encoding = "ISO-8859-1", header = 3)
dat_csv 

Unnamed: 0,3,Anna,f,10500
0,4,Julieta,f,13000
1,5,Pablo,m,30000
2,6,Pedro,m,10500
3,7,Gaby,f,11000
4,8,Cecilia,f,27000


>Por defecto, read_csv asigna un índice numérico predeterminado que comienza con cero al leer los datos. Sin embargo, es posible alterar este comportamiento pasando el nombre de la columna que utilizaremos como índice. A continuación se dejara la columna id como índice de la tabla:

In [6]:
dat_csv = pd.read_csv('empleados.csv', encoding = "ISO-8859-1", index_col='id')
dat_csv
# antes teníamos que id era un atributo, pero ahora el index

Unnamed: 0_level_0,Nombre,Sexo,Sueldo
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Juan,m,10000
2,Ramón,m,20000
3,Anna,f,10500
4,Julieta,f,13000
5,Pablo,m,30000
6,Pedro,m,10500
7,Gaby,f,11000
8,Cecilia,f,27000


>En el caso de que queramos restringir la tabla a algunas columnas específicas, podemos realizarlo con el parámetro __usecols__ indicando en una lista las columnas seleccionadas.

In [7]:
# A veces no nos interesan todos los datos. Usando el usecols, doy una lista
# de strings que se corresponden con los datos que necesito
dat_csv  = pd.read_csv('empleados.csv', encoding = "ISO-8859-1", usecols = ['Nombre', 'Sueldo'])
dat_csv.head()


Unnamed: 0,Nombre,Sueldo
0,Juan,10000
1,Ramón,20000
2,Anna,10500
3,Julieta,13000
4,Pablo,30000


>Si queremos eliminar una fila en particular, podemos utilizar el parámetro skiprows, en el siguiente caso se eliminan las filas 1 y 4:

In [8]:
# Lo mismo podemos hacer con las filas
dat_csv  = pd.read_csv('empleados.csv', encoding = "ISO-8859-1", skiprows = [1,4])
dat_csv

Unnamed: 0,id,Nombre,Sexo,Sueldo
0,2,Ramón,m,20000
1,3,Anna,f,10500
2,5,Pablo,m,30000
3,6,Pedro,m,10500
4,7,Gaby,f,11000
5,8,Cecilia,f,27000


>Para presentar un número dado de filas desde el inicio, podemos utilizar el parámetro nrows, en el siguiente ejemplo se presentan las primeras tres filas de datos.

In [9]:
dat_csv  = pd.read_csv('empleados.csv', encoding = "ISO-8859-1",  nrows = 3)
dat_csv


Unnamed: 0,id,Nombre,Sexo,Sueldo
0,1,Juan,m,10000
1,2,Ramón,m,20000
2,3,Anna,f,10500


>Para seleccionar un rango específico de filas podemos utilizar el método query especificando los límites aplicables sobre una determinada columna:

In [10]:
# Puedo hacerle consultas al dataframe con el método query
dat_csv  = pd.read_csv('empleados.csv', encoding = "ISO-8859-1")
dat_csv.query('2 < id < 6') # -> recordar que id era un atributo de los datos

Unnamed: 0,id,Nombre,Sexo,Sueldo
2,3,Anna,f,10500
3,4,Julieta,f,13000
4,5,Pablo,m,30000


>Para tratar con los datos de una columna, podemos recuperarlos dentro de una lista mediante el uso de un bucle for, y luego si es necesario convertir la lista en una array como se muestra a continuación:

In [11]:
import pandas as pd
import numpy as np
dat_csv  = pd.read_csv('datos.csv', encoding = "ISO-8859-1")

datos_x = dat_csv.nombre # estoy copiando las columnas
datos_y = dat_csv.sexo

# Lo imprimo para mirar--
# -----------------------
print(datos_x)
print('\n')

print(datos_y)
print('\n')
# -----------------------
# -----------------------

x = []
y = []

# append() agrega el elemento completo al final de la lista

for i in dat_csv.nombre:
    x.append(i)
    
for j in dat_csv.sexo:
    y.append(j)

print(x)    
print(y)
print('\n')

# Las transformo en array de NumPy
# Lo que nos permite hacer es el pasaje a Numpy, que es nuestra interfaz
# numérica que tenemos para manejar con los modelos
# => es necesario hacer el pasaje
x_array = np.array(x)
print(type(x_array))
print(x_array)


0       Juan
1      Pedro
2    Marcelo
3       Anna
Name: nombre, dtype: object


0    m
1    m
2    m
3    f
Name: sexo, dtype: object


['Juan', 'Pedro', 'Marcelo', 'Anna']
['m', 'm', 'm', 'f']


<class 'numpy.ndarray'>
['Juan' 'Pedro' 'Marcelo' 'Anna']


FORMATO EXCEL
==

>En el caso de trabajar directamente con un archivo de Excel, podemos utilizar el método __read_excel()__

In [12]:
dat_exc  = pd.read_excel('empleados.xlsx') # No entiende el encoding!!!
dat_exc

Unnamed: 0,id,Nombre,Sexo,Sueldo
0,1.0,Juan,m,10000.0
1,2.0,Ramón,m,20000.0
2,3.0,Anna,f,10500.0
3,4.0,Julieta,f,13000.0
4,5.0,Pablo,m,30000.0
5,6.0,Pedro,m,10500.0
6,7.0,Gaby,f,11000.0
7,8.0,Cecilia,f,27000.0
8,,,,
9,,,,


FORMATO JSON
==

>Json es un formato nativo de Javascript que se popularizó y ahora se utiliza como interfaz en un monton de otros lenguajes. La estructura de los datos es un poquito más compleja

In [13]:
import pandas as pd
movies_json = pd.read_json('json1.json')
movies_json.head()

Unnamed: 0,nombre,edad,estado_civil,esposo,hijos,autos
0,Ana,33,True,Pablo,Cecilia,"{'modelo': 'Ford', 'color': 'rojo'}"
1,Ana,33,True,Pablo,Luis,"{'modelo': 'Chevrolet', 'color': 'azul'}"


FORMATO HTML
==

In [14]:
import pandas as pd
pd.read_html('index.html')

[    0       1     2       3
 0  id  Nombre  Sexo  Sueldo
 1   1    Anna     f   10000]

BASE DE DATOS
==

>Una base de datos es una recopilacion de elementos (de datos) con relaciones predefinidas entre ellos. Entonces: los datos están organizados en tablas, y estas tablas tienen relaciones entre ellas.

In [15]:
import pandas as pd
import sqlite3 # Hace una llamada a sql 
conn = sqlite3.connect("mibase.sqlite") # -> puedo conectar con mi BD
df = pd.read_sql_query("SELECT * FROM producto;", conn)
df.head()

Unnamed: 0,id,nombre,sexo
0,1,Pedro,m
1,2,Anna,f
2,3,Celeste,f


FORMATO XML
==

>También es un formato de etiquetas. De hecho, el formato HTML es un caso especial del XML

In [16]:
#import xml.etree.cElementTree as et # Elemnt tree del módulo XML
import pandas as pd

# Definimos una función
def obtenerValorDeNodo(node):
    return node.text if node is not None else None
 
# Definimos la función main
def main():
    parsed_xml = et.parse("datos.xml") # Parseamos el archivo en cuestion
    dfcols = ['nombre', 'email', 'telefono', 'calle'] # Nosotros nos quedemos quedar con estas columnas
    df_xml = pd.DataFrame(columns = dfcols) # creamos un dataframe de Pandas
 
    for node in parsed_xml.getroot():
        nombre = node.attrib.get('nombre') # estaba como atributo de la etiqueta "cliente"
        email = node.find('email')
        telefono = node.find('telefono')
        calle = node.find('direccion/calle')
 
        df_xml = df_xml.append(  pd.Series([nombre, obtenerValorDeNodo(email), obtenerValorDeNodo(telefono),  obtenerValorDeNodo(calle)], index = dfcols), ignore_index=True)
    print(df_xml) 
 
main()

# The frame.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.


NameError: name 'et' is not defined