###### Introducción a la Ciencia de los Datos, CIDE (Profesor Gonzalo Castañeda)
# P7. Lectura y almacenamiento de archivos en Pandas
### Basado en: McKinney, Wes. 2018. “Python for Data Analysis. Data Wrangling with Pandas, NumPy, and IPython”, 2a edición, California USA: O’Reilly Media, Inc.
Cap. 6

## 1. Lectura de datos en formato cvs y texto

### Los métodos más comunes para leer datos en formato tabular a través de DataFrame son: read_cvs y read_table, pero hay  otros

![image.png](attachment:image.png)   ![image-2.png](attachment:image-2.png)

### Veamos un primer ejemplo

In [1]:
import pandas as pd                  # Importamos pandas

### Podemos poner la dirección de la compu en donde esta el archivo a leer:

In [None]:
# Veamos primero el archivo, la primera fila corresponde a nombres de las columnas

In [2]:
!type ex1.csv                     

/bin/bash: línea 0: type: ex1.csv: no encontrado


In [3]:
df = pd.read_csv('ex1.csv')

In [4]:
df                            # En este caso se lee como una DataFrame

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


### O bien, podemos subir el archivo CSV deseado al dashboard de Jupyter

In [None]:
df = pd.read_csv('ex1.csv') 

In [None]:
df                            

In [None]:
pd.read_table('ex1.csv')     # Otra alternativa sería usar un formato tabla sencillo

In [None]:
pd.read_table('ex1.csv', sep=',')   # Conviene especificar que la coma opera como un delimitador

### En ocasiones el archivo a leer no tiene un renglón de 'cabecera' (header) 

In [None]:
 # Veamos primero el archivo

In [5]:
!type ex2.csv                

/bin/bash: línea 0: type: ex2.csv: no encontrado


In [6]:
pd.read_csv('ex2.csv', header=None)  # Hay que especificar que no existe y así evitar que tome a la 1 fila como cabecera 

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [None]:
pd.read_csv('ex2.csv', names=['a', 'b', 'c', 'd', 'message'])  # Podemos especificar nombres para las columnas

In [None]:
name = ['a', 'b', 'c', 'd', 'message']       # Si queremos que la columna de mensajes sea nuestro índice

In [None]:
pd.read_csv('ex2.csv', names=name, index_col='message')    # Tenemos que expecificar que columna es el índice

### Si tenemos un archivo texto, necesitamos establecer un delimitador

In [None]:
# Veamos primero el archivo txt

In [7]:
!type ex3.txt

/bin/bash: línea 0: type: ex3.txt: no encontrado


In [8]:
list(open('ex3.txt'))                       # También lo podemos leer como una lista 

['            A         B         C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 'ccc -0.264273 -0.386314 -0.217601\n',
 'ddd -0.871858 -0.348382  1.100491\n']

In [9]:
result = pd.read_table('ex3.txt', sep='\s+')      # Le damos el formato deseado en una tabla

In [10]:
result                                            # No se puedes usar espacios blancos  sep=' '  ya que no son uniformes

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [None]:
# Notar que read_table infiere que la primera columna debe operar como un índice ya que tiene menos valores que las otras

### Si queremos quitar algunas líneas de la lectura porque incluyen la documentación de los datos

In [None]:
 # Veamos primero el archivo

In [11]:
!type ex4.csv                           

/bin/bash: línea 0: type: ex4.csv: no encontrado


In [12]:
pd.read_csv('ex4.csv', skiprows=[0, 2, 3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


### Como lidiar con datos no disponibles

In [None]:
# Veamos primero el archivo

In [13]:
!type ex5.csv

/bin/bash: línea 0: type: ex5.csv: no encontrado


In [14]:
result = pd.read_csv('ex5.csv')

In [15]:
result                                    # Notar que tanto NA como espacio en blanco (NULL) los toma como NaN

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [None]:
# Podemos especificar que valores pueden ser considerados como NaN

In [16]:
result = pd.read_csv('ex5.csv', na_values=['10'])

In [17]:
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2.0,3.0,4,
1,two,5,6.0,,8,world
2,three,9,,11.0,12,foo


In [None]:
# Inclusive diferenciar por columna, mediante un directrorios

In [18]:
!type ex5.csv

/bin/bash: línea 0: type: ex5.csv: no encontrado


In [19]:
sentinels = {'message': ['foo', 'NA'], 'something': ['two']}     # En columna message hay dos valores, y en something un valor

In [20]:
pd.read_csv('ex5.csv', na_values=sentinels)                      # Notar que espacio y NA los toma por default como NaN

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


## 2. Leer archivos por partes

### Ideal cuando se tienen archivos muy grandes

In [21]:
pd.options.display.max_rows = 10    # Reducimo el número de filas a leer

In [22]:
result = pd.read_csv('ex6.csv')     # El archivo orignal tiene 10,000 líneas de datos y una cabecera

In [23]:
result                                            # Pone las cinco primeras filas y las cinco últimas

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
9995,2.311896,-0.417070,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G


In [24]:
result.shape                         # Si queremos saber las dimensiones de la matriz de datos

(10000, 5)

In [25]:
pd.read_csv('ex6.csv', nrows=5)      # Si queremos leer un número espeífico de lineas

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


### Si queremos reducir los tiempos de cómputo en bases de datos muy grandes, vamos leyendo por partes

In [26]:
chunker = pd.read_csv('ex6.csv', chunksize=1000)    # Podemos ir leyendo de 1,000 en 1,000
chunker                                              # Se produce un objeto iterable

<pandas.io.parsers.TextFileReader at 0x7f9a82722490>

In [None]:
# Por ejemplo, para hacer una operación con esos datos

In [27]:
tot = pd.Series(0)     # Se crea una serie en Pandas  con el nombre de tot

In [28]:
for piece in chunker:
    tot = tot.add(piece['key'].value_counts(), fill_value=0)    #Se va agregando a tot el número de veces que aparece cada letra

In [29]:
tot = tot.sort_values(ascending=False)

In [30]:
tot[:10]         # istamos los primeros diez valores en orden descendente

E    368.0
X    364.0
L    346.0
O    343.0
Q    340.0
M    338.0
J    337.0
F    335.0
K    334.0
H    330.0
dtype: float64

## 3. Escritura de datos en formato de texto

In [33]:
data = pd.read_csv('ex5.csv')               # Tomamos uno de los archivos disponibles en la computadora (o en el dashboard)

In [None]:
data

In [None]:
data.to_csv('out.csv')                     # Genermos un archivo de salida a guardar en el dashboard

In [None]:
# veamos que efectivamente se creo

In [None]:
!type out.csv

In [None]:
# Pero lo podríamos guardar también en nuestra coputadora con el direccionamiento apropiado

In [None]:
data.to_csv('C:/Users/socio/Dropbox/Mi PC (LAPTOP-ORBBPDK7)/Documents/TEC respado 2019-20202/2022 CIDE curso primavera/Notebooks Jupyter/out.csv')

In [None]:
# Si queremo usar delimitadores específicos

In [31]:
import sys

In [34]:
data.to_csv(sys.stdout, sep='|')       # Con  sys.stdout  se imprime el archivo formateado, pero no se guarda

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


In [None]:
# También podemos especificar como identificar a datos faltantes

In [None]:
data.to_csv(sys.stdout, na_rep='NULL')        # Cambia los huecos por NULL

In [None]:
data.to_csv(sys.stdout, index=False, header=False)    # Si queremos eliminar cabecera e índice

In [None]:
data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'c'])  # Si queremos guardar solo un subconjunto  columnas

### También lo podemos hacer para series

In [None]:
dates = pd.date_range('1/1/2000', periods=7)      # Creamos indice de 7 fechas empezando 1 de enero 2000

In [None]:
import numpy as np

In [None]:
ts = pd.Series(np.arange(7), index=dates)         # Creamos una serie con el índice anterior

In [None]:
ts.to_csv('tseries.csv')                          # La guardamos en el dashboard

In [None]:
# Así es como queda

In [None]:
!type tseries.csv

## 4. Lectura de datos en la WEB 

### Python tiene librerías para trabajar con los formatos HTML y HML con los que se registra información en la red web

In [None]:
# Entre estas librerías se encuentran: lxml, Beautiful Soup, and html5lib.las que tenemos que instalar con conda y pip

In [None]:
conda install lxml

In [None]:
pip install beautifulsoup4 html5lib

In [None]:
# Para leer en html se usa read_html

 ### La información viene en la Página: https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/

In [None]:
tables = pd.read_html('fdic_failed_bank_list.html')  # Este archivo web debe estar en el dashboard o direccionado en el disco

In [None]:
len(tables)                        # Se trata de una sola tabla

In [None]:
failures = tables[0]               # Se le asigna un nombre

In [None]:
failures

In [None]:
failures.head()                    # Vemos las primero cinco filas  

In [None]:
close_timestamps = pd.to_datetime(failures['Closing Date'])      # Podemos hacer cálculos con algunas variables

In [None]:
close_timestamps.dt.year.value_counts()     # Se utiliza libreria de fechas de Python para calcular número de fracasos

## 5. Lectura de archivos en Excell

In [None]:
xlsx = pd.ExcelFile('ex1.xlsx')      # Primero se usa el método de lectura ExcelFile para crear un archivo xlsx 

In [None]:
xlsx

In [None]:
pd.read_excel(xlsx, 'Sheet1')      # Desupés se convierta a DataFrame, notar que hay que especificar la hoja del Excell 

In [None]:
frame = pd.read_excel('ex1.xlsx', 'Sheet1')     # Un método de un solo paso
frame

In [None]:
frame.to_excel('ex8.xlsx')       # Para crear un nuevo archivo en formato excel a partir de un archivo en DataFrame de pd    

## 6. Lectura y escritura básica de archivos sin Pandas 

### Abrir un archivo de texto mbox.txt  y asignarle un nombre para manipularlo (handle)   

In [None]:
fhand = open('mbox.txt')     # Modo lectura por default

In [None]:
fhand                        # Se ubica en un lugar de la memoria del CPU

In [None]:
# Notar que el handle no es el archivo en si mismo, como en DataFrame, sino tan solo una forma de identificarlo 

In [None]:
fhand = open('mbox-short.txt')      # Procedemos a hacer la lectura en una versión reducida del archivo
                                    # Se abre el archivo, pero la lectura todavía no inicia

In [None]:
count = 0               
for line in fhand:                  # Leemos línea por línea, notar que fhand es usado como una secuencia (i.e., un iterador)
   count = count + 1
print('Line Count:', count)         # Imprimimos el número de líneas

In [None]:
# Si el archivo es pequeño se puede hacer una lectura completa con el metodo read()

In [None]:
fhand = open('mbox-short.txt')
inp = fhand.read()                 # Este tipo de lectura genera una gran cadena de caracteres que le llamamos inp
len(inp)                           # Me señala el número de caracteres leídos  (incluyendo las nuevas líneas '\n') 

In [None]:
inp[:20]                           # Imprimimos los primeros 20 cracteres

### Búsqueda en un archivo

In [None]:
# Por ejemplo si solo queremos leer las líneas que empiezan con "From:"

In [None]:
fhand = open('mbox-short.txt')
count = 0
for line in fhand:
    if line.startswith('From:'):
      print(line)

In [None]:
# Las lineas en blanco se deben al caracter de líneas nuevas, para remover espacios en blanco se usa

In [None]:
fhand = open('mbox-short.txt')
for line in fhand:
    line = line.rstrip()                     # Elimina espacios en blanco
    if line.startswith('From:'):
       print(line)

In [None]:
# Usamos el método find si queremos imprimir solo aquellas líneas que presentan una cadena de caracteres.

In [None]:
fhand = open('mbox-short.txt')
for line in fhand:
    line = line.rstrip()                        
    if line.find('@uct.ac.za') == -1: continue  # Regresa la posición de la línea encuentra la cadena, de lo contrario pone -1 
    print(line)

### Como almacenar archivos (escritura)

In [None]:
fout = open('output.txt', 'w')        # Tenemos que usar el modo 'w'
fout

In [None]:
fout

In [None]:
line1 = "This here's the wattle,\n"       # Se escribe una primera línea
fout.write(line1)                         # Señala la posición del caracter en que se quedo

In [None]:
line2 = 'the emblem of our land.\n'       # Se escribe una segunda líneas
fout.write(line2)

In [None]:
fout.close()                              # En este caso er forzoso cerrar el archivo

### Depuración de datos

In [None]:
# Podría ser que hay espacios, tabs o nuevas líneas no deseadas

In [None]:
s = '1 2\t 3\n 4'        # /t se refiere a tab
print(s)

In [None]:
print(repr(s))        # con repr podemos saber que delimitadores se presentan en una cadena de caracteres