# Archivos CSV

Estos archivos usan la coma como delimitador. Coma Separated Values.

Hay varios parámetros opcionales que se pueden agregar para adecuar la importación.

In [1]:
import pandas as pd
import numpy as np

In [2]:
df= pd.read_csv("examples/ex1.csv")

print(df)

   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo


También se puede usar la función de pandas read_table indicando el delimitador:

In [12]:
df1= pd.read_table("examples/ex1.csv", sep= ",")

print(df1)

   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo


Puede ocurrir que el archivo no tenga encabezados, tenemos dos opciones: 

In [13]:
df2= pd.read_csv("examples/ex1.csv", header= None)

print(df2)

   0   1   2   3        4
0  a   b   c   d  message
1  1   2   3   4    hello
2  5   6   7   8    world
3  9  10  11  12      foo


In [14]:
df3= pd.read_csv("examples/ex1.csv", names= ["a", "b", "c", "d", "message"])

print(df3)

   a   b   c   d  message
0  a   b   c   d  message
1  1   2   3   4    hello
2  5   6   7   8    world
3  9  10  11  12      foo


Supongamos que queremos que la columna message sea el index del dataframe, procedemos de la siguiente manera:

In [1]:
names= ["a", "b", "c", "d", "message"]

df4= pd.read_csv("examples/ex1.csv", names= names, index_col= "message")

print(df4)

NameError: name 'pd' is not defined

En el caso de que aparezca el siguiente error, proceder de la siguiente manera:

In [1]:
No_Deseados= pd.read_table(r"\\santacruz.net\dfs\Shared\riesgo\BANCA DE CONSUMO\CONTROLES BASE PRECALIFICADOS\Estadística de Causales de Rechazo\Inputs\Base_No_Deseados 2020-12-03.txt", encoding='latin-1')

NameError: name 'pd' is not defined

# Archivos TXT

In [3]:
result= pd.read_table("examples/ex3.txt", sep= "\s+") 

print(result)

            A         B         C
aaa -0.264438 -1.026059 -0.619500
bbb  0.927272  0.302904 -0.032399
ccc -0.264273 -0.386314 -0.217601
ddd -0.871858 -0.348382  1.100491


El separador "\s+" indica que se trata de una nueva línea

Al haber menos nombres de columnas que cantidad de columnas, read_table infiere que la primera columna debe ser el índice.

Al importar, también podemos dar la indicación de que no considere alguna fila o columna:

In [5]:
result1= pd.read_csv("examples/ex4.csv")
result2= pd.read_csv("examples/ex4.csv", skiprows= [0, 2, 3])

print(result1)
print("----------------")
print(result2)

                                                                      # hey!
a                                                  b        c   d    message
# just wanted to make things more difficult for... NaN      NaN NaN      NaN
# who reads CSV files with computers                anyway? NaN NaN      NaN
1                                                  2        3   4      hello
5                                                  6        7   8      world
9                                                  10       11  12       foo
----------------
   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo


### Importar TXT sin encabezado, con separador, seleccionando columnas y colocando encode particular

In [1]:
PPINV_1= pd.read_table(r"\\santacruz.net\dfs\Shared\riesgo\archivosdiarios\PP_INV.txt", sep= "~", encoding='latin-1', 
                       header= None, usecols= [0, 1, 4, 8, 9, 32])

NameError: name 'pd' is not defined

## Leer Archivos de Textos por Partes

Cuando procesamos un archivo muy grande, queremos conocer primero el correcto set de argumentos a usar. Para esto, sólo debemos considerar algunas filas:

In [9]:
result3= pd.read_csv("examples/ex2.csv", nrows= 2)

print(result3)

   1   2   3   4  hello
0  5   6   7   8  world
1  9  10  11  12    foo
