# Lectura de fuentes de Datos con Pandas
**Pandas** es una librería con gran potencial para lectura de datos. A continuación se enumeran algunas de las facilidades que presenta sus funciones de lectura:

* Lidiar con codificaciones extrañas
* Encabezados de tablas
* Columnas
* Parsear columnas de fechas
* Setear tipo de datos
* Encontrar y localizar datos inválidos
* Adjuntar datos a un .csv existente


In [1]:
import pandas as pd

## Lectura y escritura de archivos planos con Pandas
* Un archivo **CSV (valores separados por comas)** es un archivo de texto que tiene un formato específico y permite guardar los datos en un formato de tabla estructurada.
* `read_csv` es una función de pandas para leer este tipo de archivos.
* Puede leer archivos en formato tabla con otros delimitadores.

In [2]:
df = pd.read_csv('dates.txt', sep=',')
df

Unnamed: 0,date,product,price
0,1/1/2019,A,10
1,2/1/2020,B,20
2,3/1/1998,C,30


In [3]:
df = pd.read_csv('dates.txt')
df

Unnamed: 0,date,product,price
0,1/1/2019,A,10
1,2/1/2020,B,20
2,3/1/1998,C,30


Otro ejemplo...

In [4]:
df = pd.read_csv('data.csv')
df.head()

Unnamed: 0,Age|Sex|ID|Race|Country|Education|Education-Num|Marital Status|Relationship
0,39.0| Male|49084| White| United-States| Bachel...
1,50.0| Male|68553| White| United-States| Bachel...
2,38.0| Male|143654| White| United-States| HS-gr...
3,53.0| Male|41510| Black| United-States| 11th|7...
4,28.0| Female|195025| Black| Cuba| Bachelors|13...


Tenemos que cambiar el separador para que el archivo se cargue correctamente.

In [5]:
df = pd.read_csv('data.csv', sep='|')
df.head()

Unnamed: 0,Age,Sex,ID,Race,Country,Education,Education-Num,Marital Status,Relationship
0,39.0,Male,49084,White,United-States,Bachelors,13.0,Never-married,Not-in-family
1,50.0,Male,68553,White,United-States,Bachelors,13.0,Married-civ-spouse,Husband
2,38.0,Male,143654,White,United-States,HS-grad,9.0,Divorced,Not-in-family
3,53.0,Male,41510,Black,United-States,11th,7.0,Married-civ-spouse,Husband
4,28.0,Female,195025,Black,Cuba,Bachelors,13.0,Married-civ-spouse,Wife


In [8]:
#read_table es una funcion similar a read_csv, por defecto usa tab para separar valores
pd.read_table('test.txt', sep=' ')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [9]:
# Podemos especificar si no deseamos cabecera de columnas
pd.read_csv('test.txt', sep=' ', header=None)

Unnamed: 0,0,1,2,3,4
0,a,b,c,d,message
1,1,2,3,4,hello
2,5,6,7,8,world
3,9,10,11,12,foo


In [10]:
# Podemos especificar otras cabecera de columnas
pd.read_csv('test.txt', sep=' ', names=['z','u','t','y','mensaje'])

Unnamed: 0,z,u,t,y,mensaje
0,a,b,c,d,message
1,1,2,3,4,hello
2,5,6,7,8,world
3,9,10,11,12,foo


In [13]:
# Parseo automatico de fechas
df = pd.read_csv('dates.txt')
df.dtypes

date       object
product    object
price       int64
dtype: object

In [27]:
df = pd.read_csv('dates.txt', parse_dates=['date'])
df.dtypes

date       datetime64[ns]
product            object
price               int64
dtype: object

In [28]:
df

Unnamed: 0,date,product,price
0,2019-01-01,A,10
1,2020-02-01,B,20
2,1998-03-01,C,30


### Parseo manual de fechas

In [30]:
!cat data_4.csv

year,month,day,product,price
2019,1,1,A,10
2020,1,2,B,20
2021,1,4,C,30
2019,1,5,D,40


In [31]:
pd.read_csv('data_4.csv')

Unnamed: 0,year,month,day,product,price
0,2019,1,1,A,10
1,2020,1,2,B,20
2,2021,1,4,C,30
3,2019,1,5,D,40


In [29]:
df = pd.read_csv('data_4.csv', parse_dates=[['year', 'month', 'day']])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   year_month_day  4 non-null      datetime64[ns]
 1   product         4 non-null      object        
 2   price           4 non-null      int64         
dtypes: datetime64[ns](1), int64(1), object(1)
memory usage: 224.0+ bytes


In [17]:
df

Unnamed: 0,year_month_day,product,price
0,2019-01-01,A,10
1,2020-01-02,B,20
2,2021-01-04,C,30
3,2019-01-05,D,40


### Parseo indicando formato de fecha y hora

In [18]:
from datetime import datetime

custom_date_parser = lambda x: datetime.strptime(x, '%Y-%d-%m %H:%M:%S')

df = pd.read_csv('data_6.csv', 
                 parse_dates=['date'], 
                 date_parser=custom_date_parser)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   date     3 non-null      datetime64[ns]
 1   product  3 non-null      object        
 2    price   3 non-null      int64         
dtypes: datetime64[ns](1), int64(1), object(1)
memory usage: 200.0+ bytes


In [19]:
df

Unnamed: 0,date,product,price
0,2016-10-06 20:30:00,A,10
1,2016-01-07 19:45:30,B,20
2,2016-12-10 04:05:01,C,30


### Parseo de Booleanos
`read_csv` puede detectar automáticamente booleanos si se le indica.

“asistió” se refiere a la asistencia de un alumno y “Tarea” si completo la tarea o no.

In [26]:
df = pd.read_csv('encuesta.txt',sep='\s', dtype={'asistio':bool,
                                       'Tarea':bool})
df

  df = pd.read_csv('encuesta.txt',sep='\s', dtype={'asistio':bool,


Unnamed: 0,ID,asistio,Tarea,Comportamiento,Pago
0,cef3615d61b202f1dc794ef2746df14,True,True,0.0,si
1,323e5a13644d18185c743c241407754,False,False,,no
2,b29a107e5cd062e654a63764157461d,False,False,,no
3,04a11e4bcb573a1261eb0d9948d32637,True,False,0.0,si
4,9368291c3d5d5f5c8cdb1a575e18bec,True,False,0.0,si
5,dd0e77eab270e4b67c19b0d6bbf621b,False,False,,no
6,7599c0aa419b59fd11ffede98a3665d,False,False,,si
7,6dff182b452487f07a47596f314bddc,False,True,,si
8,9dc233fed1c6eb2432672ab4bb39249,False,False,,no
9,265fa78a1fb2409ff5416aec3c4f950d,True,False,0.0,si


In [39]:
!ls

'Clase 25 - Data Acquisition I.ipynb'   data_6.csv   data.xlsx	    test.txt
'data(1).csv'			        data.csv     dates.txt
 data_4.csv			        data.pkl     encuesta.txt


In [44]:
%%timeit
#df=pd.read_excel('data.xlsx',sheet_name=1, usecols='A:D')

df.to_excel('excel.xlsx')

4.03 s ± 130 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [45]:
%%timeit
df.to_pickle('pkl.pkl', compression ='gzip')

214 µs ± 11.4 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [46]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   year_month_day  4 non-null      datetime64[ns]
 1   product         4 non-null      object        
 2   price           4 non-null      int64         
dtypes: datetime64[ns](1), int64(1), object(1)
memory usage: 224.0+ bytes


### Serializacion con Pickle