# Lectura de fuentes de Datos con Pandas
Para este tema usaremos los archivos de ejemplo en [este folder](https://drive.google.com/drive/folders/1mSVesRg7VNjEmBE8laRQqW9Y7ull3OOX?usp=drive_link).


## Lectura de tablas en archivos planos

**Pandas** es una librería con gran potencial para lectura de datos. A continuación se enumeran algunas de las facilidades que presenta sus funciones de lectura:

* Lidiar con codificaciones extrañas
* Encabezados de tablas
* Columnas
* Parsear columnas de fechas
* Setear tipo de datos
* Encontrar y localizar datos inválidos
* Adjuntar datos a un .csv existente

Las funciones `read_csv()` y `read_table()` de **pandas** se utilizan para leer datos desde archivos, pero tienen algunas diferencias clave:

### Función read_csv
La función `read_csv()` de pandas se utiliza para leer archivos CSV (Comma-Separated Values) y convertirlos en un *DataFrame*.
* Delimitador por defecto: Utiliza una coma (`,`) como delimitador.
* Uso común: Ideal para archivos **CSV** (Comma-Separated Values).
* Parámetros adicionales: Permite especificar el delimitador usando el parámetro `sep`, aunque por defecto ya está configurado para archivos CSV.

In [33]:
# Comando bash para desplegar el contenido
!head dates.txt

"head" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [34]:
import pandas as pd

df = pd.read_csv('./Files/dates.txt') # sep: coma
df

Unnamed: 0,date,product,price
0,1/1/2019,A,10
1,2/1/2020,B,20
2,3/1/1998,C,30


`sep`: Delimitador de los campos. Por defecto es una coma (`,`), pero puedes cambiarlo si el archivo usa otro delimitador.

In [35]:
!head data.csv

"head" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [36]:
pd.read_csv('./Files/data.csv', sep='|').head()

Unnamed: 0,Age,Sex,ID,Race,Country,Education,Education-Num,Marital Status,Relationship
0,39.0,Male,49084,White,United-States,Bachelors,13.0,Never-married,Not-in-family
1,50.0,Male,68553,White,United-States,Bachelors,13.0,Married-civ-spouse,Husband
2,38.0,Male,143654,White,United-States,HS-grad,9.0,Divorced,Not-in-family
3,53.0,Male,41510,Black,United-States,11th,7.0,Married-civ-spouse,Husband
4,28.0,Female,195025,Black,Cuba,Bachelors,13.0,Married-civ-spouse,Wife


### Función read_table
* Delimitador por defecto: Utiliza una tabulación (`\t`) como delimitador.
* Uso común: Más adecuado para archivos de texto **tabulados**.
* Parámetros adicionales: También permite especificar otros delimitadores mediante el parámetro `sep`.

In [37]:
df = pd.read_table('./Files/dates.txt', sep=',') # sep: coma
df

Unnamed: 0,date,product,price
0,1/1/2019,A,10
1,2/1/2020,B,20
2,3/1/1998,C,30


In [38]:
!cat test.txt

"cat" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [39]:
pd.read_table('./Files/test.txt', sep=' ')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


**header**: Este argumento de `read_csv()` indica la fila que se utilizará como nombres de las columnas. Por defecto es 0 (la primera fila) pero en algunos escenarios puede ser útil cambiar esto. Veámos:

In [40]:
# Caso sin cabecera
pd.read_table('./Files/test.txt', sep=' ', header=None)

Unnamed: 0,0,1,2,3,4
0,a,b,c,d,message
1,1,2,3,4,hello
2,5,6,7,8,world
3,9,10,11,12,foo


In [41]:
# Caso con cabecera en 2da fila
pd.read_table('./Files/test.txt', sep=' ', header=1)

Unnamed: 0,1,2,3,4,hello
0,5,6,7,8,world
1,9,10,11,12,foo


Podemos especificar otras cabecera de columnas con el argumento `names`:

In [42]:
pd.read_table('./Files/test.txt', sep=' ', names=['N1','N2','N3','N4','Mensaje'])

Unnamed: 0,N1,N2,N3,N4,Mensaje
0,a,b,c,d,message
1,1,2,3,4,hello
2,5,6,7,8,world
3,9,10,11,12,foo


El argumento `parse_dates` en la función `read_csv` de **pandas** se utiliza para especificar qué columnas del archivo CSV deben ser interpretadas como **fechas**. Esto permite que pandas convierta automáticamente esas columnas en objetos de tipo *datetime*, facilitando el análisis de datos temporales.

Nota: `parse_dates` puede usarse con una columna única, varias columnas y columnas combinadas (varias columnas que juntas forman una fecha).

In [43]:
!cat ./Files/dates.txt

"cat" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [44]:
df.info() # La columna date se tomó como object

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   date     3 non-null      object
 1   product  3 non-null      object
 2   price    3 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes


In [45]:
df = pd.read_csv('./Files/dates.txt', parse_dates=['date'])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   date     3 non-null      datetime64[ns]
 1   product  3 non-null      object        
 2   price    3 non-null      int64         
dtypes: datetime64[ns](1), int64(1), object(1)
memory usage: 204.0+ bytes


### Parseo manual de fechas

**Columnas combinadas**: Si tienes varias columnas que juntas forman una fecha (por ejemplo, año, mes y día), puedes pasarlas como una lista de listas.

In [46]:
!cat data_4.csv

"cat" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [47]:
pd.read_csv('./Files/data_4.csv')

Unnamed: 0,year,month,day,product,price
0,2019,1,1,A,10
1,2020,1,2,B,20
2,2021,1,4,C,30
3,2019,1,5,D,40


In [48]:
df=pd.read_csv('./Files/data_4.csv', parse_dates=[['year', 'month', 'day']])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   year_month_day  4 non-null      datetime64[ns]
 1   product         4 non-null      object        
 2   price           4 non-null      int64         
dtypes: datetime64[ns](1), int64(1), object(1)
memory usage: 228.0+ bytes


  df=pd.read_csv('./Files/data_4.csv', parse_dates=[['year', 'month', 'day']])


**Parseo indicando formato fecha y hora**

El argumento `date_format` en la función `read_csv` permite especificar una función personalizada para analizar las fechas al leer el archivo CSV. Esto es útil cuando las fechas en el archivo tienen un formato que no es reconocido automáticamente o cuando deseas aplicar una lógica específica al convertir las cadenas de texto en objetos de tipo `datetime`.

* Note: The argument 'date_parser' is deprecated and will be removed in a future version.

In [49]:
!cat data_6.csv

"cat" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [50]:
pd.read_csv('./Files/data_6.csv').info() # lo toma como un object

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   date     3 non-null      object
 1   product  3 non-null      object
 2    price   3 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes


In [51]:
df = pd.read_csv('./Files/data_6.csv', parse_dates=['date'],
            date_format='%Y-%m-%d %H:%M:%S')
df

Unnamed: 0,date,product,price
0,2016-06-10 20:30:00,A,10
1,2016-07-01 19:45:30,B,20
2,2016-10-12 04:05:01,C,30


In [52]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   date     3 non-null      datetime64[ns]
 1   product  3 non-null      object        
 2    price   3 non-null      int64         
dtypes: datetime64[ns](1), int64(1), object(1)
memory usage: 204.0+ bytes


### Parseo de Booleanos
`read_csv` puede detectar automáticamente booleanos si se le indica.

“asistió” se refiere a la asistencia de un alumno y “Tarea” si completo la tarea o no.

In [53]:
!head encuesta.txt

"head" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [54]:
pd.read_csv('./Files/encuesta.txt').head()

Unnamed: 0,ID asistio Tarea Comportamiento Pago
0,cef3615d61b202f1dc794ef2746df14 1 ...
1,323e5a13644d18185c743c241407754 0 ...
2,b29a107e5cd062e654a63764157461d 0 ...
3,04a11e4bcb573a1261eb0d9948d32637 1 ...
4,9368291c3d5d5f5c8cdb1a575e18bec 1 ...


In [55]:
pd.read_csv('./Files/encuesta.txt', sep=' ').head()

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 137,Unnamed: 138,Unnamed: 139,Unnamed: 140,Unnamed: 141,Unnamed: 142,Unnamed: 143,Unnamed: 144,Unnamed: 145,Unnamed: 146
0,cef3615d61b202f1dc794ef2746df14,,,,,,,,1.0,,...,,,,,,,,,,
1,323e5a13644d18185c743c241407754,,,,,,,,0.0,,...,,,,,,,,,,
2,b29a107e5cd062e654a63764157461d,,,,,,,,0.0,,...,,,,,,,,,,
3,04a11e4bcb573a1261eb0d9948d32637,,,,,,,1.0,,,...,,,,,,,,,,
4,9368291c3d5d5f5c8cdb1a575e18bec,,,,,,,,1.0,,...,,,,,,,,,,


In [56]:
# delim_whitespace=True toma múltiples espacios consecutivos como uno solo
# index_col: usa X columna como ID
df = pd.read_csv('./Files/encuesta.txt', delim_whitespace=True, index_col='ID')
df.head()

  df = pd.read_csv('./Files/encuesta.txt', delim_whitespace=True, index_col='ID')


Unnamed: 0_level_0,asistio,Tarea,Comportamiento,Pago
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
cef3615d61b202f1dc794ef2746df14,1,1.0,0.0,si
323e5a13644d18185c743c241407754,0,0.0,,no
b29a107e5cd062e654a63764157461d,0,0.0,,no
04a11e4bcb573a1261eb0d9948d32637,1,0.0,0.0,si
9368291c3d5d5f5c8cdb1a575e18bec,1,0.0,0.0,si


In [57]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 30 entries, cef3615d61b202f1dc794ef2746df14 to df891ef669fb23701f6622f14843bda2
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   asistio         30 non-null     int64  
 1   Tarea           30 non-null     float64
 2   Comportamiento  18 non-null     float64
 3   Pago            30 non-null     object 
dtypes: float64(2), int64(1), object(1)
memory usage: 1.2+ KB


`dtype`: Define el tipo de datos para las columnas especificando con un diccionario.

Ejemplo

`df = pd.read_csv('archivo.csv', dtype={'columna1': 'str', 'columna2': 'int'})`

In [58]:
df = pd.read_csv('./Files/encuesta.txt',
                 delim_whitespace=True,
                 index_col='ID',
                 dtype={'asistio': bool, 'Tarea': bool})
df.info() # 'Comportamiento': bool, 'Pago': bool

<class 'pandas.core.frame.DataFrame'>
Index: 30 entries, cef3615d61b202f1dc794ef2746df14 to df891ef669fb23701f6622f14843bda2
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   asistio         30 non-null     bool   
 1   Tarea           30 non-null     bool   
 2   Comportamiento  18 non-null     float64
 3   Pago            30 non-null     object 
dtypes: bool(2), float64(1), object(1)
memory usage: 1.8+ KB


  df = pd.read_csv('./Files/encuesta.txt',


**Hallazgos**:
* `Comportamiento` no se puede convertir a `bool` porque tiene valores `NaN`
* `Pago` no se puede convertir porque no se puede "inferir" de `Object` a `bool`

**Pistas**:
* `true_values`: Lista de cadenas que representan `True`.
* `false_values`: Lista de cadenas que representan `False`.
* `na_filter=True`: Busca y convierte valores `NaN` automáticamente.
* `na_filter=False`: Desactiva la búsqueda de `NaN`

In [59]:
df = pd.read_csv('./Files/encuesta.txt',
                 delim_whitespace=True,
                 index_col='ID',
                 dtype={'asistio': bool, 'Tarea': bool},
                 true_values=['si'], false_values=['no'])
df.sample(5) # Muestra 5 filas al azar

  df = pd.read_csv('./Files/encuesta.txt',


Unnamed: 0_level_0,asistio,Tarea,Comportamiento,Pago
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e886db962a67fdf6cddbd4e85ea5d6e6,False,True,,True
1f641566628797bf0f811701e818b2c,True,True,0.0,True
10c74fd18bddfb3e26c1878a853e7f8,True,False,0.0,True
b953218838a2f7057ec179cae0cf83ad,True,False,1.0,True
6dff182b452487f07a47596f314bddc,False,True,,True


In [60]:
# na_filter: controlar si debe o no filtrar los valores que se consideran NaN
df = pd.read_csv('./Files/encuesta.txt',
                 delim_whitespace=True,
                 index_col='ID',
                 dtype={'asistio': bool, 'Tarea': bool},
                 true_values=['si','1.0'], false_values=['no','0.0','NaN'],
                 na_filter=False)
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 30 entries, cef3615d61b202f1dc794ef2746df14 to df891ef669fb23701f6622f14843bda2
Data columns (total 4 columns):
 #   Column          Non-Null Count  Dtype
---  ------          --------------  -----
 0   asistio         30 non-null     bool 
 1   Tarea           30 non-null     bool 
 2   Comportamiento  30 non-null     bool 
 3   Pago            30 non-null     bool 
dtypes: bool(4)
memory usage: 1.4+ KB


  df = pd.read_csv('./Files/encuesta.txt',


In [61]:
df.sample(5)

Unnamed: 0_level_0,asistio,Tarea,Comportamiento,Pago
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e886db962a67fdf6cddbd4e85ea5d6e6,False,True,False,True
fb120d2658407cbedfd9f1136c94ac61,True,False,True,True
be38b0df499caf723af579aa6b173b0a,False,True,False,False
36f9d95975bfd2c89cfe75baca2d58d2,True,False,False,True
dd0e77eab270e4b67c19b0d6bbf621b,False,False,False,False


Hay más argumentos a explorar, por ejemplo:

* `index_col`: Especifica qué columna usar como índice del DataFrame.
```
df = pd.read_csv('archivo.csv', index_col=0)
# Usa la primera columna como índice
```

* `usecols`: Permite seleccionar un subconjunto de columnas a leer.
```
df = pd.read_csv('archivo.csv', usecols=['columna1', 'columna2'])
```

* `nrows`: Lee solo un número específico de filas.
```
df = pd.read_csv('archivo.csv', nrows=10)
# Lee solo las primeras 10 filas
```



## Hojas de cálculo
* Consisten en datos almacenados de forma tabular en filas y columnas.
* A diferencia de los archivos planos, pueden tener fórmulas y formato.
* Un solo archivo puede tener diferentes hojas de cálculo.

In [62]:
pd.read_excel?

[1;31mSignature:[0m
[0mpd[0m[1;33m.[0m[0mread_excel[0m[1;33m([0m[1;33m
[0m    [0mio[0m[1;33m,[0m[1;33m
[0m    [0msheet_name[0m[1;33m:[0m [1;34m'str | int | list[IntStrT] | None'[0m [1;33m=[0m [1;36m0[0m[1;33m,[0m[1;33m
[0m    [1;33m*[0m[1;33m,[0m[1;33m
[0m    [0mheader[0m[1;33m:[0m [1;34m'int | Sequence[int] | None'[0m [1;33m=[0m [1;36m0[0m[1;33m,[0m[1;33m
[0m    [0mnames[0m[1;33m:[0m [1;34m'SequenceNotStr[Hashable] | range | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mindex_col[0m[1;33m:[0m [1;34m'int | str | Sequence[int] | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0musecols[0m[1;33m:[0m [1;34m'int | str | Sequence[int] | Sequence[str] | Callable[[str], bool] | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mdtype[0m[1;33m:[0m [1;34m'DtypeArg | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mengine[0m[1;33m:[0m [1;34m

In [None]:
## %pip install openpyxl
df = pd.read_excel('./Files/data.xlsx', sheet_name=1)
df.head()


[notice] A new release of pip is available: 24.0 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


Note: you may need to restart the kernel to use updated packages.


Unnamed: 0,Age,Sex,ID,Race,Country,Education,Education-Num,Marital Status,Relationship
0,39.0,Male,49084,White,United-States,Bachelors,13.0,Never-married,Not-in-family
1,50.0,Male,68553,White,United-States,Bachelors,13.0,Married-civ-spouse,Husband
2,38.0,Male,143654,White,United-States,HS-grad,9.0,Divorced,Not-in-family
3,53.0,Male,41510,Black,United-States,11th,7.0,Married-civ-spouse,Husband
4,28.0,Female,195025,Black,Cuba,Bachelors,13.0,Married-civ-spouse,Wife


In [64]:
df = pd.read_excel('./Files/data.xlsx', sheet_name=1, usecols='C:G,I')
df.head()

Unnamed: 0,ID,Race,Country,Education,Education-Num,Relationship
0,49084,White,United-States,Bachelors,13.0,Not-in-family
1,68553,White,United-States,Bachelors,13.0,Husband
2,143654,White,United-States,HS-grad,9.0,Not-in-family
3,41510,Black,United-States,11th,7.0,Husband
4,195025,Black,Cuba,Bachelors,13.0,Wife


Usar `pd.ExcelFile()` es útil cuando necesitas trabajar con un archivo de Excel que contiene múltiples hojas y deseas acceder a ellas de manera eficiente.

In [65]:
xls = pd.ExcelFile('./Files/data.xlsx') # objeto que referencia a la hoja de cálculo
type(xls)

pandas.io.excel._base.ExcelFile

In [66]:
xls.sheet_names

['Sheet1', 'Sheet1_2']

In [67]:
sht = xls.parse(sheet_name='Sheet1_2')
sht.head()

Unnamed: 0,Age,Sex,ID,Race,Country,Education,Education-Num,Marital Status,Relationship
0,39.0,Male,49084,White,United-States,Bachelors,13.0,Never-married,Not-in-family
1,50.0,Male,68553,White,United-States,Bachelors,13.0,Married-civ-spouse,Husband
2,38.0,Male,143654,White,United-States,HS-grad,9.0,Divorced,Not-in-family
3,53.0,Male,41510,Black,United-States,11th,7.0,Married-civ-spouse,Husband
4,28.0,Female,195025,Black,Cuba,Bachelors,13.0,Married-civ-spouse,Wife


In [68]:
# Como serializar (guardar) a CSV
sht.to_csv('sht.csv', index=False) # Index: False, no incluye el indice
!head sht.csv

"head" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [69]:
# Como serializar (guardar) a XLSX (Excel)
sht.to_excel('Otro.xlsx', index=False)
#!head Otro.xlsx

In [70]:
pd.to_pickle(sht, 'serializado.pkl')