# 02 Lectura de datos almacenados en archivos
Es posible que hayamos almacenado datos en varios tipos de archivos, como texto, csv, excel, xml, html, etc. Podemos cargarlos en dataframes de pandas.



In [1]:
import pandas as pd

## Lectura de archivos CSV

Para leer el contenido de un archivo CSV en Pandas podemos utilizar la función `read_csv()` y proporcionar como argumento la ruta del archivo csv.

https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

### Configuración predeterminada
En muchos casos, la configuración predeterminada de la función `read_csv()` funcionará. Ejecutemos la siguiente celda para leer el contenido de nuestro archivo `ds_salaries.csv` que se encuentra en la subcarpeta `datos`.

In [3]:
df = pd.read_csv('data\\ds_salaries.csv')

Una vez ejecutada la celda anterior, el contenido del archivo se tendrá almacenado en la variable `df` que es de tipo `dataframe`.

<style>
    .blue {
        background-color:rgb(208, 229, 213);
    }
</style>

<div class="blue">
En caso que no tengas experiencia trabajando con Pandas o quieras refrescar un poco tus conocimientos, te sugiero dediques algunos minutos para explorar la documentación de la clase DataFrame de Pandas:
<a href=https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html>pandas.DataFrame</a>

En la documentación encontrarás diversas formas en las que podemos crear `dataframes`. Adicionalmente podrás consultar las propiedades y métodos de la clase.
</div>


Utilicemos la función `head()` para visualizar los primeros 5 reglones de información almacenados en el dataframe `df` . 

In [4]:
df.head(5)

Unnamed: 0.1,Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,0,2020,MI,FT,Data Scientist,70000,EUR,79833,DE,0,DE,L
1,1,2020,SE,FT,Machine Learning Scientist,260000,USD,260000,JP,0,JP,S
2,2,2020,SE,FT,Big Data Engineer,85000,GBP,109024,GB,50,GB,M
3,3,2020,MI,FT,Product Data Analyst,20000,USD,20000,HN,0,HN,S
4,4,2020,SE,FT,Machine Learning Engineer,150000,USD,150000,US,50,US,L


Para visualizar un resumen de las columnas, valores no nulos y el tipo (inferido por pandas para cada columna) del dataframe `df` utilicemos la función `info()`. 

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 607 entries, 0 to 606
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Unnamed: 0          607 non-null    int64 
 1   work_year           607 non-null    int64 
 2   experience_level    607 non-null    object
 3   employment_type     607 non-null    object
 4   job_title           607 non-null    object
 5   salary              607 non-null    int64 
 6   salary_currency     607 non-null    object
 7   salary_in_usd       607 non-null    int64 
 8   employee_residence  607 non-null    object
 9   remote_ratio        607 non-null    int64 
 10  company_location    607 non-null    object
 11  company_size        607 non-null    object
dtypes: int64(5), object(7)
memory usage: 57.0+ KB


### Personalizar configuración
Podemos manipular los argumentos de la función `read_csv()` para leer el archivo csv. Por ejemplo, si en el archivo de datos no se tuviera información sobre el nombre de las columnas, podemos indicarlo mediante el argumento `header` = `None`. 

In [12]:
df = pd.read_csv('data\\ds_salaries.csv', header = None)
df.head(3)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
1,0.0,2020,MI,FT,Data Scientist,70000,EUR,79833,DE,0,DE,L
2,1.0,2020,SE,FT,Machine Learning Scientist,260000,USD,260000,JP,0,JP,S


Debido a que nuestro archivo `ds_salaries.csv` si contiene los nombres de las columnas, podemos observar que el resultado de ejecutar la celda anterior ha generado un problema: pandas cree que los nombres de las columnas son datos correspondientes a un registro.

Tengamos cuidado al seleccionar la configuración utilizada al abrir un archivo porque podríamos cargar información de forma incorrecta que puede desencadenar multiples errores. En nuestro ejemplo particular, veamos que ha sucedido con los tipos de datos inferidos.

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 608 entries, 0 to 607
Data columns (total 12 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       607 non-null    float64
 1   1       608 non-null    object 
 2   2       608 non-null    object 
 3   3       608 non-null    object 
 4   4       608 non-null    object 
 5   5       608 non-null    object 
 6   6       608 non-null    object 
 7   7       608 non-null    object 
 8   8       608 non-null    object 
 9   9       608 non-null    object 
 10  10      608 non-null    object 
 11  11      608 non-null    object 
dtypes: float64(1), object(11)
memory usage: 57.1+ KB


Observemos que salvo en la primer columna que no tenía nombre, los tipos de datos inferidos para las columnas es `object`.

Corrijamos el error anterior, modificando un poco nuestra configuración. Agreguemos el argumento `skiprows` = `1` y ejecutemos nuestro código para observar el resultado:

In [13]:
df = pd.read_csv('data\\ds_salaries.csv', header = None, skiprows=1)
df.head(3)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,0,2020,MI,FT,Data Scientist,70000,EUR,79833,DE,0,DE,L
1,1,2020,SE,FT,Machine Learning Scientist,260000,USD,260000,JP,0,JP,S
2,2,2020,SE,FT,Big Data Engineer,85000,GBP,109024,GB,50,GB,M


Ahora verifiquemos los tipos de datos que fueron inferidos.

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 607 entries, 0 to 606
Data columns (total 12 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       607 non-null    int64 
 1   1       607 non-null    int64 
 2   2       607 non-null    object
 3   3       607 non-null    object
 4   4       607 non-null    object
 5   5       607 non-null    int64 
 6   6       607 non-null    object
 7   7       607 non-null    int64 
 8   8       607 non-null    object
 9   9       607 non-null    int64 
 10  10      607 non-null    object
 11  11      607 non-null    object
dtypes: int64(5), object(7)
memory usage: 57.0+ KB


## Lectura de archivos TXT
> Cuando trabajamos con archivos que tienen una extensión `txt` y si el texto sigue el formato `csv`, entonces se puede leer como un archivo `csv`

In [16]:
df = pd.read_csv('data\\ds_salaries.txt')
df.head(3)

Unnamed: 0.1,Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,0,2020,MI,FT,Data Scientist,70000,EUR,79833,DE,0,DE,L
1,1,2020,SE,FT,Machine Learning Scientist,260000,USD,260000,JP,0,JP,S
2,2,2020,SE,FT,Big Data Engineer,85000,GBP,109024,GB,50,GB,M


## Lectura de archivos XLSX

In [25]:
# Instalar openpyxl
# pip install openpyxl

df = pd.read_excel('data\\ds_salaries.xlsx')

In [21]:
df.head(2)

Unnamed: 0.1,Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,0,2020,MI,FT,Data Scientist,70000,EUR,79833,DE,0,DE,L
1,1,2020,SE,FT,Machine Learning Scientist,260000,USD,260000,JP,0,JP,S


In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 607 entries, 0 to 606
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Unnamed: 0          607 non-null    int64 
 1   work_year           607 non-null    int64 
 2   experience_level    607 non-null    object
 3   employment_type     607 non-null    object
 4   job_title           607 non-null    object
 5   salary              607 non-null    int64 
 6   salary_currency     607 non-null    object
 7   salary_in_usd       607 non-null    int64 
 8   employee_residence  607 non-null    object
 9   remote_ratio        607 non-null    int64 
 10  company_location    607 non-null    object
 11  company_size        607 non-null    object
dtypes: int64(5), object(7)
memory usage: 57.0+ KB


## Lectura de archivos JSON

In [23]:
df = pd.read_json('data\\ds_salaries.json')
df.head(3)

Unnamed: 0,FIELD1,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,0,2020,MI,FT,Data Scientist,70000,EUR,79833,DE,0,DE,L
1,1,2020,SE,FT,Machine Learning Scientist,260000,USD,260000,JP,0,JP,S
2,2,2020,SE,FT,Big Data Engineer,85000,GBP,109024,GB,50,GB,M


In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 607 entries, 0 to 606
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   FIELD1              607 non-null    int64 
 1   work_year           607 non-null    int64 
 2   experience_level    607 non-null    object
 3   employment_type     607 non-null    object
 4   job_title           607 non-null    object
 5   salary              607 non-null    int64 
 6   salary_currency     607 non-null    object
 7   salary_in_usd       607 non-null    int64 
 8   employee_residence  607 non-null    object
 9   remote_ratio        607 non-null    int64 
 10  company_location    607 non-null    object
 11  company_size        607 non-null    object
dtypes: int64(5), object(7)
memory usage: 57.0+ KB


## Lectura de archivos XML

In [27]:
# instalación
# pip install lxml

df = pd.read_xml('data\\ds_salaries.xml')
df.head(3)

Unnamed: 0,FIELD1,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,0,2020,MI,FT,Data Scientist,70000,EUR,79833,DE,0,DE,L
1,1,2020,SE,FT,Machine Learning Scientist,260000,USD,260000,JP,0,JP,S
2,2,2020,SE,FT,Big Data Engineer,85000,GBP,109024,GB,50,GB,M


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 607 entries, 0 to 606
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   FIELD1              607 non-null    int64 
 1   work_year           607 non-null    int64 
 2   experience_level    607 non-null    object
 3   employment_type     607 non-null    object
 4   job_title           607 non-null    object
 5   salary              607 non-null    int64 
 6   salary_currency     607 non-null    object
 7   salary_in_usd       607 non-null    int64 
 8   employee_residence  607 non-null    object
 9   remote_ratio        607 non-null    int64 
 10  company_location    607 non-null    object
 11  company_size        607 non-null    object
dtypes: int64(5), object(7)
memory usage: 57.0+ KB


## Leer archivos HTML


In [29]:
# Lee el contenido de tablas y retorna una lista de dataframes (un dataframe por cada tabla)
df = pd.read_html('data\\ds_salaries.htm')[0]
df.head(3)

Unnamed: 0,FIELD1,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,0,2020,MI,FT,Data Scientist,70000,EUR,79833,DE,0,DE,L
1,1,2020,SE,FT,Machine Learning Scientist,260000,USD,260000,JP,0,JP,S
2,2,2020,SE,FT,Big Data Engineer,85000,GBP,109024,GB,50,GB,M


In [30]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 607 entries, 0 to 606
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   FIELD1              607 non-null    int64 
 1   work_year           607 non-null    int64 
 2   experience_level    607 non-null    object
 3   employment_type     607 non-null    object
 4   job_title           607 non-null    object
 5   salary              607 non-null    int64 
 6   salary_currency     607 non-null    object
 7   salary_in_usd       607 non-null    int64 
 8   employee_residence  607 non-null    object
 9   remote_ratio        607 non-null    int64 
 10  company_location    607 non-null    object
 11  company_size        607 non-null    object
dtypes: int64(5), object(7)
memory usage: 57.0+ KB


## Documentación
Siempre es bueno tener una referencia de las funciones de lectura de archivos en pandas. Puedes encontrarlo a través de https://pandas.pydata.org/docs/reference/io.html