# ¿Cómo leo y escribo datos tabulares?

<img src="data/02_io_readwrite.svg">>

### Quiero analizar los datos de pasajeros del Titanic, disponibles como archivo CSV.

In [1]:
import pandas as pd

titanic = pd.read_csv("data/titanic.csv")

*Observaciones*

pandas proporciona la función `read_csv()` para leer datos almacenados como un archivo csv en un archivo DataFrame de pandas. pandas admite muchos formatos de archivo o fuentes de datos diferentes listos para usar (csv, excel, sql, json, parquet, …), cada uno de ellos con el prefijo `read_*`.

Asegúrese de tener siempre un control de los datos después de leerlos. Al mostrar un DataFrame, las primeras y las últimas 5 filas se mostrarán de forma predeterminada:

In [3]:
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


### Quiero ver las primeras 8 filas de un DataFrame de pandas.

In [5]:
titanic.head(8)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


*Observaciones*

Para ver las primeras N filas de un DataFrame, use el método `head()` con el número requerido de filas (en este caso, 8) como argumento.

**Nota: ¿Está interesado en las últimas N filas? pandas también proporciona un método tail(). Por ejemplo, titanic.tail(10)devolverá las últimas 10 filas del DataFrame.

Se puede verificar cómo pandas interpretó cada uno de los tipos de datos de columna solicitando el  atributo dtypes:

In [6]:
titanic.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

*Observaciones*

Para cada una de las columnas, se da de alta el tipo de datos utilizado. Los tipos de datos en esto DataFrame son enteros (int64), flotantes (float64) y cadenas (object).

** Nota: ¡Al pedir el dtypes, no se utilizan paréntesis! dtypes es un atributo de un DataFrame y de una Serie. Los atributos de DataFrames o Series no necesitan paréntesis. Los atributos representan una característica de un DataFrame/Series, mientras que un método (que requiere paréntesis) hace algo con el DataFrame/Series como se presentó en el primer tutorial.

### Mi colega solicitó los datos del Titanic como una hoja de cálculo.

In [7]:
titanic.to_excel("titanic.xlsx", sheet_name="pasajeros", index=False)

*Observaciones*

Mientras que las funciones read_* se usan para leer datos en pandas, los métodos to_* se usan para almacenar datos. El método to_excel() almacena los datos como un archivo de Excel. En el ejemplo aquí, sheet_name se nombra pasajeros en lugar del valor predeterminado Sheet1. Al configurar index=False las etiquetas de índice de fila no se guardan en la hoja de cálculo.

La función de lectura equivalente read_excel() recargará los datos en un DataFrame:

In [8]:
titanic = pd.read_excel("titanic.xlsx", sheet_name="pasajeros")

In [9]:
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Estoy interesado en un resumen técnico de un DataFrame

In [10]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


*Observaciones*

El método `info()` proporciona información técnica sobre un DataFrame, así que expliquemos el resultado con más detalle:

* De hecho es un DataFrame.

* Hay 891 entradas, es decir, 891 filas.

* Cada fila tiene una etiqueta de fila (también conocida como index) con valores que van de 0 a 890.

* La tabla tiene 12 columnas. La mayoría de las columnas tienen un valor para cada una de las filas (los 891 valores son non-null). Algunas columnas tienen valores faltantes y menos de 891 non-nullvalores.

* Las columnas Name, Sex, Cabin y Embarked consisten en datos textuales (cadenas, también conocido como `object`) . Las otras columnas son datos numéricos con algunos de ellos números enteros (también conocidos como `integer`) y otros son números reales (también conocidos como `float`).

* El tipo de datos (caracteres, números enteros,...) en las diferentes columnas se resumen enumerando los `dtypes`.

* También se proporciona la cantidad aproximada de RAM utilizada para almacenar el DataFrame.

## RECORDAR
* Las funciones admiten la obtención de datos en pandas desde muchos formatos de archivo o fuentes de datos diferentes `read_*`.

* La exportación de datos fuera de pandas se proporciona mediante diferentes métodos to_*.

* Los métodos head/tail/info y el atributo dtypes son convenientes para una primera verificación.