# NumPy

```
$ /opt/anaconda3/bin/python -m pip install --upgrade numpy
```

`NumPy` y `Pandas`, dos bibliotecas muy útiles para el análisis de datos en Python y que están fuertemente relacionadas con `scikit-learn`

Proporciona tipos de datos para **almacenar de manera eficiente secuencias de valores numéricos** y operar sobre ellos. Los almacena con un **tamaño fijo** y los almacena en **regiones contiguas de memoria**, lo que permite una comunicación sencilla con otros lenguajes de programación como C, C++ y Fortran (de hecho, varias funciones de la biblioteca están escritas en estos lenguajes para maximizar el rendimiento).

`NumPy` ofrece `ndarray`, un **array n-dimensional** de elementos el **mismo tipo** (los usa `Pandas` internamente, no los veremos). El acceso a estos elementos se realiza de manera natural mediante sus **coordenadas en el espacio n-dimensional**. `NumPy` ofrece distintos **tipos de datos numéricos**, entre los que destacan:

* int8, int16, int32 e int64 : **enteros con signo** de 8, 16, 32 y 64 bits.
* uint8, uint16, uint32 e uint64: **enteros sin signo** de 8, 16, 32 y 64 bits.
* float16, float32 y float64: **números en coma flotante** de 16, 32 y 64 bits.
* complex64 y complex128: **números complejos** formados por **dos números en coma flotante** de 32 y 64 bits, respectivamente.

In [1]:
# Ejemplo en el que se crea un vector de 3 dimensiones y una matriz 3x3 y se opera con ellos
import numpy as np
from numpy import linalg # Biblioteca de álgebra lineal

np.__version__

'1.20.2'

In [2]:
# Ejemplo mínimo de NumPy
# A partir de `np` podemos crear objetos de tipos `ndarray` y acceder a sus elementos

v = np.array([1,2,3])
print(v)
print(v[1])

m = np.array([[1,2,3],[0,1,4],[5,6,0]])
print(m)
print(m[2,1])

# Hemos usado la función `array` para crear un vector v con 3 elementos (objeto `ndarray` de una dimensión) y 
# una matriz m de tamaño 3x3 (objeto `ndarray` de dos dimensiones)
# El acceso a sus elementos se realiza con el operador [], indicando los índices en cada dimensión

# Multiplicación vector-matriz
print(v @ m)

# Inversa de una matriz
m_inv = linalg.inv(m)
print(m_inv)

# Multiplicación matriz-(inversa matriz)
print(m @ m_inv)

[1 2 3]
2
[[1 2 3]
 [0 1 4]
 [5 6 0]]
6
[16 22 11]
[[-24.  18.   5.]
 [ 20. -15.  -4.]
 [ -5.   4.   1.]]
[[ 1.00000000e+00 -3.55271368e-15  0.00000000e+00]
 [ 0.00000000e+00  1.00000000e+00  0.00000000e+00]
 [ 0.00000000e+00  0.00000000e+00  1.00000000e+00]]


# Pandas (PYTHON DATA ANALYSIS LIBRARY)

```
$ /opt/anaconda3/bin/python -m pip install --upgrade pandas
```

Está construida sobre `NumPy`, y proporciona clases muy útiles para analizar datos como `Series` o `DataFrame`. 

* `Series` permite representar una secuencia de valores utilizando un índice personalizado (enteros, cadenas de texto, etc.) para acceder a ellos. 
* `DataFrame` nos permite representar datos como si de una tabla o una hoja de cálculo se tratase. Un objeto DataFrame dispone de varias columnas etiquetadas con cadenas de texto, y cada una de ellas está indexada. De esta manera podremos acceder fácilmente a cualquier celda a partir de sus coordenadas. Veremos solo la clase `DataFrame`

## Carga DataFrame desde fichero

Pruebas con conjunto de datos sobre los pasajeros del Titanic, muy popular para practicar aprendizaje automático. [Datos Titanic](https://github.com/agconti/kaggle-titanic) 

Fichero CSV de 891 filas y 12 columnas para cada fila:

1. **PassengerId**: identificador único de cada pasajero, números naturales consecutivos comenzando desde 0.
2. **Survived**: indica si el pasajero sobrevivió (valor 1) o pereció (valor 0).
3. **Pclass**: clase del billete comprado, que puede ser primera clase (1), segunda clase (2) o tercera clase (3).
4. **Name**: nombre completo del pasajero, incluyendo títulos como “Mr.”, “Mrs.”, “Master”, etc. Se representa como una cadena de texto.
5. **Sex**: sexo del pasajero, que puede ser “female” o “male”. Se representa como una cadena de texto.
6. **Age**: edad del pasajero como número real. En esta columna existen 177 filas que carecen de dicho valor.
7. **SibSp**: número de hermanos o cónyuges que viajaban en el Titanic. Cuenta también hermanastros, pero no amantes o personas comprometidas para casarse. Esta columna almacena un número natural.
8. **Parch**: número de padres e hijos del pasajero que viajaban en el Titanic. Tiene en cuenta hijastros. Algunos niños viajaban a cargo únicamente de su cuidador/a, así que en esos casos la columna tiene el valor 0. Esta columna almacena un número natural.
9. **Ticket**: número que identifica el billete adquirido. Se representa como una cadena de texto y toma 681 valores diferentes.
10. **Fare**: tarifa pagada al comprar el billete, representado como un número real positivo.
11. **Cabin**: número de camarote en el que se alojaba el pasajero, representado como una cadena de texto. Existen 148 valores diferentes así que había bastantes pasajeros que compartían camarote.
12. **Embarked**: puerto en el que embarcó el pasajero. Toma 3 valores representados como cadenas de texto: “C” para Cherbourg, “Q” para Queenstown y “S” para Southampton. Hay 2 filas a las que les falta este valor.

Hay columnas que almacenan números enteros, números naturales y hasta cadenas de texto. Además, algunas columnas carecen de valores en algunas filas, lo que se conoce como valores vacíos (missing values). 

`Pandas` soporta un amplio catálogo de formatos: **CSV, TSV, JSON, HTML, Parquet, HDF5...**. Como los datos sobre pasajeros del Titanic están almacenados en un fichero **CSV** utilizaremos la función `read_csv` de la biblioteca Pandas

In [3]:
import pandas as pd
pd.__version__

'1.2.4'

In [4]:
# Carga el fichero 
df = pd.read_csv('./estructuras_datos/titanic.csv')

Hemos utilizado los valores por defecto para todos sus parámetros. Sin embargo, Pandas nos permite:

* Seleccionar el carácter separador (se podría cambiar a ‘\t’ para leer ficheros TSV) 
* Indicar manualmente el nombre de las columnas si el fichero no tiene cabecera.
* Determinar diferentes valores que deben considerar como True y False
* Seleccionar una codificación concreta del fichero. 
...
...permite más de 50 parámetros,solo para el proceso de lectura.
* funciones **read_json**, **read_html**, **read_parquet**, **read_excel**...

In [5]:
# Lectura de todas las hojas de './estructuras_datos/subvenciones_totales.xls', devuelve un diccionario ordenado (str, DataFrame)
subvenciones = pd.read_excel('./estructuras_datos/subvenciones_totales.xls', sheet_name=None)
print(subvenciones['Totales'])

                     Asociación  Importe total  Importe justificado  Restante
0          AMPA ANTONIO MACHADO        2344.99                    0  -2344.99
1   AMPA BACHILLER ALONSO LOPEZ        3200.00                    0  -3200.00
2                 AMPA CASTILLA        2604.44                    0  -2604.44
3          AMPA DAOIZ Y VELARDE        3152.74                    0  -3152.74
4            AMPA EMILIO CASADO        3015.67                    0  -3015.67
5    AMPA FEDERICO GARCIA LORCA        1919.06                    0  -1919.06
6          AMPA GABRIEL Y GALAN        2741.51                    0  -2741.51
7              AMPA LUIS BUÑUEL        2081.00                    0  -2081.00
8         AMPA MIGUEL HERNANDEZ        2923.35                    0  -2923.35
9               AMPA MIRAFLORES        2787.21                    0  -2787.21
10         AMPA PARQUE CATALUÑA        2604.44                    0  -2604.44
11  AMPA PROFESOR TIERNO GALVÁN        1286.00                  

* Por defecto únicamente carga la primera página del fichero, por eso hemos incluido el parámetro **sheet_name=None** para que cargue todas las hojas del fichero y devuelva un diccionario ordenado de objetos `DataFrame`, asociados al nombre de la hoja. 
* A partir de este diccionario podemos acceder a cualquier hoja a partir de su nombre, como en `subvenciones[‘Totales’]`. 
* En el caso de seleccionar una única hoja devolvería directamente un DataFrame. 
* Por defecto utiliza los valores de la fila 0 como nombres de columna, aunque se puede cambiar a través del parámetro `header`. 
* Al igual que `read_csv`, `read_excel` admite **una veintena de parámetros** para configurar de manera precisa cómo se lee el fichero y se vuelca en un `DataFrame`. 
* Es importante darse cuenta de que las **fórmulas no son incorporadas al DataFrame**, sino que **únicamente se incluye el valor calculado** al abrir el fichero.

## Visualizar y extraer información

Una vez hemos cargado un objeto `DataFrame`, visualizar su contenido es tan sencillo como devolver dicho valor en una celda de Jupyter. El sistema mostrará una **tabla interactiva** en la que veremos marcada la fila actual según nos desplazamos.

In [6]:
# Visualizar el principio y final de un DataFrame
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Si en lugar de usar las facilidades de Jupyter invocamos a la función **print**, entonces el `DataFrame` será representado como una cadena de texto y mostrado. Si el `DataFrame` es demasiado grande su salida será truncada, mostrando únicamente las primeras y últimas filas.

In [7]:
# Mostrar el principio y final de un DataFrame, en modo texto
print(df)

     PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex   Age  SibSp  \
0                              Braund, Mr. Owen Harris    male  22.0      1   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                               Heikkinen, Miss. Laina  female  26.0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                             Allen, Mr. William Henry    male  35.0      0   
..                                                 ...     ...   ... 

In [8]:
# Índice pandas con las columnas de un DataFrame
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [9]:
# Tamaño de un DataFrame
# shape nos devuelve una pareja con el número de filas y el número de columnas
df.shape

(891, 12)

Los `DataFrames` admiten diversas formas de acceder a su contenido, aunque lo más común es utilizar los atributos accesores `iloc` y `loc`. Ambos sirven para acceder a una porción de la tabla. 

* `iloc` recibe números indicando las posiciones de las filas y columnas deseadas. Si se pasa un único parámetro, se considera como el índice o índices de las filas a mostrar. Si se pasan dos parámetros, el primero será el índice o índices de las filas, y el segundo será el índice o índices de las columnas a seleccionar. Los parámetros pueden ser números, rangos o listas de números (**los parámetros se pasarán utilizando corchetes en lugar de los paréntesis**) ->  realmente estamos invocando al método `__getitem__` del atributo `iloc` y no a un método directo del DataFrame
* `loc` para referirnos a fragmentos de la tabla **utilizando los índices**. En el **índice horizontal** tendremos los **nombres de las columnas**, y en el **índice vertical** usualmente tendremos **posiciones empezando desde 0**. `loc` recibe uno o dos parámetros, con el mismo funcionamiento que en `iloc`. 

Ejemplo `iloc`:

* df.iloc\[5\] -> Fila en la posición 5, es decir, la 6a fila.
* df.iloc\[:2\] -> Filas en el rango \[0,2), la fila en posición 2 no es incluida.
* df.iloc\[0,0\] -> Celda en la posición (0,0).
* df.iloc\[\[0,10,12\],3:6] ->  Filas 0, 10 y 12; y de ellas las columnas con posiciones en el rango \[3,6). La columna en posición 6 no es in cluida.

In [10]:
# .iloc para seleccionar por posición
print(type(df.iloc))

<class 'pandas.core.indexing._iLocIndexer'>


In [11]:
display(df.iloc[5])   # Fila en la posición 5

PassengerId                   6
Survived                      0
Pclass                        3
Name           Moran, Mr. James
Sex                        male
Age                         NaN
SibSp                         0
Parch                         0
Ticket                   330877
Fare                     8.4583
Cabin                       NaN
Embarked                      Q
Name: 5, dtype: object

In [12]:
display(df.iloc[:2])  # Filas en el rango [0,2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [13]:
display(df.iloc[0,0]) # Celda (0,0)

1

In [14]:
display(df.iloc[[0,10,12],3:4]) # Filas 0, 10 y 12, columnas 3:4

Unnamed: 0,Name
0,"Braund, Mr. Owen Harris"
10,"Sandstrom, Miss. Marguerite Rut"
12,"Saundercock, Mr. William Henry"


Ejemplo `loc`:

* df.loc\[0\] -> Fila con índice 0.
* df.loc\[0,’Fare’\] -> Fila con índice 0 y columna `Fare`.
* df.loc\[:3, ‘Sex’:’Fare’\] -> Filas con índices en el rango \[0,3\] y columnas entre `Sex` y `Fare`. En este caso ambos extremos se incluyen, tanto en filas como en columnas.
* df.loc\[:3, \[’Sex’,’Fare’,’Embarked’\]\] -> Filas con índices en el rango \[0,3\] y columnas con nombre `Sex`, `Fare` y `Embarked`.

In [15]:
# .iloc para seleccionar usando los índices
print(type(df.loc))

<class 'pandas.core.indexing._LocIndexer'>


In [16]:
display(df.loc[0])                # Fila con índice 0

PassengerId                          1
Survived                             0
Pclass                               3
Name           Braund, Mr. Owen Harris
Sex                               male
Age                               22.0
SibSp                                1
Parch                                0
Ticket                       A/5 21171
Fare                              7.25
Cabin                              NaN
Embarked                             S
Name: 0, dtype: object

In [17]:
display(df.loc[0,'Fare'])         # celda de la fila 0 y columna 'Fare'

7.25

In [18]:
display(df.loc[:3, 'Sex':'Fare']) # Filas 0:3 (incluidas) en las columnas 'Sex':'Fare' (incluidas)

Unnamed: 0,Sex,Age,SibSp,Parch,Ticket,Fare
0,male,22.0,1,0,A/5 21171,7.25
1,female,38.0,1,0,PC 17599,71.2833
2,female,26.0,0,0,STON/O2. 3101282,7.925
3,female,35.0,1,0,113803,53.1


In [19]:
display(df.loc[:3, ['Sex','Fare','Embarked']]) # Filas 0:3 (incluidas) en las columnas 'Sex','Fare' y 'Embarked'

Unnamed: 0,Sex,Fare,Embarked
0,male,7.25,S
1,female,71.2833,C
2,female,7.925,S
3,female,53.1,S


In [20]:
display(df.loc[df['Age']> 70])    # Filas con 'Age' > 70

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0,A23,S
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.775,,S


In [21]:
display(df.loc[df['Age']> 70, ['Age','Sex']])    # Filas con 'Age' > 70, mostrar la columna 'Sex'

Unnamed: 0,Age,Sex
96,71.0,male
116,70.5,male
493,71.0,male
630,80.0,male
851,74.0,male


Tipos almacenados en cada columna con `df.dtypes` que es un objeto `Series` de Pandas indexado por nombre de columna. 
Son los mismos tipos de datos que los de `NumPy`, donde `object` será cadena de texto para la mayoría de los casos. 

In [22]:
df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

Para las **columnas numéricas**, **Pandas** nos proporciona descripción completa con método `describe`-> devuelve nuevo `DataFrame` resumen. 
Nos muestra algunas medidas estadísticas como la **media**, la **desviación típica**, valores **mínimos** y **máximos** e incluso los **cuartiles**. 
También nos indica el **número de valores incluidos**, **cantidad de valores vacíos** que existen en cada columna:

In [23]:
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


Vemos que la columna Age tiene 714 valores no vacíos, siendo 0,42 el valor mínimo y 80 el valor máximo. Además, sabemos que la edad media es de 29,7 años, con una desviación típica de 14,52. El método describe también nos permite conocer que la edad mediana es 28 años, y que los pasajeros en la mitad central tenían una edad entre 20,125 y 38 años (lo que se conoce como rango intercuartílico).

El método `describe` también puede devolver medidas informativas para las columnas no numéricas, (la media o los cuartiles aparecerán como `NaN` por cuestiones obvias). Para ellos pasamos el parámetro `include=’all’`. 
`unique`, nos indica el número de valores diferentes que hay. También aparecen las filas `top`, que contienen el elemento más repetido, y `freq`, que indican el número de repeticiones de dicho elemento más común.

In [24]:
# Descripción de los valores de un DataFrame
print(df.describe(include='all'))

        PassengerId    Survived      Pclass                  Name   Sex  \
count    891.000000  891.000000  891.000000                   891   891   
unique          NaN         NaN         NaN                   891     2   
top             NaN         NaN         NaN  Cleaver, Miss. Alice  male   
freq            NaN         NaN         NaN                     1   577   
mean     446.000000    0.383838    2.308642                   NaN   NaN   
std      257.353842    0.486592    0.836071                   NaN   NaN   
min        1.000000    0.000000    1.000000                   NaN   NaN   
25%      223.500000    0.000000    2.000000                   NaN   NaN   
50%      446.000000    0.000000    3.000000                   NaN   NaN   
75%      668.500000    1.000000    3.000000                   NaN   NaN   
max      891.000000    1.000000    3.000000                   NaN   NaN   

               Age       SibSp       Parch    Ticket        Fare Cabin  \
count   714.000000  891.0

In [25]:
# Código alternativo para calcular valores nulos y únicos

# Valores nulos
for c in df.columns:
    print("Missing values [{0}]:".format(c), df[c].isna().sum())
print()

# Valores únicos    
for c in df.columns:
    print("Unique values [{0}]:".format(c), df[c].unique().size)

Missing values [PassengerId]: 0
Missing values [Survived]: 0
Missing values [Pclass]: 0
Missing values [Name]: 0
Missing values [Sex]: 0
Missing values [Age]: 177
Missing values [SibSp]: 0
Missing values [Parch]: 0
Missing values [Ticket]: 0
Missing values [Fare]: 0
Missing values [Cabin]: 687
Missing values [Embarked]: 2

Unique values [PassengerId]: 891
Unique values [Survived]: 2
Unique values [Pclass]: 3
Unique values [Name]: 891
Unique values [Sex]: 2
Unique values [Age]: 89
Unique values [SibSp]: 7
Unique values [Parch]: 7
Unique values [Ticket]: 681
Unique values [Fare]: 248
Unique values [Cabin]: 148
Unique values [Embarked]: 4


## Transformar DataFrames

Hay muchas, pero solo veremos las típicas necesarias para luego hacer **Machine Learning**

In [26]:
# Carga el fichero 
df = pd.read_csv('./estructuras_datos/titanic.csv')

### Primera transformación: eliminar columnas no relevantes 
**Eliminar algunas columnas que no nos parecen muy relevantes**, concretamente PassengerId, Name, Ticket y Cabin usando método `drop` pasándole una lista de nombres en su parámetro `columns`:

In [27]:
# Elimina columnas no relevantes
df = df.drop(columns=['PassengerId', 'Name', 'Ticket','Cabin'])

### Segunda transformación: eliminar filas con algún valor vacío 
**Eliminar todas las filas con algún valor vacío** con el método `dropna` con los parámetros por defecto, que hace justamente eso. El método `dropna` permite configurar cómo se decidirá si una fila se elimina o no, por ejemplo, indicando que haya un mínimo de valores vacíos (parámetro `thresh`) o requiriendo que todos los valores sean vacíos (parámetro `how`).

In [28]:
# Elimina filas con valores nulos
df = df.dropna()

### Tercera transformación: pasar a enteros las columnas que almacenan cadenas de texto (donde tenga sentido)
**Transformar las columnas que almacenan cadenas de texto para que representen esa información como números naturales consecutivos a partir de 0**. Ejemplo: `Sex` (‘female’ o ‘male’) serán los valores 0 y 1; columna `Embarked` (‘C’, ‘Q’ y ‘S’) tome valores 0, 1 y 2. Usaremos l operador de selección \[\] el cual recibe el **nombre de una de las columnas** y la **devuelve** como una **secuencia de valores indexados**, concretamente un objeto de la clase `Series`. Estos objetos se pueden operar a través de sus métodos, y volver a introducir en el DataFrame original, por ejemplo:

In [29]:
# Traduce los valores categóricos de 'Sex' y 'Embarked' a número enteros
df['Sex'] = df['Sex'].astype('category').cat.codes
df['Embarked'] = df['Embarked'].astype('category').cat.codes
df

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,1,22.0,1,0,7.2500,2
1,1,1,0,38.0,1,0,71.2833,0
2,1,3,0,26.0,0,0,7.9250,2
3,1,1,0,35.0,1,0,53.1000,2
4,0,3,1,35.0,0,0,8.0500,2
...,...,...,...,...,...,...,...,...
885,0,3,0,39.0,0,5,29.1250,1
886,0,2,1,27.0,0,0,13.0000,2
887,1,1,0,19.0,0,0,30.0000,2
889,1,1,1,26.0,0,0,30.0000,0


Seleccionamos una columna (`df['Sex']` y `df['Embarked']`) y mediante asignación la sustituimos por otros valores. Para calcular los valores numéricos **seleccionamos la columna**, la **reinterpretamos como una categoría** (`astype('category')`) y finalmente **de esa categoría nos quedamos con la secuencia de su representación numérica** (`cat.codes`). (Al reinterpretar la columna como una categoría, se recorren los valores detectando los valores únicos y dándoles una representación numérica única). El operador `[]` nos **devuelve un objeto de tipo `Series`**, que nos permite operar sobre él (como reinterpretarlo como categoría) pero también **asignarlo a otro objeto del mismo tipo**, como hacemos aquí. De la misma manera **podríamos añadir columnas mediante asignación** utilizando el operador `[]` con un nombre nuevo de columna: 

In [30]:
df['Sex_num'] = df['Sex'].astype('category').cat.codes
df

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked,Sex_num
0,0,3,1,22.0,1,0,7.2500,2,1
1,1,1,0,38.0,1,0,71.2833,0,0
2,1,3,0,26.0,0,0,7.9250,2,0
3,1,1,0,35.0,1,0,53.1000,2,0
4,0,3,1,35.0,0,0,8.0500,2,1
...,...,...,...,...,...,...,...,...,...
885,0,3,0,39.0,0,5,29.1250,1,0
886,0,2,1,27.0,0,0,13.0000,2,1
887,1,1,0,19.0,0,0,30.0000,2,0
889,1,1,1,26.0,0,0,30.0000,0,1


Como hemos comentado, existen muchas operaciones que se pueden realizar sobre columnas. Por ejemplo, **podríamos incrementar en uno la edad de todos los pasajeros** (`df['Age'] + 1`), **representar la edad en meses** (`df['Age'] * 12`), **obtener la secuencia booleana de pasajeros de edad avanzada** `(df['Age'] > 70)`, etc.

## Salvar a ficheros

Tras las transformaciones, el último paso será **volcarlo a disco** para poder **reutilizarlo** las veces que necesitemos. **Pandas** ofrece las mismas facilidades que para su lectura. Por ejemplo, para **volcar el DataFrame a un fichero CSV** invocaríamos a `to_csv`:

In [31]:
# A formato CSV
df.to_csv('./estructuras_datos/titanic_ml.csv', index=False)

Indicamos la ruta y con el parámetro `index=False` **no se incluye columna inicial con el índice de cada fila** (serían números naturales consecutivos comenzando en 0). `to_csv` admite más parámetros:
* configurar el carácter separador (`sep`)
* elegir qué columnas escribir (`columns`)
* seleccionar compresión (`compression`)
* etc.

Salvar un DataFrame en **formato Excel** método `to_excel`:

In [33]:
# A formato Excel (XLS y XLSX)
# La hoja se llamará 'Sheet1'
# df.to_excel('./estructuras_datos/titanic_ml.xls', index=False)
df.to_excel('./estructuras_datos/titanic_ml.xlsx', index=False)

`to_excel` admite diversos parámetros adicionales (nosotros hemos tomado los valores por defecto salvo `index=False`) para que no se cree una columna inicial con los índices de cada fila. Si el fichero existe, todo su contenido se perderá y únicamente contendrá la página creada a partir del DataFrame. Si queremos **añadir hojas a un fichero existente**, deberemos utilizar un objeto `ExcelWriter` en lugar de una ruta. Este objeto se crea directamente a partir de la ruta:

In [34]:
# Insertar varias hojas en un fichero Excel
writer = pd.ExcelWriter('./estructuras_datos/titanic_2.xlsx')
df.to_excel(writer, sheet_name='Hoja 1', index=False)
df.to_excel(writer, sheet_name='Hoja 2', index=False)
writer.close()

En este caso hemos creado un fichero `titanic_2.xlsx` con las hojas `Hoja1` y `Hoja2`, que en este caso contendrán los mismos datos. Es **importante invocar al método `close`** del objeto `ExcelWriter` para garantizar que los datos son volcados al disco y el fichero se cierra convenientemente.

## REFERENCIAS
* Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython (Second Edition). Wes McKinney. O’Reilly, 2017.
* Python Data Analytics Data Analysis and Science Using Pandas, matplotlib, and the Python Programming Language. Fabio Nelli. Appress, 2015.
* [Documentación de Pandas](https://pandas.pydata.org/pandas-docs/stable/)

***