<div style="text-align: center;">
    <img src="../imagenes_frontend/banner.png" alt="Banner curso" style="width:80%">
</div>

<div style="display: flex; justify-content: center;">
    <h1>Manejo y manipulación de archivos CSV con Pandas</h1>
</div>

Importamos las librerías necesarias:

In [20]:
import numpy as np
import pandas as pd

#### Leer archivos CSV con Pandas
Para leer un archivo de extensión `csv` con la librería *Pandas* utilizamos la función `read_csv(ruta_al_archivo_csv)`.  
En el siguiente bloque de código vamos a leer el archivo nombrado **hurricanes.csv** que se encuentra en ubicado en **`../csv_files/`** de tu carpeta del curso; el resultado de la lectura lo vamos a guardar en la variable *tabla*.

In [21]:
tabla = pd.read_csv('../archivos_texto_plano/hurricanes.csv')
tabla

Unnamed: 0,Month,Average,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015
0,May,0.1,0,0,1,1,0,0,0,2,0,0,0
1,Jun,0.5,2,1,1,0,0,1,1,2,2,0,1
2,Jul,0.7,5,1,1,2,0,1,3,0,2,2,1
3,Aug,2.3,6,3,2,4,4,4,7,8,2,2,3
4,Sep,3.5,6,4,7,4,2,8,5,2,5,2,5
5,Oct,2.0,8,0,1,3,2,5,1,5,2,3,0
6,Nov,0.5,3,0,0,1,1,0,1,0,1,0,1
7,Dec,0.0,1,0,1,0,0,0,0,0,0,0,1


Habrá ocasiones en que resultará tedioso y poco práctico recordar o escribir los nombres de los encabezados de las columnas de nuestra tabla.
*Pandas* ofrece la función `columns.to_list()` que devuelve una lista con los nombres de los encabezados.
Un ejemplo se muestra a continuación:

In [22]:
encabezados = tabla.columns.to_list()
print(encabezados)

['Month', 'Average', '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015']


Por medio de esta lista podemos recuperar columnas de nuestra tabla sin tener que escribir el nombre del encabezado, sólo habrá que indicar en que posición del arreglo está el nombre del encabezado de la columna que queremos obtener. Suponga que quiere mostrar la información almacenada en la columna `'2006'`, tendría que utilizar la siguiente sintaxis: `tabla['2006']`; ahora si se utiliza la lista con los nombres de los encabezados de la tabla, accedería a esa columna en particular usando la siguiente expresión: `tabla[encabezado[3]]`, donde `'2006'` ocupa el índice `3` en la lista encabezados. Imagine que ahora quiere trabajar con la columna `Average`, basta con solo cambiar al índice `1` en `tabla[encabezado[1]]`. La ventaja de usar un arreglo con los nombres de los encabezados se encuentra en que evitarás equivocarte al escribir el nombre de un encabezado. Más adelante se verá otra ventaja poderosa de utilizar un arreglo de nombres de encabezados. Experimente usted mismo:

In [23]:
tabla[encabezados[0]]

0    May
1    Jun
2    Jul
3    Aug
4    Sep
5    Oct
6    Nov
7    Dec
Name: Month, dtype: object

Será util recordar y tener presente lo siguiente:

In [24]:
tupla = tabla.shape
a = tupla[0]
b = tupla[1]
print(f'tabla.shape nos regresa las dimensiones de la tabla: (a, b) := {tupla}')
print(f'donde a = {a}, es el número de filas')
print(f'y b = {b}, es el número de columnas')

tabla.shape nos regresa las dimensiones de la tabla: (a, b) := (8, 13)
donde a = 8, es el número de filas
y b = 13, es el número de columnas


#### Agregar una fila de datos a una tabla de Pandas

Para agregar una nueva fila de valores a nuestra tabla de datos existente se va a utilizar la función `pd.concat([tabla_existente, fila_a_agregar], ignore_index=True)`. Primero se crea la fila que se va agregar con un map. Hay que agregar el nombre de cada columna y su valor correspondiente. Posteriormente se convierte en una tabla con la función `Dataframe()`. 

In [25]:
row = {'Month': ['Jan'],
       'Average': [0.9],
       '2005': [4.0],
       '2006': [0.0],
       '2007': [1.0],
       '2008': [1.0],
       '2009': [3.0],
       '2010': [2.0],
       '2011': [0.0],
       '2012': [1.0],
       '2013': [7.0],
       '2014': [6.0],
       '2015': [8.0]}
row = pd.DataFrame(row)
row

Unnamed: 0,Month,Average,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015
0,Jan,0.9,4.0,0.0,1.0,1.0,3.0,2.0,0.0,1.0,7.0,6.0,8.0


Ahora se utiliza la función `pd.concat()` para agregar la fila construida anteriormente: 

In [26]:
tabla = pd.concat([tabla, row], ignore_index=True)
tabla

Unnamed: 0,Month,Average,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015
0,May,0.1,0.0,0.0,1.0,1.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0
1,Jun,0.5,2.0,1.0,1.0,0.0,0.0,1.0,1.0,2.0,2.0,0.0,1.0
2,Jul,0.7,5.0,1.0,1.0,2.0,0.0,1.0,3.0,0.0,2.0,2.0,1.0
3,Aug,2.3,6.0,3.0,2.0,4.0,4.0,4.0,7.0,8.0,2.0,2.0,3.0
4,Sep,3.5,6.0,4.0,7.0,4.0,2.0,8.0,5.0,2.0,5.0,2.0,5.0
5,Oct,2.0,8.0,0.0,1.0,3.0,2.0,5.0,1.0,5.0,2.0,3.0,0.0
6,Nov,0.5,3.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0
7,Dec,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
8,Jan,0.9,4.0,0.0,1.0,1.0,3.0,2.0,0.0,1.0,7.0,6.0,8.0


El parámetro `ignore_index` sirve para que *Pandas* respeta la numeración de índices de la tabla. Si se utiliza `False` en el parámetro `ignore_index` los índices no se enumeran automáticamente tal como vemos a continuación:

In [28]:
tabla2 = pd.read_csv('../archivos_texto_plano/hurricanes.csv')
tabla2 = pd.concat([tabla2, row], ignore_index=False)
tabla2

Unnamed: 0,Month,Average,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015
0,May,0.1,0.0,0.0,1.0,1.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0
1,Jun,0.5,2.0,1.0,1.0,0.0,0.0,1.0,1.0,2.0,2.0,0.0,1.0
2,Jul,0.7,5.0,1.0,1.0,2.0,0.0,1.0,3.0,0.0,2.0,2.0,1.0
3,Aug,2.3,6.0,3.0,2.0,4.0,4.0,4.0,7.0,8.0,2.0,2.0,3.0
4,Sep,3.5,6.0,4.0,7.0,4.0,2.0,8.0,5.0,2.0,5.0,2.0,5.0
5,Oct,2.0,8.0,0.0,1.0,3.0,2.0,5.0,1.0,5.0,2.0,3.0,0.0
6,Nov,0.5,3.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0
7,Dec,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
0,Jan,0.9,4.0,0.0,1.0,1.0,3.0,2.0,0.0,1.0,7.0,6.0,8.0


También podemos agregar una fila que contengan columnas que no tengan un valor almacenado. *Pandas* automáticamente asignará `NaN` en las celdas que no guarden un valor en específico. El siguiente ejemplo se puede apreciar esta característica:

In [29]:
row = {'Month': ['Feb'],
       'Average': [1.6],
       '2005': [9.0],
       '2010': [3.0],
       '2014': [0.0],
       '2015': [1.0]}
row = pd.DataFrame(row)
tabla = pd.concat([tabla, row], ignore_index=True)
tabla

Unnamed: 0,Month,Average,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015
0,May,0.1,0.0,0.0,1.0,1.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0
1,Jun,0.5,2.0,1.0,1.0,0.0,0.0,1.0,1.0,2.0,2.0,0.0,1.0
2,Jul,0.7,5.0,1.0,1.0,2.0,0.0,1.0,3.0,0.0,2.0,2.0,1.0
3,Aug,2.3,6.0,3.0,2.0,4.0,4.0,4.0,7.0,8.0,2.0,2.0,3.0
4,Sep,3.5,6.0,4.0,7.0,4.0,2.0,8.0,5.0,2.0,5.0,2.0,5.0
5,Oct,2.0,8.0,0.0,1.0,3.0,2.0,5.0,1.0,5.0,2.0,3.0,0.0
6,Nov,0.5,3.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0
7,Dec,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
8,Jan,0.9,4.0,0.0,1.0,1.0,3.0,2.0,0.0,1.0,7.0,6.0,8.0
9,Feb,1.6,9.0,,,,,3.0,,,,0.0,1.0


Ahora agreguemos otra fila, pero esta vez usemos el arreglo con los nombres de los encabezados. ¿Consideras que el código en el siguiente ejemplo se puede escribir de mejor manera?

In [30]:
row = pd.DataFrame({encabezados[0]: ['Mar'], 
                    encabezados[1]: [3.5],
                    encabezados[2]: [6],
                    encabezados[3]: [2],
                    encabezados[4]: [1],
                    encabezados[5]: [0],
                    encabezados[6]: [0],
                    encabezados[7]: [8],
                    encabezados[8]: [1],
                    encabezados[9]: [4],
                    encabezados[10]: [3],
                    encabezados[11]: [7],
                    encabezados[12]: [0]})
tabla = pd.concat([tabla, row], ignore_index=True)
tabla

Unnamed: 0,Month,Average,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015
0,May,0.1,0.0,0.0,1.0,1.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0
1,Jun,0.5,2.0,1.0,1.0,0.0,0.0,1.0,1.0,2.0,2.0,0.0,1.0
2,Jul,0.7,5.0,1.0,1.0,2.0,0.0,1.0,3.0,0.0,2.0,2.0,1.0
3,Aug,2.3,6.0,3.0,2.0,4.0,4.0,4.0,7.0,8.0,2.0,2.0,3.0
4,Sep,3.5,6.0,4.0,7.0,4.0,2.0,8.0,5.0,2.0,5.0,2.0,5.0
5,Oct,2.0,8.0,0.0,1.0,3.0,2.0,5.0,1.0,5.0,2.0,3.0,0.0
6,Nov,0.5,3.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0
7,Dec,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
8,Jan,0.9,4.0,0.0,1.0,1.0,3.0,2.0,0.0,1.0,7.0,6.0,8.0
9,Feb,1.6,9.0,,,,,3.0,,,,0.0,1.0


Si pensaste en usar una estructura de ciclo, estás en lo correcto. El bloque de código anterior lo podemos reducir a lo siguiente:

In [31]:
data = {encabezados[0]: ['Apr']}
numero_columnas = tabla.shape[1]
data[encabezados[1]] = [np.round(np.random.uniform(1.0,5.0), 1)]
for i in range(2,numero_columnas):
    data[encabezados[i]] = [np.random.default_rng().integers(0,7)]
print(data)
row = pd.DataFrame(data)
row

{'Month': ['Apr'], 'Average': [3.9], '2005': [4], '2006': [5], '2007': [1], '2008': [6], '2009': [6], '2010': [5], '2011': [3], '2012': [6], '2013': [6], '2014': [4], '2015': [4]}


Unnamed: 0,Month,Average,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015
0,Apr,3.9,4,5,1,6,6,5,3,6,6,4,4


Analiza el código anterior. En la línea 1 se crea el map con el primer encabezado. En la línea 2 se agrega el segundo encabezado. El ciclo `for`, usado en las líneas 3 y 4, recorre las demás columnas (los encabezados almacenados en el array). Se usa la función `np.random.default_rng().integers(0,7)` para generar aleatoriamente números enteros entre 0 y 7 inclusive. Posteriormente se agrega la fila creada a la tabla existente:

In [32]:
row = pd.DataFrame(data)
tabla = pd.concat([tabla, row], ignore_index=True)
tabla

Unnamed: 0,Month,Average,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015
0,May,0.1,0.0,0.0,1.0,1.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0
1,Jun,0.5,2.0,1.0,1.0,0.0,0.0,1.0,1.0,2.0,2.0,0.0,1.0
2,Jul,0.7,5.0,1.0,1.0,2.0,0.0,1.0,3.0,0.0,2.0,2.0,1.0
3,Aug,2.3,6.0,3.0,2.0,4.0,4.0,4.0,7.0,8.0,2.0,2.0,3.0
4,Sep,3.5,6.0,4.0,7.0,4.0,2.0,8.0,5.0,2.0,5.0,2.0,5.0
5,Oct,2.0,8.0,0.0,1.0,3.0,2.0,5.0,1.0,5.0,2.0,3.0,0.0
6,Nov,0.5,3.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0
7,Dec,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
8,Jan,0.9,4.0,0.0,1.0,1.0,3.0,2.0,0.0,1.0,7.0,6.0,8.0
9,Feb,1.6,9.0,,,,,3.0,,,,0.0,1.0


#### Eliminar una fila

Mediante la función `tabla_en_uso.drop(índice_de_la_fila).reset_index(drop=True)` se puede eliminar una fila en específico utilizando el índice correspondiente a la fila:

In [33]:
tabla = tabla.drop(9).reset_index(drop=True) # Se elimina Feb
tabla

Unnamed: 0,Month,Average,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015
0,May,0.1,0.0,0.0,1.0,1.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0
1,Jun,0.5,2.0,1.0,1.0,0.0,0.0,1.0,1.0,2.0,2.0,0.0,1.0
2,Jul,0.7,5.0,1.0,1.0,2.0,0.0,1.0,3.0,0.0,2.0,2.0,1.0
3,Aug,2.3,6.0,3.0,2.0,4.0,4.0,4.0,7.0,8.0,2.0,2.0,3.0
4,Sep,3.5,6.0,4.0,7.0,4.0,2.0,8.0,5.0,2.0,5.0,2.0,5.0
5,Oct,2.0,8.0,0.0,1.0,3.0,2.0,5.0,1.0,5.0,2.0,3.0,0.0
6,Nov,0.5,3.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0
7,Dec,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
8,Jan,0.9,4.0,0.0,1.0,1.0,3.0,2.0,0.0,1.0,7.0,6.0,8.0
9,Mar,3.5,6.0,2.0,1.0,0.0,0.0,8.0,1.0,4.0,3.0,7.0,0.0


Observa que la numeración de los índices se conserva, esto es posible gracias a la función `reset_index(drop=True)`. Si se cambia el parámetro `drop=False` pasa lo siguiente:

In [34]:
tabla2 = tabla.drop(5).reset_index(drop=False)
tabla2

Unnamed: 0,index,Month,Average,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015
0,0,May,0.1,0.0,0.0,1.0,1.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0
1,1,Jun,0.5,2.0,1.0,1.0,0.0,0.0,1.0,1.0,2.0,2.0,0.0,1.0
2,2,Jul,0.7,5.0,1.0,1.0,2.0,0.0,1.0,3.0,0.0,2.0,2.0,1.0
3,3,Aug,2.3,6.0,3.0,2.0,4.0,4.0,4.0,7.0,8.0,2.0,2.0,3.0
4,4,Sep,3.5,6.0,4.0,7.0,4.0,2.0,8.0,5.0,2.0,5.0,2.0,5.0
5,6,Nov,0.5,3.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0
6,7,Dec,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
7,8,Jan,0.9,4.0,0.0,1.0,1.0,3.0,2.0,0.0,1.0,7.0,6.0,8.0
8,9,Mar,3.5,6.0,2.0,1.0,0.0,0.0,8.0,1.0,4.0,3.0,7.0,0.0
9,10,Apr,3.9,4.0,5.0,1.0,6.0,6.0,5.0,3.0,6.0,6.0,4.0,4.0


#### Guardar una tabla

Podemos guardar una tabla de *Pandas* en un archivo CSV (valores separados por coma, por su siglas en inglés). En el siguiente bloque de código observa como puedes usar las cadenas de texto para construir el nombre de tu archivo.

In [35]:
new_name = '-modificado'
tabla.to_csv('../archivos_texto_plano/hurricanes' + new_name + '.csv', index=False)

Con el parámetro `index=False` se evita que *Pandas* almacena también la numeración de los índices. El siguiente ejemplo muestra como se guarda la información al cambiar el valor `False` a `True`:

In [36]:
new_name = '-parametro-index-true'
tabla.to_csv('../archivos_texto_plano/hurricanes' + new_name + '.csv', index=True)

También podemos construir cadenas de texto para leer archivos específicos:

In [37]:
prefix = '-modificado'
tabla = pd.read_csv('../archivos_texto_plano/hurricanes' + prefix + '.csv')
tabla

Unnamed: 0,Month,Average,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015
0,May,0.1,0.0,0.0,1.0,1.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0
1,Jun,0.5,2.0,1.0,1.0,0.0,0.0,1.0,1.0,2.0,2.0,0.0,1.0
2,Jul,0.7,5.0,1.0,1.0,2.0,0.0,1.0,3.0,0.0,2.0,2.0,1.0
3,Aug,2.3,6.0,3.0,2.0,4.0,4.0,4.0,7.0,8.0,2.0,2.0,3.0
4,Sep,3.5,6.0,4.0,7.0,4.0,2.0,8.0,5.0,2.0,5.0,2.0,5.0
5,Oct,2.0,8.0,0.0,1.0,3.0,2.0,5.0,1.0,5.0,2.0,3.0,0.0
6,Nov,0.5,3.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0
7,Dec,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
8,Jan,0.9,4.0,0.0,1.0,1.0,3.0,2.0,0.0,1.0,7.0,6.0,8.0
9,Mar,3.5,6.0,2.0,1.0,0.0,0.0,8.0,1.0,4.0,3.0,7.0,0.0


Vale la pena recordar una vez más lo siguiente:

In [38]:
tupla = tabla.shape
a = tupla[0]
b = tupla[1]
print(f'tabla.shape nos regresa las dimensiones de la tabla: (a, b) := {tupla}')
print(f'donde a = {a}, es el número de filas')
print(f'y b = {b}, es el número de columnas')


tabla.shape nos regresa las dimensiones de la tabla: (a, b) := (11, 13)
donde a = 11, es el número de filas
y b = 13, es el número de columnas


#### Agregar columnas a una tabla existente

Ahora se verá como agregar columnas a la tabla con la que se está trabajando. Para ello será útil la función `shape`. Recuerde la estructura de la tabla con la que se está trabajando:

In [39]:
tabla

Unnamed: 0,Month,Average,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015
0,May,0.1,0.0,0.0,1.0,1.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0
1,Jun,0.5,2.0,1.0,1.0,0.0,0.0,1.0,1.0,2.0,2.0,0.0,1.0
2,Jul,0.7,5.0,1.0,1.0,2.0,0.0,1.0,3.0,0.0,2.0,2.0,1.0
3,Aug,2.3,6.0,3.0,2.0,4.0,4.0,4.0,7.0,8.0,2.0,2.0,3.0
4,Sep,3.5,6.0,4.0,7.0,4.0,2.0,8.0,5.0,2.0,5.0,2.0,5.0
5,Oct,2.0,8.0,0.0,1.0,3.0,2.0,5.0,1.0,5.0,2.0,3.0,0.0
6,Nov,0.5,3.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0
7,Dec,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
8,Jan,0.9,4.0,0.0,1.0,1.0,3.0,2.0,0.0,1.0,7.0,6.0,8.0
9,Mar,3.5,6.0,2.0,1.0,0.0,0.0,8.0,1.0,4.0,3.0,7.0,0.0


Para agregar una nueva columna, se necesita el nombre del encabezado y un arreglo de valores. Así que, como primer paso se obtiene el arreglo de valores que contendrá nuestra columna de la siguiente forma:

In [40]:
numero_filas = tabla.shape[0]                               # Obtenemos el número de filas de nuestra tabla
values = np.zeros(numero_filas)                             # Creamos el arreglo de valores
for i in range(numero_filas):
    values[i] = np.round(np.random.uniform(1.0, 5.0), 1)    # Rellenamos el arreglo con los valores que contendrá nuestra columna
values                                                      # Mostramos los resultados obtenidos

array([4.6, 4.7, 2.9, 4.4, 1.7, 1.8, 2. , 4.2, 4.4, 2.2, 2.5])

Seguidamente creamos el map que se usará para crear la columna. Observa que es diferente la forma que se usa para map tanto para crear una fila como para hacer una columna:

In [41]:
nueva_columna = {'2016': values}                # Se agrega el encabezado y el arreglo de valores a incluir.
nueva_columna = pd.DataFrame(nueva_columna)     # Se usa DataFrame para construir la columna.
nueva_columna

Unnamed: 0,2016
0,4.6
1,4.7
2,2.9
3,4.4
4,1.7
5,1.8
6,2.0
7,4.2
8,4.4
9,2.2


Por último se agrega la columna a la tabla existente con la función `concat`, solo que esta vez hay que agregar un parámetro adicional: `axis=1`, el cual le dice a Pandas que agregue los datos de nuestra columna verticalmente y no horizontalmente como si fuera una fila:

In [42]:
tabla = pd.concat([tabla, nueva_columna], axis=1)
tabla

Unnamed: 0,Month,Average,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
0,May,0.1,0.0,0.0,1.0,1.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0,4.6
1,Jun,0.5,2.0,1.0,1.0,0.0,0.0,1.0,1.0,2.0,2.0,0.0,1.0,4.7
2,Jul,0.7,5.0,1.0,1.0,2.0,0.0,1.0,3.0,0.0,2.0,2.0,1.0,2.9
3,Aug,2.3,6.0,3.0,2.0,4.0,4.0,4.0,7.0,8.0,2.0,2.0,3.0,4.4
4,Sep,3.5,6.0,4.0,7.0,4.0,2.0,8.0,5.0,2.0,5.0,2.0,5.0,1.7
5,Oct,2.0,8.0,0.0,1.0,3.0,2.0,5.0,1.0,5.0,2.0,3.0,0.0,1.8
6,Nov,0.5,3.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,2.0
7,Dec,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,4.2
8,Jan,0.9,4.0,0.0,1.0,1.0,3.0,2.0,0.0,1.0,7.0,6.0,8.0,4.4
9,Mar,3.5,6.0,2.0,1.0,0.0,0.0,8.0,1.0,4.0,3.0,7.0,0.0,2.2


A continuación verá diversas maneras de agregar más de una columna a una tabla. Analice el código que se muestra a continuación. La función `np.round(np.random.uniform(1.0, 5.0), 1)` genera números aleatorios entre 1.0 y 5.0 inclusive redondeado a una cifra significativa, es decir, en vez de mostrar $3.1416$, va a presentar $3.1$.

In [43]:
# Forma 1
anios = ['2017','2018','2019','2020']

for anio in anios:
    # obtenemos los valores correspondientes a cada anio
    numero_filas = tabla.shape[0]
    values = np.zeros(numero_filas)
    for i in range(numero_filas):
        values[i] = np.round(np.random.uniform(1.0, 5.0), 1)
        
    # Creamos el map de los valores y el encabezado deseado
    nueva_columna = {anio: values}
    nueva_columna = pd.DataFrame(nueva_columna)
    tabla = pd.concat([tabla, nueva_columna], axis=1)
tabla

Unnamed: 0,Month,Average,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
0,May,0.1,0.0,0.0,1.0,1.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0,4.6,3.6,2.7,2.1,3.3
1,Jun,0.5,2.0,1.0,1.0,0.0,0.0,1.0,1.0,2.0,2.0,0.0,1.0,4.7,1.1,5.0,4.4,3.9
2,Jul,0.7,5.0,1.0,1.0,2.0,0.0,1.0,3.0,0.0,2.0,2.0,1.0,2.9,2.8,1.8,2.0,4.4
3,Aug,2.3,6.0,3.0,2.0,4.0,4.0,4.0,7.0,8.0,2.0,2.0,3.0,4.4,1.7,4.9,5.0,1.3
4,Sep,3.5,6.0,4.0,7.0,4.0,2.0,8.0,5.0,2.0,5.0,2.0,5.0,1.7,3.6,3.1,4.3,1.9
5,Oct,2.0,8.0,0.0,1.0,3.0,2.0,5.0,1.0,5.0,2.0,3.0,0.0,1.8,3.9,3.8,3.6,4.5
6,Nov,0.5,3.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,1.0,2.0,3.4,4.4,3.2,1.2
7,Dec,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,4.2,4.1,1.8,4.0,3.9
8,Jan,0.9,4.0,0.0,1.0,1.0,3.0,2.0,0.0,1.0,7.0,6.0,8.0,4.4,1.9,1.6,1.8,4.5
9,Mar,3.5,6.0,2.0,1.0,0.0,0.0,8.0,1.0,4.0,3.0,7.0,0.0,2.2,2.1,4.9,2.5,3.2


Otra forma es la siguiente:

In [44]:
for i in range(2021,2025):
    anio = str(i)

    # obtenemos los valores correspondientes a cada anio
    numero_filas = tabla.shape[0]
    values = np.zeros(numero_filas)
    for i in range(numero_filas):
        values[i] = np.round(np.random.uniform(1.0, 5.0), 1)

    # Creamos el map de los valores y el encabezado deseado
    nueva_columna = {anio: values}
    nueva_columna = pd.DataFrame(nueva_columna)
    tabla = pd.concat([tabla, nueva_columna], axis=1)
tabla

Unnamed: 0,Month,Average,2005,2006,2007,2008,2009,2010,2011,2012,...,2015,2016,2017,2018,2019,2020,2021,2022,2023,2024
0,May,0.1,0.0,0.0,1.0,1.0,0.0,0.0,0.0,2.0,...,0.0,4.6,3.6,2.7,2.1,3.3,3.9,4.2,4.2,3.6
1,Jun,0.5,2.0,1.0,1.0,0.0,0.0,1.0,1.0,2.0,...,1.0,4.7,1.1,5.0,4.4,3.9,2.5,2.2,2.6,2.5
2,Jul,0.7,5.0,1.0,1.0,2.0,0.0,1.0,3.0,0.0,...,1.0,2.9,2.8,1.8,2.0,4.4,4.6,3.7,1.4,2.4
3,Aug,2.3,6.0,3.0,2.0,4.0,4.0,4.0,7.0,8.0,...,3.0,4.4,1.7,4.9,5.0,1.3,1.6,3.3,3.8,4.7
4,Sep,3.5,6.0,4.0,7.0,4.0,2.0,8.0,5.0,2.0,...,5.0,1.7,3.6,3.1,4.3,1.9,2.9,3.4,3.1,2.1
5,Oct,2.0,8.0,0.0,1.0,3.0,2.0,5.0,1.0,5.0,...,0.0,1.8,3.9,3.8,3.6,4.5,2.3,4.6,2.7,1.1
6,Nov,0.5,3.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,...,1.0,2.0,3.4,4.4,3.2,1.2,1.8,1.5,2.2,4.8
7,Dec,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,...,1.0,4.2,4.1,1.8,4.0,3.9,3.1,3.1,4.3,1.5
8,Jan,0.9,4.0,0.0,1.0,1.0,3.0,2.0,0.0,1.0,...,8.0,4.4,1.9,1.6,1.8,4.5,4.5,2.2,1.4,2.3
9,Mar,3.5,6.0,2.0,1.0,0.0,0.0,8.0,1.0,4.0,...,0.0,2.2,2.1,4.9,2.5,3.2,2.9,3.1,3.0,1.5


Se almacena la tabla modificada tal y como se vio anteriormente (observe como se manipulan las cadenas de texto):

In [45]:
new_name = '-extendido'
path = '../archivos_texto_plano/hurricanes-modificado' + new_name + '.csv'
tabla.to_csv(path, index=False)

### Arreglo de Funciones

Habrá ocasiones en que tenga que evaluar varias funciones. Para realizar sus simulaciones tendría que cambiar en el código manualmente el nombre de la función para poder llamarla. Python permite agrupar las funciones que necesitemos llamar en un arreglo o lista y ejecutar cada una de ellas usando una estructura de ciclo. En el siguiente bloque de código se crean cuatro funciones (aquí se definen con la palabra `lambda` pero funciona igual si se crea la función con la palabra`def`) y se agrupan en una lista que se llama `lista_funciones`.

In [46]:
fun1 = lambda x: x
fun2 = lambda x: x**2
fun3 = lambda x: np.exp(5*x)
fun4 = lambda x: np.sin(x)
lista_funciones = [fun1, fun2, fun3, fun4]

Se creará una tabla desde cero para observar detenidamente el proceso. Se construye la primera columna de nuestra tabla:

In [47]:
# Columna de funciones
funciones = ['x', 'x^2', 'e^{5x}', 'sin(x)']
funciones = {'funciones': funciones}
datos = pd.DataFrame(funciones)
datos

Unnamed: 0,funciones
0,x
1,x^2
2,e^{5x}
3,sin(x)


Estudia y analiza el código mostrado a continuación. En este bloque de código se llevan a cabo seis simulaciones numéricas y en cada simulación se llaman a las cuatro funciones definidas anteriormente. Posteriormente los resultados se almacenan en la tabla creada en el bloque de código anterior.

In [48]:
# Columna de valores calculados con varios metodos
numero_simulaciones = 7
for i in range(1,numero_simulaciones):
    # Formamos el encabezado
    metodo = 'simulacion_'
    numero = str(i)
    nombre_metodo = metodo + numero
    
    # Calculamos los valores de esta columna
    simulacion = np.zeros(datos.shape[0])
    for i in range(datos.shape[0]):
        x = np.round(np.random.random(), 4)
        simulacion[i] = lista_funciones[i](x)
    
    # Creamos el map con el encabezado y los datos obtenidos
    columna = {nombre_metodo: simulacion}
    columna = pd.DataFrame(columna)

    datos = pd.concat([datos, columna], axis=1)
datos

Unnamed: 0,funciones,simulacion_1,simulacion_2,simulacion_3,simulacion_4,simulacion_5,simulacion_6
0,x,0.2357,0.8191,0.0441,0.8093,0.7373,0.4806
1,x^2,0.228197,0.260712,0.152725,0.89643,0.000222,0.026962
2,e^{5x},2.740115,40.245573,101.544792,10.962715,10.60685,1.049171
3,sin(x),0.700573,0.302582,0.625132,0.365993,0.270488,0.270777


Guardamos la tabla generada:

In [49]:
path = '../archivos_texto_plano/'
nombre_archivo = 'simulacion_funciones.csv'
datos.to_csv(path + nombre_archivo, index=False)


Estudia y analiza el código mostrado a continuación. En este bloque de código se llevan a cabo seis simulaciones numéricas y en cada simulación se llaman a las cuatro funciones definidas anteriormente. Posteriormente los resultados se guardan en un archivo CSV distinto, uno para cada simulación. Observe como se automatiza la creación de encabezados de las tablas y de los nombres de los archivos usando cadenas de texto. 

In [50]:
# Columna de valores calculados con varios metodos
# Columna de funciones
funciones = ['x', 'x^2', 'e^{5x}', 'sin(x)']
funciones = {'funciones': funciones}
primera_columna = pd.DataFrame(funciones)
for i in range(primera_columna.shape[0]):
    # Formamos el encabezado
    metodo = 'simulacion_'
    numero = str(i+1)
    nombre_metodo = metodo + numero
    
    # Calculamos los valores de esta columna
    simulacion = np.zeros(datos.shape[0])
    for i in range(primera_columna.shape[0]):
        x = np.round(np.random.random(), 4)
        simulacion[i] = lista_funciones[i](x)
    
    # Creamos el map con el encabezado y los datos obtenidos
    segunda_columna = {nombre_metodo: simulacion}
    segunda_columna = pd.DataFrame(segunda_columna)

    archivo = pd.concat([primera_columna, segunda_columna], axis=1)

    # Guardar archivo
    path = '../archivos_texto_plano/'
    nombre_archivo = 'funciones_' + nombre_metodo + '.csv'
    archivo.to_csv(path + nombre_archivo, index=False)

Ya se conoce la manera de leer un archivo CSV con *Pandas*:

In [51]:
archivo = pd.read_csv('../archivos_texto_plano/funciones_simulacion_4.csv')
archivo

Unnamed: 0,funciones,simulacion_4
0,x,0.4356
1,x^2,0.003469
2,e^{5x},7.246365
3,sin(x),0.684706


Ahora se verá como hacerlo con una estructura de ciclo:

In [52]:
numero_de_metodos = 4
for i in range(numero_de_metodos):
    path = '../archivos_texto_plano/'
    nombre_archivo = 'funciones_simulacion_' + str(i+1) + '.csv'
    archivo = pd.read_csv(path + nombre_archivo)
    print(archivo)
    print('--------------------------------')


  funciones  simulacion_1
0         x      0.709300
1       x^2      0.040000
2    e^{5x}      3.226829
3    sin(x)      0.693762
--------------------------------
  funciones  simulacion_2
0         x      0.382100
1       x^2      0.004290
2    e^{5x}     35.286484
3    sin(x)      0.810204
--------------------------------
  funciones  simulacion_3
0         x      0.625300
1       x^2      0.710818
2    e^{5x}      4.384169
3    sin(x)      0.264996
--------------------------------
  funciones  simulacion_4
0         x      0.435600
1       x^2      0.003469
2    e^{5x}      7.246365
3    sin(x)      0.684706
--------------------------------
