# **Obtención y preparación de datos**

# OD22. Lectura y escritura de archivos con Pandas

## <font color='blue'>**Herramientas de Entrada/Salida (I/O)**</font>
Una característica crucial de Pandas es su capacidad para escribir y leer archivos de distintos formatos: Excel, CSV, HTML, JSON y muchos otros. Estos métodos nos permiten guardar los datos y las etiquetas de los objetos de Pandas en un archivo y cargarlos más tarde como instancias de Pandas Series o DataFrame. Para ello, Pandas nos entrega un conjunto de funciones de lectura (*readers*) de alto nivel a las que por ejemplo se puede acceder como `pandas.read_csv()`, las que generalmente devuelven un objeto pandas; y las funciones de escritura (*writers*) correspondientes son métodos a los que se puede acceder por ejemplo como `DataFrame.to_csv()`.

A continuación se muestra una tabla que contiene los *readers* y *writers* disponibles.


|   Tipo de Formato   | Descripción de la Data |    Reader    |  Writer |
| -------             | :-----                 |  :---------: | :-----: |
| text   |  CSV |  read_csv | to_csv |
| text |  Fixed-Width Text File| read_fwf |  |
| text   |  JSON | read_json | to_json |
| text   |  HTML |  read_html | to_html |
| text    |  Local clipboard|  read_clipboard | to_clipboard |
|    |  MS Excel |  read_excel | to_excel |
| binary   |  OpenDocument |  read_excel |  |
| binary |  HDF5 Format| read_hdf | to_hdf |
| binary   |  Feather Format | read_feather | to_feather |
| binary   |  Parquet Format |  read_parquet | to_parquet |
| binary    |  ORC Format|  read_orc | |
| binary   |  Msgpack |  read_msgpack | to_msgpack |
| binary |  Stata| read_stata | to_stata |
| binary   |  SAS | read_sas |  |
| binary   |  SPSS |  read_spss |  |
| binary    | Python Pickle Format|  read_pickle | to_pickle |
| SQL   |  SQL |  read_sql | to_sql |
| SQL    | Google BigQuery|  read_gbq | to_gbq |

El detalle de cada una de las funciones se encuentra en el siguiente <a href="https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html">link</a>.

## <font color='blue'>**Datos de trabajo**</font>

Para nuestro aprendizaje, utilizaremos la siguiente data, la cual contiene lo siguiente:
* __Pais__: Corresponde al nombre del país. Las etiquetas de fila para el conjunto de datos son los códigos de país de tres letras definidos en ISO 3166-1. La etiqueta de la columna para el conjunto de datos es _PAIS_.

* __Población__: La población se expresa en millones. La etiqueta de columna para el conjunto de datos es _POB_.

* __Área:__ El área se expresa en miles de kilómetros cuadrados. La etiqueta de la columna para el conjunto de datos es _AREA_.

* __Productom Interno Bruto__: El producto interno bruto se expresa en millones de dólares estadounidenses, según los datos de las Naciones Unidas para 2017.  La etiqueta de columna para el conjunto de datos es _PIB_.

* __Continente__: El continente es África, Asia, Oceanía, Europa, América. La etiqueta de columna para el conjunto de datos es _CONT_.

* __Independencia__: El día de la independencia es una fecha que conmemora la independencia de una nación. Las fechas se muestran en formato ISO 8601. Los primeros cuatro dígitos representan el año, los siguientes dos números son el mes y los dos últimos son para el día del mes. La etiqueta de la columna para el conjunto de datos es _IND_.

* __OCDE__: Si el país es miembro o no de la _OCDE_.

In [None]:
# Organizamos la data en un diccionario

data = {
    'CHN': {'PAIS': 'China', 'POB': 1_398.72, 'AREA': 9_596.96,
            'PGB': 12_234.78, 'CONT': 'Asia', 'OCDE': 'No'},
    'IND': {'PAIS': 'India', 'POB': 1_351.16, 'AREA': 3_287.26,
            'PGB': 2_575.67, 'CONT': 'Asia', 'IND': '1947-08-15', 'OCDE': 'No'},
    'USA': {'PAIS': 'US', 'POB': 329.74, 'AREA': 9_833.52,
            'PGB': 19_485.39, 'CONT': 'America','IND': '1776-07-04', 'OCDE': 'Si'},
    'IDN': {'PAIS': 'Indonesia', 'POB': 268.07, 'AREA': 1_910.93,
            'PGB': 1_015.54, 'CONT': 'Asia', 'IND': '1945-08-17', 'OCDE': 'No'},
    'BRA': {'PAIS': 'Brasil', 'POB': 210.32, 'AREA': 8_515.77,
            'PGB': 2_055.51, 'CONT': 'America', 'IND': '1822-09-07', 'OCDE': 'No'},
    'PAK': {'PAIS': 'Pakistan', 'POB': 205.71, 'AREA': 881.91,
            'PGB': 302.14, 'CONT': 'Asia', 'IND': '1947-08-14', 'OCDE': 'No'},
    'NGA': {'PAIS': 'Nigeria', 'POB': 200.96, 'AREA': 923.77,
            'PGB': 375.77, 'CONT': 'Africa', 'IND': '1960-10-01', 'OCDE': 'No'},
    'BGD': {'PAIS': 'Bangladesh', 'POB': 167.09, 'AREA': 147.57,
            'PGB': 245.63, 'CONT': 'Asia', 'IND': '1971-03-26', 'OCDE': 'No'},
    'RUS': {'PAIS': 'Rusia', 'POB': 146.79, 'AREA': 17_098.25,
            'PGB': 1_530.75, 'IND': '1992-06-12', 'OCDE': 'No'},
    'MEX': {'PAIS': 'Mexico', 'POB': 126.58, 'AREA': 1_964.38,
            'PGB': 1_158.23, 'CONT': 'America', 'IND': '1810-09-16', 'OCDE': 'Si'},
    'JPN': {'PAIS': 'Japon', 'POB': 126.22, 'AREA': 377.97,
            'PGB': 4_872.42, 'CONT': 'Asia', 'OCDE': 'Si'},
    'DEU': {'PAIS': 'Alemania', 'POB': 83.02, 'AREA': 357.11,
            'PGB': 3_693.20, 'CONT': 'Europe', 'OCDE': 'Si'},
    'FRA': {'PAIS': 'Francia', 'POB': 67.02, 'AREA': 640.68,
            'PGB': 2_582.49, 'CONT': 'Europe', 'IND': '1789-07-14', 'OCDE': 'Si'},
    'GBR': {'PAIS': 'UK', 'POB': 66.44, 'AREA': 242.50,
            'PGB': 2_631.23, 'CONT': 'Europe', 'OCDE': 'Si'},
    'ITA': {'PAIS': 'Italia', 'POB': 60.36, 'AREA': 301.34,
            'PGB': 1_943.84, 'CONT': 'Europe', 'OCDE': 'Si'},
    'ARG': {'PAIS': 'Argentina', 'POB': 44.94, 'AREA': 2_780.40,
            'PGB': 637.49, 'CONT': 'America', 'IND': '1816-07-09', 'OCDE': 'No'},
    'DZA': {'PAIS': 'Algeria', 'POB': 43.38, 'AREA': 2_381.74,
            'PGB': 167.56, 'CONT': 'Africa', 'IND': '1962-07-05', 'OCDE': 'No'},
    'CAN': {'PAIS': 'Canada', 'POB': 37.59, 'AREA': 9_984.67,
            'PGB': 1_647.12, 'CONT': 'America', 'IND': '1867-07-01', 'OCDE': 'Si'},
    'AUS': {'PAIS': 'Australia', 'POB': 25.47, 'AREA': 7_692.02,
            'PGB': 1_408.68, 'CONT': 'Oceania', 'OCDE': 'Si'},
    'CHL': {'PAIS': 'Chile', 'POB': 19.68, 'AREA': 756.10,
            'PGB': 317.6, 'CONT': 'America', 'IND': '1818-09-18', 'OCDE': 'Si'},
    'KAZ': {'PAIS': 'Kazakistan', 'POB': 18.53, 'AREA': 2_724.90,
            'PGB': 159.41, 'CONT': 'Asia', 'IND': '1991-12-16', 'OCDE': 'No'}

}

columns = ('PAIS', 'POB', 'AREA', 'PGB', 'CONT', 'IND')

Puede notar que faltan algunos de los datos. Por ejemplo, el continente de Rusia no se especifica porque se extiende por Europa y Asia. También faltan varios días de independencia porque la fuente de datos los omite.



In [None]:
import pandas as pd

Usaremos el constructor `pd.DataFrame` para crear la estructura en Pandas.

In [None]:
df = pd.DataFrame(data=data)
df

Unnamed: 0,CHN,IND,USA,IDN,BRA,PAK,NGA,BGD,RUS,MEX,...,DEU,FRA,GBR,ITA,ARG,DZA,CAN,AUS,CHL,KAZ
PAIS,China,India,US,Indonesia,Brasil,Pakistan,Nigeria,Bangladesh,Rusia,Mexico,...,Alemania,Francia,UK,Italia,Argentina,Algeria,Canada,Australia,Chile,Kazakistan
POB,1398.72,1351.16,329.74,268.07,210.32,205.71,200.96,167.09,146.79,126.58,...,83.02,67.02,66.44,60.36,44.94,43.38,37.59,25.47,19.68,18.53
AREA,9596.96,3287.26,9833.52,1910.93,8515.77,881.91,923.77,147.57,17098.25,1964.38,...,357.11,640.68,242.5,301.34,2780.4,2381.74,9984.67,7692.02,756.1,2724.9
PGB,12234.78,2575.67,19485.39,1015.54,2055.51,302.14,375.77,245.63,1530.75,1158.23,...,3693.2,2582.49,2631.23,1943.84,637.49,167.56,1647.12,1408.68,317.6,159.41
CONT,Asia,Asia,America,Asia,America,Asia,Africa,Asia,,America,...,Europe,Europe,Europe,Europe,America,Africa,America,Oceania,America,Asia
OCDE,No,No,Si,No,No,No,No,No,No,Si,...,Si,Si,Si,Si,No,No,Si,Si,Si,No
IND,,1947-08-15,1776-07-04,1945-08-17,1822-09-07,1947-08-14,1960-10-01,1971-03-26,1992-06-12,1810-09-16,...,,1789-07-14,,,1816-07-09,1962-07-05,1867-07-01,,1818-09-18,1991-12-16


Podemos transponer la estructura para que la data quede organizada con el *código_pais* como índice.

In [None]:
df = pd.DataFrame(data=data).T
df

Unnamed: 0,PAIS,POB,AREA,PGB,CONT,OCDE,IND
CHN,China,1398.72,9596.96,12234.78,Asia,No,
IND,India,1351.16,3287.26,2575.67,Asia,No,1947-08-15
USA,US,329.74,9833.52,19485.39,America,Si,1776-07-04
IDN,Indonesia,268.07,1910.93,1015.54,Asia,No,1945-08-17
BRA,Brasil,210.32,8515.77,2055.51,America,No,1822-09-07
PAK,Pakistan,205.71,881.91,302.14,Asia,No,1947-08-14
NGA,Nigeria,200.96,923.77,375.77,Africa,No,1960-10-01
BGD,Bangladesh,167.09,147.57,245.63,Asia,No,1971-03-26
RUS,Rusia,146.79,17098.25,1530.75,,No,1992-06-12
MEX,Mexico,126.58,1964.38,1158.23,America,Si,1810-09-16


Nuestra data está lista, veamos como escribir y leer archivos con pandas.

## <font color='blue'>**Uso de las funciones `read_csv()` y `.to_csv()` de Pandas**</font>

Un archivo **CSV** (_comma-separated values_), es un archivo de texto sin formato con una extensión .csv que contiene datos tabulares. Este es uno de los formatos de archivo más Populares para almacenar grandes cantidades de datos. Cada fila del archivo CSV representa una única fila de la tabla. Los valores en la misma fila están separados por comas de forma predeterminada, pero puede cambiar el separador a punto y coma, tabulación, espacio o algún otro carácter.

### __Escribir un archivo CSV__
Puede guardar su Pandas DataFrame como un archivo CSV con el método `.to_csv()`:

In [None]:
df.to_csv('data.csv')

¡Eso es todo! Ha creado el archivo `data.csv` en su directorio de trabajo actual. Ejecute el siguiente comando de consola para ver cómo se ve su archivo CSV:

In [None]:
!cat data.csv

,PAIS,POB,AREA,PGB,CONT,OCDE,IND
CHN,China,1398.72,9596.96,12234.78,Asia,No,
IND,India,1351.16,3287.26,2575.67,Asia,No,1947-08-15
USA,US,329.74,9833.52,19485.39,America,Si,1776-07-04
IDN,Indonesia,268.07,1910.93,1015.54,Asia,No,1945-08-17
BRA,Brasil,210.32,8515.77,2055.51,America,No,1822-09-07
PAK,Pakistan,205.71,881.91,302.14,Asia,No,1947-08-14
NGA,Nigeria,200.96,923.77,375.77,Africa,No,1960-10-01
BGD,Bangladesh,167.09,147.57,245.63,Asia,No,1971-03-26
RUS,Rusia,146.79,17098.25,1530.75,,No,1992-06-12
MEX,Mexico,126.58,1964.38,1158.23,America,Si,1810-09-16
JPN,Japon,126.22,377.97,4872.42,Asia,Si,
DEU,Alemania,83.02,357.11,3693.2,Europe,Si,
FRA,Francia,67.02,640.68,2582.49,Europe,Si,1789-07-14
GBR,UK,66.44,242.5,2631.23,Europe,Si,
ITA,Italia,60.36,301.34,1943.84,Europe,Si,
ARG,Argentina,44.94,2780.4,637.49,America,No,1816-07-09
DZA,Algeria,43.38,2381.74,167.56,Africa,No,1962-07-05
CAN,Canada,37.59,9984.67,1647.12,America,Si,1867-07-01
AUS,Australia,25.47,7692.02,1408.68,Oceania,Si,
CHL,C

Este archivo de texto contiene los datos separados por comas. La primera columna contiene las etiquetas de las filas. En algunos casos, los encontrará irrelevantes. Si no desea conservarlos, puede pasar el argumento `index=False` a `.to_csv()`.

### __Leer un archivo CSV__
Una vez que sus datos se guardan en un archivo CSV, es probable que desee cargarlos y usarlos. Puedes hacerlo con la función pandas `read_csv()`:

In [None]:
df = pd.read_csv('data.csv', index_col=0)
df

Unnamed: 0,PAIS,POB,AREA,PGB,CONT,OCDE,IND
CHN,China,1398.72,9596.96,12234.78,Asia,No,
IND,India,1351.16,3287.26,2575.67,Asia,No,1947-08-15
USA,US,329.74,9833.52,19485.39,America,Si,1776-07-04
IDN,Indonesia,268.07,1910.93,1015.54,Asia,No,1945-08-17
BRA,Brasil,210.32,8515.77,2055.51,America,No,1822-09-07
PAK,Pakistan,205.71,881.91,302.14,Asia,No,1947-08-14
NGA,Nigeria,200.96,923.77,375.77,Africa,No,1960-10-01
BGD,Bangladesh,167.09,147.57,245.63,Asia,No,1971-03-26
RUS,Rusia,146.79,17098.25,1530.75,,No,1992-06-12
MEX,Mexico,126.58,1964.38,1158.23,America,Si,1810-09-16


En este caso, la función `read_csv()` de Pandas devuelve un nuevo DataFrame con los datos y las etiquetas del archivo `data.csv`, que especificó con el primer argumento. Esta cadena puede ser cualquier ruta válida, incluidas las URL.

El parámetro `index_col` especifica la columna del archivo CSV que contiene las etiquetas de fila. Asigne un índice de columna de base cero a este parámetro. Debe determinar el valor de `index_col` cuando el archivo CSV contiene las etiquetas de fila para evitar cargarlas como datos.

In [None]:
# Si no incluímos index_col, los índices se convierten en una columna
df2 = pd.read_csv('data.csv')
df2.head()

Unnamed: 0.1,Unnamed: 0,PAIS,POB,AREA,PGB,CONT,OCDE,IND
0,CHN,China,1398.72,9596.96,12234.78,Asia,No,
1,IND,India,1351.16,3287.26,2575.67,Asia,No,1947-08-15
2,USA,US,329.74,9833.52,19485.39,America,Si,1776-07-04
3,IDN,Indonesia,268.07,1910.93,1015.54,Asia,No,1945-08-17
4,BRA,Brasil,210.32,8515.77,2055.51,America,No,1822-09-07


## <font color='blue'>**Usando Pandas para escribir y leer archivos Excel**</font>

Microsoft Excel es probablemente el software de hoja de cálculo más utilizado. Mientras que las versiones anteriores usaban archivos .xls binarios, Excel 2007 introdujo el nuevo archivo .xlsx basado en XML. Puede leer y escribir archivos de Excel en Pandas, de forma similar a los archivos CSV.

En el entorno que crea Colab vienen incluídas todas las librerías necesarias para leer y escribir desde Pandas a Excel. Si no las tuvieras iunstaladas deber´ñas hacerlo con:

```python
$ pip install xlwt openpyxl xlsxwriter xlrd
````
o utilizando Conda
```python
$ conda install xlwt openpyxl xlsxwriter xlrd
```
### __Escribir a un archivo Excel__
Utilizamos el método `.to_excel()`.

In [None]:
df.to_excel('data.xlsx')

El argumento 'data.xlsx' representa el archivo de destino y, opcionalmente, su ruta. La declaración anterior debería crear el archivo 'data.xlsx' en su directorio de trabajo actual. Veamos que si se creó el archivo:

In [None]:
! ls -la data*

-rw-r--r-- 1 root root 1099 Nov 14 23:57 data.csv
-rw-r--r-- 1 root root 6267 Nov 15 00:12 data.xlsx


### __Leer a un archivo Excel__
Utilizamos el método `read_excel()`.

`read_excel()` devuelve un nuevo DataFrame que contiene los valores de `data.xlsx`. También puede usar `read_excel()` con hojas de cálculo de OpenDocument o archivos .ods.

Nuevamente usaremos el parámetro `index_col` para evitar que la primera columna del Excel se convierta en una columna de datos y no en el índice.

In [None]:
df = pd.read_excel('data.xlsx', index_col=0)
df

Unnamed: 0,PAIS,POB,AREA,PGB,CONT,OCDE,IND
CHN,China,1398.72,9596.96,12234.78,Asia,No,
IND,India,1351.16,3287.26,2575.67,Asia,No,1947-08-15
USA,US,329.74,9833.52,19485.39,America,Si,1776-07-04
IDN,Indonesia,268.07,1910.93,1015.54,Asia,No,1945-08-17
BRA,Brasil,210.32,8515.77,2055.51,America,No,1822-09-07
PAK,Pakistan,205.71,881.91,302.14,Asia,No,1947-08-14
NGA,Nigeria,200.96,923.77,375.77,Africa,No,1960-10-01
BGD,Bangladesh,167.09,147.57,245.63,Asia,No,1971-03-26
RUS,Rusia,146.79,17098.25,1530.75,,No,1992-06-12
MEX,Mexico,126.58,1964.38,1158.23,America,Si,1810-09-16


## <font color='blue'>**Comprendiendo la API de Pandas IO**</font>
[Pandas IO Tools](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html) es la API que le permite guardar el contenido de los objetos Series y DataFrame en objetos Python, archivos de varios tipos, o, incluso, en el portapapeles. También permite cargar datos desde estas mismas estructuras.

### __Escribir archivos__
Los objetos Series y DataFrame tienen métodos que permiten escribir datos y etiquetas en el portapapeles o en los archivos. Se nombran con el patrón `.to_<file-type>()`, donde `<file-type>` es el tipo del archivo de destino.

Ya vimos como hacerlo hacia archivos CSV y Excel con `.to_csv()` y `.to_excel()`, pero hay otros, incluidos:

* `.to_json()`
* `.to_html()`
* `.to_sql()`
* `.to_pickle()`

Todavía hay más tipos de archivos en los que puede escribir, por lo que esta lista no es exhaustiva.

### __Leer archivos__
Las funciones de Pandas para leer el contenido de los archivos se nombran usando el patrón `.read_<file-type>()`, donde `<file-type>` indica el tipo de archivo a leer. Ya ha visto las funciones `read_csv()` y `read_excel()` de Pandas. Aquí hay algunos otros:

* `.read_json()`
* `.read_html()`
* `.read_sql()`
* `.read_pickle()`

Estas funciones tienen un parámetro que especifica la ruta del archivo de destino. Puede ser cualquier cadena válida que represente la ruta, ya sea en una máquina local o en una URL. Otros objetos también son aceptables según el tipo de archivo.

## <font color='blue'>**Trabajar con diferentes tipos de archivos**</font>

Pandas ofrece una amplia gama de posibilidades para guardar sus datos en archivos y cargar datos desde archivos. En esta sección, obtendrá más información sobre cómo trabajar con archivos CSV y Excel. También verá cómo usar otros tipos de archivos, como JSON, páginas web, bases de datos y archivos pickle de Python.

### __Archivos CSV__
Ya aprendimos a leer y escribir archivos CSV. Ahora profundicemos un poco más en los detalles. Cuando usa `.to_csv()` para guardar su DataFrame, puede proporcionar un argumento para el parámetro `path_or_buf` para especificar la ruta, el nombre y la extensión del archivo de destino.

`path_or_buf` es el primer argumento que obtendrá `.to_csv()`. Puede ser cualquier cadena que represente una ruta de archivo válida que incluya el nombre del archivo y su extensión. Lo has visto en un ejemplo anterior. Sin embargo, si omite `path_or_buf`, `.to_csv()` no creará ningún archivo. En su lugar, devolverá la cadena correspondiente:

In [None]:
df = pd.DataFrame(data=data).T
s = df.to_csv()
print(s)

,PAIS,POB,AREA,PGB,CONT,OCDE,IND
CHN,China,1398.72,9596.96,12234.78,Asia,No,
IND,India,1351.16,3287.26,2575.67,Asia,No,1947-08-15
USA,US,329.74,9833.52,19485.39,America,Si,1776-07-04
IDN,Indonesia,268.07,1910.93,1015.54,Asia,No,1945-08-17
BRA,Brasil,210.32,8515.77,2055.51,America,No,1822-09-07
PAK,Pakistan,205.71,881.91,302.14,Asia,No,1947-08-14
NGA,Nigeria,200.96,923.77,375.77,Africa,No,1960-10-01
BGD,Bangladesh,167.09,147.57,245.63,Asia,No,1971-03-26
RUS,Rusia,146.79,17098.25,1530.75,,No,1992-06-12
MEX,Mexico,126.58,1964.38,1158.23,America,Si,1810-09-16
JPN,Japon,126.22,377.97,4872.42,Asia,Si,
DEU,Alemania,83.02,357.11,3693.2,Europe,Si,
FRA,Francia,67.02,640.68,2582.49,Europe,Si,1789-07-14
GBR,UK,66.44,242.5,2631.23,Europe,Si,
ITA,Italia,60.36,301.34,1943.84,Europe,Si,
ARG,Argentina,44.94,2780.4,637.49,America,No,1816-07-09
DZA,Algeria,43.38,2381.74,167.56,Africa,No,1962-07-05
CAN,Canada,37.59,9984.67,1647.12,America,Si,1867-07-01
AUS,Australia,25.47,7692.02,1408.68,Oceania,Si,
CHL,C

Ahora tiene la cadena $s$ en lugar de un archivo CSV. También tiene algunos valores faltantes en su objeto DataFrame. Por ejemplo, el continente de Rusia y los días de la independencia de varios países (China, Japón, etc.) no están disponibles. En ciencia de datos y aprendizaje automático, debe manejar los valores faltantes con cuidado. ¡Pandas sobresale aquí! De manera predeterminada, Pandas usa el valor de `NaN` para reemplazar los valores que faltan.

In [None]:
df.loc['RUS', 'CONT']

nan

Experimento

In [None]:
df.loc['ARG', 'CONT']

'America'

FIN EXPERIMENTO

Cuando guarde su DataFrame en un archivo CSV, las cadenas vacías (`''`) representarán los datos que faltan. Puede ver esto tanto en su archivo data.csv como en la cadena $s$. Si desea cambiar este comportamiento, utilice el parámetro opcional `na_rep`:

In [None]:
df.to_csv('new-data.csv', na_rep='(missing)')

Este código genera el archivo _new-data.csv_, donde los valores que faltan ya no son cadenas vacías. Puede expandir el bloque de código a continuación para ver cómo debería verse este archivo:

In [None]:
!cat new-data.csv

,PAIS,POB,AREA,PGB,CONT,OCDE,IND
CHN,China,1398.72,9596.96,12234.78,Asia,No,(missing)
IND,India,1351.16,3287.26,2575.67,Asia,No,1947-08-15
USA,US,329.74,9833.52,19485.39,America,Si,1776-07-04
IDN,Indonesia,268.07,1910.93,1015.54,Asia,No,1945-08-17
BRA,Brasil,210.32,8515.77,2055.51,America,No,1822-09-07
PAK,Pakistan,205.71,881.91,302.14,Asia,No,1947-08-14
NGA,Nigeria,200.96,923.77,375.77,Africa,No,1960-10-01
BGD,Bangladesh,167.09,147.57,245.63,Asia,No,1971-03-26
RUS,Rusia,146.79,17098.25,1530.75,(missing),No,1992-06-12
MEX,Mexico,126.58,1964.38,1158.23,America,Si,1810-09-16
JPN,Japon,126.22,377.97,4872.42,Asia,Si,(missing)
DEU,Alemania,83.02,357.11,3693.2,Europe,Si,(missing)
FRA,Francia,67.02,640.68,2582.49,Europe,Si,1789-07-14
GBR,UK,66.44,242.5,2631.23,Europe,Si,(missing)
ITA,Italia,60.36,301.34,1943.84,Europe,Si,(missing)
ARG,Argentina,44.94,2780.4,637.49,America,No,1816-07-09
DZA,Algeria,43.38,2381.74,167.56,Africa,No,1962-07-05
CAN,Canada,37.59,9984.67,1647.12,America,Si,1867-07-01

Cuando Pandas lee archivos, considera la cadena vacía ('') y algunos otros como valores faltantes de forma predeterminada:
`['-1. # IND', '1. # QNAN', '1. # IND', '-1. # QNAN', '# N / AN / A', '# N / A ',' N / A ',' n / a ',' NA ',' <NA> ',' #NA ',' NULL ',' null ',' NaN ',' -NaN ',' nan ' , '-nan', '']`

Para controlar qué valores se analizan como valores perdidos (que se indican con `NaN`), se especifica una cadena en `na_values`. Si especifica una lista de cadenas, todos los valores en ella se consideran valores perdidos. Si especifica un número (un flotante, como 5.0 o un número entero como 5), los valores equivalentes correspondientes también implicarán un valor faltante (en este caso efectivamente `[5.0, 5]` se reconocen como `NaN`).

Para anular completamente los valores predeterminados que se reconocen como faltantes, especifique `keep_default_na = False`.

In [None]:
pd.read_csv('new-data.csv', index_col=0, na_values='(missing)')

Unnamed: 0,PAIS,POB,AREA,PGB,CONT,OCDE,IND
CHN,China,1398.72,9596.96,12234.78,Asia,No,
IND,India,1351.16,3287.26,2575.67,Asia,No,1947-08-15
USA,US,329.74,9833.52,19485.39,America,Si,1776-07-04
IDN,Indonesia,268.07,1910.93,1015.54,Asia,No,1945-08-17
BRA,Brasil,210.32,8515.77,2055.51,America,No,1822-09-07
PAK,Pakistan,205.71,881.91,302.14,Asia,No,1947-08-14
NGA,Nigeria,200.96,923.77,375.77,Africa,No,1960-10-01
BGD,Bangladesh,167.09,147.57,245.63,Asia,No,1971-03-26
RUS,Rusia,146.79,17098.25,1530.75,,No,1992-06-12
MEX,Mexico,126.58,1964.38,1158.23,America,Si,1810-09-16


Aquí, marcó la cadena '(missing)' como una nueva etiqueta de datos faltantes, y Pandas la reemplazó con `NaN` cuando leyó el archivo.

Cuando carga datos de un archivo, Pandas asigna los tipos de datos a los valores de cada columna de forma predeterminada. Puede verificar estos tipos con `.dtypes`:

In [None]:
df = pd.read_csv('data.csv', index_col=0)
df.dtypes

Unnamed: 0,0
PAIS,object
POB,float64
AREA,float64
PGB,float64
CONT,object
OCDE,object
IND,object


Las columnas con strings y fechas ('PAIS', 'CONT', 'OCDE' e 'IND') tienen el tipo de  de datos `object`. Mientras tanto, las columnas numéricas contienen números de punto flotante de 64 bits (`float64`).

Puede usar el parámetro `dtype` para especificar los tipos de datos deseados y `parse_dates` para forzar el uso del tipo `datetimes`:

In [None]:
dtypes = {'POB': 'float32', 'AREA': 'float32', 'PGB': 'float32'}
df = pd.read_csv('data.csv', index_col=0, dtype=dtypes,
                 parse_dates=['IND'])
print(df.dtypes, '\n')
df['IND']

PAIS            object
POB            float32
AREA           float32
PGB            float32
CONT            object
OCDE            object
IND     datetime64[ns]
dtype: object 



Unnamed: 0,IND
CHN,NaT
IND,1947-08-15
USA,1776-07-04
IDN,1945-08-17
BRA,1822-09-07
PAK,1947-08-14
NGA,1960-10-01
BGD,1971-03-26
RUS,1992-06-12
MEX,1810-09-16


Ahora, tiene números de punto flotante de 32 bits (`float32`) como se especifica con `dtype`. Estos difieren ligeramente de los números originales de 64 bits debido a su menor precisión. Los valores de la última columna se consideran fechas y tienen el tipo de datos `datetime64`. Es por eso que los valores de `NaN` en esta columna se reemplazan con `NaT`.

Ahora que tiene fechas reales, puede guardarlas en el formato que desee:

In [None]:
df = pd.read_csv('data.csv', index_col=0, parse_dates=['IND'])
df.to_csv('formatted-data.csv', date_format='%d %B %Y')

Aquí, ha especificado que el parámetro date_format sea `'%B %d, %Y'`. Veamos el archivo resultante:

In [None]:
!cat formatted-data.csv

,PAIS,POB,AREA,PGB,CONT,OCDE,IND
CHN,China,1398.72,9596.96,12234.78,Asia,No,
IND,India,1351.16,3287.26,2575.67,Asia,No,15 August 1947
USA,US,329.74,9833.52,19485.39,America,Si,04 July 1776
IDN,Indonesia,268.07,1910.93,1015.54,Asia,No,17 August 1945
BRA,Brasil,210.32,8515.77,2055.51,America,No,07 September 1822
PAK,Pakistan,205.71,881.91,302.14,Asia,No,14 August 1947
NGA,Nigeria,200.96,923.77,375.77,Africa,No,01 October 1960
BGD,Bangladesh,167.09,147.57,245.63,Asia,No,26 March 1971
RUS,Rusia,146.79,17098.25,1530.75,,No,12 June 1992
MEX,Mexico,126.58,1964.38,1158.23,America,Si,16 September 1810
JPN,Japon,126.22,377.97,4872.42,Asia,Si,
DEU,Alemania,83.02,357.11,3693.2,Europe,Si,
FRA,Francia,67.02,640.68,2582.49,Europe,Si,14 July 1789
GBR,UK,66.44,242.5,2631.23,Europe,Si,
ITA,Italia,60.36,301.34,1943.84,Europe,Si,
ARG,Argentina,44.94,2780.4,637.49,America,No,09 July 1816
DZA,Algeria,43.38,2381.74,167.56,Africa,No,05 July 1962
CAN,Canada,37.59,9984.67,1647.12,America,Si,01 July 1867
AUS,Aus

El formato de las fechas es diferente ahora. El formato `'%d %B %Y'` significa que la fecha mostrará primero el día, luego el nombre completo del mes, y finalmente el año completo.

Hay varios otros parámetros opcionales que puede usar con `.to_csv()`:

* `sep` denota un separador de valores.
* `decimal` indica un separador decimal.
* `encoding` establece la codificación del archivo.
* `header` especifica si desea escribir etiquetas de columna en el archivo.

Así es como pasaría argumentos para `sep` y `header`:

In [None]:
s = df.to_csv(sep=';', header=False)
print(s)

CHN;China;1398.72;9596.96;12234.78;Asia;No;
IND;India;1351.16;3287.26;2575.67;Asia;No;1947-08-15
USA;US;329.74;9833.52;19485.39;America;Si;1776-07-04
IDN;Indonesia;268.07;1910.93;1015.54;Asia;No;1945-08-17
BRA;Brasil;210.32;8515.77;2055.51;America;No;1822-09-07
PAK;Pakistan;205.71;881.91;302.14;Asia;No;1947-08-14
NGA;Nigeria;200.96;923.77;375.77;Africa;No;1960-10-01
BGD;Bangladesh;167.09;147.57;245.63;Asia;No;1971-03-26
RUS;Rusia;146.79;17098.25;1530.75;;No;1992-06-12
MEX;Mexico;126.58;1964.38;1158.23;America;Si;1810-09-16
JPN;Japon;126.22;377.97;4872.42;Asia;Si;
DEU;Alemania;83.02;357.11;3693.2;Europe;Si;
FRA;Francia;67.02;640.68;2582.49;Europe;Si;1789-07-14
GBR;UK;66.44;242.5;2631.23;Europe;Si;
ITA;Italia;60.36;301.34;1943.84;Europe;Si;
ARG;Argentina;44.94;2780.4;637.49;America;No;1816-07-09
DZA;Algeria;43.38;2381.74;167.56;Africa;No;1962-07-05
CAN;Canada;37.59;9984.67;1647.12;America;Si;1867-07-01
AUS;Australia;25.47;7692.02;1408.68;Oceania;Si;
CHL;Chile;19.68;756.1;317.6;America;Si

In [None]:
s = df.to_csv(sep='\t', header=False)
print(s)

CHN	China	1398.72	9596.96	12234.78	Asia	No	
IND	India	1351.16	3287.26	2575.67	Asia	No	1947-08-15
USA	US	329.74	9833.52	19485.39	America	Si	1776-07-04
IDN	Indonesia	268.07	1910.93	1015.54	Asia	No	1945-08-17
BRA	Brasil	210.32	8515.77	2055.51	America	No	1822-09-07
PAK	Pakistan	205.71	881.91	302.14	Asia	No	1947-08-14
NGA	Nigeria	200.96	923.77	375.77	Africa	No	1960-10-01
BGD	Bangladesh	167.09	147.57	245.63	Asia	No	1971-03-26
RUS	Rusia	146.79	17098.25	1530.75		No	1992-06-12
MEX	Mexico	126.58	1964.38	1158.23	America	Si	1810-09-16
JPN	Japon	126.22	377.97	4872.42	Asia	Si	
DEU	Alemania	83.02	357.11	3693.2	Europe	Si	
FRA	Francia	67.02	640.68	2582.49	Europe	Si	1789-07-14
GBR	UK	66.44	242.5	2631.23	Europe	Si	
ITA	Italia	60.36	301.34	1943.84	Europe	Si	
ARG	Argentina	44.94	2780.4	637.49	America	No	1816-07-09
DZA	Algeria	43.38	2381.74	167.56	Africa	No	1962-07-05
CAN	Canada	37.59	9984.67	1647.12	America	Si	1867-07-01
AUS	Australia	25.47	7692.02	1408.68	Oceania	Si	
CHL	Chile	19.68	756.1	317.6	America	Si

### __Archivos de Excel__
Ya aprendimos a leer y escribir archivos de Excel con Pandas. Sin embargo, hay algunas opciones más que vale la pena considerar. Por un lado, cuando usa `.to_excel()`, puede especificar el nombre de la hoja de trabajo de destino con el parámetro opcional `sheet_name`:

In [None]:
df = pd.DataFrame(data=data).T
df.to_excel('data.xlsx', sheet_name='Países')

In [None]:
import os
os.getcwd()

'/content'

Se ha creado un archivo _data.xlsx_ con una hoja de trabajo llamada _'Países'_ la cual contiene nuestros datos. La cadena `'data.xlsx'` es el argumento del parámetro `excel_writer` que define el nombre del archivo de Excel o su ruta.

Los parámetros opcionales `startrow` y `startcol` tienen un valor predeterminado de 0 e indican la celda superior izquierda donde deben comenzar a escribirse los datos:

In [None]:
df.to_excel('data-shifted.xlsx',
            sheet_name='Países',
            startrow=2, startcol=4)

Aquí, especifica que la tabla debe comenzar en la tercera fila y la quinta columna. También utilizó la indexación basada en cero, por lo que la tercera fila se indica con 2 y la quinta columna con 4. Verifiquen el contenido.

In [None]:
df1 = pd.read_excel('data.xlsx', sheet_name=0, index_col=0,
                   parse_dates=['IND'])
df2 = pd.read_excel('data.xlsx', sheet_name='Países', index_col=0,
                   parse_dates=['IND'])
df1 == df2

Unnamed: 0,PAIS,POB,AREA,PGB,CONT,OCDE,IND
CHN,True,True,True,True,True,True,False
IND,True,True,True,True,True,True,True
USA,True,True,True,True,True,True,True
IDN,True,True,True,True,True,True,True
BRA,True,True,True,True,True,True,True
PAK,True,True,True,True,True,True,True
NGA,True,True,True,True,True,True,True
BGD,True,True,True,True,True,True,True
RUS,True,True,True,True,False,True,True
MEX,True,True,True,True,True,True,True


Ambas declaraciones anteriores crean el mismo DataFrame porque los parámetros `sheet_name` tienen los mismos valores. En ambos casos, `sheet_name=0` y `sheet_name='Países'` se refieren a la misma hoja de cálculo. El argumento `parse_dates=['IND']` le dice a Pandas que intente considerar los valores en esta columna como fechas u horas.

Hay otros parámetros opcionales que puede usar con `.read_excel()` y .`to_excel()` para determinar el motor de Excel, la codificación, la forma de manejar valores perdidos e infinitos, el método para escribir nombres de columna y etiquetas de fila, etc.

### <font color='green'>Actividad 1</font>

Eres el analista de datos en una empresa de tecnología. Se te ha asignado procesar y analizar un conjunto de datos de empleados. El objetivo es limpiar estos datos, realizar algunas transformaciones y luego responder algunas preguntas específicas.

Crearemos un archivo CSV basado en un DataFrame:
```
import pandas as pd
import numpy as np

np.random.seed(42)

nombres = ["Ana", "Juan", "Marta", "Pedro", "Isabel", "Jorge", "Luisa", "Carlos", "Esther", "David"]
apellidos = ["García", "López", "Martínez", "Rodríguez", "González", "Fernández", "Ruiz", "Ramirez", "Morales", "Torres"]

# Generar fechas de ingreso
fechas_de_ingreso = pd.date_range(start="2015-01-01", end="2022-09-01", freq='M')

empleados = {
    'Nombre': [f"{np.random.choice(nombres)} {np.random.choice(apellidos)}" for _ in range(100)],
    'Edad': np.random.randint(20, 60, 100),
    'Salario ($)': np.random.randint(25000, 75000, 100),
    'Fecha de Ingreso': np.random.choice(fechas_de_ingreso, 100),
    'Puesto': np.random.choice(["Desarrollador", "Diseñador", "Gerente", "Analista"], 100)
}

df = pd.DataFrame(empleados)
df.to_csv("empleados.csv", index=False)
```

1. Carga el archivo CSV empleados.csv en un DataFrame usando pandas.
2. Verifica si hay valores faltantes en cualquier columna y decide cómo manejarlos.
3. Filtra los registros de los empleados que se unieron después del 1 de enero de 2020.
4. Encuentra el salario promedio de los empleados según su puesto.
5. Agrega una columna "Antigüedad" al DataFrame que muestre el número de años desde la fecha de ingreso del empleado hasta la fecha actual.
6. Guarda los registros de los empleados con más de 3 años de antigüedad en un nuevo archivo CSV llamado empleados_antiguos.csv.
7. Carga el archivo empleados_antiguos.csv y encuentra el empleado con el salario más alto entre aquellos que tienen más de 3 años de antigüedad.


In [None]:
# Tu código aquí ...


import pandas as pd
import numpy as np

np.random.seed(42)

nombres = ["Ana", "Juan", "Marta", "Pedro", "Isabel", "Jorge", "Luisa", "Carlos", "Esther", "David"]
apellidos = ["García", "López", "Martínez", "Rodríguez", "González", "Fernández", "Ruiz", "Ramirez", "Morales", "Torres"]

# Generar fechas de ingreso
fechas_de_ingreso = pd.date_range(start="2015-01-01", end="2022-09-01", freq='M')

empleados = {
    'Nombre': [f"{np.random.choice(nombres)} {np.random.choice(apellidos)}" for _ in range(100)],
    'Edad': np.random.randint(20, 60, 100),
    'Salario ($)': np.random.randint(25000, 75000, 100),
    'Fecha de Ingreso': np.random.choice(fechas_de_ingreso, 100),
    'Puesto': np.random.choice(["Desarrollador", "Diseñador", "Gerente", "Analista"], 100)
}

df = pd.DataFrame(empleados)
df.to_csv("empleados.csv", index=False)



# Cargar el archivo CSV "empleados.csv"
df = pd.read_csv("empleados.csv")

# 1. Verificar si hay valores faltantes
print("Valores faltantes por columna:\n", df.isnull().sum())  # Muestra la cantidad de valores faltantes en cada columna

# 2. Decidir cómo manejar los valores faltantes (si los hay)
# En este caso, si hubiera valores faltantes, podríamos llenarlos con un valor por defecto o eliminarlos.
# Por ejemplo, si tuviéramos valores faltantes en la columna 'Edad', podemos llenarlos con la media:
# df['Edad'].fillna(df['Edad'].mean(), inplace=True)

# 3. Filtrar los registros de empleados que se unieron después del 1 de enero de 2020
df['Fecha de Ingreso'] = pd.to_datetime(df['Fecha de Ingreso'])
df_filtrado = df[df['Fecha de Ingreso'] > '2020-01-01']

# 4. Encontrar el salario promedio según el puesto
salario_promedio = df.groupby('Puesto')['Salario ($)'].mean()
print("Salario promedio por puesto:\n", salario_promedio)

# 5. Agregar la columna "Antigüedad" que muestra los años desde la fecha de ingreso hasta la fecha actual
df['Antigüedad'] = (pd.to_datetime('today') - df['Fecha de Ingreso']).dt.days // 365

# 6. Filtrar los empleados con más de 3 años de antigüedad
empleados_antiguos = df[df['Antigüedad'] > 3]

# 7. Guardar los registros de los empleados con más de 3 años de antigüedad en un nuevo archivo CSV
empleados_antiguos.to_csv("empleados_antiguos.csv", index=False)

# 8. Cargar el archivo "empleados_antiguos.csv"
df_antiguos = pd.read_csv("empleados_antiguos.csv")

# 9. Encontrar el empleado con el salario más alto entre aquellos con más de 3 años de antigüedad
empleado_max_salario = df_antiguos.loc[df_antiguos['Salario ($)'].idxmax()]
print("Empleado con el salario más alto (más de 3 años de antigüedad):\n", empleado_max_salario)


Valores faltantes por columna:
 Nombre              0
Edad                0
Salario ($)         0
Fecha de Ingreso    0
Puesto              0
dtype: int64
Salario promedio por puesto:
 Puesto
Analista         43431.600000
Desarrollador    56552.500000
Diseñador        45168.600000
Gerente          46955.807692
Name: Salario ($), dtype: float64
Empleado con el salario más alto (más de 3 años de antigüedad):
 Nombre              David Fernández
Edad                             38
Salario ($)                   74758
Fecha de Ingreso         2015-09-30
Puesto                Desarrollador
Antigüedad                        9
Name: 8, dtype: object


  fechas_de_ingreso = pd.date_range(start="2015-01-01", end="2022-09-01", freq='M')


<font color='green'>Fin Actividad 1</font>


<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="100" align="left" title="Runa-perth">
<br clear="left">

##<font color='red'>__Actividad Bonus__</font>

### <font color='green'>Actividad 2</font>

Usando los archivos de la actividad anterior, divide el DataFrame original de empleados en archivos separados basados en el puesto de trabajo, y guarda cada subconjunto en un archivo CSV (por ejemplo: desarrolladores.csv, diseñadores.csv, etc.).

In [None]:
# Tu código aquí ...


import pandas as pd


df = pd.read_csv("empleados.csv")


puestos_unicos = df['Puesto'].unique()


for puesto in puestos_unicos:
    # Filtrar los empleados con el puesto actual
    df_puesto = df[df['Puesto'] == puesto]

    # Crear un nombre de archivo basado en el puesto
    nombre_archivo = f"{puesto.lower()}.csv"  # Convertir a minúsculas para estandarizar

    # Guardar el subconjunto en un archivo CSV
    df_puesto.to_csv(nombre_archivo, index=False)
    print(f"Archivo guardado: {nombre_archivo}")

Archivo guardado: diseñador.csv
Archivo guardado: desarrollador.csv
Archivo guardado: gerente.csv
Archivo guardado: analista.csv


<font color='green'>Fin Actividad 2</font>


<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="50" align="left" title="Runa-perth">
<br clear="left">

# <font color='purple'>**Inicio Reflexión Grupal**</font><br>

Hemos finalizado este módulo con un manejo mejorado de las herramientas fundamentales para la manipulación, análisis y visualización de datos  con Python, Pandas y numpy. Hemos adquirido una base más sólida para limpiar, transformar y explorar nuestros conjuntos de datos, mientras que matplotlib nos ha permitido crear visualizaciones informativas con la versatilidad de poder personalizar a nuestro antojo.

**Rodrigo:**

Gracias a las explicaciones y actividades prácticas, hemos logrado dominar los aspectos básicos de estas librerías. La capacidad de trabajar con DataFrames, arrays y crear gráficos personalizados nos ha abierto un abanico de posibilidades en el análisis de datos.

Sin embargo, reconocemos que este es solo el comienzo de un largo camino. Aspiramos a profundizar en temas como estadística, machine learning y big data (entre otros), y a explorar otras librerías de visualización como seaborn.

Los conocimientos adquiridos nos serán de gran utilidad en futuros proyectos, tanto académicos como profesionales, que esperamos poder exponer en los futuros casos de uso.

Creemos que la combinación de pandas, numpy y matplotlib nos proporciona un conjunto de herramientas poderoso y versátil para abordar una amplia gama de problemas de análisis de datos.

**Alejandro:**

La preparación y obtención adecuada de datos son pilares fundamentales en el análisis efectivo dentro del campo amplio de la ciencia de datos. Herramientas como NumPy y Pandas no solo optimizan procesos, sino que también enriquecen la calidad del análisis realizado. Como analista de datos en una empresa semillera, esto no solo ahorra tiempo, sino que también reduce la probabilidad de errores durante el procesamiento de datos. Con estas herramientas además, puedo llevar a cabo análisis exploratorios que me permiten identificar patrones o tendencias en los datos. Por ejemplo, puedo analizar cómo diferentes variedades de semillas responden a distintas condiciones ambientales, lo que es crucial para la toma de decisiones estratégicas en el desarrollo de nuevos productos.

**Fernanda:**

En el módulo de Obtención y Preparación de datos aprendimos a aplicar álgebra lineal en Python, algo muy útil en química y biotecnología, donde es común resolver sistemas de ecuaciones para obtener parámetros desconocidos en reacciones químicas o enzimáticas.

Aunque ya había trabajado con pandas, este módulo me permitió profundizar en funciones que son muy valiosas en mi rol como ingeniera de operaciones, ya que a menudo reviso bases de datos de variables operacionales de planta. Por ejemplo, unique me ayudará a identificar fácilmente las variables medidas en planta cuando el nombre de una variable se repite en la base de datos. Además, con df.diff y df.mean, podré calcular la frecuencia de muestreo de estas variables al obtener la distancia promedio del tiempo entre mediciones.

Los métodos de filtrado de dataframes también facilitarán la revisión de variables específicas de las unidades de operación que me interesan o que cumplen con una frecuencia de muestreo definida. Funciones como describe() me permitirán hacer análisis rápidos de variables clave que caracterizan el proceso de la planta, como el caudal de afluente y efluente, la carga orgánica (DQO), la concentración de SST de afluente y la edad del lodo, entre otras. Estas variables son fundamentales para comprender la magnitud y operación de la planta y fundamentar recomendaciones operacionales.

Este módulo me mostró una forma de análisis mucho más rápida e informativa que la revisión manual en Excel, que es como usualmente determino esta información.


**Gonzalo:**

Como profesional que trabaja en AIEP, una institución de educación técnico-profesional, la preparación de datos con herramientas como NumPy y Pandas representa un gran beneficio para optimizar el análisis de grandes volúmenes de información relacionados con estudiantes, programas académicos y rendimiento institucional. Estas herramientas permiten manejar, transformar y analizar datos de manera eficiente, lo que resulta clave en la toma de decisiones informadas y en la mejora continua de los procesos internos.

Por un lado, NumPy se destaca por su capacidad para trabajar con arreglos multidimensionales y operaciones matemáticas complejas. Esto es útil cuando se manejan datos numéricos a gran escala, como estadísticas de matrícula, promedios de notas o tendencias de inscripción, ya que optimiza el tiempo de procesamiento frente a métodos más tradicionales.

Por otro lado, Pandas facilita la manipulación y análisis de datos estructurados, como bases de datos de estudiantes o reportes financieros. Su funcionalidad para limpiar y transformar datos, así como para combinar múltiples fuentes de información, permite crear reportes personalizados y segmentados que reflejan mejor el panorama de la institución. Por ejemplo, se pueden analizar tasas de deserción por carrera, identificar patrones de éxito académico o evaluar la distribución de recursos entre sedes.

En conjunto, el uso de NumPy y Pandas me permitiría automatizar tareas repetitivas, reducir errores en el manejo manual de datos y aumentar la capacidad de generar insights estratégicos, contribuyendo así a una mejor planificación académica y administrativa en AIEP.

**Descubrimientos y Herramientas Útiles**

Durante el proceso de aprendizaje, como grupo nos impresionó la funcionalidad en Python de las funciones loc e iloc de pandas. Son herramientas extremadamente versátiles para manipular y analizar datos en estructuras tipo DataFrame. loc permite acceder a filas y columnas utilizando etiquetas explícitas, lo que es ideal cuando se trabaja con índices significativos o nombres de columnas descriptivos. Por otro lado, iloc accede a datos mediante índices posicionales, lo que resulta útil para manipular subconjuntos de datos independientemente de las etiquetas. Estas funciones facilitan operaciones comunes, como filtrar filas según condiciones específicas, seleccionar columnas relevantes o realizar asignaciones directas. Su capacidad para resolver problemas complejos, como el manejo de datos faltantes o la reordenación de información, las convierte en herramientas esenciales para quienes trabajan en ciencia de datos, finanzas o cualquier campo que requiera análisis detallado y preciso.

**Consideraciones finales**

En resumen, el aprendizaje de Python especificamente Numpy y Pandas no solo nos ha permitido adquirir conocimientos técnicos, sino que también nos ha mostrado cómo una herramienta adecuada puede transformar nuestras prácticas profesionales. En particular, hemos aprendido cómo Python facilita el procesamiento y análisis de datos, la automatización de procesos, y cómo sus librerías especializadas pueden llevar nuestras habilidades a un nuevo nivel. Esto nos ha inspirado a aplicar Python en nuestros proyectos actuales y futuros, con la confianza de que podemos mejorar la eficiencia y calidad de nuestros resultados.

En el mundo día a día el volumen de datos generados por las interacciones humanas, observaciones del medio y registros de cantidades incontables de sensores omnipresentes en nuestras vidas hace que el volumen de información haga inimaginable manejarlos con simples hojas de Excel, y el poder de Numpy y Pandas terminan siendo la herramienta indicada para el manejo de datasets pequeños a medianos (dejando fuera big-data), y junto con  la comunidad asociada crean una combinación ganadora.

<font color='purple'>**Fin Reflexión Grupal**</font><br>