# Leer y escribir archivos con pandas

Pandas es un paquete Python potente y flexible que le permite trabajar con datos etiquetados y series temporales. También proporciona métodos estadísticos, permite el trazado y más. Una característica crucial de Pandas es su capacidad de escribir y leer Excel, CSV y muchos otros tipos de archivos. Funciones como el `read_csv()` método Pandas le permiten trabajar con archivos de manera efectiva. Puede usarlos para guardar los datos y las etiquetas de los objetos Pandas en un archivo y luego cargarlos como Pandas Series o DataFrame instancias

**Objetivos:**
* Qué es la API de herramientas Pandas IO
* Cómo leer y escribir datos hacia y desde archivos
* Cómo trabajar con varios formatos de archivo
* Cómo trabajar con big data de manera eficiente

## Instalar pandas

```bash
pip install pandas
```


## Preparando datos
En este tutorial, utilizará los datos relacionados con 20 países. Aquí hay una descripción general de los datos y las fuentes con las que trabajará:

El país se denota por el nombre del país. Cada país está en la lista de los 10 principales por población, área o producto interno bruto (PIB). Las etiquetas de fila para el conjunto de datos son los códigos de país de tres letras definidos en ISO 3166-1 . La etiqueta de la columna para el conjunto de datos es COUNTRY.

La población se expresa en millones. Los datos provienen de una lista de países y dependencias por población en Wikipedia . La etiqueta de la columna para el conjunto de datos es POP.

El área se expresa en miles de kilómetros cuadrados. Los datos provienen de una lista de países y dependencias por área en Wikipedia . La etiqueta de la columna para el conjunto de datos es AREA.

El producto interno bruto se expresa en millones de dólares estadounidenses, según los datos de las Naciones Unidas para 2017. Puede encontrar estos datos en la lista de países por PIB nominal en Wikipedia . La etiqueta de la columna para el conjunto de datos es GDP.

El continente es África, Asia, Oceanía, Europa, América del Norte o América del Sur. También puede encontrar esta información en Wikipedia . La etiqueta de la columna para el conjunto de datos es CONT.

El día de la independencia es una fecha que conmemora la independencia de una nación. Los datos provienen de la lista de días de independencia nacional en Wikipedia . Las fechas se muestran en formato ISO 8601 . Los primeros cuatro dígitos representan el año, los siguientes dos números son el mes y los dos últimos son para el día del mes. La etiqueta de la columna para el conjunto de datos es IND_DAY.

### Organizando la data con diccionarios

In [1]:
data = {
    'CHN': {'COUNTRY': 'China', 'POP': 1_398.72, 'AREA': 9_596.96,
            'GDP': 12_234.78, 'CONT': 'Asia'},
    'IND': {'COUNTRY': 'India', 'POP': 1_351.16, 'AREA': 3_287.26,
            'GDP': 2_575.67, 'CONT': 'Asia', 'IND_DAY': '1947-08-15'},
    'USA': {'COUNTRY': 'US', 'POP': 329.74, 'AREA': 9_833.52,
            'GDP': 19_485.39, 'CONT': 'N.America',
            'IND_DAY': '1776-07-04'},
    'IDN': {'COUNTRY': 'Indonesia', 'POP': 268.07, 'AREA': 1_910.93,
            'GDP': 1_015.54, 'CONT': 'Asia', 'IND_DAY': '1945-08-17'},
    'BRA': {'COUNTRY': 'Brazil', 'POP': 210.32, 'AREA': 8_515.77,
            'GDP': 2_055.51, 'CONT': 'S.America', 'IND_DAY': '1822-09-07'},
    'PAK': {'COUNTRY': 'Pakistan', 'POP': 205.71, 'AREA': 881.91,
            'GDP': 302.14, 'CONT': 'Asia', 'IND_DAY': '1947-08-14'},
    'NGA': {'COUNTRY': 'Nigeria', 'POP': 200.96, 'AREA': 923.77,
            'GDP': 375.77, 'CONT': 'Africa', 'IND_DAY': '1960-10-01'},
    'BGD': {'COUNTRY': 'Bangladesh', 'POP': 167.09, 'AREA': 147.57,
            'GDP': 245.63, 'CONT': 'Asia', 'IND_DAY': '1971-03-26'},
    'RUS': {'COUNTRY': 'Russia', 'POP': 146.79, 'AREA': 17_098.25,
            'GDP': 1_530.75, 'IND_DAY': '1992-06-12'},
    'MEX': {'COUNTRY': 'Mexico', 'POP': 126.58, 'AREA': 1_964.38,
            'GDP': 1_158.23, 'CONT': 'N.America', 'IND_DAY': '1810-09-16'},
    'JPN': {'COUNTRY': 'Japan', 'POP': 126.22, 'AREA': 377.97,
            'GDP': 4_872.42, 'CONT': 'Asia'},
    'DEU': {'COUNTRY': 'Germany', 'POP': 83.02, 'AREA': 357.11,
            'GDP': 3_693.20, 'CONT': 'Europe'},
    'FRA': {'COUNTRY': 'France', 'POP': 67.02, 'AREA': 640.68,
            'GDP': 2_582.49, 'CONT': 'Europe', 'IND_DAY': '1789-07-14'},
    'GBR': {'COUNTRY': 'UK', 'POP': 66.44, 'AREA': 242.50,
            'GDP': 2_631.23, 'CONT': 'Europe'},
    'ITA': {'COUNTRY': 'Italy', 'POP': 60.36, 'AREA': 301.34,
            'GDP': 1_943.84, 'CONT': 'Europe'},
    'ARG': {'COUNTRY': 'Argentina', 'POP': 44.94, 'AREA': 2_780.40,
            'GDP': 637.49, 'CONT': 'S.America', 'IND_DAY': '1816-07-09'},
    'DZA': {'COUNTRY': 'Algeria', 'POP': 43.38, 'AREA': 2_381.74,
            'GDP': 167.56, 'CONT': 'Africa', 'IND_DAY': '1962-07-05'},
    'CAN': {'COUNTRY': 'Canada', 'POP': 37.59, 'AREA': 9_984.67,
            'GDP': 1_647.12, 'CONT': 'N.America', 'IND_DAY': '1867-07-01'},
    'AUS': {'COUNTRY': 'Australia', 'POP': 25.47, 'AREA': 7_692.02,
            'GDP': 1_408.68, 'CONT': 'Oceania'},
    'KAZ': {'COUNTRY': 'Kazakhstan', 'POP': 18.53, 'AREA': 2_724.90,
            'GDP': 159.41, 'CONT': 'Asia', 'IND_DAY': '1991-12-16'}
}

columns = ('COUNTRY', 'POP', 'AREA', 'GDP', 'CONT', 'IND_DAY')

Cada fila de la tabla se escribe como un diccionario interno cuyas claves son los nombres de columna y los valores son los datos correspondientes. Estos diccionarios se recopilan como los valores en el data diccionario externo . Las claves correspondientes data son los códigos de país de tres letras.

Puede usar esto data para crear una instancia de Pandas DataFrame. Primero, necesitas importar Pandas:

In [2]:
import pandas as pd

Ahora con pandas importado podemos usar `DataFrame constructor` para crear un objeto `DataFrame`. Mas info de Dataframe constructor [aqui](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)

La data está organizado de tal manera que los códigos de país corresponden a columnas. Puede invertir las filas y columnas de a DataFrame con la propiedad [.T](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.T.html):

In [5]:
# DataFrame normal
dfNormal = pd.DataFrame(data=data)
dfNormal

Unnamed: 0,CHN,IND,USA,IDN,BRA,PAK,NGA,BGD,RUS,MEX,JPN,DEU,FRA,GBR,ITA,ARG,DZA,CAN,AUS,KAZ
COUNTRY,China,India,US,Indonesia,Brazil,Pakistan,Nigeria,Bangladesh,Russia,Mexico,Japan,Germany,France,UK,Italy,Argentina,Algeria,Canada,Australia,Kazakhstan
POP,1398.72,1351.16,329.74,268.07,210.32,205.71,200.96,167.09,146.79,126.58,126.22,83.02,67.02,66.44,60.36,44.94,43.38,37.59,25.47,18.53
AREA,9596.96,3287.26,9833.52,1910.93,8515.77,881.91,923.77,147.57,17098.2,1964.38,377.97,357.11,640.68,242.5,301.34,2780.4,2381.74,9984.67,7692.02,2724.9
GDP,12234.8,2575.67,19485.4,1015.54,2055.51,302.14,375.77,245.63,1530.75,1158.23,4872.42,3693.2,2582.49,2631.23,1943.84,637.49,167.56,1647.12,1408.68,159.41
CONT,Asia,Asia,N.America,Asia,S.America,Asia,Africa,Asia,,N.America,Asia,Europe,Europe,Europe,Europe,S.America,Africa,N.America,Oceania,Asia
IND_DAY,,1947-08-15,1776-07-04,1945-08-17,1822-09-07,1947-08-14,1960-10-01,1971-03-26,1992-06-12,1810-09-16,,,1789-07-14,,,1816-07-09,1962-07-05,1867-07-01,,1991-12-16


In [7]:
# Usando la propiedad .T
df = pd.DataFrame(data=data).T
df

Unnamed: 0,COUNTRY,POP,AREA,GDP,CONT,IND_DAY
CHN,China,1398.72,9596.96,12234.8,Asia,
IND,India,1351.16,3287.26,2575.67,Asia,1947-08-15
USA,US,329.74,9833.52,19485.4,N.America,1776-07-04
IDN,Indonesia,268.07,1910.93,1015.54,Asia,1945-08-17
BRA,Brazil,210.32,8515.77,2055.51,S.America,1822-09-07
PAK,Pakistan,205.71,881.91,302.14,Asia,1947-08-14
NGA,Nigeria,200.96,923.77,375.77,Africa,1960-10-01
BGD,Bangladesh,167.09,147.57,245.63,Asia,1971-03-26
RUS,Russia,146.79,17098.2,1530.75,,1992-06-12
MEX,Mexico,126.58,1964.38,1158.23,N.America,1810-09-16


**NOTA:** puede usar la propiedad `.transpose()` para invertir filas y columnas como lo anterior

> AHORA QUE TENEMOS LA DATA PREPARADA ESTAMOS LISTOS PARA COMENZAR A TRABAJAR CON ARCHIVOS

## Usando las funcion `read_csv()` y `to_csv()` de pandas

Un archivo csv es un archivo de texto sin formato que contiene datos tabulares. Este es uno de los archivos mas populares para almacenar grandes cantidades de datos. Cada fila de un csv representa una sola fila de la tabla. Los valores en la misma fila estan esparados por comas por defecto, pero puede cambiar el separador a punot y coma, tabulacion, especio o algun otro caracter.

## Escribir un archivo CSV

In [9]:
# Usando .to_csv()
# Creara un archivo en su directorio local con el nombre data.csv Importante simpre ponerle la extension .csv
df.to_csv('data.csv')

Este archivo de texto contiene los datos separados por comas. La primera columna contiene las etiquetas de la fila. En algunos casos, los encontraras irrelevantes. Si no desea conservarlos, puede pasar el argumento `index=False` a la funcion `.to_csv()`