<a href="https://colab.research.google.com/github/AnaliaLeyez/AnaliaLeyez/blob/main/u3_lectura_de_datasets_01_csv.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# UNIDAD III - Lectura de datatset - Formato CSV

Este notebook muestra una serie de ejemplos para trabajar con archivos csv.  Recorre las operaciones más comunes tanto de lectura, escritura y un manejo básico de archivos csv muy grandes.

* Un CSV (Comma-Separated Values) es un archivo de texto que almacena datos en forma de tabla, donde cada fila representa un **registro** y cada columna un **campo.** Los valores suelen estar separados por comas.

Este formato es **muy usado en Ciencia de Datos** porque:  

- Es estándar y universal.  
- Compatible con casi todos los programas (Excel, Google Sheets, Python, R, bases de datos).  
- Fácil de manipular en librerías como `pandas`.

_El notebook esta basado en el contenido del libro Python for Data Analysis. Chapter 6 Data Loading, Storage, and File Formats. (Wes McKinney)



# Preparación del entorno y archivos
(Iniciamos directorios de datos)

**IMPORTANTE**: Este notebook necesita una serie de archivos para poder ejecutarse. Antes de seguir hay que realizar los siguientes pasos.

1. Descargar el archivo [u3-lectura-de-datasets-archivos.zip](https://drive.google.com/file/d/1fW2-CVHM5ZBcTEEApArHbAwWt0J8PFRd/view?usp=share_link) (es un archivo .zip que posee varios archivos de datos para este notebook)
2. Para usarlos en colab subir dicho archivo .zip al directorio de trabajo de colab.
3. Asegurarse que el archivo en tu entorno haya quedado con el siguiente nombre `u3-lectura-de-datasets-archivos.zip`

## Descargar y Descomprimir archivos de datos (opcion 1)

In [None]:
# Descargo el archivo con wget
!wget 'https://docs.google.com/uc?export=download&id=1fW2-CVHM5ZBcTEEApArHbAwWt0J8PFRd' -O  u3-lectura-de-datasets-archivos.zip

--2025-09-12 21:10:40--  https://docs.google.com/uc?export=download&id=1fW2-CVHM5ZBcTEEApArHbAwWt0J8PFRd
Resolving docs.google.com (docs.google.com)... 172.217.204.113, 172.217.204.102, 172.217.204.100, ...
Connecting to docs.google.com (docs.google.com)|172.217.204.113|:443... connected.
HTTP request sent, awaiting response... 303 See Other
Location: https://drive.usercontent.google.com/download?id=1fW2-CVHM5ZBcTEEApArHbAwWt0J8PFRd&export=download [following]
--2025-09-12 21:10:40--  https://drive.usercontent.google.com/download?id=1fW2-CVHM5ZBcTEEApArHbAwWt0J8PFRd&export=download
Resolving drive.usercontent.google.com (drive.usercontent.google.com)... 173.194.212.132, 2607:f8b0:400c:c11::84
Connecting to drive.usercontent.google.com (drive.usercontent.google.com)|173.194.212.132|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 915777 (894K) [application/octet-stream]
Saving to: ‘u3-lectura-de-datasets-archivos.zip’


2025-09-12 21:10:44 (118 MB/s) - ‘u3-lectu

El siguiente comando descomprime el archivo y genera los archivos necesarios para este notebook.

In [None]:
!unzip -o /content/u3-lectura-de-datasets-archivos.zip #u3-lectura-de-datasets-archivos.zip

Archive:  /content/u3-lectura-de-datasets-archivos.zip
  inflating: datasets/mta_perf/Performance_MTABUS.xsd  
  inflating: datasets/mta_perf/parse.py  
  inflating: datasets/mta_perf/Performance_LIRR.xsd  
  inflating: datasets/mta_perf/Performance_LIBUS.xsd  
  inflating: datasets/mta_perf/Performance_LIBUS.xml  
  inflating: datasets/mta_perf/Performance_MNR.xml  
  inflating: datasets/mta_perf/Performance_LIRR.xml  
  inflating: datasets/mta_perf/Performance_TBTA.xsd  
  inflating: datasets/mta_perf/Performance_MTABUS.xml  
  inflating: datasets/mta_perf/Performance_TBTA.xml  
  inflating: datasets/mta_perf/Performance_NYCT.xsd  
  inflating: datasets/mta_perf/Performance_NYCT.xml  
  inflating: datasets/mta_perf/Performance_MNR.xsd  
  inflating: ejercicios/clima-multi.txt  
  inflating: ejercicios/modelos.csv  
  inflating: ejercicios/clima.txt    
  inflating: ejercicios/clima.unl    
  inflating: examples/yahoo_volume.pkl  
  inflating: examples/ipython_bug.py  
  inflating: ex

## Descargar y Descomprimir archivos de datos (opcion 2)

In [None]:
# 1) Instalar/usar gdown
!pip install -q gdown

# 2) Descargar con URL + --fuzzy y guardarlo con un nombre conocido
URL = "https://drive.google.com/file/d/1vfJQyOWy2c9ZNYWRIpiuxYgvOT9I1Aqy/view?usp=sharing"
SALIDA = "mi_archivo.zip"

!gdown --fuzzy "{URL}" -O "{SALIDA}"

# 3) Verificar
!ls -lh "{SALIDA}"

Downloading...
From: https://drive.google.com/uc?id=1vfJQyOWy2c9ZNYWRIpiuxYgvOT9I1Aqy
To: /content/mi_archivo.zip
  0% 0.00/916k [00:00<?, ?B/s]100% 916k/916k [00:00<00:00, 120MB/s]
-rw-r--r-- 1 root root 895K Sep 12 21:11 mi_archivo.zip


In [None]:
!unzip -o "{SALIDA}" -d /content/mi_dataset #u3-lectura-de-datasets-archivos.zip

Archive:  mi_archivo.zip
  inflating: /content/mi_dataset/datasets/mta_perf/Performance_MTABUS.xsd  
  inflating: /content/mi_dataset/datasets/mta_perf/parse.py  
  inflating: /content/mi_dataset/datasets/mta_perf/Performance_LIRR.xsd  
  inflating: /content/mi_dataset/datasets/mta_perf/Performance_LIBUS.xsd  
  inflating: /content/mi_dataset/datasets/mta_perf/Performance_LIBUS.xml  
  inflating: /content/mi_dataset/datasets/mta_perf/Performance_MNR.xml  
  inflating: /content/mi_dataset/datasets/mta_perf/Performance_LIRR.xml  
  inflating: /content/mi_dataset/datasets/mta_perf/Performance_TBTA.xsd  
  inflating: /content/mi_dataset/datasets/mta_perf/Performance_MTABUS.xml  
  inflating: /content/mi_dataset/datasets/mta_perf/Performance_TBTA.xml  
  inflating: /content/mi_dataset/datasets/mta_perf/Performance_NYCT.xsd  
  inflating: /content/mi_dataset/datasets/mta_perf/Performance_NYCT.xml  
  inflating: /content/mi_dataset/datasets/mta_perf/Performance_MNR.xsd  
  inflating: /content

# Importamos dependencias

In [None]:
import numpy as np
import pandas as pd
#import matplotlib.pyplot as plt

# Inicializamos librerias

In [None]:
# como pandas imprime las tablas
#ancho máximo para mostrar el contenido de cada columna será de 75 caracteres
pd.options.display.max_colwidth = 75

#se mostrarán como máximo 20 columnas
pd.options.display.max_columns = 20

# semilla para operacion al alzar
np.random.seed(12345)

#cambiamos como imprime numpy, se mostrarán 4 dígitos después del punto decimal.
np.set_printoptions(precision=4, suppress=True)

# Lectura de archivos CSV

Con el modificado `!` ejecutamos comandos del sistema operativo. El comando `cat` muestra el contenido de un archivo.



In [None]:
!cat examples/ex1.csv

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

Para leer archivos __csv__ usamos el método [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

El archivo `ex1.csv` tienen un primer renglon que describe el nombre de las columnas. `read_csv` usa esta información al crear el Dataframe. Usa el primer renglon para asignarle el nombre a las series, que se ven como las columnas del Dataframe.

In [None]:
df = pd.read_csv("examples/ex1.csv")
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


### Encabezado - Casos especiales

Inspeccionamos el archivo `ex2.csv`, vemos que **no** tiene renglón de encabezado de descripción de columnas (*header*)

## Indicar el header del csv

In [None]:
#mostrar el contenido
!cat examples/ex2.csv

1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

El archivo `ex2.csv` **no** tiene renglon de descripción de columnas. Por tanto hay que usar `read_csv` con algunos parámetros extra.

In [None]:
# si usamos read_csv directamente, se carga mal el Dataframe
ex2 = pd.read_csv("examples/ex2.csv")
ex2

Unnamed: 0,1,2,3,4,hello
0,5,6,7,8,world
1,9,10,11,12,foo


Para cargar archivos sin encabezado usamos el parámetro `header`. Pandas asigna automaticamente números a los nombre de las series (columnas)

In [None]:
#header=None asigna nombres de columna numéricos por defecto, comenzando desde 0
ex2 = pd.read_csv("examples/ex2.csv", header=None)
ex2

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


Usando el parámetro `names` se puede especificar el nombre de las series.

In [None]:
ex2 = pd.read_csv("examples/ex2.csv", names=["a", "b", "c", "d", "messages",])
ex2

Unnamed: 0,a,b,c,d,messages
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


## Indicar la columna indice del csv

El parámetro `index_col` se usa para indicar que columna/s del csv forman parte del `index` del Dataframe. Como vimos en los casos anteriores, sino se especifica nada, pandas usa un `index` autonumerado.

In [None]:
#Se define una lista llamada names que contiene cinco cadenas
names = ["a", "b", "c", "d", "message"]
#names=names para asignar estos nombres como los encabezados
#La columna "message" en la lista names se convertirá en el índice del Df
ex2m = pd.read_csv("examples/ex2.csv", names=names, index_col="message")
ex2m

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


Usando `loc[]` podemos consultar un renglon/fila por el nombre/valor de su indice

In [None]:
ex2m.loc["hello"]

Unnamed: 0,hello
a,1
b,2
c,3
d,4


También podemos consultar un renglon por su posición usando `iloc[]`

In [None]:
ex2m.iloc[0]

Unnamed: 0,hello
a,1
b,2
c,3
d,4


## Indicar multiples indices (MultiIndex)

Hasta ahora vimos que un DataFrame tiene **un índice**   
que nos sirve para ubicar filas rápidamente.

Pero a veces nuestros datos tienen una **estructura jerárquica**:  
- **Geográfica**: País → Provincia → Ciudad  
- **Temporal**: Año → Mes → Día  
- **Categorías**: Materia → Tema → Subtema  

En esos casos, usar **un solo índice** no alcanza.  
Para eso existe el **MultiIndex** o **índice múltiple**, que permite indexar por la **combinación de varias columnas**.

In [None]:
!cat examples/csv_mindex.csv
#utilizarán las columnas llamadas "key1" y "key2" como el índice del df
parsed = pd.read_csv("examples/csv_mindex.csv",
                     index_col=["key1", "key2"])
#Al pasar una lista de nombres de columna a index_col, crea un índice jerárquico
parsed

key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


###Ejemplos

In [None]:
# Creamos un DataFrame con datos ficticios de población en Argentina
data = {
    "pais": ["Argentina"] * 6,
    "provincia": ["Buenos Aires", "Buenos Aires", "Córdoba", "Córdoba", "Santa Fe", "Santa Fe"],
    "ciudad": ["La Plata", "Mar del Plata", "Córdoba Capital", "Villa María", "Rosario", "Santa Fe Capital"],
    "poblacion": [800000, 650000, 1400000, 90000, 1200000, 400000]
}

df = pd.DataFrame(data)
print("DF completo")
df

DF completo


Unnamed: 0,pais,provincia,ciudad,poblacion
0,Argentina,Buenos Aires,La Plata,800000
1,Argentina,Buenos Aires,Mar del Plata,650000
2,Argentina,Córdoba,Córdoba Capital,1400000
3,Argentina,Córdoba,Villa María,90000
4,Argentina,Santa Fe,Rosario,1200000
5,Argentina,Santa Fe,Santa Fe Capital,400000


In [None]:
# Ahora definimos un MultiIndex con (pais, provincia, ciudad)
df_mindex = df.set_index(["pais", "provincia", "ciudad"])
print("DataFrame con MultiIndex")
df_mindex

DataFrame con MultiIndex


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,poblacion
pais,provincia,ciudad,Unnamed: 3_level_1
Argentina,Buenos Aires,La Plata,800000
Argentina,Buenos Aires,Mar del Plata,650000
Argentina,Córdoba,Córdoba Capital,1400000
Argentina,Córdoba,Villa María,90000
Argentina,Santa Fe,Rosario,1200000
Argentina,Santa Fe,Santa Fe Capital,400000


In [None]:
# Ejemplo 1: todas las ciudades de Córdoba
print("Todas las ciudades de Córdoba")
df_mindex.loc[("Argentina", "Córdoba")]

Todas las ciudades de Córdoba


Unnamed: 0_level_0,poblacion
ciudad,Unnamed: 1_level_1
Córdoba Capital,1400000
Villa María,90000


In [None]:
# Ejemplo 2: solo Rosario
print("Solo Rosario")
df_mindex.loc[("Argentina", "Santa Fe", "Rosario")]

Solo Rosario


Unnamed: 0_level_0,Argentina
Unnamed: 0_level_1,Santa Fe
Unnamed: 0_level_2,Rosario
poblacion,1200000


In [None]:
# Ejemplo 3: sumar población por provincia
print("Población total por provincia")
df_mindex.groupby(level=["provincia"]).sum()

Población total por provincia


Unnamed: 0_level_0,poblacion
provincia,Unnamed: 1_level_1
Buenos Aires,1450000
Córdoba,1490000
Santa Fe,1600000


## Formatos tabulares pero no csv

No todos los archivos de texto usan la **coma (`,`)** o el **punto y coma (`;`)** como separador.  
Algunos usan **espacios en blanco** o **tabulaciones (`\t`)**.

El archivo `ex3.txt` no tienen comas como separador, pero tiene un formato tabular.

In [None]:
!cat examples/ex3.txt

            A         B         C
aaa -0.264438 -1.026059 -0.619500
bbb  0.927272  0.302904 -0.032399
ccc -0.264273 -0.386314 -0.217601
ddd -0.871858 -0.348382  1.100491


Vemos que no hay comas ni punto y coma. Los valores están separados por **uno o más espacios** (y a veces hasta por tabulaciones).
Cuando el archivo no tienen `,` como separador, se puede especificar una expresión regular que indica su separador.

En este caso el separador son "uno o más espacios en blanco". Esto se logra con el parámetro `sep`

In [None]:
#uno o más caracteres de espacio en blanco".
#Uno o más espacios en blanco seguidos (\s+), tabulaciones (\t), saltos de línea (\n),
#retornos(\r), y saltos de página (\f).
result = pd.read_csv("examples/ex3.txt", sep=r"\s+")
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


## Ignorar renglones

Con el parámetro `skiprows` podemos ignorar ciertos renglones del archivo.
Es útil en diversas situaciones cuando los archivos CSV contienen información adicional o no deseada.

In [None]:
!cat examples/ex4.csv


pd.read_csv("examples/ex4.csv", skiprows=[0, 2, 3])

# hey!
a,b,c,d,message
# just wanted to make things more difficult for you
# who reads CSV files with computers, anyway?
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


## Valores no numéricos

`read_csv()` tiene opciones básicas para indicar la
forma de leer valores no numéricos.

Pandas consiedara ciertos valores especiales como valores
no numericos. De la documentación de pandas:

> By default the following values are interpreted as NaN: ‘’, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘<NA>’, ‘N/A’, ‘NA’, ‘NULL’, ‘NaN’, ‘None’, ‘n/a’, ‘nan’, ‘null’.
Al leer archivos de datos (como CSV o archivos de texto), los valores son automáticamente interpretados y convertidos a NaN (Not a Number)

`ex5.csv` tiene dos celdas con valores que pandas
considera que no son números (`NaN`). El valor de columna vacia,
y el valor NA

Entonces veamos como se comporta pandas con los valores que no son un número

In [None]:
!cat examples/ex5.csv

result = pd.read_csv("examples/ex5.csv")
result

something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [None]:
#Detecta valores faltantes, proporcionando una máscara booleana que indica
#la ubicación de los NaN en un objeto pandas
pd.isna(result)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


Con el parámetro `keep_default_na` se pueden desactivar los valores por defecto que se consideran `NAN`

In [None]:

result2 = pd.read_csv("examples/ex5.csv", keep_default_na=False)
result2

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [None]:
#volvemos a detectar valores faltantes
result2.isna()

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False


In [None]:
result2["c"]

Unnamed: 0,c
0,3.0
1,
2,11.0


Luego usando el parametro `na_values` se puede especificar que se considera explicitamente como `NaN`. Nota: si `keep_default_na` se mantiene en True, entonces `na_values` indica valores adicionales a los default.

En este caso, indicamos que solamente las celdas vacias sean consideradas `NaN`

In [None]:
result3 = pd.read_csv("examples/ex5.csv", keep_default_na=False,
                      na_values=[""])

result3

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [None]:
result3.isna()

`na_values` también acepta un diccionario. En ese caso las claves
indican a que columnas aplican los valores de `NaN`

In [None]:
#Para la columna "c", solo la cadena "X" se interpretará como un valor (NaN).
#Para la columna llamada "message", solo la cadena "NA" se interpretará como (NaN).
sentinels = { "c": ["X"], "message": ["NA"] }
pd.read_csv("examples/ex5.csv", na_values=sentinels,
            keep_default_na=False)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


* NaN = valor faltante → pandas lo usa para manejar datos incompletos.

* keep_default_na=True (default): reconoce muchos valores estándar (NA, null, vacío, etc.).

* keep_default_na=False: desactiva esa lista automática.

* na_values: vos decidís qué cadenas deben interpretarse como NaN (para todo el DataFrame o por columna).

## Trabajar archivos grandes

Podemos usar las opciones genéricas `max_rows` y `min_rows`
para controlar cuantos rows mostrar de un Dataframe.

Para ver todas las opciones disponibles: [pd.options](https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html)

Cuando cargamos un archivo grande, pandas muestra solo los primeros y ultimos registros. `...` significa que hay datos en el medio.

Usando `max_rows`, `min_rows` y otras opciones de display se puede configurar como se muestra un Dataframe.

In [None]:
# maximo numero de filas a mostrar antes de pasar a mostras parcialmente
pd.options.display.max_rows = 60

# cuantas lineas mostrar cuando se excede a max_rows
pd.options.display.min_rows = 10

In [None]:
result = pd.read_csv("examples/ex6.csv")
print(result)

           one       two     three      four key
0     0.467976 -0.038649 -0.295344 -1.824726   L
1    -0.358893  1.404453  0.704965 -0.200638   B
2    -0.501840  0.659254 -0.421691 -0.057688   G
3     0.204886  1.074134  1.388361 -0.982404   R
4     0.354628 -0.133116  0.283763 -0.837063   Q
...        ...       ...       ...       ...  ..
9995  2.311896 -0.417070 -1.409599 -0.515821   L
9996 -0.479893 -0.650419  0.745152 -0.646038   E
9997  0.523331  0.787112  0.486066  1.093156   K
9998 -0.362559  0.598894 -1.843201  0.887292   G
9999 -0.096376 -1.012999 -0.657431 -0.573315   0

[10000 rows x 5 columns]


Cuando el archivo es muy grande se puede usar `nrows` y `skiprows` para cargar un porción del archivo. Esto permite hacer observaciones y/o procesamientos premilimares de los datos sin tener que cargar el dataset entero.

In [None]:
pd.read_csv("examples/ex6.csv", nrows=7)

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
5,1.81748,0.742273,0.419395,-2.251035,Q
6,-0.776764,0.935518,-0.332872,-1.875641,U


Cuando un archivo CSV es muy grande (millones de filas), cargarlo entero en memoria puede ser **imposible** o muy lento.  
Para resolver esto, `pandas` permite leer el archivo **por partes** (chunks), como si fueran páginas de un libro, usando el parametro `chunksize`.

In [None]:
# especifica que el archivo debe ser leído en trozos (chunks) del tamaño especidifcado.
chunker = pd.read_csv("examples/ex6.csv", chunksize=1000)
type(chunker)

Ejemplo, si queremos contar cuántas veces aparece cada valor de la columna key, pero sin cargar todo el archivo junto. El calculo se realiza cargando varios `piece` que se obtienen iterando sobre `chunker`. En este caso cada `piece` es de 1000 rows.

In [None]:
# Leemos en chunks de 1000 filas
chunker = pd.read_csv("examples/ex6.csv", chunksize=1000)

# Creamos una Serie vacía para acumular los conteos
tot = pd.Series([], dtype="int64")

# Iteramos sobre cada "piece" (trozo de 1000 filas)
for piece in chunker:
    # Contamos los valores de la columna 'key' en este trozo
    counts = piece["key"].value_counts()

    # Sumamos los conteos de este trozo al acumulador total
    tot = tot.add(counts, fill_value=0)

# Ordenamos de mayor a menor
tot = tot.sort_values(ascending=False)


In [None]:
#obtener las primeras 10 elementos
tot[:10]

Unnamed: 0_level_0,0
key,Unnamed: 1_level_1
E,368.0
X,364.0
L,346.0
O,343.0
Q,340.0
M,338.0
J,337.0
F,335.0
K,334.0
H,330.0


# Escritura de archivos CSV

Hasta ahora vimos cómo **leer** archivos CSV.  
Ahora aprendemos a **escribir** un DataFrame en un archivo CSV usando el método `to_csv()`.

In [None]:
!cat "examples/ex5.csv"

something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo

In [None]:
# lo leemos y se carga el dataframe con algunos valores NaN
data = pd.read_csv("examples/ex5.csv")
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


Lo escribimos usando el metodo `to_csv` y usando una cadena que es el nombre del archivo a generar.

In [None]:
#escribir el contenido del DF a un archivo en formato CSV
# especificando ruta y el nombre del archivo
data.to_csv("examples/out.csv")

# vemos como quedo
!cat examples/out.csv

,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


Si queremos que el CSV se imprima por pantalla (y no se guarde en disco), usamos el módulo sys y le pasamos sys.stdout:

Ademas usamos el parametro `sep` para cambiar el separador de `,` por un caracter `|`.

In [None]:
#módulo sys, proporciona acceso a variables y funciones específicas de Python
import sys
# en lugar de la ruta se le pasa el objeto sys.stdout.
#indica a to_csv() que la salida no debe dirigirse a un archivo, sino al flujo de salida estándar.
data.to_csv(sys.stdout, sep="|")

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


Los valores faltantes (NaN) se guardan como celdas vacías.
Podemos personalizarlo, por ejemplo usando "NULL":
Usando `na_rep` elegimos como se representan los valores `NaN`.

In [None]:
#El parámetro na_rep especifica la cadena de texto que se utilizará para representar los valores faltantes (NaN) en la salida CSV
data.to_csv(sys.stdout, na_rep="NULL")

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


Con los `index` y `header` controlamos si queremos incluir la columna de indices y/o el renglon especial de descripcion de las columnas.

In [None]:
data.to_csv(sys.stdout, index=False, header=False)

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


Con `columns` elegimos que columnas incluir en la salida

In [None]:
data.to_csv(sys.stdout, index=False, columns=["a", "b", "c"])

a,b,c
1,2,3.0
5,6,
9,10,11.0
