# Importando datos necesarios.

Ahora  sabemos como cargar un archivo plano en un DataFrame sin embargo , aveces solo queremos una parte del archivo, en esta sección veremos formas de limitar la cantidad de datos importados y cómo hacer que esos datos sean más fáciles de trabajas nombrando columnas,

Regresemos a nuestro cojunto de datos fiscales de la lección anterior.



In [6]:
#importamos paquetes necesrios
from urllib.request import urlretrieve
import pandas as pd

# asiganmos la url 
data = "https://assets.datacamp.com/production/repositories/4412/datasets/61bb27bf939aac4344d4f446ce6da1d1bf534174/vt_tax_data_2016.csv"
# guardamos el archivo
urlretrieve(data)
# leemo el arhivo en un dataframe

df = pd.read_csv(data)

print(df.shape)

(1476, 147)


Al verificar el atributo de forma de los datos, vemos que tiene casi 1500 filas y 147 columnas, amenos que. nuestra computadora tenga poca memoria o esten varios procesos ejecutandose, Pandas puede mejorar fácilmente datos asi o mucho mas grandesm pero es más de lo que necesitamos, tenemos algunas opciones para reducirlo:

## Limitando columnas.

La primera forma es elegir columnas para cargar con el argumento de la plabra `usecols`, este puede tomar una lista de todos los nombres de la columna o todos los números de columna para importar, incluso puede aceptar una función para seleccionar columnas, por lo que podemos importar toas las columnas empezando con la letra N , pero esta es una técnica más avanzada.

Para centrarnos en la cantidad de declaraciones de impuestos por banda de ingresos y código postal , nosotros podemos configurar una lista de los nomres de columna relevantes o sus numeros.



In [7]:
col_names = ['STATEFIPS','STATE','zipcode','agi_stub','N1']
col_numbers = [0,1,2,3,4]

Ahora cargamos nuestra ruta de archivos como siempre , pero esta vez, pasamod `usecols=col_names` con nuestra lista de nombres de columna:

In [10]:
df = pd.read_csv(data,usecols=col_names)
df_2 = pd.read_csv(data,usecols=col_numbers)

Podemos verificar para asegurarnos de que las dors formas producen el mismo resultado:

In [12]:
print(df.equals(df_2))

True


# Limitando filas.

Otra opción es reducir el número de filas importadas con el argumento `nrows`, al leer el achivo pasamos un numero entero del número maximo de filas que queremos , en este caso seran 500.

In [14]:
df_3 = pd.read_csv(data,nrows=500)
df_3.shape

(500, 147)

`nrows` es especialmente útil cuando se combina con el argumento `skiprows` para procesar un archivo en fragmentos, `skiprows`  acepta una lista de números de fila para omitir, tengamos en cuenta que Pandas automaticamente hace que la primera fila importe el encabezado , por lo que si omitimos la fila con lo nombres de columna, también debemos especificar que el encabezado no se igual a ninguno `header=none`.



In [18]:
df_4 = pd.read_csv(data,nrows=500,skiprows=100,header=None)
df_4.head(1)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,...,107,108,109,110,111,112,113,114,115,116,117,118,119,120,121,122,123,124,125,126,127,128,129,130,131,132,133,134,135,136,137,138,139,140,141,142,143,144,145,146
0,50,VT,5046,4,60,0,50,0,40,150,50,0,0,0,0,0,0,20,5179,60,5266,50,4008,30,5,30,100,30,71,30,23,30,360,30,75,0,0,0,0,0,...,0,0,0,0,40,59,0,0,0,0,0,0,0,0,0,0,60,619,0,0,0,0,0,0,0,0,0,0,60,475,60,515,0,0,0,0,20,113,40,166


Al ver nuestro dataframe, vemos que no hay nombres de columna, arreglemos esto.

Para asignar nombres de columna cuando no hay ninguno, usamos otro argumento de lectura CSV `names`.

Este toma una lista de columna de nombres para nuestras columnas, si solo deseamos cambiar el nombre de algunas columnas debemos hacerlo despues de la importación.

Para DataSets mas pequeños , nosotros podemos crear manualmente la lista de nombres con la ayuda de un diccionario.
Pero en este caso no aremos esto ya que nos llevaria mucho tiempo , por lo que pasaremos el primer subconjunto de nuestros datos a la funcion `list` para obtener las etiquetas de columna.

In [19]:
col_names = list(df_3)

Despues leemos el archivo usando `nrows` & `skipwors` para obtener los siguientes 50 registros.

In [20]:
df_5 = pd.read_csv(data,
                   nrows=50,
                   skiprows=450,
                   header=None,
                   names=col_names)
df_5.head(1)

Unnamed: 0,STATEFIPS,STATE,zipcode,agi_stub,N1,mars1,MARS2,MARS4,PREP,N2,NUMDEP,TOTAL_VITA,VITA,TCE,VITA_EIC,RAL,RAC,ELDERLY,A00100,N02650,A02650,N00200,A00200,N00300,A00300,N00600,A00600,N00650,A00650,N00700,A00700,N00900,A00900,N01000,A01000,N01400,A01400,N01700,A01700,SCHF,...,N07230,A07230,N07240,A07240,N07220,A07220,N07260,A07260,N09400,A09400,N85770,A85770,N85775,A85775,N09750,A09750,N10600,A10600,N59660,A59660,N59720,A59720,N11070,A11070,N10960,A10960,N11560,A11560,N06500,A06500,N10300,A10300,N85530,A85530,N85300,A85300,N11901,A11901,N11902,A11902
0,50,VT,5342,6,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
