# Processing Data with Python

Leer datos y volverlos accesibles (data loading) es de las primeras tareas previo a desarrollar un modelo o una visualización. Aunque existen muchas librerías para leer información, seguiremos trabajando con Pandas.

Pandas tiene una variedad de funciones para leer datos en forma tabular y convertirlos a DataFrames, algunas de ellas son las siguientes:

- **read_csv**: Lee datos delimitados por comas, sea de un archivo o una URL.
- **read_fwf**: Lee datos de archivos cuyas columnas tienen una anchura especifica, sin deliimitador (fixed-width format).
- **read_excel**: Lee datos tabulares de archivos de Excel, sea xls o xlsx.
- **read_html**: Lee todas las tablas que encuentra en un documento HTML.
- **read_json**: Lee datos de un formato JSON (JavaScript Object Notation), sea que venga de un archivo o de una URL.
- **read_pickle**: Lee un objeto guardado por pandas en el formato pickle.
- **read_sas**: Lee datasets de SAS.
- **read_spss**: Lee archivos de datos creados por SPSS.
- **read_sql**: Lee los resultados de un query (usa SQLAlchemy).
- **read_xml**: Lee los datos de una tabla de un archivo XML.

La documentación oficial de [pandas](https://pandas.pydata.org/) para leer archivos csv tiene cerca de 50 parámetros que modificar para lidiar con datos sucios al momento de importarlos.


# Tidy Data

[Hadley Wickham](http://hadley.nz/) define el concepto del **tidy data** como la forma en que debemos estructurar nuestros datos para que podamos analizarlos y visualizarlos de una forma correcta, se siguen los siguientes principios:
1. Cada variable debe tener su propia columna.
2. Cada observación debe estar en su propia fila.
3. Cada valor debe tener su propia celda.

# Setting up Github Repo

En un nuevo folder dentro de sus equipos:

- git init -b main
- git add .
- git commit -m "Initial commit"
- git remote add origin <REMOTE_URL>
- git push -u rigin main


### Leyendo CSV

La forma más simple de leer un csv es pasar la función ##read_csv## sin ningún argumento

In [1]:
import pandas as pd

In [47]:
file1 = "Files/ex1.csv"
file2 = "Files/ex2.csv"
file3 = "Files/ex3.csv"
file4 = "Files/ex4.csv"
file5 = "Files/ex5.csv"
prod_csv = "Files/mapas_opt.ctesop_cdmx_refresco.csv"
prod_excel = "Files/mapas_opt.ctesop_cdmx_refresco.xlsx"

In [9]:
df1 = pd.read_csv(file1)
df1

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


Y si el separador no fueran comas, pero sigue siendo un csv

In [33]:
df2 = pd.read_csv(file2, sep=";")
df2

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


Asumimos que no nos gusta los encabezados de las columnas

In [23]:
df3 = pd.read_csv(file1, header=None)
df3

Unnamed: 0,0,1,2,3,4
0,a,b,c,d,message
1,1,2,3,4,hello
2,5,6,7,8,world
3,9,10,11,12,foo


In [24]:
df3 = pd.read_csv(file1, header=None, skiprows=1)
df3

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [25]:
df3 = pd.read_csv(file1, header=None, skiprows=1, names = ["A", "B", "C", "D", "Message"])
df3

Unnamed: 0,A,B,C,D,Message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


Ahora, supongamos que queremos que la columna **Message** forme parte del índice que regresará nuestro Dataframe

In [26]:
names = ["A", "B", "C", "D", "Message"]

df4 = pd.read_csv(file1, header=None, skiprows=1, names = names, index_col="Message")
df4

Unnamed: 0_level_0,A,B,C,D
Message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


Que sucedería si tenemos varias columnas que podrían formar un índice.

In [30]:
df5 = pd.read_csv(file3, index_col=["key1", "key2"])
df5

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


Quitamos una fila que tenía encabezados, pero si hay filas con comentarios, que podríamos hacer?

In [31]:
df6 = pd.read_csv(file4, skiprows=[0,2,3])
df6

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


Algo muy común, encontrar valores nulos en nuestros datos

In [35]:
df7 = pd.read_csv(file5)
df7

Unnamed: 0,prueba,a,b,c,d,message
0,uno,1,2,3.0,4,
1,dos,5,6,,8,world
2,tres,9,10,11.0,12,foo


In [37]:
# No hacer esto con datasets muy grandes
pd.isna(df7)

Unnamed: 0,prueba,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


Mejor revisamos el contenido completo si nuestro DataFrame es muy grande

In [40]:
df7.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   prueba   3 non-null      object 
 1   a        3 non-null      int64  
 2   b        3 non-null      int64  
 3   c        2 non-null      float64
 4   d        3 non-null      int64  
 5   message  2 non-null      object 
dtypes: float64(1), int64(3), object(2)
memory usage: 272.0+ bytes


Nosotros podemos indicar que valor debe Python considerar como valor nulo, simplemente hay que agregarlo en una lista

In [41]:
df8 = pd.read_csv(file5, na_values=["NULL"])
df8

Unnamed: 0,prueba,a,b,c,d,message
0,uno,1,2,3.0,4,
1,dos,5,6,,8,world
2,tres,9,10,11.0,12,foo


In [42]:
df8.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   prueba   3 non-null      object 
 1   a        3 non-null      int64  
 2   b        3 non-null      int64  
 3   c        2 non-null      float64
 4   d        3 non-null      int64  
 5   message  2 non-null      object 
dtypes: float64(1), int64(3), object(2)
memory usage: 272.0+ bytes


Para eso, usamos el argumento **keep_default_na** como False

In [43]:
df9 = pd.read_csv(file5, keep_default_na=False)
df9

Unnamed: 0,prueba,a,b,c,d,message
0,uno,1,2,3.0,4,
1,dos,5,6,,8,world
2,tres,9,10,11.0,12,foo


In [45]:
df9.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   prueba   3 non-null      object
 1   a        3 non-null      int64 
 2   b        3 non-null      int64 
 3   c        3 non-null      object
 4   d        3 non-null      int64 
 5   message  3 non-null      object
dtypes: int64(3), object(3)
memory usage: 272.0+ bytes


In [46]:
df9.isna()

Unnamed: 0,prueba,a,b,c,d,message
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False


Ahora, antes de cargar un dataset más grande, hacemos un par de ajustes en las opciones de visualización de pandas.

In [48]:
pd.options.display.max_rows = 10

In [50]:
data1 = pd.read_csv(prod_csv)
data1

Unnamed: 0,region,territorio,bodega,subcanal,clave_bodega,clave_cliente,coordx,coordy,vol_agosto,vol_septiembre,vol_octubre,vol8oz_agosto,vol8oz_septiembre,vol8oz_octubre,volumen_total,vol8oz_total,geomi
0,METRO,CRUCE ANDEN,CRUCE ANDEN,Empresas,13,17052,,,,,,,,,,,
1,METRO,EMPRESAS,METRO OFF TICKET,Bares y Cantinas,12,10495,,,,,,,,,,,
2,METRO,EMPRESAS,METRO OFF TICKET,Alimentos,12,62330,,,,,,,,,,,
3,METRO,CRUCE ANDEN,CRUCE ANDEN,Empresas,13,29655,,,-1.43,,,-4.417019,,,-1.43,-4.417019,
4,METRO,CRUCE ANDEN,CRUCE ANDEN,Empresas,13,15257,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20348,METRO,CENTRO,TOLUCA,Centros de Actividad Física,705,70617,-99.44543,19.28768,,1.0,,,2.8179,,1.00,2.817900,0101000020E6100000000000E081DC58C000000060A549...
20349,METRO,PONIENTE,CLAVERIA EMBOTELLADO,Alimentos,188,1006065,-99.11492,19.44976,,,126.0,,,189.0000,126.00,189.000000,0101000020E6100000000000E05AC758C0000000802373...
20350,METRO,PONIENTE,CLAVERIA EMBOTELLADO,Alimentos,188,33092,-99.11207,19.44040,,,3.0,,,4.5000,3.00,4.500000,0101000020E6100000000000202CC758C000000000BE70...
20351,METRO,PONIENTE,CLAVERIA EMBOTELLADO,Entretenimiento,188,21950,-99.20485,19.44731,,,3.0,,,8.8763,3.00,8.876300,0101000020E6100000000000401CCD58C0000000E08272...


Si quisieramos leer solo un pequeño número de filas, lo podemos especificar con el argumento **nrows**

In [51]:
data1 = pd.read_csv(prod_csv, nrows = 100)
data1

Unnamed: 0,region,territorio,bodega,subcanal,clave_bodega,clave_cliente,coordx,coordy,vol_agosto,vol_septiembre,vol_octubre,vol8oz_agosto,vol8oz_septiembre,vol8oz_octubre,volumen_total,vol8oz_total,geomi
0,METRO,CRUCE ANDEN,CRUCE ANDEN,Empresas,13,17052,,,,,,,,,,,
1,METRO,EMPRESAS,METRO OFF TICKET,Bares y Cantinas,12,10495,,,,,,,,,,,
2,METRO,EMPRESAS,METRO OFF TICKET,Alimentos,12,62330,,,,,,,,,,,
3,METRO,CRUCE ANDEN,CRUCE ANDEN,Empresas,13,29655,,,-1.430000,,,-4.417019,,,-1.430000,-4.417019,
4,METRO,CRUCE ANDEN,CRUCE ANDEN,Empresas,13,15257,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,METRO,EMPRESAS,METRO OFF TICKET,Empresas,12,18072,,,,,,,,,,,
96,METRO,SUR,MIXCOAC,Empresas,180,66590,-99.26596,19.31612,,,,,,,,,0101000020E61000000000008005D158C000000040ED50...
97,METRO,CENTRO HISTORICO,CENTRO HISTORICO,Alimentos,102,2181,-99.12996,19.43911,16.000000,9.5,12.500000,37.090320,22.930500,29.587730,38.000000,89.608550,0101000020E61000000000004051C858C0000000806970...
98,METRO,PONIENTE,ATIZAPAN,Alimentos,119,17759,-99.22701,19.60711,44.166669,11.0,28.833334,96.466786,19.978143,62.983393,84.000003,179.428322,0101000020E61000000000006087CE58C0000000806B9B...


Para exportar el archivo, usamos la función **to_csv**

In [67]:
data1.to_csv("Files/Example_output.csv")

Ahora, para leer el archivo en partes, lo especificamos con el argumento **chunksize** con el número de filas que deseamos.

In [53]:
chunks = pd.read_csv(prod_csv, chunksize= 1000)

type(chunks)

pandas.io.parsers.readers.TextFileReader

En este caso, el objeto **chunks** nos va a permitir iterar el archivo dependiendo la cantidad de filas que hayamos definido previamente.

Algo interesante es que podemos iterar sobre el archivo y agregar los conteos de cada parte en una columna nueva.

In [59]:
chunks = pd.read_csv(prod_csv, chunksize= 1000, iterator= True)

total = pd.Series([], dtype='int64')
for chunk in chunks:
    total = total.add(chunk["subcanal"].value_counts(), fill_value=0)

total = total.sort_values(ascending=False)
print(total)

Alimentos                      17297.0
Centros de Actividad Física      890.0
Bares y Cantinas                 635.0
Escuelas                         501.0
Entretenimiento                  439.0
Empresas                         343.0
Hoteles y Transportes            167.0
Institucional                     79.0
Tradicional On Premise             2.0
dtype: float64


## Leyendo archivos de Excel

In [64]:
! pip install openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.0-py2.py3-none-any.whl (250 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m250.0/250.0 kB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting et-xmlfile
  Downloading et_xmlfile-1.1.0-py3-none-any.whl (4.7 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-1.1.0 openpyxl-3.1.0


In [65]:
excel_df = pd.read_excel(prod_excel, sheet_name="Hoja1")

In [66]:
excel_df.head()

Unnamed: 0,region,territorio,bodega,subcanal,clave_bodega,clave_cliente,coordx,coordy,vol_agosto,vol_septiembre,vol_octubre,vol8oz_agosto,vol8oz_septiembre,vol8oz_octubre,volumen_total,vol8oz_total,geomi
0,METRO,CRUCE ANDEN,CRUCE ANDEN,Empresas,13,17052,,,,,,,,,,,
1,METRO,EMPRESAS,METRO OFF TICKET,Bares y Cantinas,12,10495,,,,,,,,,,,
2,METRO,EMPRESAS,METRO OFF TICKET,Alimentos,12,62330,,,,,,,,,,,
3,METRO,CRUCE ANDEN,CRUCE ANDEN,Empresas,13,29655,,,-1.43,,,-4.417019,,,-1.43,-4.417019,
4,METRO,CRUCE ANDEN,CRUCE ANDEN,Empresas,13,15257,,,,,,,,,,,


In [68]:
excel_df2 = pd.ExcelFile(prod_excel)