# Análisis Exploratorio de Datos

A continuación, analizaremos los archivos para contestar algunas preguntas básicas. El primer paso es importar las librerías necesarias, en particular `pandas` para trabajar con la data y explorarla, y `os` para contar con distintas funciones que nos permiten explorar el directorio.

In [None]:
import pandas as pd
import os

### ¿Cuántos archivos tenemos en la carpeta?

Desde nuestra ubicación, podemos abrir la carpeta con Python y hacer que nos muestre el contenido. El archivo `.DS_Store` es sólo un archivo de configuración local de Mac OS, al excluirlo podemos ver que existen 8 archivos en total. Finalmente, podemos utilizar comprensión de listas en Python para generar una lista de todos los nombres de archivo, mostraré varios ejemplos a continuación:

In [None]:
# Imprime una lista de los archivos en el directorio especificado.
print("Todos los archivos: ", os.listdir("data_source"))

# Genera los nombres de archivo siguiendo un patrón sencillo.
filenames = ["chart{}.xlsx".format(i) for i in range(1,9)]
print("\nPrimera forma:\nfilenames = ", filenames)

# Comprensión de lista excluyendo un valor, y luego ordenando con sorted(). 
# Si los archivos no tuviesen un patrón claro, este método es más útil.
filenames = sorted([f for f in os.listdir("data_source") if f != ".DS_Store"])
print("\nSegunda forma:\nfilenames = ", filenames)

# Comprensión de lista tomando sólo los archivos .xlsx y ordenando con sorted().
# Muy útil si existen distintas extensiones de archivo y quieres extraer alguna específica.
filenames = sorted([f for f in os.listdir("data_source") if ".xlsx" in f])
print("\nTercera forma:\nfilenames = ", filenames)

### ¿Qué formato poseen? ¿Están en el mismo formato? ¿Los formatos pueden ser leídos directamente por `pandas`?

En este caso, todos los archivos poseen el mismo formato (`.xlsx`), y pueden ser leídos directamente por `pandas`. Así como cualquiera de las siguientes extensiones:



| Format Type | Data Description | Reader | Writer |
|:---|:---|:---|:---|
| text | CSV | read_csv | to_csv |
| text | Fixed-Width Text File | read_fwf |  |
| text | JSON | read_json | to_json |
| text | HTML | read_html | to_html |
| text | Local clipboard | read_clipboard | to_clipboard |
| ---  | MS Excel | read_excel | to_excel |
| binary | OpenDocument | read_excel |  |
| binary | HDF5 Format | read_hdf | to_hdf |
| binary | Feather Format | read_feather | to_feather |
| binary | Parquet Format | read_parquet | to_parquet |
| binary | ORC Format | read_orc |  |
| binary | Msgpack | read_msgpack | to_msgpack |
| binary | Stata | read_stata | to_stata |
| binary | SAS | read_sas |  |
| binary | SPSS | read_spss |  |
| binary | Python Pickle Format | read_pickle | to_pickle |
| SQL | SQL | read_sql | to_sql |
| SQL | Google BigQuery | read_gbq | to_gbq |


### ¿Cuántas filas y columnas posee cada archivo?

Para analizar cada archivo, hacemos uso de la lista `filenames` que creamos previamente, y podemos imprimir algunas filas e información de cada uno. Ahora tenemos una idea sobre la estructura de cada archivo.

In [None]:
for f in filenames: # f tomará el valor de cada nombre de archivo.
    print("\nARCHIVO: ", f) # Imprimimos el nombre del archivo para referencia.
    df = pd.read_excel("data_source/" + f) # Debemos agregar "data_source/" para que busque el archivo en la carpeta.
    print("\n", df.head(), "\n")
    print("\n", df.info())

### ¿Tenemos valores nulos (`NaN`) en ciertas columnas? ¿Cuál es la mejor estrategia para este conjunto de datos?

En este caso, vamos a analizar los archivos uno por uno, testeando para encontrar valores nulos o inconsistencias en las columnas.

In [None]:
for f in filenames:
    print("\nARCHIVO: ", f)
    df = pd.read_excel("data_source/" + f)
    print(df.isnull().any()) # Imprimimos en pantalla qué columnas poseen valores nulos.

También es posible revisar los valores únicos de cada columna en cada DataFrame generado. El proceso puede ser tedioso y puede omitirse, pero se debe volver a él si es que hay errores en el futuro.

In [None]:
for f in filenames:
    print("\nARCHIVO: ", f)
    df = pd.read_excel("data_source/" + f)
    for c in df.keys():
        print("\nCOLUMNA: ", c)
        print(df[c].value_counts(dropna=False)) 

# Imprimimos en pantalla los valores posibles en cada columna, se agrega dropna=False para poder revisar si hay NaNs.

Encontramos que ninguno de los archivos posee valores nulos y logramos entender los aspectos más importantes de la estructura en los archivos. En la siguiente etapa hablaremos de Tidy Data y cómo lograr unir estos archivos.