# Análisis Exploratorio de Datos

A continuación, analizaremos los archivos para contestar algunas preguntas básicas. El primer paso es importar las librerías necesarias, en particular `pandas` para trabajar con la data y explorarla, y `os` para contar con distintas funciones que nos permiten explorar el directorio.

In [6]:
import pandas as pd
import os

### ¿Cuántos archivos tenemos en la carpeta?

Desde nuestra ubicación, podemos abrir la carpeta con Python y hacer que nos muestre el contenido. El archivo `.DS_Store` es sólo un archivo de configuración local de Mac OS, al excluirlo podemos ver que existen 8 archivos en total. Finalmente, podemos utilizar comprensión de listas en Python para generar una lista de todos los nombres de archivo, mostraré varios ejemplos a continuación:

In [7]:
# Imprime una lista de los archivos en el directorio especificado.
print("Todos los archivos: ", os.listdir("data_source"))

# Genera los nombres de archivo siguiendo un patrón sencillo.
filenames = ["chart{}.xlsx".format(i) for i in range(1,9)]
print("\nPrimera forma:\nfilenames = ", filenames)

# Comprensión de lista excluyendo un valor, y luego ordenando con sorted(). 
# Si los archivos no tuviesen un patrón claro, este método es más útil.
filenames = sorted([f for f in os.listdir("data_source") if f != ".DS_Store"])
print("\nSegunda forma:\nfilenames = ", filenames)

# Comprensión de lista tomando sólo los archivos .xlsx y ordenando con sorted().
# Muy útil si existen distintas extensiones de archivo y quieres extraer alguna específica.
filenames = sorted([f for f in os.listdir("data_source") if ".xlsx" in f])
print("\nTercera forma:\nfilenames = ", filenames)

Todos los archivos:  ['chart6.xlsx', '.DS_Store', 'chart7.xlsx', 'chart1.xlsx', 'chart2.xlsx', 'chart3.xlsx', 'chart4.xlsx', 'chart8.xlsx', 'chart5.xlsx']

Primera forma:
filenames =  ['chart1.xlsx', 'chart2.xlsx', 'chart3.xlsx', 'chart4.xlsx', 'chart5.xlsx', 'chart6.xlsx', 'chart7.xlsx', 'chart8.xlsx']

Segunda forma:
filenames =  ['chart1.xlsx', 'chart2.xlsx', 'chart3.xlsx', 'chart4.xlsx', 'chart5.xlsx', 'chart6.xlsx', 'chart7.xlsx', 'chart8.xlsx']

Tercera forma:
filenames =  ['chart1.xlsx', 'chart2.xlsx', 'chart3.xlsx', 'chart4.xlsx', 'chart5.xlsx', 'chart6.xlsx', 'chart7.xlsx', 'chart8.xlsx']


### ¿Qué formato poseen? ¿Están en el mismo formato? ¿Los formatos pueden ser leídos directamente por `pandas`?

En este caso, todos los archivos poseen el mismo formato (`.xlsx`), y pueden ser leídos directamente por `pandas`. Así como cualquiera de las siguientes extensiones:



| Format Type | Data Description | Reader | Writer |
|:---|:---|:---|:---|
| text | CSV | read_csv | to_csv |
| text | Fixed-Width Text File | read_fwf |  |
| text | JSON | read_json | to_json |
| text | HTML | read_html | to_html |
| text | Local clipboard | read_clipboard | to_clipboard |
| ---  | MS Excel | read_excel | to_excel |
| binary | OpenDocument | read_excel |  |
| binary | HDF5 Format | read_hdf | to_hdf |
| binary | Feather Format | read_feather | to_feather |
| binary | Parquet Format | read_parquet | to_parquet |
| binary | ORC Format | read_orc |  |
| binary | Msgpack | read_msgpack | to_msgpack |
| binary | Stata | read_stata | to_stata |
| binary | SAS | read_sas |  |
| binary | SPSS | read_spss |  |
| binary | Python Pickle Format | read_pickle | to_pickle |
| SQL | SQL | read_sql | to_sql |
| SQL | Google BigQuery | read_gbq | to_gbq |


### ¿Cuántas filas y columnas posee cada archivo?

Para analizar cada archivo, hacemos uso de la lista `filenames` que creamos previamente, y podemos imprimir algunas filas e información de cada uno. Ahora tenemos una idea sobre la estructura de cada archivo.

In [8]:
for f in filenames: # f tomará el valor de cada nombre de archivo.
    print("\nARCHIVO: ", f) # Imprimimos el nombre del archivo para referencia.
    df = pd.read_excel("data_source/" + f) # Debemos agregar "data_source/" para que busque el archivo en la carpeta.
    print("\n", df.head(), "\n")
    print("\n", df.info())


ARCHIVO:  chart1.xlsx

      region       censo acceso_tic  valor_porcentaje
0  AMAZONAS  Censo 2007  No accede          0.798952
1    ANCASH  Censo 2007  No accede          0.560716
2  APURIMAC  Censo 2007  No accede          0.818601
3  AREQUIPA  Censo 2007  No accede          0.392133
4  AYACUCHO  Censo 2007  No accede          0.785555 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 4 columns):
region              100 non-null object
censo               100 non-null object
acceso_tic          100 non-null object
valor_porcentaje    100 non-null float64
dtypes: float64(1), object(3)
memory usage: 3.2+ KB

 None

ARCHIVO:  chart2.xlsx

      region       censo conexión_internet  valor_porcentaje
0  AMAZONAS  Censo 2007            Accede          0.006741
1    ANCASH  Censo 2007            Accede          0.033885
2  APURIMAC  Censo 2007            Accede          0.009103
3  AREQUIPA  Censo 2007            Accede          0.068195
4  AYAC

### ¿Tenemos valores nulos (`NaN`) en ciertas columnas? ¿Cuál es la mejor estrategia para este conjunto de datos?

En este caso, vamos a analizar los archivos uno por uno, testeando para encontrar valores nulos o inconsistencias en las columnas.

In [9]:
for f in filenames:
    print("\nARCHIVO: ", f)
    df = pd.read_excel("data_source/" + f)
    print(df.isnull().any()) # Imprimimos en pantalla qué columnas poseen valores nulos.


ARCHIVO:  chart1.xlsx
region              False
censo               False
acceso_tic          False
valor_porcentaje    False
dtype: bool

ARCHIVO:  chart2.xlsx
region               False
censo                False
conexión_internet    False
valor_porcentaje     False
dtype: bool

ARCHIVO:  chart3.xlsx
region              False
censo               False
accede_tv_cable     False
valor_porcentaje    False
dtype: bool

ARCHIVO:  chart4.xlsx
region              False
censo               False
tipo_telefono       False
valor_porcentaje    False
dtype: bool

ARCHIVO:  chart5.xlsx
region                         False
empleo_equipos_informaticos    False
valor_porcentaje               False
dtype: bool

ARCHIVO:  chart6.xlsx
region              False
uso_internet        False
valor_porcentaje    False
dtype: bool

ARCHIVO:  chart7.xlsx
region              False
uso_internet        False
valor_porcentaje    False
dtype: bool

ARCHIVO:  chart8.xlsx
region                    False
problemas_ele

También es posible revisar los valores únicos de cada columna en cada DataFrame generado. El proceso puede ser tedioso y puede omitirse, pero se debe volver a él si es que hay errores en el futuro.

In [10]:
for f in filenames:
    print("\nARCHIVO: ", f)
    df = pd.read_excel("data_source/" + f)
    for c in df.keys():
        print("\nCOLUMNA: ", c)
        print(df[c].value_counts(dropna=False)) 

# Imprimimos en pantalla los valores posibles en cada columna, se agrega dropna=False para poder revisar si hay NaNs.


ARCHIVO:  chart1.xlsx

COLUMNA:  region
PUNO             4
CAJAMARCA        4
JUNIN            4
LA LIBERTAD      4
PASCO            4
TUMBES           4
LORETO           4
AMAZONAS         4
MOQUEGUA         4
PIURA            4
UCAYALI          4
HUANUCO          4
AYACUCHO         4
CUSCO            4
APURIMAC         4
LIMA             4
TACNA            4
ANCASH           4
MADRE DE DIOS    4
AREQUIPA         4
HUANCAVELICA     4
CALLAO           4
LAMBAYEQUE       4
SAN MARTIN       4
ICA              4
Name: region, dtype: int64

COLUMNA:  censo
Censo 2017    50
Censo 2007    50
Name: censo, dtype: int64

COLUMNA:  acceso_tic
Accede       50
No accede    50
Name: acceso_tic, dtype: int64

COLUMNA:  valor_porcentaje
0.181399    1
0.351859    1
0.546712    1
0.045885    1
0.819489    1
0.283884    1
0.207225    1
0.681188    1
0.341779    1
0.929719    1
0.781172    1
0.202413    1
0.078561    1
0.818601    1
0.676635    1
0.689274    1
0.214445    1
0.215671    1
0.716663    1
0

Encontramos que ninguno de los archivos posee valores nulos y logramos entender los aspectos más importantes de la estructura en los archivos. En la siguiente etapa hablaremos de Tidy Data y cómo lograr unir estos archivos.