# <img style="float: left; padding-right: 20px; width: 100px" src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/84/Escudo_de_la_Pontificia_Universidad_Cat%C3%B3lica_de_Chile.svg/1920px-Escudo_de_la_Pontificia_Universidad_Cat%C3%B3lica_de_Chile.svg.png"> IMT 2200 - Introducción a Ciencia de Datos
**Pontificia Universidad Católica de Chile**<br>
**Semestre 2021-1**<br>
**Profesora:** Paula Aguirre <br>

## Clase 3: Tipos y formatos de datos




---

Data Product 3 - Casos totales por región incremental: Archivo con valores separados por coma (csv) que concatena historia de publicaciones de casos totales por parte de MINSAL. El archivo contiene una columna 'Región', seguida por columnas correspondientes a '[fecha]'. Estas últimas columnas, ‘[fecha]’, contienen los 'Casos Confirmados' reportados por el Ministerio de Salud de Chile en cada una de las fechas que se indican en las respectivas columnas. Incluye versión con serie de tiempo. Ver más.


## 1. Módulos de Python

Todos los Notebooks y códigos deberían comenzar con la importación de módulos, o librerías de funciones built-in para distintos usos. Para facilitar la referencia a librerías en el resto del código, se acostumbra asignarles un alias. La sintaxis a usar para importar un módulo es:


``import NOMBRE_MODULO as ALIAS_MODULO``

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
!pip install geopandas
import geopandas as gpd

Collecting geopandas
  Downloading geopandas-0.9.0-py2.py3-none-any.whl (994 kB)
[K     |████████████████████████████████| 994 kB 5.2 MB/s 
Collecting fiona>=1.8
  Downloading Fiona-1.8.20-cp37-cp37m-manylinux1_x86_64.whl (15.4 MB)
[K     |████████████████████████████████| 15.4 MB 37 kB/s 
[?25hCollecting pyproj>=2.2.0
  Downloading pyproj-3.1.0-cp37-cp37m-manylinux2010_x86_64.whl (6.6 MB)
[K     |████████████████████████████████| 6.6 MB 46.2 MB/s 
[?25hCollecting cligj>=0.5
  Downloading cligj-0.7.2-py3-none-any.whl (7.1 kB)
Collecting munch
  Downloading munch-2.5.0-py2.py3-none-any.whl (10 kB)
Collecting click-plugins>=1.0
  Downloading click_plugins-1.1.1-py2.py3-none-any.whl (7.5 kB)
Installing collected packages: munch, cligj, click-plugins, pyproj, fiona, geopandas
Successfully installed click-plugins-1.1.1 cligj-0.7.2 fiona-1.8.20 geopandas-0.9.0 munch-2.5.0 pyproj-3.1.0


## 2. Ubicación de archivos.

Antes de improtar archvios de datos, necesitamos identificar dónde están guardados dentro de nuestro sistema, y en qué directorio estamos trabajando ("working directory").

Algunos comandos importantes:
- `!ls`: lista el contenido del directorio actual command lists all content in the current working directory.
- `%cd 'subdirectorio'`: permite cambiar la ubicación actual a 'subdirectorio'
- `cd ..`: permite navegar hacia atrás al directorio superior del actual
- `!pwd`: entrega la ruta del directorio actual
      

In [None]:
pwd

In [None]:
!ls

In [None]:
%cd ..

In [None]:
!ls
%cd clase3
!ls

In [None]:
data_file='CasosTotalesCumulativo.csv'

## 2. Importación de datos.

Veremos primero cómo importar, inspeccionar y graficar datos estructurados.

### 2.1 `numpy`: np.loadtxt() y np.genfromtxt()

Numpy provee funciones para leer archivos de texto estructurado directamente como arreglos (`np.ndarray`). En primer lugar la función `np.loadtxt()`, permite cargar archivos cuyo contenido es solamente numérico. Sin embargo, generalmente trabajaremos con datasets que tienen distintos tipos de datos en distintas columnas; por ejemplo, strings y floats. En este caso, es necesario utilizar la función `np.genfromtxt()`, que puede manejar estas estructuras. Si pasamos como argumento `dtype=None`, la función infiere el tipo de datos de cada columna.

La documentación de ambas funciones se encuentra en: <br>
- https://numpy.org/doc/stable/reference/generated/numpy.loadtxt.html
- https://numpy.org/doc/stable/reference/generated/numpy.genfromtxt.html


In [None]:
# Importar archivo: data
data = np.loadtxt(data_file, delimiter=',', dtype='str')#skiprows=1

# Explorar la data
print(data[0])
print(data.shape)
print(data)

In [None]:
# Importar data como floats y saltar la primera fila: data_float
data = np.genfromtxt(data_file, delimiter=',', dtype=None,skip_header=1)

print(data[0])
print(data.shape)


#numpy se las puede arreglar con datos mezclados pero es mejor panda

En general, `numpy` se las puede arreglar con conjuntos de datos con tipos mezclados, pero la librería natural para trabajar con datos estructurados es `pandas`.

### 2.2 `pandas`: read_csv y DataFrames

La función `pd.read_csv()` permite leer un archivo de texto en formato CSV (comma separated value) y generar un DataFrame.
El delimitador por defecto es la coma (,), pero también pueden leerse datasets con otros tipos de separación, especificando el parámetro `delimiter`.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html


![image-2.png](attachment:image-2.png)

![image.png](attachment:image.png)


#### Leer e inspeccionar un DataFrame.


In [None]:
dat=pd.read_csv('CasosTotalesCumulativo.csv', delimiter=',')
dat

In [None]:
dat

In [None]:
dat.columns

In [None]:
dat.head()

#### Índices y acceso a información de celdas.

In [None]:
dat.iloc[1:3]

In [None]:
dat['Region']

In [None]:
dat_maule=dat[dat['Region']=='Maule']
dat_maule

#### Operaciones con columnas.