## Proceso de Ingenieria de datos
1. `Extraccion de datos` : Extraer datos de multiples fuentes de datos, sitios web u otras fuentes en formato (JSON, CSV, XLSX)
2. `Transformacion de datos` : Remover datos que no se necesiten y convertir los datos a un formato homogeneo
3. `Cargar datos` : Cargar los datos dentro de un Data Warehouse. Contenedor de un volumen de datos grande

### Formato de los datos
Es un estandar  en el que la informacion es almacenada en un archivo. el formato del archivo especifica si es un archivo binario o ASCII. Esto da incapie a penzar si el archivo puede utilizar separadores o de otra manera utiliza texto plano.

Existen diferentes tipos de archivos y estos deben ser abordados de formas diferentes para su posterior analisis, por eso es importante entender cada uno de ellos.


In [22]:
# Leyendo archivos  CSV en python
import pandas as pd
import numpy as np
df = pd.read_csv("addresses.csv", header=None)

In [13]:
# Se agrega el encabezado al DataFrame
encabezado = ['First Name', 'Last Name', 'Location', 'City', 'State', 'Area Code']
df.columns = encabezado

In [18]:
# Observacion de los datos
df[['First Name']]
# Para ver una lista de datos
df[['First Name', 'Last Name', 'Location', 'City', 'State', 'Area Code']]

Unnamed: 0,First Name,Last Name,Location,City,State,Area Code
0,John,Doe,120 jefferson st.,Riverside,NJ,8075
1,Jack,McGinnis,220 hobo Av.,Phila,PA,9119
2,"John ""Da Man""",Repici,120 Jefferson St.,Riverside,NJ,8075
3,Stephen,Tyler,"7452 Terrace ""At the Plaza"" road",SomeTown,SD,91234
4,,Blankman,,SomeTown,SD,298
5,"Joan ""the bone"", Anne",Jet,"9th, at Terrace plc",Desert City,CO,123


In [None]:
# Seleccion de elementos dentro del dataFrame
df.loc[0] # Trae el primer registro
df.loc[[0, 1, 2], "First Name"]

# Deleccion de datos por index
df.iloc[[0, 1, 2], 0]


0             John
1             Jack
2    John "Da Man"
Name: First Name, dtype: object

In [None]:
# Creacion de un nuevo dataframe
df = pd.DataFrame(np.array([[1, 2, 3],[4, 5, 6],[7, 8, 9]]), columns=['a', 'b', 'c'])
df = df.transform(func = lambda x : x + 10)  # Se pueden utilizar funcionar presonalizadas para alterar los valores del dataframe
df

Unnamed: 0,a,b,c
0,11,12,13
1,14,15,16
2,17,18,19


In [26]:
result = df.transform(func= ['sqrt'])
result

Unnamed: 0_level_0,a,b,c
Unnamed: 0_level_1,sqrt,sqrt,sqrt
0,3.316625,3.464102,3.605551
1,3.741657,3.872983,4.0
2,4.123106,4.242641,4.358899


### Formato JSON
JSON (JavaScript Object Notation) es un formato ligero para lectura y escritura. Contiene la siguiente estructura.
1. Coleccion llave, valor
2. Contiene una ordenada lista de valores, organizados en forma de arreglo, vector, lista o secuencia

Json es un lenguaje de formato independiente, se distingue la informacion por el uso de  comillas simples para distinguir entre los diferentes clave valor.<br>
<Strong>Serializacion</Strong> : Es el proceso de convertir un objecto dentro de un formato espacial adecuado para transfitir por la red o almacenar en una base de datos

In [None]:
import json
person = {
    'first_name' : 'Mark',
    'last_name' : 'abc',
    'age' : 27,
    'address': {
        "streetAddress": "21 2nd Street",
        "city": "New York",
        "state": "NY",
        "postalCode": "10021-3100"
}}

In [None]:
# Serializacion de objeto a json
# Metodo 1.
with open('person.json', 'w') as f:
    json.dump(person, f)  

In [None]:
# Metodo 2.
#json.dumps() recibe los parametros, diccionario a convertir a json y indentado
json_object = json.dumps(person, indent = 4)

with open("person2.json","w") as outfile:
    outfile.write(json_object)

In [35]:
print(json_object)
with open('person2.json', 'r') as openfile:
    json_object = json.load(openfile)
print(json_object)
print(type(json_object))

{
    "first_name": "Mark",
    "last_name": "abc",
    "age": 27,
    "address": {
        "streetAddress": "21 2nd Street",
        "city": "New York",
        "state": "NY",
        "postalCode": "10021-3100"
    }
}
{'first_name': 'Mark', 'last_name': 'abc', 'age': 27, 'address': {'streetAddress': '21 2nd Street', 'city': 'New York', 'state': 'NY', 'postalCode': '10021-3100'}}
<class 'dict'>


### Formato tipo XLSX
Es el Excel que todos conocemos, informacion organizada en columnas y en celdas


In [None]:
import urllib.request
# Descarga de archivo descargado de la web
URL = "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-PY0101EN-SkillsNetwork/labs/Module%205/data/file_example_XLSX_10.xlsx"
text_name = "sample.xlsx"
urllib.request.urlretrieve(URL, "sample.xlsx")

('sample.xlsx', <http.client.HTTPMessage at 0x192fb48c850>)

In [41]:
df = pd.read_excel("sample.xlsx")
df

Unnamed: 0,0,First Name,Last Name,Gender,Country,Age,Date,Id
0,1,Dulce,Abril,Female,United States,32,15/10/2017,1562
1,2,Mara,Hashimoto,Female,Great Britain,25,16/08/2016,1582
2,3,Philip,Gent,Male,France,36,21/05/2015,2587
3,4,Kathleen,Hanner,Female,United States,25,15/10/2017,3549
4,5,Nereida,Magwood,Female,United States,58,16/08/2016,2468
5,6,Gaston,Brumm,Male,United States,24,21/05/2015,2554
6,7,Etta,Hurn,Female,Great Britain,56,15/10/2017,3598
7,8,Earlean,Melgar,Female,United States,27,16/08/2016,2456
8,9,Vincenza,Weiland,Female,United States,40,21/05/2015,6548


### Formato  XML
Conocido como lengua de marquetado extensible, considera ciertas reglas de codificacion de los datos, formato interpretable para lectura de usuario como de maquina, para realizar la lectura de este tipo de archivos se utiliza el modulo xml.stree.ElementTree
[Mas informacion](https://docs.python.org/3/library/xml.etree.elementtree.html?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkPY0101ENSkillsNetwork19487395-2021-01-01)

In [46]:
import xml.etree.ElementTree as ET

# Creacion de estructura del documento
employee = ET.Element('employee')
details = ET.SubElement(employee, 'details')
first = ET.SubElement(details, 'firstname')
second = ET.SubElement(details, 'lastname')
third = ET.SubElement(details, 'age')

# Contenido de los campos

first.text = 'Shiv'
second.text = 'Mishra'
third.text = '23'

# Creacion de nuebo archivo XML
mydata1 = ET.ElementTree(employee)
with open("item2.xml", 'wb') as files:
    mydata1.write(files)


In [51]:
import urllib.request
# Descarga de archivo descargado de la web
URL = "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-PY0101EN-SkillsNetwork/labs/Module%205/data/Sample-employee-XML-file.xml"
text_name = "empleados.xml"
urllib.request.urlretrieve(URL, text_name)

('empleados.xml', <http.client.HTTPMessage at 0x192fbe1e3a0>)

In [None]:
import xml.etree.ElementTree as etree
# Lectura de archivos xml con libreria xml.etree.ElementTree
tree = etree.parse("empleados.xml") # Conversion de arxhico a objeto
root = tree.getroot()               # Se obtiene la ruta del archivo

# Definicion de las columnas del archivo
columns = ["firstname", "lastname", "title", "division", "building", "room"]

# Inicializacion de DataFrame
dataframe = pd.DataFrame(columns=columns)

for node in root:
    #   Extraccion de cada uno de los elementos
    firstName = node.find("firstname").text
    lastName = node.find("lastname").text
    title = node.find("title").text
    division = node.find("division").text
    building = node.find("building").text
    room = node.find("room").text
    
   
    # Creacion de dataFrame por fila
    row_df = pd.DataFrame([[firstName, lastName, title, division, building, room]], columns=columns)
    # Concatenar cada una de las filas al DataFrame
    dataframe = pd.concat([dataframe, row_df], ignore_index=True)
    

In [70]:
dataframe

Unnamed: 0,firstname,lastname,title,division,building,room
0,Shiv,Mishra,Engineer,Computer,301,11
1,Yuh,Datta,developer,Computer,303,2
2,Rahil,Khan,Tester,Computer,304,10
3,Deep,Parekh,Designer,Computer,305,14


### Lectura de archivos xml usando pandas.read_xml

In [None]:
df = pd.read_xml("empleados.xml", xpath="/employees/details") # Importa los datos que se encuentran dentro de details
df

Unnamed: 0,firstname,lastname,title,division,building,room
0,Shiv,Mishra,Engineer,Computer,301,11
1,Yuh,Datta,developer,Computer,303,2
2,Rahil,Khan,Tester,Computer,304,10
3,Deep,Parekh,Designer,Computer,305,14


In [None]:
# Existe diferentes forma de guardar un dataframe para analisis posteriores
dataframe.to_csv("employee.csv", index=False)

Existes diferentes diferentes formas para guardar archivos de datos, a continuacion se presentan algunos de los casos para almacenar algunos formatos de datos:

![Salvar datos](./FormatFile.png)