## Leer datos con la función **read_csv**

https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

In [None]:
import pandas as pd
import numpy as np
import os

In [None]:
data = pd.read_csv("../datasets/customer-churn-model/Customer Churn Model.csv") #filepath


## Parámetros de la función **read_csv** (30 argumentos)

In [None]:
data.head()

### Ejemplos de los parámetros de la función read_csv
```
read.csv(filepath="../datasets/customer-churn-model/Customer Churn Model.csv/titanic3.csv",
        sep = ",",         
        dtype={"ingresos":np.float64, "edad":np.int32}, 
        header=0,names={"ingresos", "edad"},
        skiprows=12, 
        index_col=None, 
        skip_blank_lines=False, 
        na_filter=False
        )
```
1. **sep** separado por comas
2. **dtype** columna ingresos de tipo flotante. El valor determinado es None, quiere decir que panda asignara el tipo que mas le convenga
3. **header** donde esta la cabecera, y cuales quieres utilizar
4. **skiperows** saltar filas 
5. **index_col** cambiar la columna del index
6. **skipe_blank** saltar lineas en blancos
7. **na_filter** elimina NaN

In [None]:
mainpath = "../datasets/" #carpeta global
filename = "customer-churn-model/Customer Churn Model.csv" #dataset
fullpath = os.path.join(mainpath, filename)
data = pd.read_csv (fullpath)
data2 = pd.read_csv(mainpath + "/" + "customer-churn-model/Customer Churn Model.txt")
data2.head()

In [None]:
data2.columns.values

## Cambiar la cabecera a data2

In [None]:
# Leer un archivo con cabecera
data_cols = pd.read_csv(mainpath + "/" + "customer-churn-model/Customer Churn Columns.csv")
# Convertirlo a una lista
data_col_list = data_cols["Column_Names"].tolist()
# Quitar la cabecera original (header=None) y añadir la lista como cabecra (names=data_col_list)
data2 = pd.read_csv(mainpath + "/" + "customer-churn-model/Customer Churn Model.txt", header=None, names=data_col_list)
#data2.columns.values
data2.head()

## Carga de datos a través de la función **open**

Leer el archivo de datos fila por fila en un loop, almacenar parte del conjunto de datos y cerrar el archivo

1. **r** solo lectura ("a" (append), posicionará el cursor al final y no borrará el contenido del mismo.)
2. **strip** se utiliza para eliminar los espacios en blanco al inicio y al final de la linea
3. **split** divide la linea de texto
4. **len(cols) es el número de columnas



In [None]:
data3 = open(mainpath + "/" + "customer-churn-model/Customer Churn Model.txt",'r')
cols = data3.readline().strip().split(",")
n_cols = len(cols)
counter = 0 #inicializar contador
main_dict = {} #definir diccionario con nombre de las columnas
for col in cols:
    main_dict[col] = [] #vacio
main_dict

In [None]:
for line in data3: # interación sobre las filas de los datos
    values = line.strip().split(",") #quita espacios sobrantes y divide por comas
    for i in range(n_cols): #intera sobre las columnas
        main_dict[cols[i]].append(values[i]) #agrega las filas a cada columna 
    counter += 1 #cuenta cuantas filas hay
   
print("El conjunto de datos tiene %d filas y %d columnas"%(counter-1 , n_cols))

In [None]:
df3 = pd.DataFrame(main_dict) #crear un dat frame
df3.head()

## Lectura y escritura archivos: tabuladores

In [None]:
infile = mainpath + "/" + "customer-churn-model/Customer Churn Model.txt"
outfile = mainpath + "/" + "customer-churn-model/Table Customer Churn Model.txt"
with open(infile, "r") as infile1:
    with open(outfile, "w") as outfile1:
        for line in infile1:
            fields = line.strip().split(",")
            outfile1.write("\t".join(fields)) #tabulador
            outfile1.write("\n") #salto de linea

In [None]:
df4 = pd.read_csv(outfile, sep = "\t")
df4.head()

## Leer datos desde una URL

In [None]:
medals_url = "http://winterolympicsmedals.com/medals.csv"
medals_data = pd.read_csv(medals_url)
medals_data.head()

#### Usando las bibliotecas de python **csv** y **urllib3**

https://docs.python.org/3/library/csv.html

https://urllib3.readthedocs.io/en/stable/

$ conda install -c conda-forge urllib3


Usando la librería urllib3 para leer los datos desde una URL externa, procesarlos y convertirlos a un data frame de *python* antes de guardarlos en un CSV local.

In [None]:
import csv
import urllib3

In [None]:
http = urllib3.PoolManager()
r = http.request('GET', medals_url)
r.status
response = r.data

In [None]:
cr = csv.reader(response)
#El objeto reponse contiene un string binario, así que lo convertimos a un string descodificándolo en UTF-8
str_data = response.decode("utf-8")
#Dividimos el string en un array de filas, separándolo por intros
lines = str_data.split("\n")
#La primera línea contiene la cabecera, así que la extraemos
col_names = lines[0].split(",")
n_cols = len(col_names)
counter = 0 #inicializar contador
main_dict = {} #definir diccionario con nombre de las columnas
for col in col_names:
    main_dict[col] = [] #vacio
main_dict
for line in lines:
    if(counter > 0):
        values = line.strip().split(",")
        for i in range(len(col_names)):
            main_dict[col_names[i]].append(values[i]) #agrega las filas a cada columna 
    counter += 1 #cuenta cuantas filas hay
   
print("El conjunto de datos tiene %d filas y %d columnas"%(counter-1, n_cols))
df5 = pd.DataFrame(main_dict) #crear un dat frame
#df5.head()
#Elegimos donde guardarlo (en la carpeta athletes es donde tiene más sentido por el contexto del análisis)
mainpath = "../datasets/" #carpeta global
filename = "athlets/athlets" #dataset
fullpath = os.path.join(mainpath, filename)

#Lo guardamos en CSV, en JSON o en Excel según queramos
df5.to_csv(fullpath+".csv")
df5.to_json(fullpath+".json")
#df5.to_excel(fullpath+".xls")
print("Los ficheros se han guardado correctamente en: "+fullpath)
   

## Archivos XLS y XLSX

In [None]:
filename = "athlets/athlets.xls" #dataset
fullpath = os.path.join(mainpath, filename)
data = pd.read_excel(fullpath)
data