# Carga de datos con 'read_csv'.

In [1]:
#-------------------------------------------
# Importamos bibliotecas.
import pandas as pd
import os

In [2]:
#-------------------------------------------
# Lo más cómodo es asiganr el la dirección del dataset en una variable.
datasets_path = '../datasets/'
file_name = 'titanic/titanic3.csv'
full_path = os.path.join(datasets_path, file_name)

In [3]:
#-------------------------------------------
# Veamos algunos argumentos del 'read_csv' para abrir el archivo.

# 'filepath_or_buffer' es la dirección del dataset.
# 'sep' es el tipo de separador que tiene.
# 'dtype' es cómo se van a guardar los datos, puede ser 'int', 'float', etc.
# 'header' especifíca el dónde está el cabezal.
# 'names' indica cómo se llama cada una de las columnas.
# 'skiprows' es para comenzar a leer después de algunoas líneas.
# 'skip_blank_lines' sirve para saltar valores en blanco.
# 'na_filter' elimina lineas con valores desconocidos cono NAN.
data = pd.read_csv(filepath_or_buffer = full_path, sep = ',', dtype = None, header = 0, names = None, skiprows = 0, skip_blank_lines = False, na_filter = False)

In [4]:
#-------------------------------------------
# 'head()' funciona tal cual como el 'head' en linux.
data.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"


In [5]:
#-------------------------------------------
# Carguemos otro archivo.
data2 = pd.read_csv(datasets_path + '/customer-churn-model/Customer Churn Model.txt')

In [6]:
#-------------------------------------------
# Corroboramos que lo cargamos bien.
data2.head()

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.


In [7]:
#-------------------------------------------
# Con el método 'columns.values' corroboramos las etiquetas del cabezal.
data2.columns.values

array(['State', 'Account Length', 'Area Code', 'Phone', "Int'l Plan",
       'VMail Plan', 'VMail Message', 'Day Mins', 'Day Calls',
       'Day Charge', 'Eve Mins', 'Eve Calls', 'Eve Charge', 'Night Mins',
       'Night Calls', 'Night Charge', 'Intl Mins', 'Intl Calls',
       'Intl Charge', 'CustServ Calls', 'Churn?'], dtype=object)

In [8]:
#-------------------------------------------
# Cambiémoslo, para ello cargamos los nuevos valores.
data_cols = pd.read_csv(datasets_path + 'customer-churn-model/Customer Churn Columns.csv')

# Cambiamos el formato a una lista (antes era un dataframe de pandas).
data_cols_list = data_cols['Column_Names'].tolist()

# Ahora cargamos el 'txt' de antes pero con la espeficicación del cambio de columnas.
data2 = pd.read_csv(datasets_path + '/customer-churn-model/Customer Churn Model.txt', header = None, names  = data_cols_list)

# Corroboramos con un 'head' o con un 'data2.columns.values'.
data2.head()

Unnamed: 0,A,B,C,D,E,F,G,H,I,J,...,L,M,N,O,P,Q,R,S,T,U
0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
1,KS,128,415,382-4657,no,yes,25,265.100000,110,45.070000,...,99,16.780000,244.700000,91,11.010000,10.000000,3,2.700000,1,False.
2,OH,107,415,371-7191,no,yes,26,161.600000,123,27.470000,...,103,16.620000,254.400000,103,11.450000,13.700000,3,3.700000,1,False.
3,NJ,137,415,358-1921,no,no,0,243.400000,114,41.380000,...,110,10.300000,162.600000,104,7.320000,12.200000,5,3.290000,0,False.
4,OH,84,408,375-9999,yes,no,0,299.400000,71,50.900000,...,88,5.260000,196.900000,89,8.860000,6.600000,7,1.780000,2,False.


# Carga de datasets manual.

In [9]:
#-------------------------------------------
# También podemos extraer los datos a mano.
# Esto sirve para nmo saturar la ram. 
# Ocuparemos 'open' por cómo carga datos.
data3 = open(datasets_path + 'customer-churn-model/Customer Churn Model.txt', 'r')

In [10]:
#-------------------------------------------
# Ahora veamos qué etiquetas tienen las columnas.
# Con 'readline()' leemos la primer línea de 'data3',
# con 'strip()' eliminamos los espacios en blanco,
# con 'split()' partimos todo el renglón con un delimitador.
cols = data3.readline().strip().split(',')

# Guardemos cuántas columnas hay con 'len()'.
num_cols = len(cols)

In [11]:
#-------------------------------------------
# Ahora vamos a crear un diccionario, cada entrada
# será una columna que esté llena con un arreglo
# con sus respectivos valores. Además veamos cuántas lineas tiene.

# Definimos un contador de lineas.
contador_lineas = 0

# Definimos el diccionario.
dict_data3 = {}

# Lo llenamos, cada entrada del diccionario por 
# ahora será un arreglo vacio pero con el nombre
# de su respectiva columna.
for col in cols:
    dict_data3[col] = []

# Llenamos cada valor, de cada arreglo del diccionario. 
for linea in data3:
    
    # Cada 'linea' la tenemos que dividir como hicimos arriba con las columnas.
    valor = linea.strip().split(',')
    
    # 'valor' es un arreglo y cada una de sus entradas es una entrada de cada arreglo del diccionario.
    for i in range(len(cols)):
        dict_data3[cols[i]].append( valor[i] )
        
    # Aumentamos el contador.
    contador_lineas += 1

# Imprimimos el número de filas y columnas.
print(f'El dataset tiene {num_cols} columnas y {contador_lineas} lineas')

El dataset tiene 21 columnas y 3333 lineas


In [12]:
#-------------------------------------------
# Pero lo que hicimos es un diccionario. 
# Generalmente trabajaremos con 'dataframes' de pandas.
dataframe3 = pd.DataFrame(dict_data3)

# Para visualizarlo hagamos un 'head()'.
dataframe3.head()

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.


# Lectura y escritura de ficheros.

In [13]:
#-------------------------------------------
# Ahora vamos a reescribir este archivo pero separándolo con tabs.

# Definimos un archivo de entrada y otro de salida.
infile = datasets_path + 'customer-churn-model/Customer Churn Model.txt'
outfile = datasets_path + 'customer-churn-model/Tab Customer Churn Model.txt'

In [14]:
#-------------------------------------------
# Abrimos los dos archivos, uno en lectura y otro en escritura.
with open(infile, 'r') as infile1:
    with open(outfile, 'w') as outfile1:
        
        # Hacemos un for para leer todas las lineas, y formateartas.
        for line in infile1:
            fields = line.strip().split(',')
            
            # Escribimos los valores que separamos pero ahora los juntamos con un tabulador.
            outfile1.write( '\t'.join(fields) )
            
            # Damos un salto de linea.
            outfile1.write( '\n' )

In [15]:
#-------------------------------------------
# Abrimos este nuevo archivo con delimitador '\t'.
dataframe4 = pd.read_csv(outfile, sep = '\t')

# Verificamos con un 'head()'.
dataframe4.head()

Unnamed: 0,State,Account Length,Area Code,Phone,Int'l Plan,VMail Plan,VMail Message,Day Mins,Day Calls,Day Charge,...,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,Churn?
0,KS,128,415,382-4657,no,yes,25,265.1,110,45.07,...,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False.
1,OH,107,415,371-7191,no,yes,26,161.6,123,27.47,...,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False.
2,NJ,137,415,358-1921,no,no,0,243.4,114,41.38,...,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False.
3,OH,84,408,375-9999,yes,no,0,299.4,71,50.9,...,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False.
4,OK,75,415,330-6626,yes,no,0,166.7,113,28.34,...,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False.


# Lectura desde una URL

In [16]:
#-------------------------------------------
# Iniciamos la url del dataset.
medals_url = 'http://winterolympicsmedals.com/medals.csv'

In [17]:
#-------------------------------------------
# pandas lo reconoce en automático y lo puede cargar bien, corroboramos con un head.
medals_data = pd.read_csv(medals_url)

medals_data.head()

Unnamed: 0,Year,City,Sport,Discipline,NOC,Event,Event gender,Medal
0,1924,Chamonix,Skating,Figure skating,AUT,individual,M,Silver
1,1924,Chamonix,Skating,Figure skating,AUT,individual,W,Gold
2,1924,Chamonix,Skating,Figure skating,AUT,pairs,X,Gold
3,1924,Chamonix,Bobsleigh,Bobsleigh,BEL,four-man,M,Bronze
4,1924,Chamonix,Ice Hockey,Ice Hockey,CAN,ice hockey,M,Gold


In [18]:
#-------------------------------------------
# También podemos importar bibliotecas específicas.
import csv
import urllib3

In [26]:
#-------------------------------------------
# Definimos un 'poolmanager'.
http = urllib3.PoolManager()

# Hacemos una solicitud a la url.
r = http.request('GET', medals_url)

# Guardamos en 'response' los datos obtenidos.
response = str(r.data)

In [49]:
#-------------------------------------------
# Ahora tenemos que convertirlos a un dataframe, hagámoslo con 'csv'.

# Vamos a darle formato.
renglones = response.strip().split('\\n')

dataset_url = [ ]

for renglon in renglones:
    dataset_url.append( renglon.strip().split(',') )

# Falta escribirlo en un archivo o en un diccionario y después leerlo con 'pd.reader_csv()'

## Fichelos XLS y XLSX

In [44]:
#-------------------------------------------
# Definimos direcciones.
datasets_path = '../datasets/'
file_name = 'titanic/titanic3.xls'
full_path = datasets_path + file_name

In [47]:
#-------------------------------------------
# Definimos el dataframe.
# El segundo argumento es la hoja del excel que queremos leer.
titanic2 = pd.read_excel( full_path, 'titanic3' )

In [48]:
#-------------------------------------------
# En dado caso de que quermoas guardar los datos
# a un fichero podemos hacer lo siguiente.
titanic2.to_csv(datasets_path + '/titanic/titanic_custom.csv')

# o a un excel.
#titanic2.to_csv(datasets_path + '/titanic/titanic_custom.xlsx')