# Modulo 35: Proyecto - Análisis de datos con SQLite 

* Crear un programa que lea los datos de un archivo comprimido
* Guarde la información en la base de datos SQLite
* Realice consultas sobre los datos almacenados

In [1]:
import sys
import os
from zipfile import ZipFile
import pandas as pd

In [2]:
os.getcwd()

'/Users/alejandrocasares/Desktop/Curso-Python'

In [3]:
os.chdir('/Users/alejandrocasares/Desktop/Curso-Python/Modulo 35 - Proyecto SQLite (Recursos)')

In [4]:
os.listdir

<function posix.listdir(path=None)>

In [5]:
test_file_name = 'coches.zip'

with ZipFile(test_file_name, 'r') as zip:
    zip.printdir()
    zip.extractall() 

File Name                                             Modified             Size
coches.csv                                     2021-11-22 18:13:34       178269


In [6]:
def leer_datos(nombre):
    datos = pd.read_csv(nombre,sep=';')
    return datos

In [7]:
coches = leer_datos('coches.csv')

In [8]:
coches

Unnamed: 0,Marca,Modelo,Combustible,Transmisión,Estado,Año matricula,Kilometraje,Potencia,Precio
0,Ford,Fiesta,Gasolina,Manual,Usado,05/2010,63729,82.0,2850.0
1,Nissan,Pixo,Gasolina,Manual,Usado,06/2011,65000,68.0,2999.0
2,Hyundai,i10,Gasolina,Manual,Usado,08/2012,35000,69.0,3299.0
3,Renault,Twingo,Gasolina,Manual,Usado,11/2011,60211,75.0,3990.0
4,Peugeot,107,Gasolina,Manual,Usado,06/2010,80000,68.0,3990.0
...,...,...,...,...,...,...,...,...,...
2775,Volkswagen,Golf Sportsvan,Gasolina,Automática,Usado,10/2017,22359,150.0,18450.0
2776,Mercedes-Benz,B 220,Gasolina,Automática,Usado,05/2015,65383,184.0,18480.0
2777,Opel,Zafira,Gasolina,Manual,Usado,11/2018,30900,136.0,18490.0
2778,Opel,Zafira,Gasolina,Automática,Usado,01/2019,35555,136.0,18490.0


In [33]:
#Vamos a crear una base de datos en el sistema

In [9]:
import sqlite3 
from sqlite3 import Error

In [10]:
basededatos = 'coches.bd'

In [11]:
def crear_conexion_bd():
    try:            #Podríamos hacerlo sin el try, pero así si falla, nos devuelve el error
        conexion = sqlite3.connect(basededatos)
        return conexion
    except Error:
        print(Error)

In [12]:
conexion = crear_conexion_bd()

In [13]:
#Ahora creamos la tabla dentro de la base de datos

In [14]:
def crear_tabla_coches(conexion):
    cursor = conexion.cursor()
    cursor.execute('CREATE TABLE coches(marca text, modelo text, combustible text, transmisión text, estado text, matriculación text, kilometraje integer, potencia real, precio real)')
    conexion.commit()

In [None]:
crear_tabla_coches(conexion)

In [16]:
#Continuamos grabando todos los registros del fichero a la base de datos
#Definimos una función que será grabar coche:

In [22]:
def insertar_tabla_coches(conexion,coche):
    cursor = conexion.cursor()
    cursor.execute('INSERT INTO coches(marca,modelo,combustible,transmisión,estado,matriculación,kilometraje,potencia,precio) VALUES (?,?,?,?,?,?,?,?,?)', coche)
    conexion.commit()
    
    
def grabar_coche(conexion,datos):
    for fila in datos.itertuples():
        #Vemos que en la columna 0 está el índice, así que la primera columna comienza en el 1:
        marca = fila[1]
        modelo = fila[2]
        combustible = fila[3]
        transmisión = fila[4]
        estado = fila[5]
        matriculación = fila[6]
        kilometraje = fila[7]
        potencia = fila[8]
        precio = fila[9]
        
        coche = (marca,modelo,combustible,transmisión,estado,matriculación,kilometraje,potencia,precio)
        
        insertar_tabla_coches(conexion,coche)

In [23]:
grabar_coche(conexion,coches)

In [24]:
#Hacemos una función para consultar las primeras 20 filas de la tabla
def consultar_coches(conexion):
    cursor = conexion.cursor()
    cursor.execute('SELECT * FROM coches LIMIT 20')
    filas = cursor.fetchall()
    for fila in filas:
        print(fila)

In [25]:
consultar_coches(conexion)

('Ford', 'Fiesta', 'Gasolina', 'Manual', 'Usado', '05/2010', 63729, 82.0, 2850.0)
('Nissan', 'Pixo', 'Gasolina', 'Manual', 'Usado', '06/2011', 65000, 68.0, 2999.0)
('Hyundai', 'i10', 'Gasolina', 'Manual', 'Usado', '08/2012', 35000, 69.0, 3299.0)
('Renault', 'Twingo', 'Gasolina', 'Manual', 'Usado', '11/2011', 60211, 75.0, 3990.0)
('Peugeot', '107', 'Gasolina', 'Manual', 'Usado', '06/2010', 80000, 68.0, 3990.0)
('Chevrolet', 'Spark', 'Gasolina', 'Manual', 'Usado', '07/2011', 79871, 68.0, 3990.0)
('Nissan', 'Micra', 'Gasolina', 'Manual', 'Usado', '04/2012', 81000, 80.0, 4150.0)
('Ford', 'Ka/Ka+', 'Gasolina', 'Manual', 'Usado', '07/2011', 89500, 69.0, 4490.0)
('Opel', 'Astra', 'Gasolina', 'Manual', 'Usado', '09/2011', 72000, 116.0, 4600.0)
('SEAT', 'Mii', 'Gasolina', 'Manual', 'Usado', '07/2012', 93400, 60.0, 4695.0)
('Citroen', 'C1', 'Gasolina', 'Manual', 'Usado', '12/2011', 16000, 68.0, 4750.0)
('Chevrolet', 'Spark', 'Gasolina', 'Manual', 'Usado', '08/2013', 63176, 68.0, 4790.0)
('Skoda'

In [26]:
#Vamos a calcular el numero total de coches de la tabla:

In [27]:
def numero_coches(conexion):
    cursor = conexion.cursor()
    cursor.execute('SELECT count(*) FROM coches')
    numero_coches = cursor.fetchall()
    return(numero_coches)

In [28]:
numero_coches(conexion)

[(2780,)]

In [29]:
#Calculamos ahora el precio total de todos los coches

In [32]:
def precio_coches(conexion):
    cursor = conexion.cursor()
    cursor.execute('SELECT sum(precio) FROM coches')
    prec = cursor.fetchall()
    precio = prec[0][0]
    return(precio)

In [33]:
precio_coches(conexion)

38997136.0

In [38]:
precio = precio_coches(conexion)
precio2 = '{:,}'.format(precio).replace(',','.')

In [39]:
precio2

'38.997.136.0'

In [40]:
#Vamos a sacar la marca y modelo del coche más barato con una nueva función

In [41]:
def coche_barato(conexion):
    cursor = conexion.cursor()
    cursor.execute('SELECT marca, modelo, min(precio) FROM coches')
    datos = cursor.fetchall()
    return(datos)

In [42]:
datos = coche_barato(conexion)

In [43]:
datos

[('Ford', 'Fiesta', 2850.0)]

In [45]:
print('El coche más barato es el {} - {}, que vale {} euros'.format(datos[0][0],datos[0][1],datos[0][2]))

El coche más barato es el Ford - Fiesta, que vale 2850.0 euros


In [46]:
#Ahora vamos a calcular el precio medio de los coches por marca

In [47]:
def precio_medio(conexion):
    cursor = conexion.cursor()
    cursor.execute('SELECT avg(precio), marca FROM coches group by marca')
    datos = cursor.fetchall()
    return(datos)  

In [48]:
datos = precio_medio(conexion)

In [49]:
datos

[(16535.0, 'Abarth'),
 (8323.333333333334, 'Alfa'),
 (74950.0, 'Alpina'),
 (52870.0, 'Aston'),
 (34383.402298850575, 'Audi'),
 (26133.47191011236, 'BMW'),
 (71900.0, 'Bentley'),
 (12110.5625, 'Chevrolet'),
 (9713.880597014926, 'Citroen'),
 (65663.0, 'Corvette'),
 (7450.0, 'DS'),
 (10157.161290322581, 'Dacia'),
 (5586.0, 'Daihatsu'),
 (54298.11111111111, 'Dodge'),
 (8986.290697674418, 'Fiat'),
 (15721.104234527687, 'Ford'),
 (14658.666666666666, 'Honda'),
 (9673.251533742332, 'Hyundai'),
 (53017.555555555555, 'Jaguar'),
 (12885.8, 'Jeep'),
 (11849.247311827958, 'Kia'),
 (7700.0, 'Lada'),
 (13430.0, 'Land Rover'),
 (78890.0, 'Lexus'),
 (71489.0, 'Lotus'),
 (11231.5, 'MINI'),
 (10220.791666666666, 'Mazda'),
 (34897.26804123711, 'Mercedes-Benz'),
 (9532.333333333334, 'Microcar'),
 (8977.5, 'Mitsubishi'),
 (10564.92, 'Nissan'),
 (10311.336206896553, 'Opel'),
 (9399.378787878788, 'Peugeot'),
 (61096.25, 'Porsche'),
 (10806.988679245283, 'Renault'),
 (9368.753086419752, 'SEAT'),
 (10497.715, 

In [50]:
for dato in datos:
    marca = dato[1]
    precio = dato[0]
    print(marca,precio)
    

Abarth 16535.0
Alfa 8323.333333333334
Alpina 74950.0
Aston 52870.0
Audi 34383.402298850575
BMW 26133.47191011236
Bentley 71900.0
Chevrolet 12110.5625
Citroen 9713.880597014926
Corvette 65663.0
DS 7450.0
Dacia 10157.161290322581
Daihatsu 5586.0
Dodge 54298.11111111111
Fiat 8986.290697674418
Ford 15721.104234527687
Honda 14658.666666666666
Hyundai 9673.251533742332
Jaguar 53017.555555555555
Jeep 12885.8
Kia 11849.247311827958
Lada 7700.0
Land Rover 13430.0
Lexus 78890.0
Lotus 71489.0
MINI 11231.5
Mazda 10220.791666666666
Mercedes-Benz 34897.26804123711
Microcar 9532.333333333334
Mitsubishi 8977.5
Nissan 10564.92
Opel 10311.336206896553
Peugeot 9399.378787878788
Porsche 61096.25
Renault 10806.988679245283
SEAT 9368.753086419752
Skoda 10497.715
Sonstige 6430.0
SsangYong 12440.75
Subaru 12217.0
Suzuki 9252.35294117647
Toyota 14572.583333333334
Volkswagen 13165.106770833334
Volvo 9564.0
smart 7571.517241379311


In [51]:
#Vamos a ver como hacer pruebas automáticas de nuestro código:

In [52]:
import unittest

In [None]:
nombre_fichero = 'test.csv'

In [54]:
class test_numero_coches_tabla(unittest.TestCase):
    def test(self):
        
        datos = leer_datos(nombre_fichero)
        
        conexion = crear_conexion_bd()
        crear_tabla_coches(conexion)
        grabar_coche(conexion,datos)
        dato = numero_coches(conexion)
        self.assertEqual(2780,dato)
        