## Cargar ficheros excel y generar CSV con pandas

In [1]:
import pandas as pd

In [2]:
path = "pedidos2.xlsx"

dt = pd.read_excel(path)
dt.head()

Unnamed: 0,idpedido,cliente,idempleado,idempresa,importe,pais
0,10248,WILMK,5,3,32.38,Finlandia
1,10249,TOMSP,6,1,11.61,Alemania
2,10250,HANAR,4,2,65.83,Brasil
3,10251,VICTE,3,1,41.34,Francia
4,10252,SUPRD,4,2,51.3,Belgica


In [3]:
dt.loc[0]

idpedido          10248
cliente           WILMK
idempleado            5
idempresa             3
importe           32.38
pais          Finlandia
Name: 0, dtype: object

In [4]:
dt.pais

0           Finlandia
1            Alemania
2              Brasil
3             Francia
4             Belgica
            ...      
825            Mexico
826         Dinamarca
827             Suiza
828           Francia
829    Estados Unidos
Name: pais, Length: 830, dtype: object

In [5]:
dt.tail()

Unnamed: 0,idpedido,cliente,idempleado,idempresa,importe,pais
825,11073,PERIC,2,2,24.95,Mexico
826,11074,SIMOB,7,2,18.44,Dinamarca
827,11075,RICSU,8,2,6.19,Suiza
828,11076,BONAP,4,2,38.28,Francia
829,11077,RATTC,1,2,8.53,Estados Unidos


In [6]:
dt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 830 entries, 0 to 829
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   idpedido    830 non-null    int64  
 1   cliente     830 non-null    object 
 2   idempleado  830 non-null    int64  
 3   idempresa   830 non-null    int64  
 4   importe     830 non-null    float64
 5   pais        830 non-null    object 
dtypes: float64(1), int64(3), object(2)
memory usage: 39.0+ KB


In [7]:
dt.loc[825]["pais"]

'Mexico'

In [8]:
dt["pais"][825]

'Mexico'

In [9]:
dt.pais.unique()

array(['Finlandia', 'Alemania', 'Brasil', 'Francia', 'Belgica', 'Suiza',
       'Venezuela', 'Austria', 'Mexico', 'Estados Unidos', 'Suecia',
       'Italia', 'Espanya', 'Reino Unido', 'Irlanda', 'Portugal',
       'Canada', 'Dinamarca', 'Polonia', 'Noruega', 'Argentina'],
      dtype=object)

In [11]:
paises = sorted(dt.pais.unique())
paises

['Alemania',
 'Argentina',
 'Austria',
 'Belgica',
 'Brasil',
 'Canada',
 'Dinamarca',
 'Espanya',
 'Estados Unidos',
 'Finlandia',
 'Francia',
 'Irlanda',
 'Italia',
 'Mexico',
 'Noruega',
 'Polonia',
 'Portugal',
 'Reino Unido',
 'Suecia',
 'Suiza',
 'Venezuela']

In [12]:
len(paises)

21

In [13]:
dt.pais.value_counts()

pais
Estados Unidos    123
Alemania          122
Brasil             83
Francia            76
Reino Unido        55
Venezuela          46
Austria            40
Suecia             38
Canada             30
Mexico             28
Italia             28
Espanya            23
Finlandia          23
Irlanda            19
Belgica            19
Suiza              18
Dinamarca          18
Argentina          16
Portugal           13
Polonia             6
Noruega             6
Name: count, dtype: int64

In [14]:
dt.describe()

Unnamed: 0,idpedido,idempleado,idempresa,importe
count,830.0,830.0,830.0,830.0
mean,10662.5,4.403614,2.008434,78.244205
std,239.744656,2.499648,0.778899,116.779294
min,10248.0,1.0,1.0,0.02
25%,10455.25,2.0,1.0,13.38
50%,10662.5,4.0,2.0,41.36
75%,10869.75,7.0,3.0,91.43
max,11077.0,9.0,3.0,1007.64


In [15]:
dt["iva"] = round(dt.importe * 0.21, 2)
dt["total"] = dt.iva + dt.importe
dt.head()

Unnamed: 0,idpedido,cliente,idempleado,idempresa,importe,pais,iva,total
0,10248,WILMK,5,3,32.38,Finlandia,6.8,39.18
1,10249,TOMSP,6,1,11.61,Alemania,2.44,14.05
2,10250,HANAR,4,2,65.83,Brasil,13.82,79.65
3,10251,VICTE,3,1,41.34,Francia,8.68,50.02
4,10252,SUPRD,4,2,51.3,Belgica,10.77,62.07


In [16]:
dt.to_csv("paises/pedidos.csv", sep=";", index=False, decimal=',')

In [19]:
dt2 = dt[(dt.pais=='Suiza') & (dt.importe > 100)]
dt2

Unnamed: 0,idpedido,cliente,idempleado,idempresa,importe,pais,iva,total
7,10255,RICSU,9,3,148.33,Suiza,31.15,179.48
171,10419,RICSU,4,2,137.35,Suiza,28.84,166.19
418,10666,RICSU,7,2,232.42,Suiza,48.81,281.23
503,10751,RICSU,3,3,130.79,Suiza,27.47,158.26
510,10758,RICSU,3,3,138.17,Suiza,29.02,167.19


In [21]:
dt2.to_json("paises/pedidos.json", orient="records")

#### Base de datos con python y pandas (SQLite3)

In [22]:
import sqlite3 as bd

In [30]:
con = bd.connect("empresa3.db")
sql = """select p.nombre as nombre_prod, c.nombre as nombre_cat, 
p.precio, p.existencias from productos p 
inner join categorias c on p.idcategoria = c.id"""

cur = con.cursor()
cur.execute(sql)
d = dict()
for t in cur.fetchall():
    cat = t[1]
    if cat in d:
        d[cat] += 1
    else:
        d[cat] = 1
    
cur.close()
con.close()

d

{'comidas': 17,
 'bebidas': 13,
 'Frutas/Verduras': 5,
 'Carnes': 6,
 'Pescado/Marisco': 12,
 'Lacteos': 10,
 'reposteria': 13,
 'Cereales': 7}

#### Extraer SQL con pandas

In [27]:
con = bd.connect("empresa3.db")
dt2 = pd.read_sql(sql, con)
dt2

Unnamed: 0,nombre_prod,nombre_cat,precio,existencias
0,Te Dharamsala,comidas,18.00000,390
1,Cerveza tibetana Barley,comidas,23.09460,17
2,Sirope de regaliz,bebidas,12.15510,13
3,Especias Cajun del chef Anton,bebidas,22.00000,53
4,Mezcla Gumbo del chef Anton,bebidas,25.95110,0
...,...,...,...,...
78,Coca Cola,comidas,1.50000,2500
79,Azafrán Rojo,bebidas,250.00000,150
80,Pepsi,comidas,1.50000,250
81,Fanta lima,comidas,1.82326,15


In [28]:
dt2.nombre_cat.value_counts()

nombre_cat
comidas            17
bebidas            13
reposteria         13
Pescado/Marisco    12
Lacteos            10
Cereales            7
Carnes              6
Frutas/Verduras     5
Name: count, dtype: int64