# MySQL desde Python y Notebook

In [4]:
import pymysql

In [5]:
# creamos la conexión entre python y el servidor mysql
con = pymysql.connect('localhost','root','','provincias')

In [6]:
# creamos un cursor de acceso a queries
conn = con.cursor()

In [7]:
# enviamos la query al servidor mysql a través del cursor anterior
conn.execute("""
    SELECT * FROM provincias;
""")
# capturamos el resultado de la query desde el cursor a la tupla rs
rs = conn.fetchall()

In [8]:
import pandas as pd

In [9]:
df = pd.DataFrame(rs)
df.columns=['autonomia','provincia','poblacion','superficie']
df.head()

Unnamed: 0,autonomia,provincia,poblacion,superficie
0,Galicia,La Coruña,1122799,7950
1,Galicia,Lugo,336527,9856
2,Galicia,Orense,314853,7273
3,Galicia,Pontevedra,944346,4494
4,Principado de Asturias,Asturias,1042608,10603


### Provincias que contengan la letra B

In [10]:
conn.execute("""
    SELECT provincia FROM provincias
        WHERE provincia LIKE '%b%';
""")
rs = conn.fetchall()
print(rs)

(('Cantabria',), ('Barcelona',), ('Córdoba',), ('Badajoz',), ('Burgos',), ('Albacete',), ('Baleares',))


In [11]:
df[(
    df['provincia'].str.contains('B') | 
    df['provincia'].str.contains('b')
)].provincia

5     Cantabria
14    Barcelona
24      Córdoba
31      Badajoz
37       Burgos
44     Albacete
49     Baleares
Name: provincia, dtype: object

### Provincias que empiecen por B

In [12]:
conn.execute("""
    SELECT provincia FROM provincias
        WHERE provincia LIKE 'b%';
""")
rs = conn.fetchall()
print(rs)

(('Barcelona',), ('Badajoz',), ('Burgos',), ('Baleares',))


In [13]:
df[ df.provincia.str[0]=='B' ].provincia

14    Barcelona
31      Badajoz
37       Burgos
49     Baleares
Name: provincia, dtype: object

### Provincia con los mismos caracteres que su autonomía

In [14]:
conn.execute("""
    SELECT provincia FROM provincias
        WHERE CHAR_LENGTH(provincia)=CHAR_LENGTH(autonomia);
""")
rs = conn.fetchall()
rs

(('Cantabria',), ('La Rioja',), ('Huesca',), ('Teruel',))

In [15]:
df[ df.provincia.str.len()==df.autonomia.str.len() ].provincia

5     Cantabria
9      La Rioja
11       Huesca
13       Teruel
Name: provincia, dtype: object

### Lista de autonomías

In [16]:
conn.execute("""
    SELECT DISTINCT autonomia FROM provincias;
""")
rs = conn.fetchall()
rs

(('Galicia',),
 ('Principado de Asturias',),
 ('Cantabria',),
 ('País Vasco',),
 ('La Rioja',),
 ('Comunidad Foral de Navarra',),
 ('Aragón',),
 ('Cataluña',),
 ('Comunidad Valenciana',),
 ('Región de Murcia',),
 ('Andalucía',),
 ('Extremadura',),
 ('Comunidad de Madrid',),
 ('Castilla y León',),
 ('Castilla-La Mancha',),
 ('Canarias',),
 ('Islas Baleares',))

In [17]:
df.autonomia.unique()

array(['Galicia', 'Principado de Asturias', 'Cantabria', 'País Vasco',
       'La Rioja', 'Comunidad Foral de Navarra', 'Aragón', 'Cataluña',
       'Comunidad Valenciana', 'Región de Murcia', 'Andalucía',
       'Extremadura', 'Comunidad de Madrid', 'Castilla y León',
       'Castilla-La Mancha', 'Canarias', 'Islas Baleares'], dtype=object)

### Provincias de más de un millón de habitantes

In [34]:
conn.execute("""
    SELECT provincia FROM provincias
        WHERE poblacion>1e6;
""")
rs = conn.fetchall()
for i in rs: print(i[0])

La Coruña
Asturias
Vizcaya
Barcelona
Valencia
Alicante
Murcia
Sevilla
Málaga
Cádiz
Madrid
Santa Cruz de Tenerife
Las Palmas
Baleares


In [152]:
df[ df.poblacion>1e6 ].provincia

0                    [La, Coruña]
4                      [Asturias]
6                       [Vizcaya]
14                    [Barcelona]
19                     [Valencia]
20                     [Alicante]
21                       [Murcia]
23                      [Sevilla]
28                       [Málaga]
29                        [Cádiz]
32                       [Madrid]
47    [Santa, Cruz, de, Tenerife]
48                  [Las, Palmas]
49                     [Baleares]
Name: provincia, dtype: object

### Población de España

In [24]:
conn.execute("""
    SELECT SUM(poblacion) FROM provincias;
""")
rs = conn.fetchall()
print(rs[0][0])

46386463


In [72]:
df.poblacion.sum()

46386463

### Densidad de población de España

In [78]:
conn.execute("""
    SELECT SUM(poblacion)/SUM(superficie) FROM provincias;
""")
rs = conn.fetchall()
print(rs[0][0])

91.7274


In [79]:
df.poblacion.sum()/df.superficie.sum()

91.7274169021493

### Habitantes de la provincia de más poblada

In [68]:
conn.execute("""
    SELECT MAX(poblacion) FROM provincias;
""")
rs = conn.fetchall()
rs[0][0]

6466996

In [71]:
df.poblacion.max()

6466996

### Población de Cataluña

In [59]:
conn.execute("""
    SELECT SUM(poblacion) FROM provincias
        WHERE autonomia='Cataluña';
""")
rs = conn.fetchall()
print(rs[0][0])

7522596


In [61]:
df[ df.autonomia=='Cataluña' ].sum().poblacion

7522596

### Número de provincias de cada autonomía

In [80]:
conn.execute("""
    SELECT autonomia,COUNT(*) FROM provincias
        GROUP BY 1;
""")
rs = conn.fetchall()
rs

(('Andalucía', 8),
 ('Aragón', 3),
 ('Canarias', 2),
 ('Cantabria', 1),
 ('Castilla y León', 9),
 ('Castilla-La Mancha', 5),
 ('Cataluña', 4),
 ('Comunidad de Madrid', 1),
 ('Comunidad Foral de Navarra', 1),
 ('Comunidad Valenciana', 3),
 ('Extremadura', 2),
 ('Galicia', 4),
 ('Islas Baleares', 1),
 ('La Rioja', 1),
 ('País Vasco', 3),
 ('Principado de Asturias', 1),
 ('Región de Murcia', 1))

In [45]:
df.groupby('autonomia').count().provincia

autonomia
Andalucía                     8
Aragón                        3
Canarias                      2
Cantabria                     1
Castilla y León               9
Castilla-La Mancha            5
Cataluña                      4
Comunidad Foral de Navarra    1
Comunidad Valenciana          3
Comunidad de Madrid           1
Extremadura                   2
Galicia                       4
Islas Baleares                1
La Rioja                      1
País Vasco                    3
Principado de Asturias        1
Región de Murcia              1
Name: provincia, dtype: int64

### Población de cada autonomía

In [48]:
conn.execute("""
    SELECT autonomia,SUM(poblacion) s FROM provincias
        GROUP BY 1;
""")
rs = conn.fetchall()
rs

(('Andalucía', Decimal('8388107')),
 ('Aragón', Decimal('1308563')),
 ('Canarias', Decimal('2101924')),
 ('Cantabria', Decimal('582206')),
 ('Castilla y León', Decimal('2447519')),
 ('Castilla-La Mancha', Decimal('2041631')),
 ('Cataluña', Decimal('7522596')),
 ('Comunidad de Madrid', Decimal('6466996')),
 ('Comunidad Foral de Navarra', Decimal('640647')),
 ('Comunidad Valenciana', Decimal('4959968')),
 ('Extremadura', Decimal('1087778')),
 ('Galicia', Decimal('2718525')),
 ('Islas Baleares', Decimal('1107220')),
 ('La Rioja', Decimal('315794')),
 ('País Vasco', Decimal('2189534')),
 ('Principado de Asturias', Decimal('1042608')),
 ('Región de Murcia', Decimal('1464847')))

In [81]:
df.groupby('autonomia').sum().poblacion

autonomia
Andalucía                     8388107
Aragón                        1308563
Canarias                      2101924
Cantabria                      582206
Castilla y León               2447519
Castilla-La Mancha            2041631
Cataluña                      7522596
Comunidad Foral de Navarra     640647
Comunidad Valenciana          4959968
Comunidad de Madrid           6466996
Extremadura                   1087778
Galicia                       2718525
Islas Baleares                1107220
La Rioja                       315794
País Vasco                    2189534
Principado de Asturias        1042608
Región de Murcia              1464847
Name: poblacion, dtype: int64

### Provincia más despoblada

In [99]:
conn.execute("""
    SELECT provincia FROM provincias
        WHERE poblacion=(
            SELECT MIN(poblacion)
                FROM provincias
        );
""")
rs = conn.fetchall()
print(rs[0][0])

Soria


In [147]:
df[ df.poblacion.min()==df.poblacion ].provincia.str.split()

41    [Soria]
Name: provincia, dtype: object

### Autonomía más poblada

In [143]:
conn.execute("""
    SELECT autonomia FROM provincias
        GROUP BY 1 HAVING SUM(poblacion)=(
            SELECT MAX(h) FROM (
                SELECT autonomia,SUM(poblacion) h 
                    FROM provincias GROUP BY 1            
            ) c1
        );
""")
rs = conn.fetchall()
rs[0][0]

'Andalucía'

In [130]:
dfa = df.groupby(['autonomia']).sum()
aut = dfa[ dfa.poblacion.max()==dfa.poblacion ].index
aut.str.split()[0][0]

'Andalucía'