# Introducción:

En esta lección, exploraremos cómo utilizar SQL en conjunción con Python para llevar a cabo operaciones de extracción de datos. Aprenderemos a conectarnos a bases de datos, ejecutar consultas SQL para recuperar información específica, y luego procesar y utilizar esos datos dentro del entorno de Python. Ya sea que desees obtener información de una base de datos empresarial, extraer datos para análisis o realizar tareas de ETL (Extract, Transform, Load), esta lección te proporcionará las habilidades necesarias para realizar estas tareas de manera efectiva y eficiente.

#  Conexión a una Base de Datos MySQL desde Python:

En esta sección, aprenderemos cómo establecer una conexión con una base de datos MySQL existente desde un script de Python utilizando el constructor de la clase `connect()`.

El constructor `connect()` es esencial para crear una conexión con un servidor MySQL y devuelve un objeto de tipo `MySQLConnection`. A través de un ejemplo práctico, exploraremos cómo utilizarlo de manera efectiva.

🚨🚨 **NOTA IMPORTANTE** 🚨🚨 Si encuentras un error al ejecutar la celda a continuación, sigue estos pasos en tu terminal:

1. Ejecuta `pip install mysql-connector`.

2. Luego, ejecuta `pip install mysql-connector-python`.

Asegúrate de que la terminal muestra "base" y que en Jupyter, en la parte superior derecha, se muestra "base (y la versión de Python)". Después de estos pasos, vuelve a ejecutar la celda.

## Descripción de los Argumentos de *`connect()`:*

Antes de comenzar, exploremos algunos de los argumentos clave que utilizaremos al conectar a una base de datos utilizando el constructor `connect()`.

- `user`: Este argumento se refiere al nombre de usuario que se utilizará para autenticarse en el servidor MySQL.

- `password`: Aquí debemos proporcionar la contraseña correspondiente al usuario para la autenticación en el servidor MySQL.

- `database`: Es el nombre de la base de datos a la que deseamos conectarnos.

- `host`: Este argumento se utiliza para especificar el nombre del servidor MySQL o la dirección IP a la que nos conectaremos. Por defecto, este valor es "localhost", que se refiere a la misma máquina en la que se ejecuta el código (127.0.0.1 es la dirección IP equivalente).

- `port`: El puerto TCP/IP del servidor MySQL. Debe ser un número entero y, por defecto, se establece en 3306.


Existen más argumentos que son opcionales o que se usarán cuando queramos configurar la conexión de una manera muy concreta. Podéis consultar la descripción de todos los parámetros [aquí](https://dev.mysql.com/doc/connector-python/en/connector-python-connectargs.html). 

In [2]:
!pip install mysql.connector

Collecting mysql.connector
  Downloading mysql-connector-2.2.9.tar.gz (11.9 MB)
     ---------------------------------------- 0.0/11.9 MB ? eta -:--:--
     ---------------------------------------- 0.0/11.9 MB ? eta -:--:--
     --------------------------------------- 0.0/11.9 MB 660.6 kB/s eta 0:00:18
     - -------------------------------------- 0.3/11.9 MB 3.2 MB/s eta 0:00:04
     ----- ---------------------------------- 1.6/11.9 MB 11.1 MB/s eta 0:00:01
     ---------- ----------------------------- 3.0/11.9 MB 16.1 MB/s eta 0:00:01
     --------------- ------------------------ 4.5/11.9 MB 19.2 MB/s eta 0:00:01
     ------------------- -------------------- 5.8/11.9 MB 20.7 MB/s eta 0:00:01
     ------------------------ --------------- 7.2/11.9 MB 22.1 MB/s eta 0:00:01
     ----------------------------- ---------- 8.7/11.9 MB 23.0 MB/s eta 0:00:01
     --------------------------------- ------ 9.9/11.9 MB 23.6 MB/s eta 0:00:01
     --------------------------------------  11.6/11.9 MB

In [3]:
!pip install mysql-connector-python

Collecting mysql-connector-python
  Downloading mysql_connector_python-8.3.0-cp311-cp311-win_amd64.whl.metadata (2.0 kB)
Downloading mysql_connector_python-8.3.0-cp311-cp311-win_amd64.whl (15.4 MB)
   ---------------------------------------- 0.0/15.4 MB ? eta -:--:--
   ---------------------------------------- 0.0/15.4 MB ? eta -:--:--
   ---------------------------------------- 0.0/15.4 MB 487.6 kB/s eta 0:00:32
   - -------------------------------------- 0.5/15.4 MB 4.7 MB/s eta 0:00:04
   ---- ----------------------------------- 1.6/15.4 MB 10.1 MB/s eta 0:00:02
   ------- -------------------------------- 2.9/15.4 MB 14.4 MB/s eta 0:00:01
   ----------- ---------------------------- 4.3/15.4 MB 18.4 MB/s eta 0:00:01
   --------------- ------------------------ 5.8/15.4 MB 20.6 MB/s eta 0:00:01
   ------------------ --------------------- 7.0/15.4 MB 21.3 MB/s eta 0:00:01
   --------------------- ------------------ 8.3/15.4 MB 22.0 MB/s eta 0:00:01
   ------------------------- ---------

In [1]:
# Importar librería para la conexión con MySQL
# -----------------------------------------------------------------------
import mysql.connector
from mysql.connector import errorcode


# Importar librerías para manipulación y análisis de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np


Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


In [5]:
# ahora creamos la conexión con los argumentos:

cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
                              host='127.0.0.1',
                              database='Northwind')

print(cnx)


<mysql.connector.connection.MySQLConnection object at 0x000001E44D0EBE90>


In [None]:
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
                              host='127.0.0.1',
                              database='Northwind')

print(cnx)

In [4]:
try:
  cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
                              host='127.0.0.1',
                              database='Northwind')
  print("conexion con exito!")

except mysql.connector.Error as err:

  if err.errno == errorcode.ER_ACCESS_DENIED_ERROR:
    print("Something is wrong with your user name or password")
  elif err.errno == errorcode.ER_BAD_DB_ERROR:
    print("Database does not exist")
  
  else:
    print(err)


conexion con exito


In [None]:
#Usando "information_schema", extraer los nombres de las columnas de la tabla "customers" de la BBDD "northwind".

In [52]:
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
                              host='127.0.0.1',
                              database='information_schema')
mycursor = cnx.cursor()

mycursor.execute("SELECT column_name FROM COLUMNS WHERE TABLE_NAME = 'customers' and table_schema = 'northwind'")



In [53]:
myresult = mycursor.fetchall()
myresult

[('customer_id',),
 ('company_name',),
 ('contact_name',),
 ('contact_title',),
 ('address',),
 ('city',),
 ('region',),
 ('postal_code',),
 ('country',),
 ('phone',),
 ('fax',)]

In [7]:
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
                              host='127.0.0.1',
                              database='Northwind')
mycursor = cnx.cursor()
#nos enseña todas las tablas 
mycursor.execute("SHOW TABLES")
for x in mycursor:
  print(x)

('categories',)
('customer_customer_demo',)
('customer_demographics',)
('customers',)
('employee_territories',)
('employees',)
('order_details',)
('orders',)
('products',)
('region',)
('shippers',)
('suppliers',)
('territories',)


In [None]:
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
                              host='127.0.0.1',
                              database='Northwind')
mycursor = cnx.cursor()
#nos enseña todas las tablas 
mycursor.execute("SHOW TABLES")
for x in mycursor:
  print(x)

In [30]:
#Usando "information_schema", extraer los nombres de las columnas de la tabla "customers" de la BBDD "northwind".
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
                              host='127.0.0.1',
                              database='Northwind')
mycursor = cnx.cursor()
#nos enseña todas las tablas 
mycursor.execute('''SHOW COLUMNS  
                    FROM customers ''')
for x in mycursor:
  print(x)

('customer_id', 'char(5)', 'NO', 'PRI', None, '')
('company_name', 'varchar(40)', 'NO', 'MUL', None, '')
('contact_name', 'varchar(30)', 'YES', '', None, '')
('contact_title', 'varchar(30)', 'YES', '', None, '')
('address', 'varchar(60)', 'YES', '', None, '')
('city', 'varchar(15)', 'YES', 'MUL', None, '')
('region', 'varchar(15)', 'YES', 'MUL', None, '')
('postal_code', 'varchar(10)', 'YES', 'MUL', None, '')
('country', 'varchar(15)', 'YES', '', None, '')
('phone', 'varchar(24)', 'YES', '', None, '')
('fax', 'varchar(24)', 'YES', '', None, '')


In [31]:
x

('fax', 'varchar(24)', 'YES', '', None, '')

In [33]:
#Seleccionar todo de la tabla "customers" donde "country" sea "USA" o "Germany". Almacenar los resultados en una variable.

cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
                              host='127.0.0.1',
                              database='Northwind')

mycursor = cnx.cursor()

ciudad= ("""SELECT *
            FROM customers
            WHERE country= 'USA' OR country='Germany'""")
mycursor.execute(ciudad)


In [35]:

resultado= mycursor.fetchall()
for x in resultado:
    print(x)


('ALFKI', 'Alfreds Futterkiste', 'Maria Anders', 'Sales Representative', 'Obere Str. 57', 'Berlin', '', '12209', 'Germany', '030-0074321', '030-0076545')
('BLAUS', 'Blauer See Delikatessen', 'Hanna Moos', 'Sales Representative', 'Forsterstr. 57', 'Mannheim', '', '68306', 'Germany', '0621-08460', '0621-08924')
('DRACD', 'Drachenblut Delikatessen', 'Sven Ottlieb', 'Order Administrator', 'Walserweg 21', 'Aachen', '', '52066', 'Germany', '0241-039123', '0241-059428')
('FRANK', 'Frankenversand', 'Peter Franken', 'Marketing Manager', 'Berliner Platz 43', 'M?nchen', '', '80805', 'Germany', '089-0877310', '089-0877451')
('GREAL', 'Great Lakes Food Market', 'Howard Snyder', 'Marketing Manager', '2732 Baker Blvd.', 'Eugene', 'OR', '97403', 'USA', '(503) 555-7555', '')
('HUNGC', 'Hungry Coyote Import Store', 'Yoshi Latimer', 'Sales Representative', 'City Center Plaza 516 Main St.', 'Elgin', 'OR', '97827', 'USA', '(503) 555-6874', '(503) 555-2376')
('KOENE', 'K?niglich Essen', 'Philip Cramer', 'Sa

In [34]:
df= pd.DataFrame(resultado, columns= ['customer_id','company_name', 'contact_name', 'contact_title', 'address', 'city', 'region', 'postal_code','country', 'phone', 'fax'])

In [36]:
df.head()

Unnamed: 0,customer_id,company_name,contact_name,contact_title,address,city,region,postal_code,country,phone,fax
0,ALFKI,Alfreds Futterkiste,Maria Anders,Sales Representative,Obere Str. 57,Berlin,,12209,Germany,030-0074321,030-0076545
1,BLAUS,Blauer See Delikatessen,Hanna Moos,Sales Representative,Forsterstr. 57,Mannheim,,68306,Germany,0621-08460,0621-08924
2,DRACD,Drachenblut Delikatessen,Sven Ottlieb,Order Administrator,Walserweg 21,Aachen,,52066,Germany,0241-039123,0241-059428
3,FRANK,Frankenversand,Peter Franken,Marketing Manager,Berliner Platz 43,M?nchen,,80805,Germany,089-0877310,089-0877451
4,GREAL,Great Lakes Food Market,Howard Snyder,Marketing Manager,2732 Baker Blvd.,Eugene,OR,97403,USA,(503) 555-7555,


In [38]:
df.head(10)

Unnamed: 0,customer_id,company_name,contact_name,contact_title,address,city,region,postal_code,country,phone,fax
0,ALFKI,Alfreds Futterkiste,Maria Anders,Sales Representative,Obere Str. 57,Berlin,,12209,Germany,030-0074321,030-0076545
1,BLAUS,Blauer See Delikatessen,Hanna Moos,Sales Representative,Forsterstr. 57,Mannheim,,68306,Germany,0621-08460,0621-08924
2,DRACD,Drachenblut Delikatessen,Sven Ottlieb,Order Administrator,Walserweg 21,Aachen,,52066,Germany,0241-039123,0241-059428
3,FRANK,Frankenversand,Peter Franken,Marketing Manager,Berliner Platz 43,M?nchen,,80805,Germany,089-0877310,089-0877451
4,GREAL,Great Lakes Food Market,Howard Snyder,Marketing Manager,2732 Baker Blvd.,Eugene,OR,97403,USA,(503) 555-7555,
5,HUNGC,Hungry Coyote Import Store,Yoshi Latimer,Sales Representative,City Center Plaza 516 Main St.,Elgin,OR,97827,USA,(503) 555-6874,(503) 555-2376
6,KOENE,K?niglich Essen,Philip Cramer,Sales Associate,Maubelstr. 90,Brandenburg,,14776,Germany,0555-09876,
7,LAZYK,Lazy K Kountry Store,John Steel,Marketing Manager,12 Orchestra Terrace,Walla Walla,WA,99362,USA,(509) 555-7969,(509) 555-6221
8,LEHMS,Lehmanns Marktstand,Renate Messner,Sales Representative,Magazinweg 7,Frankfurt a.M.,,60528,Germany,069-0245984,069-0245874
9,LETSS,Let's Stop N Shop,Jaime Yorres,Owner,87 Polk St. Suite 5,San Francisco,CA,94117,USA,(415) 555-5938,


In [40]:
df.tail(10)

Unnamed: 0,customer_id,company_name,contact_name,contact_title,address,city,region,postal_code,country,phone,fax
14,QUICK,QUICK-Stop,Horst Kloss,Accounting Manager,Taucherstra?e 10,Cunewalde,,1307,Germany,0372-035188,
15,RATTC,Rattlesnake Canyon Grocery,Paula Wilson,Assistant Sales Representative,2817 Milton Dr.,Albuquerque,NM,87110,USA,(505) 555-5939,(505) 555-3620
16,SAVEA,Save-a-lot Markets,Jose Pavarotti,Sales Representative,187 Suffolk Ln.,Boise,ID,83720,USA,(208) 555-8097,
17,SPLIR,Split Rail Beer & Ale,Art Braunschweiger,Sales Manager,P.O. Box 555,Lander,WY,82520,USA,(307) 555-4680,(307) 555-6525
18,THEBI,The Big Cheese,Liz Nixon,Marketing Manager,89 Jefferson Way Suite 2,Portland,OR,97201,USA,(503) 555-3612,
19,THECR,The Cracker Box,Liu Wong,Marketing Assistant,55 Grizzly Peak Rd.,Butte,MT,59801,USA,(406) 555-5834,(406) 555-8083
20,TOMSP,Toms Spezialit?ten,Karin Josephs,Marketing Manager,Luisenstr. 48,M?nster,,44087,Germany,0251-031259,0251-035695
21,TRAIH,Trail's Head Gourmet Provisioners,Helvetius Nagy,Sales Associate,722 DaVinci Blvd.,Kirkland,WA,98034,USA,(206) 555-8257,(206) 555-2174
22,WANDK,Die Wandernde Kuh,Rita M?ller,Sales Representative,Adenauerallee 900,Stuttgart,,70563,Germany,0711-020361,0711-035428
23,WHITC,White Clover Markets,Karl Jablonski,Owner,305 - 14th Ave. S. Suite 3B,Seattle,WA,98128,USA,(206) 555-4112,(206) 555-4115


In [41]:
#Mostrar 5 filas aleatorias del Dataframe.
df.sample(5)

Unnamed: 0,customer_id,company_name,contact_name,contact_title,address,city,region,postal_code,country,phone,fax
17,SPLIR,Split Rail Beer & Ale,Art Braunschweiger,Sales Manager,P.O. Box 555,Lander,WY,82520,USA,(307) 555-4680,(307) 555-6525
7,LAZYK,Lazy K Kountry Store,John Steel,Marketing Manager,12 Orchestra Terrace,Walla Walla,WA,99362,USA,(509) 555-7969,(509) 555-6221
4,GREAL,Great Lakes Food Market,Howard Snyder,Marketing Manager,2732 Baker Blvd.,Eugene,OR,97403,USA,(503) 555-7555,
1,BLAUS,Blauer See Delikatessen,Hanna Moos,Sales Representative,Forsterstr. 57,Mannheim,,68306,Germany,0621-08460,0621-08924
12,OLDWO,Old World Delicatessen,Rene Phillips,Sales Representative,2743 Bering St.,Anchorage,AK,99508,USA,(907) 555-7584,(907) 555-2880


In [42]:
#¿Hay nulos en el Dataframe? El resultado debe verse para cada una de las columnas.
df.isnull()

Unnamed: 0,customer_id,company_name,contact_name,contact_title,address,city,region,postal_code,country,phone,fax
0,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False
5,False,False,False,False,False,False,False,False,False,False,False
6,False,False,False,False,False,False,False,False,False,False,False
7,False,False,False,False,False,False,False,False,False,False,False
8,False,False,False,False,False,False,False,False,False,False,False
9,False,False,False,False,False,False,False,False,False,False,False


In [43]:
#Mostrar los principales estadísticos.
df.describe()

Unnamed: 0,customer_id,company_name,contact_name,contact_title,address,city,region,postal_code,country,phone,fax
count,24,24,24,24,24,24,24.0,24,24,24,24.0
unique,24,24,24,9,24,23,9.0,24,2,24,18.0
top,ALFKI,Alfreds Futterkiste,Maria Anders,Sales Representative,Obere Str. 57,Portland,,12209,USA,030-0074321,
freq,1,1,1,7,1,2,11.0,1,13,1,7.0


In [44]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 11 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customer_id    24 non-null     object
 1   company_name   24 non-null     object
 2   contact_name   24 non-null     object
 3   contact_title  24 non-null     object
 4   address        24 non-null     object
 5   city           24 non-null     object
 6   region         24 non-null     object
 7   postal_code    24 non-null     object
 8   country        24 non-null     object
 9   phone          24 non-null     object
 10  fax            24 non-null     object
dtypes: object(11)
memory usage: 2.2+ KB


In [45]:
df.describe(include="object")

Unnamed: 0,customer_id,company_name,contact_name,contact_title,address,city,region,postal_code,country,phone,fax
count,24,24,24,24,24,24,24.0,24,24,24,24.0
unique,24,24,24,9,24,23,9.0,24,2,24,18.0
top,ALFKI,Alfreds Futterkiste,Maria Anders,Sales Representative,Obere Str. 57,Portland,,12209,USA,030-0074321,
freq,1,1,1,7,1,2,11.0,1,13,1,7.0


In [47]:
df.columns

Index(['customer_id', 'company_name', 'contact_name', 'contact_title',
       'address', 'city', 'region', 'postal_code', 'country', 'phone', 'fax'],
      dtype='object')