## Indexado y manejo de archivos CSV

[https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

In [17]:
import pandas as pd
import numpy as np

pd.__version__

'1.0.3'

In [2]:
dir_pandas = 'db/{}'
dir_pandas

'db/{}'

In [4]:
dict_data = {
    "edad": [10,9,13,14,12,11,12],
    "cm": [115,110,130,155,125,120,125],
    "pais": ["co","mx","co","mx","mx","ch","ch"],
    "genero": ["M","F","F","M","M","M","F"],
    "Q1": [5,10,8,np.nan,7,8,3],
    "Q2": [7,9,9,8,8,8,9]
}

df = pd.DataFrame(dict_data)

In [5]:
df.to_csv(dir_pandas.format("test.csv"), index=False)

In [6]:
df_read = pd.read_csv(dir_pandas.format("test.csv"))
df_read

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7
1,9,110,mx,F,10.0,9
2,13,130,co,F,8.0,9
3,14,155,mx,M,,8
4,12,125,mx,M,7.0,8
5,11,120,ch,M,8.0,8
6,12,125,ch,F,3.0,9


In [7]:
df.to_csv(dir_pandas.format("test_sep.csv"), sep="|", index=False)

df_sep = pd.read_csv(dir_pandas.format("test_sep.csv"), sep="|")

df_sep

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7
1,9,110,mx,F,10.0,9
2,13,130,co,F,8.0,9
3,14,155,mx,M,,8
4,12,125,mx,M,7.0,8
5,11,120,ch,M,8.0,8
6,12,125,ch,F,3.0,9


## Conexión con bases de datos tipo SQL

### Cómo usar Pandas y Python para conectar con tu base de datos SQL
Pandas cuenta con una funcionalidad que facilita el acceso a tus bases de datos tipo SQL, para ello te mostrare algunos ejemplos:

- PostgreSQL:
    
    Valida que tengas la librería psycopg2 usando el comando import. Si no está instalada en tu ambiente, usa el comando !pip install psycopg2 en la terminal de python para instalarlo.

    Comenzamos cargando las librerías:
    
    ```python
    import pandas as pd
    import psycopg2
    ```
    
    Luego creamos el elemento de conexión con el siguieente código:
       
    ```python
    conn_sql = psycopg2.connect(user = "user_name",
                                password = "password",
                                host = "xxx.xxx.xxx.xxx",
                                port = "5432",
                                database = "postgres_db_name")
    ```
    
    Seguido simplemente definimos nuestra query en SQL:
    
    ```python
    query_sql = '''
    select *
    from table_name
    limit 10
    '''
    ```
    Y creamos nuestro dataframe:
    
    ```python
    df = pd.read_sql(query_sql, sql_conn)
    df.head(5)
    ```
    
- SQL Server:

    Valida que tengas la librería pyodbc usando el comando import, si no está instalada en tu ambiente, usa el comando !pip install pyodbc en la terminal python para instalarlo.

    Comenzamos cargando las librerías:
    
    ```python
    import pandas as pd
    import pyodbc
    ```
    
    Luego creamos el elemento de conexión con el siguiente código:

    ```python
    driver = '{SQL Server}'
    server_name = 'server_name'
    db_name = 'database_name'
    user = 'user'
    password = 'password'
    sql_conn = pyodbc.connect('''
    DRIVER={};SERVER={};DATABASE={};UID={};PWD={};
    Trusted_Connection=yes
    '''.format(driver, server_name, db_name, user, password))
    ```
    
    O si tienes el DSN:
    
    ```python
    dsn = 'odbc_datasource_name'
    sql_conn = pyodbc.connect('''
    DSN={};UID={};PWD={};Trusted_Connection=yes;
    '''.format(dsn, user, password))
    ```
    
    Seguido simplemente definimos nuestra query en SQL:	
    
    ```python
    query_sql = 'select * from table_name limit 10'
    ```
    
    Y creamos nuestro dataframe con:
    
    ```python
    df = pd.read_sql(query_sql, sql_conn)
    df.head(5)
    ```
    
- MySQL / Oracle / Otras:

    Valida que tengas la librería sqlalchemy usando el comando import, si no está instalada en tu ambiente, usa el comando !pip install sqlalchemy en la terminal de python para instalarlo.

    Comenzamos cargando las librerías:
    
    ```python
    import pandas as pd
    import sqlalchemy as sql
    ```

    Escogemos nuestra base de datos, Oracle, MySql o la de tu preferencia:
    
    ```python
    database_type = 'mysql'
    database_type = 'oracle'
    ```
    
    Luego creamos el elemento de conexión con el siguiente código:
    
    ```python
    user = 'user_name'
    password = 'password'
    host = 'xxx.xxx.xxx.xxx:port'
    database = 'database_name'

    conn_string = '{}://{}:{}@{}/{}'.format(
    database_type, user, password, host, database)

    sql_conn = sql.create_engine(conn_string)
    ```
    
    Seguido simplemente definimos nuestra query en SQL:
    
    ```python
    query_sql = '''
    select *
    from table_name
    limit 10
    '''
    ```
    
    Y creamos nuestro dataframe con:
    
    ```python
    df = pd.read_sql(query_sql, sql_conn)
    df.head(5)
    ```
    
    La libreria sqlalchemy también soporta PostgreSQL y otras fuentes de datos.

## Ventajas y desventajas de los formatos de importar y guardado

In [8]:
df

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7
1,9,110,mx,F,10.0,9
2,13,130,co,F,8.0,9
3,14,155,mx,M,,8
4,12,125,mx,M,7.0,8
5,11,120,ch,M,8.0,8
6,12,125,ch,F,3.0,9


In [9]:
df.to_excel(dir_pandas.format("test.xlsx"), index=False, sheet_name="Hoja_Uno")

In [10]:
pd.read_excel(dir_pandas.format("test.xlsx"))

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7
1,9,110,mx,F,10.0,9
2,13,130,co,F,8.0,9
3,14,155,mx,M,,8
4,12,125,mx,M,7.0,8
5,11,120,ch,M,8.0,8
6,12,125,ch,F,3.0,9


In [11]:
df.to_json(dir_pandas.format("test.json"))

In [12]:
pd.read_json(dir_pandas.format("test.json"))

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7
1,9,110,mx,F,10.0,9
2,13,130,co,F,8.0,9
3,14,155,mx,M,,8
4,12,125,mx,M,7.0,8
5,11,120,ch,M,8.0,8
6,12,125,ch,F,3.0,9


In [13]:
df.to_pickle(dir_pandas.format("test.pkl"))

In [14]:
pd.read_pickle(dir_pandas.format("test.pkl"))

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7
1,9,110,mx,F,10.0,9
2,13,130,co,F,8.0,9
3,14,155,mx,M,,8
4,12,125,mx,M,7.0,8
5,11,120,ch,M,8.0,8
6,12,125,ch,F,3.0,9


In [19]:
df

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7
1,9,110,mx,F,10.0,9
2,13,130,co,F,8.0,9
3,14,155,mx,M,,8
4,12,125,mx,M,7.0,8
5,11,120,ch,M,8.0,8
6,12,125,ch,F,3.0,9


In [21]:
df.to_hdf(dir_pandas.format("test.hdf"), key="data", format="table")

In [22]:
pd.read_hdf(dir_pandas.format("test.hdf"))

Unnamed: 0,edad,cm,pais,genero,Q1,Q2
0,10,115,co,M,5.0,7
1,9,110,mx,F,10.0,9
2,13,130,co,F,8.0,9
3,14,155,mx,M,,8
4,12,125,mx,M,7.0,8
5,11,120,ch,M,8.0,8
6,12,125,ch,F,3.0,9
