# Introduccion a Pandas
------------------------

En este apartado aprenderás todo sobre [pandas](https://pandas.pydata.org/docs/getting_started/index.html), la biblioteca Python más popular para análisis de datos.



Para usar pandas, normalmente comenzarás con la siguiente línea de código.

<code>pip install pandas</code>


In [None]:
# instalacion de libreria
!pip install pandas

Posteiormente haremos la importación de la librería de la siguiente forma

In [None]:
# se emplea el alias de 'pd' como convención
import pandas as pd

# versión pandas
pd.__version__

### Qué es pandas?

Pandas es una biblioteca de Python que se utiliza para trabajar con conjuntos de datos. Tiene funciones para analizar, limpiar, explorar y manipular datos.

### Qué puede hacer pandas por ti?

- Cargar datos de diferentes recursos
- Búsqueda de una fila o columna en particular
- Realización de calculos estadísticos
- Processamiento de datos
- Combinar datos de múltiples recursos

## 1. Creación y Carga de Datos en Pandas
---------------------------------

Antes de iniciar debemos entender que en pandas hay dos objetos principales: **DataFrame** y **Series**.

**Serie**

Una Serie, es una secuencia de valores de datos similar a una lista de datos.

<code>Series([17,5,7,5,67,84,29,52,12,53,1,10])</code>


**DataFrame**

Por el contrario, un DataFrame lo podemos ver como una tabla de datos la cual esta conformada por filas y columnas. Para pandas cada columna de información viene a ser una serie de datos

La siguiente imagen muestra un DataFrame:

<img src='https://pandas.pydata.org/docs/_images/01_table_dataframe.svg'>




### 1.1 Creación de Data

A partir de datos almacenados en diccionarios o listas es posible crear dataframes

`pd.Dataframe()`

In [None]:
import pandas as pd

# creación de DF a partir de un diccionario
dicx = {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth"
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }

# df -> es una variable de tipo Dataframe
df = pd.DataFrame(dicx)
df

In [None]:
import pandas as pd
# creacion de df a partir de una lista
lista = [
            ["Rick", "Sanchez", 60], # f1
            ["Morty", "Smith", 14] # f2
        ]

# nombre de columnas
columnas= ["nombre", "apellido", "edad"]
df = pd.DataFrame(lista, columns = columnas)
df

In [None]:
# tipo de dato de dataframe 
type(df)

### 1.2 Carga de Datos en Pandas

`Pandas` puede leer archivos de muchos tipos, csv, json, excel entre otros.

Para leer un archivo siempre iniciamos con : `pd.read_` 

<img src='https://pandas.pydata.org/docs/_images/02_io_readwrite.svg'>

In [None]:
## Leyendo datos de tipo "csv"
import pandas as pd

# csv(<ruta archivo>, sep=<separador datos>)

df = pd.read_csv('./src/BTC-USD.csv',sep=',')
df.head(2)

In [None]:
## Leyendo datos de tipo "excel"  
!pip install openpyxl

In [None]:
path_ = "./src/cripto_currency.xlsx"
# excel(<ruta_archivo>, sheet_name='nombre_hoja_excel')
df_excel = pd.read_excel(path_, sheet_name='USDT-USD')
df_excel

In [None]:
# Ejercicio: como podríamos leer todas las hojas de excel?
path_ = "./src/cripto_currency.xlsx"
df = pd.read_excel(path_, sheet_name=None)

df.keys()

In [None]:
df['DOGE-USD'].head(2)


df_bitcoin = df['BTC-USD']
df_bitcoin

In [None]:
# Leyendo datos de una base de datos sqlite
import sqlite3
import pandas as pd

path_bd = "./src/base.db"

with sqlite3.connect(path_bd) as conn:
    query = 'SELECT * FROM ventas'
    df_ventas = pd.read_sql_query(query, conn)
    # db_bit = pd.read_sql_table(table_name='bitcoin', con=conn)
    pass
df_ventas.head()

##### Leyendo de POstgresql

In [None]:
!pip install psycopg2 pandas sqlalchemy

In [None]:
import pandas as pd
from sqlalchemy import create_engine

# Configura los detalles de conexión
db_user = 'vscode'
db_password = 'password'
db_host = 'localhost'  # o la IP del servidor
db_port = '5432'  # Puerto por defecto de PostgreSQL
db_name = 'vscode'

# Crea la cadena de conexión
connection_string = f'postgresql://{db_user}:{db_password}@{db_host}:{db_port}/{db_name}'

# Crea el motor de conexión
engine = create_engine(connection_string)

# Realiza la consulta SQL y lee los datos en un DataFrame de pandas
query = "SELECT * FROM ventas"
df = pd.read_sql(query, engine)

# Muestra los datos
df.head()


#### Leer desde MongoDB

In [None]:
!pip install pymongo pymongoarrow pandas

In [None]:
import pandas as pd
from pymongo import MongoClient
from pymongoarrow.api import Schema
from pymongoarrow.monkey import patch_all
import pyarrow as pa

# Aplica el monkey patch para usar pymongoarrow
patch_all()

# Configura los detalles de conexión
mongo_uri = "mongodb+srv://gon2794:WGA2LLADVph52DYf@mongodbcluster.polzshz.mongodb.net/?retryWrites=true&w=majority&appName=mongodbCluster"

with MongoClient(mongo_uri) as client:
    # Selecciona la base de datos y la colección
    db = client['sample_mflix']
    collection = db['users']

    # Define el esquema para los datos que quieres leer
    # schema = Schema({"campo1": pa.string(), "campo2": pa.int64(), "campo3": pa.float64()})

    # Lee los datos desde MongoDB en un DataFrame de pandas usando pymongoarrow
    df = collection.find_pandas_all({})
    pass

df.head()



## 2. Exploración de la Data
-----------------------------

En esta sección exploraremos algunos métodos de los dataframes para obtener mayor información de nuestros datos como: cantidad de registros, visualizar registros de la data, cantidad de columnas, tipos de datos de las columnas, nombre de columnas, etc

In [None]:
# Cargando nuestra data titanic
import pandas as pd
df = pd.read_csv('./src/titanic.csv',sep=',')

Método `shape` nos devuelve el número de filas y columnas

In [None]:
df.shape

Método `head` retorna los primertos 5 resultados contenidos en el dataframe (df)

Método `tail` retorna los 5 últimos resultados contenidos en el dataframe (df)

In [None]:
# head retorna los primeros 5 resultados del dataframe
df.head(7)

In [None]:
# tail -> retorna los últimos 5 resultados del df
df.tail(2)

`dtypes` nos indica el tipo de dato para cada una de las columnas del df

In [None]:
df.dtypes

`columns` nos indica las columnas que conforman el df

In [None]:
df.columns

`describe` nos brinda un resumen de la cantidad de datos, promedio, desviación estandar, minimo, máximo, etc de los datos de las columnas posibles

In [None]:
# Describe -> nos brinda un resumen de la cantidad de datos, promedio, desviación estandar, minimo, máximo, etc 
# de los datos de las columnas posibles
df.describe()

## 3. Escritura de Datos en Pandas 
----------------------------

`Pandas` ofrece escritura en una gran variedad de formatos como: csv, json, excel entre otros.

Para leer un archivo siempre iniciamos con : `pd.to_` 

<img src='https://pandas.pydata.org/docs/_images/02_io_readwrite.svg'>

In [None]:
# Cargando nuestra data titanic
import pandas as pd
df = pd.read_csv('./src/titanic.csv',sep=',')

In [None]:
df.head(1)

In [None]:
# 3.1 Escritura de archivos formato csv

path_='./output/titanic_palote.csv'
df.to_csv(path_, sep='|', encoding='utf-8', index=False)

In [None]:
# 3.2 Escritura de archivos formato excel
path_='./output/titanic_excel.xlsx'
df.to_excel(path_, index=False, sheet_name='hoja')

In [None]:
# 3.2 Escritura sobre sqlite3
import sqlite3

with sqlite3.connect('./output/db_export') as conn:   
    # escribo datos en db
    table_name = 'titanic'
    df.to_sql(table_name, conn, index=False, if_exists='replace')
    pass



#### Escribiendo sobre mongo db

In [None]:
import pandas as pd
from pymongo import MongoClient
from pymongoarrow.api import Schema
from pymongoarrow.monkey import patch_all
import pyarrow as pa

# Aplica el monkey patch para usar pymongoarrow
patch_all()

# Configura los detalles de conexión
mongo_uri = "mongodb+srv://gon2794:WGA2LLADVph52DYf@mongodbcluster.polzshz.mongodb.net/?retryWrites=true&w=majority&appName=mongodbCluster"


In [None]:
records = df.to_dict(orient='records')

In [None]:
with MongoClient(mongo_uri) as client:
    # Selecciona la base de datos y la colección
    db = client['sample_mflix']
    collection = db['titanic']
    # Convierte el DataFrame a una lista de diccionarios
    records = df.to_dict(orient='records')

    # Inserta los datos en MongoDB
    collection.insert_many(records)
    pass

#### Ejercicio

Creenn datos de un dataframe, y escribelos en postgresql y/o csv

In [None]:
# sudo service postgresql start