# Introduccion a Pandas
------------------------

En este apartado aprenderás todo sobre [pandas](https://pandas.pydata.org/docs/getting_started/index.html), la biblioteca Python más popular para análisis de datos.



Para usar pandas, normalmente comenzarás con la siguiente línea de código.

<code>pip install pandas</code>


In [1]:
# instalacion de libreria
!pip install pandas

Defaulting to user installation because normal site-packages is not writeable

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.0.1[0m[39;49m -> [0m[32;49m24.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


Posteiormente haremos la importación de la librería de la siguiente forma

In [2]:
# se emplea el alias de 'pd' como convención
import pandas as pd

# versión pandas
pd.__version__

'2.2.2'

### Qué es pandas?

Pandas es una biblioteca de Python que se utiliza para trabajar con conjuntos de datos. Tiene funciones para analizar, limpiar, explorar y manipular datos.

### Qué puede hacer pandas por ti?

- Cargar datos de diferentes recursos
- Búsqueda de una fila o columna en particular
- Realización de calculos estadísticos
- Processamiento de datos
- Combinar datos de múltiples recursos

## 1. Creación y Carga de Datos en Pandas
---------------------------------

Antes de iniciar debemos entender que en pandas hay dos objetos principales: **DataFrame** y **Series**.

**Serie**

Una Serie, es una secuencia de valores de datos similar a una lista de datos.

<code>Series([17,5,7,5,67,84,29,52,12,53,1,10])</code>


**DataFrame**

Por el contrario, un DataFrame lo podemos ver como una tabla de datos la cual esta conformada por filas y columnas. Para pandas cada columna de información viene a ser una serie de datos

La siguiente imagen muestra un DataFrame:

<img src='https://pandas.pydata.org/docs/_images/01_table_dataframe.svg'>




### 1.1 Creación de Data

A partir de datos almacenados en diccionarios o listas es posible crear dataframes

`pd.Dataframe()`

In [3]:
import pandas as pd

# creación de DF a partir de un diccionario
dicx = {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth"
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }

# df -> es una variable de tipo Dataframe
df = pd.DataFrame(dicx)
df

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


In [4]:
import pandas as pd
# creacion de df a partir de una lista
lista = [
            ["Rick", "Sanchez", 60], # f1
            ["Morty", "Smith", 14] # f2
        ]

# nombre de columnas
columnas= ["nombre", "apellido", "edad"]
df = pd.DataFrame(lista, columns = columnas)
df

Unnamed: 0,nombre,apellido,edad
0,Rick,Sanchez,60
1,Morty,Smith,14


In [5]:
# tipo de dato de dataframe 
type(df)

pandas.core.frame.DataFrame

### 1.2 Carga de Datos en Pandas

`Pandas` puede leer archivos de muchos tipos, csv, json, excel entre otros.

Para leer un archivo siempre iniciamos con : `pd.read_` 

<img src='https://pandas.pydata.org/docs/_images/02_io_readwrite.svg'>

In [6]:
## Leyendo datos de tipo "csv"
import pandas as pd

# csv(<ruta archivo>, sep=<separador datos>)

df = pd.read_csv('./src/BTC-USD.csv',sep=',')
df.head(2)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2022-10-19,19335.027344,19348.416016,19127.6875,19139.535156,19139.535156,22425387184
1,2022-10-20,19138.085938,19315.199219,18971.458984,19053.740234,19053.740234,24493974420


In [7]:
## Leyendo datos de tipo "excel"  
!pip install openpyxl

Defaulting to user installation because normal site-packages is not writeable
Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m250.9/250.9 kB[0m [31m5.5 MB/s[0m eta [36m0:00:00[0m00:01[0m
[?25hCollecting et-xmlfile
  Downloading et_xmlfile-1.1.0-py3-none-any.whl (4.7 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-1.1.0 openpyxl-3.1.5

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.0.1[0m[39;49m -> [0m[32;49m24.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [8]:
path_ = "./src/cripto_currency.xlsx"
# excel(<ruta_archivo>, sheet_name='nombre_hoja_excel')
df_excel = pd.read_excel(path_, sheet_name='USDT-USD')
df_excel

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2022-10-19,1.000105,1.000210,1.000036,1.000060,1.000060,32767030077
1,2022-10-20,1.000068,1.000159,0.999964,0.999994,0.999994,32981854458
2,2022-10-21,1.000000,1.000141,0.999928,1.000123,1.000123,41430999058
3,2022-10-22,1.000124,1.000196,1.000017,1.000085,1.000085,24133042918
4,2022-10-23,1.000061,1.000203,1.000024,1.000077,1.000077,31629519444
...,...,...,...,...,...,...,...
361,2023-10-15,1.000025,1.000548,0.999836,1.000373,1.000373,12496424347
362,2023-10-16,1.000379,1.000932,0.999911,1.000548,1.000548,47707269941
363,2023-10-17,1.000580,1.000840,1.000156,1.000404,1.000404,38333912794
364,2023-10-18,1.000419,1.000792,1.000107,1.000227,1.000227,32819081997


In [9]:
# Ejercicio: como podríamos leer todas las hojas de excel?
path_ = "./src/cripto_currency.xlsx"
df = pd.read_excel(path_, sheet_name=None)

df.keys()

dict_keys(['BTC-USD', 'DOGE-USD', 'USDT-USD'])

In [10]:
df['DOGE-USD'].head(2)


df_bitcoin = df['BTC-USD']
df_bitcoin

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2022-10-19,19335.027344,19348.416016,19127.687500,19139.535156,19139.535156,22425387184
1,2022-10-20,19138.085938,19315.199219,18971.458984,19053.740234,19053.740234,24493974420
2,2022-10-21,19053.203125,19237.384766,18770.970703,19172.468750,19172.468750,32459287866
3,2022-10-22,19172.380859,19248.068359,19132.244141,19208.189453,19208.189453,16104440957
4,2022-10-23,19207.734375,19646.652344,19124.197266,19567.007813,19567.007813,22128794335
...,...,...,...,...,...,...,...
361,2023-10-15,26858.011719,27289.169922,26817.894531,27159.652344,27159.652344,7098201980
362,2023-10-16,27162.628906,29448.138672,27130.472656,28519.466797,28519.466797,27833876539
363,2023-10-17,28522.097656,28618.751953,28110.185547,28415.748047,28415.748047,14872527508
364,2023-10-18,28413.531250,28889.009766,28174.251953,28328.341797,28328.341797,12724128586


In [11]:
# Leyendo datos de una base de datos sqlite
import sqlite3
import pandas as pd

path_bd = "./src/base.db"

with sqlite3.connect(path_bd) as conn:
    query = 'SELECT * FROM ventas'
    df_ventas = pd.read_sql_query(query, conn)
    # db_bit = pd.read_sql_table(table_name='bitcoin', con=conn)
    pass
df_ventas.head()

Unnamed: 0,fecha,producto,cantidad,precio_unitario
0,2024-07-01,producto1,2,10.5
1,2024-07-01,producto2,1,15.0
2,2024-07-02,producto1,1,10.5
3,2024-07-02,producto3,4,7.25


##### Leyendo de POstgresql

In [12]:
!pip install psycopg2 pandas sqlalchemy

Defaulting to user installation because normal site-packages is not writeable
Collecting sqlalchemy
  Downloading SQLAlchemy-2.0.32-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m19.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting greenlet!=0.4.17
  Downloading greenlet-3.0.3-cp39-cp39-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl (614 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m614.3/614.3 kB[0m [31m17.2 MB/s[0m eta [36m0:00:00[0m00:01[0m
Installing collected packages: greenlet, sqlalchemy
Successfully installed greenlet-3.0.3 sqlalchemy-2.0.32

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.0.1[0m[39;49m -> [0m[32;49m24.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [13]:
import pandas as pd
from sqlalchemy import create_engine

# Configura los detalles de conexión
db_user = 'vscode'
db_password = 'password'
db_host = 'localhost'  # o la IP del servidor
db_port = '5432'  # Puerto por defecto de PostgreSQL
db_name = 'vscode'

# Crea la cadena de conexión
connection_string = f'postgresql://{db_user}:{db_password}@{db_host}:{db_port}/{db_name}'

# Crea el motor de conexión
engine = create_engine(connection_string)

# Realiza la consulta SQL y lee los datos en un DataFrame de pandas
query = "SELECT * FROM ventas"
df = pd.read_sql(query, engine)

# Muestra los datos
df.head()


Unnamed: 0,fecha,producto,cantidad,precio_unitario
0,2024-07-01,producto1,2,10.5


#### Leer desde MongoDB

In [15]:
!pip install pymongo pymongoarrow pandas

Defaulting to user installation because normal site-packages is not writeable
Collecting pymongoarrow
  Downloading pymongoarrow-1.5.0-cp39-cp39-manylinux_2_28_x86_64.whl (1.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m11.5 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting pyarrow<17.1,>=17.0
  Downloading pyarrow-17.0.0-cp39-cp39-manylinux_2_28_x86_64.whl (39.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m39.9/39.9 MB[0m [31m27.4 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting packaging<24,>=23.2
  Downloading packaging-23.2-py3-none-any.whl (53 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m53.0/53.0 kB[0m [31m2.1 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pyarrow, packaging, pymongoarrow
  Attempting uninstall: packaging
    Found existing installation: packaging 24.1
    Uninstalling packaging-24.1:
      Successfully uninstalled packaging-24.1
Su

In [17]:
import pandas as pd
from pymongo import MongoClient
from pymongoarrow.api import Schema
from pymongoarrow.monkey import patch_all
import pyarrow as pa

# Aplica el monkey patch para usar pymongoarrow
patch_all()

# Configura los detalles de conexión
mongo_uri = "mongodb+srv://gon2794:WGA2LLADVph52DYf@mongodbcluster.polzshz.mongodb.net/?retryWrites=true&w=majority&appName=mongodbCluster"

with MongoClient(mongo_uri) as client:
    # Selecciona la base de datos y la colección
    db = client['sample_mflix']
    collection = db['users']

    # Define el esquema para los datos que quieres leer
    # schema = Schema({"campo1": pa.string(), "campo2": pa.int64(), "campo3": pa.float64()})

    # Lee los datos desde MongoDB en un DataFrame de pandas usando pymongoarrow
    df = collection.find_pandas_all({})
    pass

df.head()



Unnamed: 0,_id,name,email,password
0,59b99db4cfa9a34dcd7885b6,Ned Stark,sean_bean@gameofthron.es,$2b$12$UREFwsRUoyF0CRqGNK0LzO0HM/jLhgUCNNIJ9RJ...
1,59b99db4cfa9a34dcd7885b7,Robert Baratheon,mark_addy@gameofthron.es,$2b$12$yGqxLG9LZpXA2xVDhuPnSOZd.VURVkz7wgOLY3p...
2,59b99db5cfa9a34dcd7885b8,Jaime Lannister,nikolaj_coster-waldau@gameofthron.es,$2b$12$6vz7wiwO.EI5Rilvq1zUc./9480gb1uPtXcahDx...
3,59b99db5cfa9a34dcd7885b9,Catelyn Stark,michelle_fairley@gameofthron.es,$2b$12$fiaTH5Sh1zKNFX2i/FTEreWGjxoJxvmV7XL.qlf...
4,59b99db6cfa9a34dcd7885ba,Cersei Lannister,lena_headey@gameofthron.es,$2b$12$FExjgr7CLhNCa.oUsB9seub8mqcHzkJCFZ8heMc...


## 2. Exploración de la Data
-----------------------------

En esta sección exploraremos algunos métodos de los dataframes para obtener mayor información de nuestros datos como: cantidad de registros, visualizar registros de la data, cantidad de columnas, tipos de datos de las columnas, nombre de columnas, etc

In [18]:
# Cargando nuestra data titanic
import pandas as pd
df = pd.read_csv('./src/titanic.csv',sep=',')

Método `shape` nos devuelve el número de filas y columnas

In [19]:
df.shape

(891, 12)

Método `head` retorna los primertos 5 resultados contenidos en el dataframe (df)

Método `tail` retorna los 5 últimos resultados contenidos en el dataframe (df)

In [20]:
# head retorna los primeros 5 resultados del dataframe
df.head(7)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S


In [21]:
# tail -> retorna los últimos 5 resultados del df
df.tail(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


`dtypes` nos indica el tipo de dato para cada una de las columnas del df

In [22]:
df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

`columns` nos indica las columnas que conforman el df

In [23]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

`describe` nos brinda un resumen de la cantidad de datos, promedio, desviación estandar, minimo, máximo, etc de los datos de las columnas posibles

In [24]:
# Describe -> nos brinda un resumen de la cantidad de datos, promedio, desviación estandar, minimo, máximo, etc 
# de los datos de las columnas posibles
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


## 3. Escritura de Datos en Pandas 
----------------------------

`Pandas` ofrece escritura en una gran variedad de formatos como: csv, json, excel entre otros.

Para leer un archivo siempre iniciamos con : `pd.to_` 

<img src='https://pandas.pydata.org/docs/_images/02_io_readwrite.svg'>

In [25]:
# Cargando nuestra data titanic
import pandas as pd
df = pd.read_csv('./src/titanic.csv',sep=',')

In [26]:
df.head(1)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S


In [28]:
# 3.1 Escritura de archivos formato csv

path_='./output/titanic_palote.csv'
df.to_csv(path_, sep='|', encoding='utf-8', index=False)

In [29]:
# 3.2 Escritura de archivos formato excel
path_='./output/titanic_excel.xlsx'
df.to_excel(path_, index=False, sheet_name='hoja')

In [30]:
# 3.2 Escritura sobre sqlite3
import sqlite3

with sqlite3.connect('./output/db_export') as conn:   
    # escribo datos en db
    table_name = 'titanic'
    df.to_sql(table_name, conn, index=False, if_exists='replace')
    pass



#### Escribiendo sobre mongo db

In [32]:
import pandas as pd
from pymongo import MongoClient
from pymongoarrow.api import Schema
from pymongoarrow.monkey import patch_all
import pyarrow as pa

# Aplica el monkey patch para usar pymongoarrow
patch_all()

# Configura los detalles de conexión
mongo_uri = "mongodb+srv://gon2794:WGA2LLADVph52DYf@mongodbcluster.polzshz.mongodb.net/?retryWrites=true&w=majority&appName=mongodbCluster"


In [33]:
records = df.to_dict(orient='records')

In [34]:
with MongoClient(mongo_uri) as client:
    # Selecciona la base de datos y la colección
    db = client['sample_mflix']
    collection = db['titanic']
    # Convierte el DataFrame a una lista de diccionarios
    records = df.to_dict(orient='records')

    # Inserta los datos en MongoDB
    collection.insert_many(records)
    pass

#### Ejercicio

Creenn datos de un dataframe, y escribelos en postgresql y/o csv

In [None]:
# sudo service postgresql start