# Introduccion a Pandas
------------------------

En este apartado aprenderás todo sobre [pandas](https://pandas.pydata.org/docs/getting_started/index.html), la biblioteca Python más popular para análisis de datos.



Para usar pandas, normalmente comenzarás con la siguiente línea de código.

<code>pip install pandas</code>


In [1]:
# instalacion de libreria
!pip install pandas


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.3.2[0m[39;49m -> [0m[32;49m24.0[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython -m pip install --upgrade pip[0m


Posteiormente haremos la importación de la librería de la siguiente forma

In [2]:
# se emplea el alias de 'pd' como convención
import pandas as pd

# versión pandas
pd.__version__

'2.1.4'

### Qué es pandas?

Pandas es una biblioteca de Python que se utiliza para trabajar con conjuntos de datos. Tiene funciones para analizar, limpiar, explorar y manipular datos.

### Qué puede hacer pandas por ti?

- Cargar datos de diferentes recursos
- Búsqueda de una fila o columna en particular
- Realización de calculos estadísticos
- Processamiento de datos
- Combinar datos de múltiples recursos

## 1. Creación y Carga de Datos en Pandas
---------------------------------

Antes de iniciar debemos entender que en pandas hay dos objetos principales: **DataFrame** y **Series**.

**Serie**

Una Serie, es una secuencia de valores de datos similar a una lista de datos.

<code>Series([17,5,7,5,67,84,29,52,12,53,1,10])</code>


**DataFrame**

Por el contrario, un DataFrame lo podemos ver como una tabla de datos la cual esta conformada por filas y columnas. Para pandas cada columna de información viene a ser una serie de datos

La siguiente imagen muestra un DataFrame:

<img src='https://pandas.pydata.org/docs/_images/01_table_dataframe.svg'>




### 1.1 Creación de Data

A partir de datos almacenados en diccionarios o listas es posible crear dataframes

`pd.Dataframe()`

In [3]:
import pandas as pd

# creación de DF a partir de un diccionario
dicx = {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth"
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }

# df -> es una variable de tipo Dataframe
df = pd.DataFrame(dicx)
df

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


In [5]:
import pandas as pd
# creacion de df a partir de una lista
lista = [
            ["Rick", "Sanchez", 60],
            ["Morty", "Smith", 14]
        ]

# nombre de columnas
columnas= ["nombre", "apellido", "edad"]
df = pd.DataFrame(lista, columns = columnas)
df

Unnamed: 0,nombre,apellido,edad
0,Rick,Sanchez,60
1,Morty,Smith,14


In [6]:
# tipo de dato de dataframe 
type(df)

pandas.core.frame.DataFrame

In [8]:
# Crear un dataframe a partir de un diccionario o listado-
lista = [
            ["Toyota", "bZ4X.", 20000],
            ["Nissan", "Murano", 30000]
        ]

# nombre de columnas
columnas= ["Marca", "Modelo", "Precio"]
df = pd.DataFrame(lista, columns = columnas)
df

Unnamed: 0,Marca,Modelo,Precio
0,Toyota,bZ4X.,20000
1,Nissan,Murano,30000


### 1.2 Carga de Datos en Pandas

`Pandas` puede leer archivos de muchos tipos, csv, json, excel entre otros.

Para leer un archivo siempre iniciamos con : `pd.read_` 

<img src='https://pandas.pydata.org/docs/_images/02_io_readwrite.svg'>

In [9]:
## Leyendo datos de tipo "csv"
import pandas as pd

# csv(<ruta archivo>, sep=<separador datos>)

df_datset = pd.read_csv('./src/hih_peru_poverty_dataset2.csv',sep=',')
df_datset.head(2)

Unnamed: 0,DEPARTMENT,PROVINCE,DISTRICT,UBIGEO,GID_3,NAME_3,Poverty
0,AMAZONAS,BAGUA,BAGUA,10201,,,16.200001
1,AMAZONAS,BAGUA,ARAMANGO,10202,PER.1.1.1_1,Aramango,38.5


In [10]:
## Leyendo datos de tipo "excel"  
!pip install openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.2-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-1.1.0-py3-none-any.whl (4.7 kB)
Downloading openpyxl-3.1.2-py2.py3-none-any.whl (249 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m250.0/250.0 kB[0m [31m5.4 MB/s[0m eta [36m0:00:00[0m:00:01[0m
[?25hInstalling collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-1.1.0 openpyxl-3.1.2

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.3.2[0m[39;49m -> [0m[32;49m24.0[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython -m pip install --upgrade pip[0m


In [11]:
path_ = "./src/cripto_currency.xlsx"
# excel(<ruta_archivo>, sheet_name='nombre_hoja_excel')
df_excel = pd.read_excel(path_, sheet_name='USDT-USD')
df_excel

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2022-10-19,1.000105,1.000210,1.000036,1.000060,1.000060,32767030077
1,2022-10-20,1.000068,1.000159,0.999964,0.999994,0.999994,32981854458
2,2022-10-21,1.000000,1.000141,0.999928,1.000123,1.000123,41430999058
3,2022-10-22,1.000124,1.000196,1.000017,1.000085,1.000085,24133042918
4,2022-10-23,1.000061,1.000203,1.000024,1.000077,1.000077,31629519444
...,...,...,...,...,...,...,...
361,2023-10-15,1.000025,1.000548,0.999836,1.000373,1.000373,12496424347
362,2023-10-16,1.000379,1.000932,0.999911,1.000548,1.000548,47707269941
363,2023-10-17,1.000580,1.000840,1.000156,1.000404,1.000404,38333912794
364,2023-10-18,1.000419,1.000792,1.000107,1.000227,1.000227,32819081997


In [12]:
# Ejercicio: como podríamos leer todas las hojas de excel?
path_ = "./src/cripto_currency.xlsx"
df = pd.read_excel(path_, sheet_name=None)

df.keys()

dict_keys(['BTC-USD', 'DOGE-USD', 'USDT-USD'])

In [13]:
df['DOGE-USD'].head(2)


# df_bitcoin = df['BTC-USD']

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2022-10-19,0.059779,0.06068,0.058628,0.058713,0.058713,287297160
1,2022-10-20,0.058711,0.060237,0.058449,0.059536,0.059536,241388629


In [15]:
df['BTC-USD']

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2022-10-19,19335.027344,19348.416016,19127.687500,19139.535156,19139.535156,22425387184
1,2022-10-20,19138.085938,19315.199219,18971.458984,19053.740234,19053.740234,24493974420
2,2022-10-21,19053.203125,19237.384766,18770.970703,19172.468750,19172.468750,32459287866
3,2022-10-22,19172.380859,19248.068359,19132.244141,19208.189453,19208.189453,16104440957
4,2022-10-23,19207.734375,19646.652344,19124.197266,19567.007813,19567.007813,22128794335
...,...,...,...,...,...,...,...
361,2023-10-15,26858.011719,27289.169922,26817.894531,27159.652344,27159.652344,7098201980
362,2023-10-16,27162.628906,29448.138672,27130.472656,28519.466797,28519.466797,27833876539
363,2023-10-17,28522.097656,28618.751953,28110.185547,28415.748047,28415.748047,14872527508
364,2023-10-18,28413.531250,28889.009766,28174.251953,28328.341797,28328.341797,12724128586


In [17]:
# Leyendo datos de una base de datos sqlite
import sqlite3
import pandas as pd

path_bd = './src/pythondb.db'

with sqlite3.connect(path_bd) as conn:
    query = 'SELECT * FROM alumnos'
    df_db = pd.read_sql_query(query, conn)
    #db_bit = pd.read_sql_table(table_name='bitcoin', con=conn)
    pass
df_db.head()

Unnamed: 0,id,nombre,nota1,nota2,nota3,aprobo
0,1,Juan,15.0,15.0,15.0,1
1,2,Maria,5.0,15.0,16.0,1
2,3,Gonzalo,5.0,6.0,9.0,1
3,4,Luis,8.0,7.0,9.0,1


## 2. Exploración de la Data
-----------------------------

En esta sección exploraremos algunos métodos de los dataframes para obtener mayor información de nuestros datos como: cantidad de registros, visualizar registros de la data, cantidad de columnas, tipos de datos de las columnas, nombre de columnas, etc

In [19]:
# Cargando nuestra data titanic
import pandas as pd
df = pd.read_excel('./src/reactiva.xlsx',sheet_name='TRANSFERENCIAS 2020')

Método `shape` nos devuelve el número de filas y columnas

In [20]:
df.shape

(525, 21)

Método `head` retorna los primertos 5 resultados contenidos en el dataframe (df)

Método `tail` retorna los 5 últimos resultados contenidos en el dataframe (df)

In [23]:
pd.set_option('display.max_columns', None)
# head retorna los primeros 5 resultados del dataframe
df.head(1)

Unnamed: 0,ID,CODIGO PAIS,CODIGO ENTIDAD,UBIGEO,SNIP,CUI,REGION,PROVINCIA,DISTRITO,PROYECTO,DISPOSITIVO LEGAL,AMBITO,UNIDAD EJECUTORA,TOTAL EMPLEOS,POBLACION BENEFICIARIA,TIPOLOGIA,TIPO MONEDA,MONTO DE INVERSIÓN,TIPO MONEDA.1,MONTO DE TRANSFERENCIA 2020,ESTADO
0,1,PE,11476,120127,346548,2307983,JUNIN,HUANCAYO,QUICHUAY,MEJORAMIENTO DE PISTAS Y VEREDAS EN LA CA. LIM...,"DU N° 070-2020,",URBANO,MUNICIPALIDAD DISTRITAL DE QUICHUAY,121,1529,Pista y Vereda,PEN,4105693.0,PEN,4105693,En Ejecución


In [24]:
# tail -> retorna los últimos 5 resultados del df
df.tail(2)

Unnamed: 0,ID,CODIGO PAIS,CODIGO ENTIDAD,UBIGEO,SNIP,CUI,REGION,PROVINCIA,DISTRITO,PROYECTO,DISPOSITIVO LEGAL,AMBITO,UNIDAD EJECUTORA,TOTAL EMPLEOS,POBLACION BENEFICIARIA,TIPOLOGIA,TIPO MONEDA,MONTO DE INVERSIÓN,TIPO MONEDA.1,MONTO DE TRANSFERENCIA 2020,ESTADO
523,524,PE,11476,90719,2482467,2482467,HUANCAVELICA,TAYACAJA,QUICHUAS,CREACION DEL ACCESO PEATONAL CON ESCALINATAS Y...,"DU N° 114-2020,",RURAL,MUNICIPALIDAD DISTRITAL DE QUICHUAS,12,688,Pista y Vereda,PEN,384854.42,PEN,362855,Concluido
524,525,PE,11476,120604,2489438,2489438,JUNIN,SATIPO,MAZAMARI,CREACION DE LOSA DE RECREACION MULTIUSOS EN EL...,"DU N° 114-2020,",RURAL,MUNICIPALIDAD DISTRITAL DE MAZAMARI,22,18520,Equipamiento Urbano,PEN,701009.43,PEN,649262,Concluido


`dtypes` nos indica el tipo de dato para cada una de las columnas del df

In [25]:
df.dtypes

ID                               int64
CODIGO PAIS                     object
CODIGO ENTIDAD                   int64
UBIGEO                           int64
SNIP                             int64
CUI                              int64
REGION                          object
PROVINCIA                       object
DISTRITO                        object
PROYECTO                        object
DISPOSITIVO LEGAL               object
AMBITO                          object
UNIDAD EJECUTORA                object
TOTAL EMPLEOS                    int64
POBLACION BENEFICIARIA           int64
TIPOLOGIA                       object
TIPO MONEDA                     object
MONTO DE INVERSIÓN             float64
TIPO MONEDA.1                   object
MONTO DE TRANSFERENCIA 2020      int64
ESTADO                          object
dtype: object

`columns` nos indica las columnas que conforman el df

In [26]:
df.columns

Index(['ID', 'CODIGO PAIS', 'CODIGO ENTIDAD', 'UBIGEO', 'SNIP', 'CUI',
       'REGION', 'PROVINCIA', 'DISTRITO', 'PROYECTO', 'DISPOSITIVO LEGAL',
       'AMBITO', 'UNIDAD EJECUTORA', 'TOTAL EMPLEOS', 'POBLACION BENEFICIARIA',
       'TIPOLOGIA', 'TIPO MONEDA', 'MONTO DE INVERSIÓN', 'TIPO MONEDA.1',
       'MONTO DE TRANSFERENCIA 2020', 'ESTADO'],
      dtype='object')

`describe` nos brinda un resumen de la cantidad de datos, promedio, desviación estandar, minimo, máximo, etc de los datos de las columnas posibles

In [27]:
# Describe -> nos brinda un resumen de la cantidad de datos, promedio, desviación estandar, minimo, máximo, etc 
# de los datos de las columnas posibles
df.describe()

Unnamed: 0,ID,CODIGO ENTIDAD,UBIGEO,SNIP,CUI,TOTAL EMPLEOS,POBLACION BENEFICIARIA,MONTO DE INVERSIÓN,MONTO DE TRANSFERENCIA 2020
count,525.0,525.0,525.0,525.0,525.0,525.0,525.0,525.0,525.0
mean,263.0,11476.0,122868.192381,2027038.0,2426709.0,74.862857,1765.453333,2546898.0,1864838.0
std,151.698715,0.0,64137.390764,870988.9,90420.29,89.216181,4329.174256,3076424.0,1709770.0
min,1.0,11476.0,10114.0,18923.0,2025905.0,6.0,23.0,162204.7,18342.0
25%,132.0,11476.0,60501.0,2395833.0,2395833.0,20.0,278.0,664641.0,645553.0
50%,263.0,11476.0,130107.0,2470493.0,2470493.0,32.0,799.0,1079903.0,1046904.0
75%,394.0,11476.0,160112.0,2492101.0,2492101.0,104.0,1859.0,3548427.0,3060615.0
max,525.0,11476.0,250106.0,2494122.0,2494122.0,812.0,72970.0,27990060.0,7663363.0


## 3. Escritura de Datos en Pandas 
----------------------------

`Pandas` ofrece escritura en una gran variedad de formatos como: csv, json, excel entre otros.

Para leer un archivo siempre iniciamos con : `pd.to_` 

<img src='https://pandas.pydata.org/docs/_images/02_io_readwrite.svg'>

In [None]:
# Con el Df que hemos estado trabajando, lo escribiré en diferentes archivos

In [30]:
# 3.1 Escritura de archivos formato csv

path_='./output/reactiva.csv'
df.to_csv(path_, sep='|', encoding='utf-8', index=False)

In [31]:
# 3.2 Escritura de archivos formato excel
path_='./output/reactiva_excel.xlsx'
df.to_excel(path_, index=False, sheet_name='Reactiva')

In [None]:
# 3.2 Escritura sobre sqlite3
import sqlite3

with sqlite3.connect('./output/db_export') as conn:   
    # escribo datos en db
    table_name = 'reactiva'
    df.to_sql(table_name, conn, index=False, if_exists='replace')
    pass

