# Introduccion a Pandas
------------------------

En este apartado aprenderás todo sobre [pandas](https://pandas.pydata.org/docs/getting_started/index.html), la biblioteca Python más popular para análisis de datos.



Para usar pandas, normalmente comenzarás con la siguiente línea de código.

<code>pip install pandas</code>


In [1]:
# instalacion de libreria
!pip install pandas

Collecting pandas
  Downloading pandas-2.1.1-cp311-cp311-win_amd64.whl.metadata (18 kB)
Collecting numpy>=1.23.2 (from pandas)
  Downloading numpy-1.26.1-cp311-cp311-win_amd64.whl.metadata (61 kB)
     ---------------------------------------- 0.0/61.2 kB ? eta -:--:--
     ---------------------------------------- 0.0/61.2 kB ? eta -:--:--
     ------ --------------------------------- 10.2/61.2 kB ? eta -:--:--
     ------------------------- ------------ 41.0/61.2 kB 393.8 kB/s eta 0:00:01
     -------------------------------------- 61.2/61.2 kB 407.7 kB/s eta 0:00:00
Collecting pytz>=2020.1 (from pandas)
  Downloading pytz-2023.3.post1-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.1 (from pandas)
  Downloading tzdata-2023.3-py2.py3-none-any.whl (341 kB)
     ---------------------------------------- 0.0/341.8 kB ? eta -:--:--
     -------- ------------------------------ 71.7/341.8 kB 1.9 MB/s eta 0:00:01
     ------------------------- ------------ 225.3/341.8 kB 2.3 MB/s

Posteiormente haremos la importación de la librería de la siguiente forma

In [2]:
# se emplea el alias de 'pd' como convención
import pandas as pd

# versión pandas
pd.__version__

'2.1.1'

### Qué es pandas?

Pandas es una biblioteca de Python que se utiliza para trabajar con conjuntos de datos. Tiene funciones para analizar, limpiar, explorar y manipular datos.

### Qué puede hacer pandas por ti?

- Cargar datos de diferentes recursos
- Búsqueda de una fila o columna en particular
- Realización de calculos estadísticos
- Processamiento de datos
- Combinar datos de múltiples recursos

## 1. Creación y Carga de Datos en Pandas
---------------------------------

Antes de iniciar debemos entender que en pandas hay dos objetos principales: **DataFrame** y **Series**.

**Serie**

Una Serie, es una secuencia de valores de datos similar a una lista de datos.

<code>Series([17,5,7,5,67,84,29,52,12,53,1,10])</code>


**DataFrame**

Por el contrario, un DataFrame lo podemos ver como una tabla de datos la cual esta conformada por filas y columnas. Para pandas cada columna de información viene a ser una serie de datos

La siguiente imagen muestra un DataFrame:

<img src='https://pandas.pydata.org/docs/_images/01_table_dataframe.svg'>




### 1.1 Creación de Data

A partir de datos almacenados en diccionarios o listas es posible crear dataframes

`pd.Dataframe()`

In [3]:
import pandas as pd

# creación de DF a partir de un diccionario
dicx = {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth"
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }

# df -> es una variable de tipo Dataframe
df = pd.DataFrame(dicx)
df

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


In [4]:
import pandas as pd
# creacion de df a partir de una lista
lista = [
            ["Rick", "Sanchez", 60],
            ["Morty", "Smith", 14]
        ]

# nombre de columnas
columnas= ["nombre", "apellido", "edad"]
df = pd.DataFrame(lista, columns = columnas)
df

Unnamed: 0,nombre,apellido,edad
0,Rick,Sanchez,60
1,Morty,Smith,14


In [5]:
# tipo de dato de dataframe 
type(df)

pandas.core.frame.DataFrame

### 1.2 Carga de Datos en Pandas

`Pandas` puede leer archivos de muchos tipos, csv, json, excel entre otros.

Para leer un archivo siempre iniciamos con : `pd.read_` 

<img src='https://pandas.pydata.org/docs/_images/02_io_readwrite.svg'>

In [7]:
## Leyendo datos de tipo "csv"
import pandas as pd

# csv(<ruta archivo>, sep=<separador datos>)
df = pd.read_csv('./src/BTC-USD.csv',sep=',')
df.head(2)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2022-10-19,19335.027344,19348.416016,19127.6875,19139.535156,19139.535156,22425387184
1,2022-10-20,19138.085938,19315.199219,18971.458984,19053.740234,19053.740234,24493974420


In [10]:
## Leyendo datos de tipo "excel"  
!pip install openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.2-py2.py3-none-any.whl (249 kB)
     ---------------------------------------- 0.0/250.0 kB ? eta -:--:--
     - -------------------------------------- 10.2/250.0 kB ? eta -:--:--
     - -------------------------------------- 10.2/250.0 kB ? eta -:--:--
     - -------------------------------------- 10.2/250.0 kB ? eta -:--:--
     ---- -------------------------------- 30.7/250.0 kB 186.2 kB/s eta 0:00:02
     ------ ------------------------------ 41.0/250.0 kB 196.9 kB/s eta 0:00:02
     ----------------- ------------------ 122.9/250.0 kB 479.3 kB/s eta 0:00:01
     -----------------------------------  245.8/250.0 kB 838.1 kB/s eta 0:00:01
     ------------------------------------ 250.0/250.0 kB 766.0 kB/s eta 0:00:00
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-1.1.0-py3-none-any.whl (4.7 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-1.1.0 openpyxl-3.1.2


In [12]:
path_ = "./src/cripto_currency.xlsx"
df_excel = pd.read_excel(path_, sheet_name='DOGE-USD')
df_excel

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2022-10-19,0.059779,0.060680,0.058628,0.058713,0.058713,287297160
1,2022-10-20,0.058711,0.060237,0.058449,0.059536,0.059536,241388629
2,2022-10-21,0.059526,0.059526,0.057418,0.059334,0.059334,224787600
3,2022-10-22,0.059337,0.059846,0.059184,0.059694,0.059694,159431212
4,2022-10-23,0.059683,0.060379,0.058927,0.060347,0.060347,182523575
...,...,...,...,...,...,...,...
361,2023-10-15,0.059860,0.059860,0.059125,0.059350,0.059350,105304368
362,2023-10-16,0.059357,0.061226,0.059351,0.060114,0.060114,255254744
363,2023-10-17,0.060110,0.060156,0.058801,0.059120,0.059120,154163593
364,2023-10-18,0.059116,0.059274,0.058362,0.058673,0.058673,113718362


In [None]:
# Ejercicio: como podríamos leer todas las hodas de excel?



In [16]:
# Leyendo datos de una base de datos sqlite
import sqlite3
import pandas as pd

path_bd = "./src/input/bitcoin_prices.db"

with sqlite3.connect(path_bd) as conn:
    query = 'SELECT * FROM bitcoin'
    df_bitcoin = pd.read_sql_query(query, conn)
    # db_bit = pd.read_sql_table(table_name='bitcoin', con=conn)
    pass
df_bitcoin.head()

Unnamed: 0,currency,price,date
0,USD,30587.6751,2023-07-01 20:12:41
1,GBP,25558.8166,2023-07-01 20:12:41
2,EUR,29796.8614,2023-07-01 20:12:41
3,USD,30590.1922,2023-07-01 20:13:23
4,GBP,25560.9198,2023-07-01 20:13:23


## 2. Exploración de la Data
-----------------------------

En esta sección exploraremos algunos métodos de los dataframes para obtener mayor información de nuestros datos como: cantidad de registros, visualizar registros de la data, cantidad de columnas, tipos de datos de las columnas, nombre de columnas, etc

In [13]:
# Cargando nuestra data titanic
import pandas as pd
df = pd.read_csv('./src/titanic.csv',sep=',')

Método `shape` nos devuelve el número de filas y columnas

In [14]:
df.shape

(891, 12)

Método `head` retorna los primertos 5 resultados contenidos en el dataframe (df)

Método `tail` retorna los 5 últimos resultados contenidos en el dataframe (df)

In [15]:
# head retorna los primeros 5 resultados del dataframe
df.head(7)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S


In [16]:
# tail -> retorna los últimos 5 resultados del df
df.tail(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


`dtypes` nos indica el tipo de dato para cada una de las columnas del df

In [17]:
df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

`columns` nos indica las columnas que conforman el df

In [18]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

`describe` nos brinda un resumen de la cantidad de datos, promedio, desviación estandar, minimo, máximo, etc de los datos de las columnas posibles

In [19]:
# Describe -> nos brinda un resumen de la cantidad de datos, promedio, desviación estandar, minimo, máximo, etc 
# de los datos de las columnas posibles
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


## 3. Escritura de Datos en Pandas 
----------------------------

`Pandas` ofrece escritura en una gran variedad de formatos como: csv, json, excel entre otros.

Para leer un archivo siempre iniciamos con : `pd.to_` 

<img src='https://pandas.pydata.org/docs/_images/02_io_readwrite.svg'>

In [20]:
# Cargando nuestra data titanic
import pandas as pd
df = pd.read_csv('./src/titanic.csv',sep=',')

In [None]:
# 3.1 Escritura de archivos formato csv


df.to_csv(path_, sep='|', index=False, encoding='utf-8')

In [None]:
# 3.2 Escritura de archivos formato excel

df.to_excel(path_, index=False, sheet_name='hoja')

In [None]:
# 3.2 Escritura sobre sqlite3
import sqlite3

with sqlite3.connect('db_export') as conn:   
    # escribo datos en db
    table_name = 'titanic'
    df_bitcoin.to_sql(table_name, conn, index=False, if_exists='replace')
    pass

