# Introduccion a Pandas
------------------------

En este apartado aprenderás todo sobre [pandas](https://pandas.pydata.org/docs/getting_started/index.html), la biblioteca Python más popular para análisis de datos.



Para usar pandas, normalmente comenzarás con la siguiente línea de código.

<code>pip install pandas</code>


In [1]:
# instalacion de libreria
!pip install pandas


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.3.2[0m[39;49m -> [0m[32;49m24.0[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython -m pip install --upgrade pip[0m


Posteiormente haremos la importación de la librería de la siguiente forma

In [2]:
# se emplea el alias de 'pd' como convención
import pandas as pd

# versión pandas
pd.__version__

'2.1.4'

### Qué es pandas?

Pandas es una biblioteca de Python que se utiliza para trabajar con conjuntos de datos. Tiene funciones para analizar, limpiar, explorar y manipular datos.

### Qué puede hacer pandas por ti?

- Cargar datos de diferentes recursos
- Búsqueda de una fila o columna en particular
- Realización de calculos estadísticos
- Processamiento de datos
- Combinar datos de múltiples recursos

## 1. Creación y Carga de Datos en Pandas
---------------------------------

Antes de iniciar debemos entender que en pandas hay dos objetos principales: **DataFrame** y **Series**.

**Serie**

Una Serie, es una secuencia de valores de datos similar a una lista de datos.

<code>Series([17,5,7,5,67,84,29,52,12,53,1,10])</code>


**DataFrame**

Por el contrario, un DataFrame lo podemos ver como una tabla de datos la cual esta conformada por filas y columnas. Para pandas cada columna de información viene a ser una serie de datos

La siguiente imagen muestra un DataFrame:

<img src='https://pandas.pydata.org/docs/_images/01_table_dataframe.svg'>




### 1.1 Creación de Data

A partir de datos almacenados en diccionarios o listas es posible crear dataframes

`pd.Dataframe()`

In [3]:
import pandas as pd

# creación de DF a partir de un diccionario
dicx = {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth"
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }

# df -> es una variable de tipo Dataframe
df = pd.DataFrame(dicx)
df

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


In [8]:
import pandas as pd
# creacion de df a partir de una lista
lista = [
            ["Rick", "Sanchez", 60],
            ["Morty", "Smith", 14]
        ]

# nombre de columnas
columnas= ["Nombre", "Apellido", "Edad"]
df = pd.DataFrame(lista, columns = columnas)
df

Unnamed: 0,Nombre,Apellido,Edad
0,Rick,Sanchez,60
1,Morty,Smith,14


In [5]:
# tipo de dato de dataframe 
type(df)

pandas.core.frame.DataFrame

### 1.2 Carga de Datos en Pandas

`Pandas` puede leer archivos de muchos tipos, csv, json, excel entre otros.

Para leer un archivo siempre iniciamos con : `pd.read_` 

<img src='https://pandas.pydata.org/docs/_images/02_io_readwrite.svg'>

In [6]:
## Leyendo datos de tipo "csv"
import pandas as pd

# csv(<ruta archivo>, sep=<separador datos>)
df = pd.read_csv('./src/BTC-USD.csv',sep=',')
df.head(2)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2022-10-19,19335.027344,19348.416016,19127.6875,19139.535156,19139.535156,22425387184
1,2022-10-20,19138.085938,19315.199219,18971.458984,19053.740234,19053.740234,24493974420


In [7]:
## Leyendo datos de tipo "excel"  
!pip install openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.2-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-1.1.0-py3-none-any.whl (4.7 kB)
Downloading openpyxl-3.1.2-py2.py3-none-any.whl (249 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m250.0/250.0 kB[0m [31m4.6 MB/s[0m eta [36m0:00:00[0m:00:01[0m
[?25hInstalling collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-1.1.0 openpyxl-3.1.2

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.3.2[0m[39;49m -> [0m[32;49m24.0[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython -m pip install --upgrade pip[0m


In [9]:
path_ = "./src/cripto_currency.xlsx"
# excel(<ruta_archivo>, sheet_name='nombre_hoja_excel')
df_excel = pd.read_excel(path_, sheet_name='USDT-USD')
df_excel

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2022-10-19,1.000105,1.000210,1.000036,1.000060,1.000060,32767030077
1,2022-10-20,1.000068,1.000159,0.999964,0.999994,0.999994,32981854458
2,2022-10-21,1.000000,1.000141,0.999928,1.000123,1.000123,41430999058
3,2022-10-22,1.000124,1.000196,1.000017,1.000085,1.000085,24133042918
4,2022-10-23,1.000061,1.000203,1.000024,1.000077,1.000077,31629519444
...,...,...,...,...,...,...,...
361,2023-10-15,1.000025,1.000548,0.999836,1.000373,1.000373,12496424347
362,2023-10-16,1.000379,1.000932,0.999911,1.000548,1.000548,47707269941
363,2023-10-17,1.000580,1.000840,1.000156,1.000404,1.000404,38333912794
364,2023-10-18,1.000419,1.000792,1.000107,1.000227,1.000227,32819081997


In [10]:
# Ejercicio: como podríamos leer todas las hojas de excel?
path_ = "./src/cripto_currency.xlsx"
df = pd.read_excel(path_, sheet_name=None)

df.keys()

dict_keys(['BTC-USD', 'DOGE-USD', 'USDT-USD'])

In [12]:
df['DOGE-USD'].head(2)


df_bitcoin = df['BTC-USD']

In [13]:
import sqlite3


with sqlite3.connect('bitcoin_prices.db') as conn:
    df_bitcoin.to_sql('bitcoin', con=conn, index=False, if_exists='replace')
    
    pass


In [14]:
# Leyendo datos de una base de datos sqlite
import sqlite3
import pandas as pd

path_bd = "./bitcoin_prices.db"

with sqlite3.connect(path_bd) as conn:
    query = 'SELECT * FROM bitcoin'
    df_bitcoin = pd.read_sql_query(query, conn)
    # db_bit = pd.read_sql_table(table_name='bitcoin', con=conn)
    pass
df_bitcoin.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2022-10-19 00:00:00,19335.027344,19348.416016,19127.6875,19139.535156,19139.535156,22425387184
1,2022-10-20 00:00:00,19138.085938,19315.199219,18971.458984,19053.740234,19053.740234,24493974420
2,2022-10-21 00:00:00,19053.203125,19237.384766,18770.970703,19172.46875,19172.46875,32459287866
3,2022-10-22 00:00:00,19172.380859,19248.068359,19132.244141,19208.189453,19208.189453,16104440957
4,2022-10-23 00:00:00,19207.734375,19646.652344,19124.197266,19567.007813,19567.007813,22128794335


## 2. Exploración de la Data
-----------------------------

En esta sección exploraremos algunos métodos de los dataframes para obtener mayor información de nuestros datos como: cantidad de registros, visualizar registros de la data, cantidad de columnas, tipos de datos de las columnas, nombre de columnas, etc

In [16]:
# Cargando nuestra data titanic
import pandas as pd
df = pd.read_csv('./src/titanic.csv',sep=',')

Método `shape` nos devuelve el número de filas y columnas

In [17]:
df.shape

(891, 12)

Método `head` retorna los primertos 5 resultados contenidos en el dataframe (df)

Método `tail` retorna los 5 últimos resultados contenidos en el dataframe (df)

In [18]:
# head retorna los primeros 5 resultados del dataframe
df.head(7)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S


In [19]:
# tail -> retorna los últimos 5 resultados del df
df.tail(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


`dtypes` nos indica el tipo de dato para cada una de las columnas del df

In [20]:
df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

`columns` nos indica las columnas que conforman el df

In [21]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

`describe` nos brinda un resumen de la cantidad de datos, promedio, desviación estandar, minimo, máximo, etc de los datos de las columnas posibles

In [None]:
# Describe -> nos brinda un resumen de la cantidad de datos, promedio, desviación estandar, minimo, máximo, etc 
# de los datos de las columnas posibles
df.describe()

## 3. Escritura de Datos en Pandas 
----------------------------

`Pandas` ofrece escritura en una gran variedad de formatos como: csv, json, excel entre otros.

Para leer un archivo siempre iniciamos con : `pd.to_` 

<img src='https://pandas.pydata.org/docs/_images/02_io_readwrite.svg'>

In [22]:
# Cargando nuestra data titanic
import pandas as pd
df = pd.read_csv('./src/titanic.csv',sep=',')

In [26]:
# 3.1 Escritura de archivos formato csv

path_='./output/titanic.csv'
df.to_csv(path_, sep='|', encoding='utf-8', index=False)

OSError: Cannot save file into a non-existent directory: 'output'

In [27]:
# 3.2 Escritura de archivos formato excel
path_='./output/titanic_excel.xlsx'
df.to_excel(path_, index=False, sheet_name='hoja')

OSError: Cannot save file into a non-existent directory: 'output'

In [28]:
# 3.2 Escritura sobre sqlite3
import sqlite3

with sqlite3.connect('./output/db_export') as conn:   
    # escribo datos en db
    table_name = 'titanic'
    df_bitcoin.to_sql(table_name, conn, index=False, if_exists='replace')
    pass



OperationalError: unable to open database file