<a href="https://colab.research.google.com/github/JhonnyLimachi/Python/blob/main/2_Conociendo_a_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img alt="Colaboratory logo" width="15%" src="https://raw.githubusercontent.com/carlosfab/escola-data-science/master/img/novo_logo_bg_claro.png">

#### **Data Science en la Prática 4.0**
*by [sigmoidal.ai](https://sigmoidal.ai)*

---

# Introducción a Pandas

<center><img src="https://miro.medium.com/max/819/1*Dss7A8Z-M4x8LD9ccgw7pQ.png" height="300px"></center>


Pandas es una biblioteca de Python, probablemente una de las más populares cuando se trata de Ciencia de Datos.

A través de Pandas, puedes importar datos, como archivos `csv`y `xls`, tratar esos datos, transformarlos y realizar análisis completos de los mismos.

Una vez que importas un conjunto de datos usando Pandas, se vuelve muy fácil realizar tareas como:

Extraer información estadística
   * ¿Cuál es la media, mediana, valores máximos y mínimos?
   * ¿Cuál es la distribución de tus variables?
   * ¿Cuál es la correlación entre dos variables cualquiera?

* Exportar los datos a un nuevo formato de archivo.
* Visualizar gráficos de diferentes tipos.
* Alimentar modelos de machine learning construidos sobre Scikit-learn.

Pandas está construido sobre otra biblioteca extremadamente popular, NumPy. Quienes hayan utilizado NumPy encontrarán muchas similitudes con Pandas.

## Instalación y uso de Pandas
Si estás ejecutando el código en tu máquina local, puedes instalar Pandas a través de la línea de comandos utilizando tu gestor de paquetes (`pip` o `conda`).

Dependiendo de cuál estés utilizando, el comando que debes usar es:

`pip install pandas`

o

`conda install pandas`

Dado que estamos utilizando Colab en este curso, Pandas ya está instalado por defecto. Esto significa que lo único que necesitas hacer es importar la biblioteca. Normalmente, para importar cualquier paquete, simplemente usas el comando `import nombre_del_paquete`.

Sin embargo, es muy común que importemos Pandas usando `import pandas as pd` para abreviar el nombre de la biblioteca. Si observas proyectos de otros científicos de datos, probablemente notarás que esta es la forma en que suelen hacerlo.

In [None]:
# importar la biblioteca pandas
import pandas as pd

### Importar archivos `csv`

Para dar un ejemplo de como es simple importar datos com  Pandas, vea el seguiente ejemplo.

Por el site [Yahoo Finance](https://finance.yahoo.com/quote/BBAS3.SA/history?p=BBAS3.SA), baje los datos de acción ordinária del Banco de Brasil (BBAS3) en formato `csv` y disponibilice el archivo [neste link](https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/BBAS3.SA.csv). Si abriera ese archivo en mi máquina por el Excel, es asi que el va aparecer para mi:

<center><img src="https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/bbas3_excel.png" height="300px"></center>

Sí, importar un archivo utilizando Pandas es tan sencillo como ejecutar la función `pd.read_csv("ubicación_del_archivo.csv")`, indicando la dirección donde se encuentra el archivo CSV, ya sea una dirección web o una ruta local en la máquina.

In [None]:
import pandas as pd


In [None]:
#importar el archivo csv para Pandas
df = pd.read_csv ("https://raw.githubusercontent.com/carlosfab/dsnp2/master/datasets/BBAS3.SA.csv")

Listo! El archivo `BBAS3.SA.csv` fue importado con exito y yá está listo para ser usado neste *notebook*.

Conociendo los componentes básicos de Pandas
Los dos componentes básicos que debemos conocer al trabajar con Pandas son `Series` e `DataFrame`.

<center><img src="https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/componentes_pandas.png"></center>

Simplificadamente, puedes pensar que el `DataFrame` siendo como una planilla de Excel, y `Series` como siendo apenas una columna individual.

Apesar de parecer conceptualmente simple, estas dos estructuras nativas del Pandas facilita mucho el trabajo con datos, una vez que ellas pueden almacenar cualquer tipo de dato.

* `type()` - muestra cual es el tipo de variable

In [None]:
# ver el tipo de variable df
type(df)

pandas.core.frame.DataFrame

In [None]:
# ver el tipo de una columna de la variable df
type(df['Close'])

pandas.core.series.Series

## Para ver las dimensiones del DataFrame
Mira nuevamente la imagen de arriba. Básicamente, el archivo que importamos se asemeja a una simple tabla de Excel, compuesta por filas y columnas. Para conocer el tamaño de esta "tabla", es decir, para ver su formato *(shape)*, simplemente ejecuta `df.shape`.





In [None]:
# ver el tamaño del dataframe (formato)
df.shape

(248, 7)

Cuando ejecutes la celda de arriba, obtendrás como resultado los valores `(248, 7)`. Esto significa que el archivo importado tiene 1245 filas y 7 columnas.



## Conociendo los datos
Una vez que hayas importado tu conjunto de datos a Pandas, hay muchos atributos y métodos nativos del DataFrame que facilitan mucho la exploración de datos.

Una de las principales funciones de la biblioteca, y que utilizarás en prácticamente todos tus proyectos, es `df.head()` y `df.tail()`.

El archivo `csv` con los datos de la acción BBAS3 contiene 248 filas, pero lo normal es trabajar con miles o cientos de miles de filas. Obviamente, sería inviable revisar cada fila para entender cómo se presentan los datos.

De hecho, cuando importamos un conjunto de datos, generalmente queremos echar un vistazo rápido a algunas entradas solo para tener una idea de los datos con los que vamos a trabajar. Esto se hace fácilmente con:

`df.head()`: muestra las 5 primeras entradas del conjunto de datos.
`df.tail()`: muestra las 5 últimas entradas del conjunto de datos.

In [None]:
# mostrar las 5 primeras entradas del DataFrame
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2019-05-06,49.470001,49.669998,49.18,49.369999,46.886795,6314800.0
1,2019-05-07,49.080002,49.68,48.220001,49.490002,47.000763,10846100.0
2,2019-05-08,49.5,50.84,49.5,50.59,48.045422,14459600.0
3,2019-05-09,50.91,51.259998,50.119999,51.029999,48.463291,15377500.0
4,2019-05-10,51.099998,51.189999,49.860001,50.16,47.637051,8975300.0


In [None]:
# mostrar las 5 últimas entradas del DataFrame
df.tail()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
243,2020-04-27,25.5,26.200001,25.110001,25.690001,25.690001,32132800.0
244,2020-04-28,27.219999,29.25,27.110001,29.139999,29.139999,43232700.0
245,2020-04-29,30.040001,30.209999,28.73,29.559999,29.559999,24628700.0
246,2020-04-30,28.309999,28.780001,27.85,28.5,28.5,23935300.0
247,2020-05-04,27.370001,27.76,26.99,27.76,27.76,16586000.0


Una de las razones de la popularidad de Pandas se debe a su capacidad para mostrar los datos en formato de tabla, que es muy fácil de entender para nuestra mente. Esto se asemeja al formato que estamos acostumbrados a ver, como en Excel.

Supongamos que necesitas extraer solo los nombres de las columnas de tu DataFrame, simplemente debes ejecutar:

In [None]:
# ver los nombres de las columnas
df.columns

Index(['Date', 'Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume'], dtype='object')


Conocer el tipo de variable que se representa en cada columna es esencial. Por ejemplo:



*   Cuando tenemos una columna que trata sobre ingresos, gastos o beneficios, es deseable que trabajemos con variables del tipo `float`.
*   Cuando estamos tratando con años (2017, 2018, 2019), deseamos trabajar con variables del tipo `int`.

*   Cuando tenemos fechas completas (`2019-12-30 07:37`), deseamos utilizar el formato `datetime` para poder manipular adecuadamente el *dataset*.



Para conocer los tipos de variables de cada columna, puedes utilizar `df.dtypes`.

In [None]:
df.head(7)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2019-05-06,49.470001,49.669998,49.18,49.369999,46.886795,6314800.0
1,2019-05-07,49.080002,49.68,48.220001,49.490002,47.000763,10846100.0
2,2019-05-08,49.5,50.84,49.5,50.59,48.045422,14459600.0
3,2019-05-09,50.91,51.259998,50.119999,51.029999,48.463291,15377500.0
4,2019-05-10,51.099998,51.189999,49.860001,50.16,47.637051,8975300.0
5,2019-05-13,48.709999,49.389999,48.34,48.369999,45.937088,10248300.0
6,2019-05-14,48.900002,48.98,47.560001,47.900002,45.490726,9642400.0


In [None]:
df.dtypes

Date          object
Open         float64
High         float64
Low          float64
Close        float64
Adj Close    float64
Volume       float64
dtype: object


Otra forma de descubrir el tipo de variables y ver los valores ausentes en las celdas es a través del método `df.info()`.

Observa cómo es capaz de proporcionar esta información de manera tabular.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 248 entries, 0 to 247
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Date       248 non-null    object 
 1   Open       247 non-null    float64
 2   High       247 non-null    float64
 3   Low        247 non-null    float64
 4   Close      247 non-null    float64
 5   Adj Close  247 non-null    float64
 6   Volume     247 non-null    float64
dtypes: float64(6), object(1)
memory usage: 13.7+ KB


# Seleccionando columnas
Existen varias formas de seleccionar un subconjunto de datos en un *DataFrame*.

En la mayoría de los casos, lo que queremos hacer es seleccionar solo una columna de todo el *DataFrame*.

Para seleccionar una variable, debes poner el nombre de la columna entre corchetes, haciendo referencia a la variable donde se importaron tus datos.






In [None]:
# seleccionar la variable (columna) "High" de nuestra variable df
df["High"]

0      49.669998
1      49.680000
2      50.840000
3      51.259998
4      51.189999
         ...    
243    26.200001
244    29.250000
245    30.209999
246    28.780001
247    27.760000
Name: High, Length: 248, dtype: float64

Si el nombre de las columnas no contiene espacios en blanco ni caracteres especiales, puedes seleccionarlas de una manera más conveniente en mi opinión.

En lugar de `df["High"]`, puedes usar `df.High`, lo que tendrá el mismo efecto.

In [None]:
#seleccionar la variable (columna) "High" de nuestra variable df
df.High

0      49.669998
1      49.680000
2      50.840000
3      51.259998
4      51.189999
         ...    
243    26.200001
244    29.250000
245    30.209999
246    28.780001
247    27.760000
Name: High, Length: 248, dtype: float64

## Calculando la media de una columna

Cuando ejecutamos el código `df.High`, como viste anteriormente, se imprime solo la columna de valores `High`. Para encontrar el promedio de estos valores, simplemente utiliza `df.High.mean()`.

In [None]:
# calcular la media de la columna "High"
df.High.mean()

46.57639677327935


Esto significa que el promedio de los valores de la columna `High` es `46.57639677327938`. Como veremos a lo largo del curso, existen muchas otras medidas importantes.

## Trabajando con datos (`datatime`)

Cuando importas un archivo que contiene fechas, es probable que Pandas no las reconozca automáticamente.

Cuando revisaste `df.info()`, viste que la columna `Date` estaba etiquetada como tipo `object`. En este caso, se trata de texto (`string`) y no permite la extracción de mucha información útil.

Vamos a convertir la columna utilizando `pd.to_datetime` e indicando el formato de nuestra fecha.

In [None]:
# antes
df.Date

0      2019-05-06
1      2019-05-07
2      2019-05-08
3      2019-05-09
4      2019-05-10
          ...    
243    2020-04-27
244    2020-04-28
245    2020-04-29
246    2020-04-30
247    2020-05-04
Name: Date, Length: 248, dtype: object

In [None]:
pd.to_datetime(df.Date, format="%Y-%m-%d")

0     2019-05-06
1     2019-05-07
2     2019-05-08
3     2019-05-09
4     2019-05-10
         ...    
243   2020-04-27
244   2020-04-28
245   2020-04-29
246   2020-04-30
247   2020-05-04
Name: Date, Length: 248, dtype: datetime64[ns]

In [None]:
#convertir columna Date en datetime
df.Date = pd.to_datetime(df.Date, format="%Y-%m-%d")

In [None]:
#despues
df.Date

0     2019-05-06
1     2019-05-07
2     2019-05-08
3     2019-05-09
4     2019-05-10
         ...    
243   2020-04-27
244   2020-04-28
245   2020-04-29
246   2020-04-30
247   2020-05-04
Name: Date, Length: 248, dtype: datetime64[ns]

Mira cómo ahora puedo acceder a los componentes de una fecha de forma individual utilizando `df.Date.dt`.

In [None]:
df["Year"] = df.Date.dt.year

In [None]:
df.Date.dt.month

0      5
1      5
2      5
3      5
4      5
      ..
243    4
244    4
245    4
246    4
247    5
Name: Date, Length: 248, dtype: int64

In [None]:
df.Date.dt.day

0       6
1       7
2       8
3       9
4      10
       ..
243    27
244    28
245    29
246    30
247     4
Name: Date, Length: 248, dtype: int64

Sin embargo, hay varios formatos que un usuario puede utilizar para ingresar fechas. Puedes encontrar ejemplos como:

*  31/06/15
*  31/06/2015
*  31-6-15
*  2015-6-31
*  31 de junio de 2015


Para lidiar con todas estas variaciones, tendrás que consultar la documentación. Aquí tienes dos enlaces que te serán útiles para ello:



*  https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html?highlight=to_datetime#pandas.to_datetime
*   https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior