<a href="https://kaggle.com/kernels/welcome?src=https://github.com/mayait/ClaseAnalisisDatos/blob/main/pandas/intro_to_pandas.ipynb"><img src="https://kaggle.com/static/images/open-in-kaggle.svg" width=120 /></a>

<a href="https://colab.research.google.com/github/mayait/ClaseAnalisisDatos/blob/main/pandas/intro_to_pandas.ipynb"><img src="https://colab.research.google.com/assets/colab-badge.svg" width=120 /></a>

In [None]:
#@title Nombre del estudiante
Estudiante = "" #@param {type:"string"}
Código = "" #@param {type:"string"}

<img src="https://usfq.leanlabs.co/static/img/logo-bp.png" width="200"/>

# **Introducción a Pandas**


# Librerías para Analitica de Datos

En esta lección se trabajará con las principales librerías enfocadas en Ciencia de Datos

## Contenido

* Series y Dataframes con Pandas
* Manipulación de DataFrames con Pandas

## Programación orientada a objetos en Python

<img src="https://i0.wp.com/bhivetech.blog/wp-content/uploads/2020/04/classes.png" width="80%"/>


#### Clases / Objetos
En la verdadera programación orientada a objetos (OOP), el desarrollador escribe código en torno a cosas llamadas objetos. Un objeto (o una clase) agrupa datos y funciones que operan sobre esos datos. Es posible que conozca esta terminología de *C++* y otros lenguajes.

#### Módulos
Los módulos en Python contienen grandes cantidades de código que se encuentran relacionados. En la mayoría de los casos, poseen varias clases y funciones que abordan una necesidad particular. 

#### Librerías / Bibliotecas
Las librerías pueden contener múltiples módulos que van juntos. Las librerías generalmente tiene una estructura de directorio específica.



### Importar Módulos
Todo notebook debería empezar con una sección de código que importe los **módulos** que se emplearán.

A continuación importaremos el módulo **numpy** y **pandas**. Estas son librerías comúnmente empleadas en el área de la Ciencia de Datos. 

De manera general, utilizaremos la estructura `import MODULE_NAME as MODULE_NICKNAME` para importar cualquier módulo que la programación requiera.

`statsmodels`: utilizado en aprendizaje automático; generalmente lo abreviamos como `sm`
`seaborn`: una biblioteca de visualización; generalmente alias como `sns`

Tenga en cuenta que cada módulo tiene un alias estándar, que le permite acceder a las herramientas dentro del módulo sin escribir tantos caracteres. Por ejemplo, el alias nos permite acortar `seaborn.scatterplot()` a `sns.scatterplot()`

In [None]:
import numpy as np
import pandas as pd

# Series y Dataframes con Pandas

Nos gustaría una estructura de datos que pueda almacenar fácilmente variables de diferentes tipos, que almacene nombres de columnas, y en la que podamos hacer referencia por nombre de columna así como por posición indexada. Y sería bueno si esta estructura de datos viniera con funciones integradas que podamos usar para manipularla.

`Pandas` es una librería que hace todo esto! La librería está construida sobre `numpy`.

Existen dos objetos `pandas` básicos, *series* y *dataframes*, que se pueden considerar como versiones mejoradas de arreglos 1D y 2D `numpy`, respectivamente. 

Para referencia `pandas` [cheatsheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf) y `pandas` [documentación](https://pandas.pydata.org/pandas-docs/stable/).

**Importancia de Pandas**
*    Lectura y escritura de datos 
*    Modificación de índices y etiquetas de las columnas
*    Trabajo con fechas
*    Ordenamiento, agrupación y tratamiento de valores faltantes (curación de datos)
    
Para importar este módulo utilizamos el comando: ```import pandas as pd```

### 2.1 Pandas - Series

Una Serie es una colección de observaciones de una variable individual. <br>

Se puede pensar en una Serie como los datos en un arreglo de 1D.

En la serie ``items``, cada uno de los índices del 0 al 4 son los identificadores de 5 productos diferentes y los valores float representan el precio unitario correspondiente a cada uno.

In [None]:
# Usamos el constructor pd.Series
items = pd.Series(name = 'precios', data = [2, 3, 8, 6, 7], index = ['Mora','Frutilla','Mango','Platano','Sandia'])
print(items)

Mora        2
Frutilla    3
Mango       8
Platano     6
Sandia      7
Name: precios, dtype: int64


**Importante**: las Series están implementadas sobre arreglos NumPy. Esto les permite soportar operaciones válidas con estos arreglos. En el ejemplo tenemos el caso de la multiplicación de un arreglo de 1D por un escalar.

Método útiles de las Series de Pandas

In [None]:
print('Obtener los índices:', items.index)
print('Obtener los valores:', items.values)
print('Obtener tipo de dato:', items.dtypes)


### 2.2 Pandas - DataFrames: creación, propiedades y funciones

Un DataFrame de Pandas es un objeto que permite guardar datos en varias columnas que estan mutuamente relacionadas. 

Podemos pensar un DataFrame como una hoja de datos de Excel altamente optimizada. Los DataFrames estan compuestos por filas y columnas.

Pandas posee múltiples funciones para cargar varios tipos de archivos: pd.read_csv, pd.read_excel, pd.read_json, pd.read_parquet, etc.


### Lectura de datos en un DataFrame

A continuación, iniciaremos leyendo los datos del archivo en formato csv en un DataFrame. <br>

Este archivo contiene una muestra de datos de 'Penn World Table' con diferentes indicadores socioeconómicos de los países en diferentes años. 

<a href='https://storage.googleapis.com/datasets-academy/Track%20Data%20Science/01_Intro_Python/PWT91.csv'>
  Link para descargar el dataset PWT</a>

**Diccionario de datos:**

**countrycode:** Código estándar ISO 3166-1 alfa-3, proporciona códigos para los nombres de países por medio de tres letras<br>
**country:** Nombre del país <br>
**year:** Año <br>
**rgdpo:** Producto Interno Bruto Real calculado mediante la PPA (pariedad de poder adquisitivo) con año base 2011 (en millones dólares) <br>
**pop:** Población (millones de personas) <br>
**emp:** Personas de 15 años y más que durante la semana trabajaron incluso solo durante una hora, o no estaban en el trabajo pero tenían un trabajo o negocio del que estaban temporalmente ausentes (millones de personas) <br>
**avh:** Promedio de horas anuales trabajadas por personas que cumplan la condición de la variable emp <br>
**hc:** Índice de capital humano por persona, que se relaciona con los años promedio de escolaridad y el retorno a la educación

In [None]:
# Nomeclatura estándar para el nombre de un Dataframe se abrevia con df
df = pd.read_csv(filepath_or_buffer = 'PWT91.csv', sep = ',', decimal = '.')


In [None]:
# El método head permite observar las primeras 5 filas del dataframe
df.head(500)

**Fuente**: Feenstra, Robert C., Robert Inklaar and Marcel P. Timmer (2015), "The Next Generation of the Penn World Table" American Economic Review, 105(10), 3150-3182, available for download at www.ggdc.net/pwt

Lo que tenemos ahora es una hoja de cálculo con filas indexadas y columnas nombradas, llamada `df`. **Importante**: Las columnas son *series de pandas*.

In [None]:
# Comprobamos las dimensiones del Dataframe (filas, columnas)
df.shape

In [None]:
print(type(df))

La función `pd.read_csv` infiere el tipo de datos por defecto

In [None]:
# Comprobamos el tipo de las variables en el dataframe
print(df.dtypes)

Podemos cambiar el tipo de las columnas:
- Convertir la columna year para que sea tipo datetime, para una mayor información sobre los tipos de [formatos fecha](https://strftime.org/)
- Convertir la columna pop (población)

In [None]:
df['year'] = pd.to_datetime(df['year'], format = '%Y')
df['pop']  = df['pop'].fillna(0).astype(int)
df.dtypes



---


# Manipulación de DataFrames con Pandas

### Selección de filas y columnas de un DataFrame utilizando ```iloc```
Cuando queremos seleccionar filas y columnas de acuerdo a la posición del índice, utilizamos el atributo:<br>
```iloc[indiceInicioFilas:indiceFinFilas-1 , indiceInicioCols:indiceFinCols-1]```

In [None]:
#Seleccion de las filas por posición y las tres primeras columnas
df.iloc[2300:2303, :3]

### Selección de filas y columnas de un DataFrame utilizando ```loc```
Cuando queremos seleccionar filas y columnas de acuerdo a una mezcla del nombre de los índices y nombres de las columnas (etiquetas), utilizamos el atributo: ```loc[]```

In [None]:
df_seleccion = df.loc[:, ['countrycode', 'year', 'pop', 'rgdpo']]
df_seleccion.head()

### Renombrar columnas en un DataFrame

1.   Elemento de la lista
2.   Elemento de la lista



In [None]:
df_seleccion.rename(columns = {'countrycode': 'codigo_pais', 'pop': 'pob_millones', 'rgdpo': 'pib_real_millones'}, inplace = True)

>**Ejercicio 1:** Utilizando el método `rename` y la opción `inplace=False`, cambie el nombre de la columna `codigo_pais` por `codigo_iso` en el dataframe `df_seleccion`. Utilizando el método `columns` verifique si el cambio de nombre se grabó de forma permanente en `df_seleccion`.

In [None]:
#Su código aquí

### Filtrado del DataFrame

In [None]:
# Condición booleana de una Serie de Pandas (indexado condicional)
df_seleccion['year'] > np.array('2016-01-01', dtype=np.datetime64)

In [None]:
# Filtramos por filas a partir de una condición en la columna year (fechas mayores a 2015)
df_filtrado = df_seleccion.loc[df_seleccion['year'] > np.array('2015-01-01', dtype=np.datetime64)]
df_filtrado

>**Ejercicio 2:** Generar un nuevo dataframe llamado `df_mayor_pob` realizando un filtrado de las filas del dataframe `df_filtrado`, si la población es mayor a 200 millones de habitantes.

In [None]:
df.head()

### Creación de nuevas columnas

In [None]:
df_percapita = df_mayor_pob.copy()
df_percapita.loc[:, 'pib_percapita'] = df_percapita['pib_real_millones'] / df_percapita['pob_millones']
df_percapita

### Ordenamiento en el DataFrame

In [None]:
df_percapita.sort_values(by='pib_percapita', ascending = False) 

### Agregación en DataFrames

#### Uso la función groupby

Busca agrupar grandes cantidades de datos y aplicar operaciones de cálculo en estos grupos

In [None]:
# Agregamos los datos mediante empleando el promedio
df_agrupado = df_percapita.groupby(by = 'codigo_iso').agg('mean')
df_agrupado

>**Ejercicio 3:** Generar un nuevo dataframe llamado `df_final` realizando un agrupamiento por el `codigo_pais` obteniendo los valores máximos y mínimos `['max', 'min']` del dataframe `df_percapita`

In [None]:
#Su código aquí
