![alt text](https://github.com/4GeeksAcademy/machine-learning-prework/blob/main/03-pandas/assets/pandas_logo.jpg?raw=true)



## Indroducción a Pandas

Pandas es una herramienta de análisis y manipulación de datos de código abierto, rápida, potente, flexible y fácil de usar; construido sobre el lenguaje de programación Python.

## ¿Qué es Pandas?

Pandas es una librería Python utilizada para trabajar con conjuntos de datos (data sets).

Tiene funciones para analizar, limpiar, explorar y manipular datos.

El nombre "Pandas" hace referencia tanto a "Panel Data" como a "Python Data Analysis" y fue creado por Wes McKinney en 2008.

## Instalando Pandas

Cuando quieras trabajar con Pandas localmente, debes correr los siguientes comandos:

`pip install pandas`\
o\
`conda install pandas`

En nuestro caso, 4Geeks ha preparado todo el entorno de manera que puedas trabajar cómodamente.



## ¿Por qué usar Pandas?

Pandas nos permite analizar grandes cantidades de datos (big data) y sacar conclusiones basadas en teorías estadísticas. Puede limpiar data sets desordenados, y hacerlos legibles, relevantes y claros. Los datos relevantes son muy importantes en la ciencia de datos.

Pero la razón principal es que Pandas te permite trabajar con una nueva estructura de datos: "dataframes" (marcos de datos)

Un dataframe es una estructura de datos bidimensional, en la cual los datos de diferentes tipos (como caracteres, enteros, valores de punto flotante, factores y más) pueden ser almacenados en columnas. Es similar a una hoja de cálculo SQL o una tabla de Excel. Un marco de datos siempre tiene un índice (que comienza en 0), que se refiere a la posición de un elemento dentro de la estructura de datos.

>Pandas proporciona herramientas que permiten:

- Leer y escribir datos en diferentes formatos: CSV, Microsoft Excel, bases de datos SQL y  formato HDF5.

- Seleccionar y filtar facilmente tablas de datos basadas en posición, valor o etiquetas.

- Fusionar y unir datos.

- Manipular series de tiempo.

- Hacer gráficos (plots).

>En Pandas hay tres tipos básicos de objetos, todos ellos basados ​​en Numpy:

- Series (listas 1D).

- DataFrame (tablas 2D).

- Panels (tablas 3D).

#### Ejercicio: Importa el paquete Pandas bajo el nombre `pd` (★☆☆)

Para importar una nueva biblioteca en Python, debemos usar la instrucción 'import' (importar) de esta manera: `import <library_name> as <your_alias>`.

Usa la instrucción `import` en Python para impotar el módulo de Pandas bajo el alias `pd`. 

Si quieres estar seguro de que la biblioteca se importó correctamente, recuerda que puedes desplegar la versión de cualquier biblioteca de Python con: `name_of_package.__version__`

In [None]:
import pandas as pd
import numpy as np

## Tipos de datos Pandas

Pandas tiene tres estructuras de datos diferentes:

- Series: Estructura unidimensional.
- DataFrame: Estructura bidimensional (tablas).
- Panel: Estructura tridimensional (cubos y menos usados).

Estas estructuras son construidas a partir de arrays de la biblioteca Numpy, agregando nuevas funcionalidades.



<img src="https://github.com/4GeeksAcademy/machine-learning-prework/blob/main/03-pandas/assets/series_dataframe.png?raw=true" width="600"/>


## Creación de objetos

Creando una serie pasando una lista de valores, permitiendo a Pandas crear un índice entero predeterminado:

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])

En el ejercicio anterior, hemos creado una serie Pandas (un vector o un array unidimensional) a partir una lista. 

En el siguiente ejercicio, te pedimos que crees un vector unidimensional, pero esta vez a partir de otra estructura Python.

#### Ejercicio: Crea una serie Pandas a partir de cada uno de los elementos a continuación: una lista, Numpy y un diccionario (★☆☆)

#### Ejercicio: Ahora, intenta crear un `dataframe` (marco de datos) de una columna de una serie Pandas (★☆☆)

>Chequea la función: `to_frame` (https://pandas.pydata.org/docs/reference/api/pandas.Series.to_frame.html)

#### Ejercicio: ¿Cómo combinar muchas series para formar un dataframe? (★☆☆)

Crea dos series con los nombres `ser1` y `ser2` para formar un dataframe. Es decir, un dataframe de dos columnas de las series `ser1` y `ser2`.

In [None]:
# Input

ser1 = pd.Series([1, 2, 3, 4, 5])
ser2 = pd.Series([4, 5, 6, 7, 8]) 


#### Ejercicio: ¿Cómo convertir un Numpy array en un dataframe de una forma dada? (★☆☆)

Reforma una serie aleatoria en un dataframe con 7 filas y 5 columnas. En este ejercicio, debes crear un array unidimensional de longitud 35 y luego deberás convertir ese array en un dataframe.

#### Ejercicio: Cómo extraer elementos en posiciones dadas de una serie (★☆☆)
Tu también puedes crear series y dataframes que contengan `strings` (cadenas).  De la siguiente serie de Pandas ``ser``, extrae los elementos en las posiciones de la lista `pos`. 

>Chequea `take` de Pandas: (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.take.html)

In [None]:
# Input
ser = pd.Series(list('abcdefghijklmnopqrstuvwxyz'))
pos = [0, 4, 8, 14, 20]

#### Ejercicio:  ¿Cómo apilar dos series vertical y horizontalmente?

Crea dos series `ser1` y `ser2` y apílalos vertical y horizontalmente (para formar un dataframe).

> Chequea `concatenate` de Pandas: (https://pandas.pydata.org/docs/reference/api/pandas.concat.html)

#### Ejercicio: ¿Cómo obtener las posiciones de los `items` (elementos) de la serie A en otra serie B? (★★☆)

Obtén las posiciones de los elementos de `ser2` en `ser1` como una lista. 

> Nota: Recuerda la función `where` de Numpy (https://numpy.org/devdocs/reference/generated/numpy.where.html)

#### Ejercicios: ¿Cómo obtener los elementos que no son comunes tanto para la serie A como para la serie B? (★☆☆)

Extrae los elementos que no son comunes de las series `ser1` y `ser2` que definimos a continuación.

>Chequea las funciones `union1d` y `intersect1d` de Numpy: https://numpy.org/doc/stable/reference/generated/numpy.union1d.html y https://numpy.org/doc/stable/reference/generated/numpy.intersect1d.html.

Nota: Recuerda que **Numpy y Pandas trabajan juntos**

In [None]:
# Input

ser1 = pd.Series([1, 2, 3, 4, 5])
ser2 = pd.Series([4, 5, 6, 7, 8]) 

#### Ejercicio: ¿Cómo calcular la diferencia de diferencias entre números consecutivos de una serie? (★★☆)

Diferencia de diferencias entre los números consecutivos de `ser`.

In [None]:
## Input
ser = pd.Series([1, 3, 6, 10, 15, 21, 27, 35])

## Output should be like following
# [nan, 2.0, 3.0, 4.0, 5.0, 6.0, 6.0, 8.0]
# [nan, nan, 1.0, 1.0, 1.0, 1.0, 0.0, 2.0]

## Aplicar funciones a una serie.

También es posible aplicar una función a cada elemento de la serie usando el siguiente método:

`s.apply(f)`: Devuelve una serie con el resultado de aplicar la función f a cada uno de los elementos de la serie s.

### Ejemplo:
```
import pandas as pd
from math import log
s = pd.Series([1, 2, 3, 4])
s.apply(log)
```

#### Ejercicio: Convierte todos los valores de una serie Pandas de strings a `upper` (mayúsculas) (★☆☆)

Tienes que crear una serie de strings con valores aleatorios y luego convertir cada string a letras mayúsculas.

> Chequea `upper` en Pandas: (https://pandas.pydata.org/docs/reference/api/pandas.Series.str.upper.html)

#### Ejercicio: Consigue todos los valores mayores a 5 de una serie Pandas (★☆☆)

Recuerda que puedes crear series y dataframes de diccionarios. En este ejercicio vas a tener que conseguir todos los valores mayores a 5.

In [None]:
## Input
s = pd.Series({'Math': 6.0,  'Economy': 4.5, 'Programming': 8.5})

#### Ejercicio: Ordena una serie. Ordena la serie del ejercicio anterior en orden ascendente y descendente (★☆☆)

Los siguientes métodos se utilizan para ordenar una serie:

`s.sort_values (ascending = Boolean)`: Devuelve la serie que resulta de ordenar los valores de la serie s. Si el argumento del parámetro ascendente es Verdadero el orden es creciente y si es Falso es decreciente.

`df.sort_index (ascending = Boolean)`: Devuelve la serie que resulta de ordenar el índice de la serie s. Si el argumento del parámetro ascendente es Verdadero el orden es creciente y si es Falso, decreciente.

#### Ejercicio: Elimina los valores desconocidos (`NA`) en una serie. Elimina los valores NA de la serie.

Los datos desconocidos se representan en Pandas por `NaN` y `null`. Ambos suelen ser un problema a la hora de realizar algún análisis de datos, por lo que es común eliminarlos. Para eliminarlos de una serie se utiliza el siguiente método:

`s.dropna ()`: Elimina los datos desconocidos o nulos (null) de la serie s.

In [None]:
## Input
import pandas as pd
import numpy as np
s = pd.Series(['a', 'b', None, 'c', np.NaN,  'd'])

## La clase de objeto DataFrame

Un objeto de tipo Dataframe define un conjunto de datos estructurados en forma de tabla donde cada columna es un objeto de tipo Series, es decir, todos los datos en la misma columna son del mismo tipo, y las filas son registros que pueden contener datos de diferentes tipos.

Un Dataframe contiene dos índices, uno para las filas y uno para las columnas, y sus elementos pueden ser accesados por los nombres de las filas y columnas.

Ejemplo: El siguiente dataframe contiene información sobre los estudiantes de un curso. Cada fila corresponde a un estudiante y cada columna a una variable.

![alt text](https://github.com/4GeeksAcademy/machine-learning-prework/blob/main/03-pandas/assets/df.png?raw=true "df")


## Creando un DataFrame a partir de un archivo CSV o Excel

Dependiendo del tipo de archivo, hay diferentes funciones para importar un Dataframe desde un archivo.


- `read_csv`: Devuelve un objeto de tipo DataFrame con los datos del archivo CSV (file.csv) utilizando como separador de datos el separador de strings (cadenas).

- `read_excel`: Devuelve un objeto de tipo Dataframe con los datos de la hoja de cálculo del archivo de Excel (file.xlsx).


## El Dataset Titánico

El dataset Titánico es famoso y "gracioso" en el área de la ciencia de datos. Es comunmente usado para principiantes con el propósito de saber cómo ajustar un modelo de Machine Learning. La competencia es simple: usa Machine Learning para crear un modelo que prediga qué pasajeros sobrevivieron al naufragio del Titanic.

El dataset consiste de las siguientes variables.


| Variable | Definición                                 | Código                                         |
|----------|--------------------------------------------|------------------------------------------------|
| survival | Supervivencia                              | 0 = No, 1 = Si                                 |
| pclass   | Clase de boleto                            | 1 = 1ra, 2 = 2da, 3 = 3ra                      |
| sex      | Sexo                                       |                                                |
| Age      | Edad en años                               |                                                |
| sibsp    | # de hermanos / esposos a bordo del Titanic |                                                |
| parch    | # de padres / hijos a bordo del Titanic |                                                |
| ticket   | Número del ticket                              |                                                |
| fare     | Tarifa del pasajero                             |                                                |
| cabin    | Número de cabina                               |                                                |
| embarked | Puerto de embarque                        | C = Cherbourg, Q = Queenstown, S = Southampton |


En el siguiente ejercicio tendrás que obtener algunas perspectivas sobre este dataset. Una perspectiva es solo información derivada que puedes obtener de un dataset como, por ejemplo, la media de la edad.

#### Ejercicio: Lee los datos `titanic_train.csv` ubicados en la carpeta de `assets` (activos) (★☆☆)

#### Ejercicios: Exportar archivo. Exporta el DataFrame anterior separado por punto y coma (;) y asígnale el nombre" `your_name.txt`" (★☆☆)

También hay funciones para exportar un DataFrame a un archivo con diferentes formatos.

- `df.to_csv (file.csv, sep = separator, columns = Boolean, index = Boolean)`: Exporta el DataFrame (df) al archivo file.csv en formato CSV usando el separator string (cadena separadora) como separador de datos.

- `df.to_excel (file.xlsx, sheet_name = sheet, columns = Boolean, index = Boolean)`: Exporta el DataFrame (df) a la hoja de cálculo del archivo file.xlsx en formato Excel.

## Atributos de un DataFrame

Hay varias propiedades o métodos para visualizar las características de un DataFrame.

- `df.info()`: Devuelve información (número de filas, número de columnas, índices, tipo de columnas y memoria utilizada) sobre el DataFrame df.

- `df.shape`: Devuelve una tupla con el número de filas y columnas del DataFrame df.

- `df.size`: Devuelve el número de elementos en el DataFrame.

- `df.columns`: Devuelve una lista con los nombres de las columnas del DataFrame df.

- `df.index`: Devuelve una lista con los nombres de las filas en el DataFrame df.

- `df.dtypes`: Devuelve una serie con los tipos de datos de las columnas del DataFrame df.

- `df.head(n)`: Devuelve las primeras n filas del DataFrame df.

- `df.tail(n)`: Devuelve las últimas n filas del DataFrame df.

#### Ejercicio: Lee el DataFrame exportado como "`your_name.txt`" e imprime todos los atributos anteriores tomando `n = 10` (★☆☆)

#### Ejercicio: Cambie el nombre de las columnas del DataFrame anterior utilizando dos métodos diferentes (★★☆) 

>Chequea la función `rename`: (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html) 

Nota: Recuerda que puedes obtener el nombre de las columnas usando `df.columns`.

#### Ejercicio: Cambia el índice del DataFrame anterior usando dos métodos diferentes (★★☆) 

>Chequea `iloc`: (https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html)

#### Ejercicio: Obtén la posición (3,5) del dataframe `your_name.txt` (★☆☆)

#### Ejercicio: Obtén el décimo valor de la columna "Ticket" del DataFrame `your_name.txt`  (★☆☆)

#### Ejercicio: Añade columnas a un DataFrame. Crea un array y una lista aleatoria, agrégalos al DataFrame proveniente de `your_name.txt` (★☆☆)


El procedimiento para agregar una nueva columna a un DataFrame es similar a agregar un nuevo par a un diccionario, pero pasando los valores de la columna en una lista o serie.

#### Ejercicio: Crea o separa un Dataframe. Separa el Dataframe proveniente de `your_name.txt` por registros masculinos, utilizando dos métodos distintos (★★☆)
Recuerda la función `where` de `numpy`

## Resumen descriptivo de un DataFrame

En cuanto a los strings, los siguientes métodos te permiten resumir la información en un DataFrame por columnas:

- `df.count()`: Devuelve una serie de elementos que no son nulos o NaN en cada columna del DataFrame df.

- `df.sum()`: Devuelve una serie con la suma de los datos de las columnas del DataFrame df cuando los datos son de tipo numérico, o la concatenación de los mismos cuando son de tipo string str.

- `df.cumsum()`: Devuelve un DataFrame con la suma acumulada de los datos en las columnas del DataFrame df cuando los datos son de tipo numérico.

- `df.min()`: Devuelve una serie con los menores de los datos de las columnas del DataFrame df.

- `df.max()`: Devuelve una serie con el mayor de los datos en las columnas del DataFrame df.

- `df.mean()`: Devuelve una serie con la media de los datos de las columnas del DataFrame df cuando los datos son de tipo numérico.

- `df.std()`: Devuelve una serie con las desviaciones estándar de los datos en las columnas del DataFrame df cuando los datos son de tipo numérico.

- `df.describe(include = type)`: Devuelve un DataFrame con un resumen estadístico de las columnas del DataFrame df de tipo type. Para datos numéricos (number), se calcula la media, la desviación estándar, el mínimo, el máximo y los cuartiles de las columnas numéricas. Para datos no numéricos (objeto) se calcula el número de valores, el número de valores distintos, la moda y su frecuencia. Si no se indica el tipo, solo se consideran las columnas numéricas.

#### Ejercicio: Has una descripción del dataset `your_name.txt` (★☆☆)

#### Ejercicio: Elimine la columna Ticket de tu DataFrame (★☆☆)

#### Ejercicio: Ordena el DataFrame por la columna Edad  (★★☆)

>Chequea las funciones: `df.sort_values` and `df.sort_index`

#### Ejercicio: Elimina las filas de tu Dataframe que contienen valores na (★★☆)

#### Ejercicio: Separa las filas donde los valores de edad son mayores que 18 (★★☆)

#### Ejercicio: Separa las filas donde los valores de Edad son mayores que 18 y menores que 5 y obtén el número de filas (★★☆)

#### Ejercicio: Normalizar la columna Edad (★★☆)

Nota: Recuerda de probabilidad (https://en.wikipedia.org/wiki/Normalization_(statistics) que :

$$ x_{norm} = \frac{x - \bar{x}}{\sigma}$$

#### Ejercicio: Considera dos arrays aleatorios A y B, verifica si son iguales (★★☆)

#### Ejercicio: ¿Cómo establecer el número de filas y columnas que se muestran en la salida? (★★★)

>Chequea la función `set_option` de Pandas

#### Ejercicio: ¿Cómo unir dos DataFrames por 2 columnas para que solo tengan las filas comunes? (★★★)

Une los DataFrames df1 y df2 por ‘fruit-pazham’ y ‘weight-kilo’.

In [None]:
## Input

df1 = pd.DataFrame({'fruit': ['apple', 'banana', 'orange'] * 3,
                    'weight': ['high', 'medium', 'low'] * 3,
                    'price': np.random.randint(0, 15, 9)})

df2 = pd.DataFrame({'pazham': ['apple', 'orange', 'pine'] * 2,
                    'kilo': ['high', 'low'] * 3,
                    'price': np.random.randint(0, 15, 6)})

#### Ejercicio: ¿Cómo obtener las posiciones donde coinciden los valores de dos columnas? (★★★)

Une los DataFrames df1 y df2 por ‘fruit-pazham’ y ‘weight-kilo’.

In [None]:
## Input
df = pd.DataFrame({'fruit1': np.random.choice(['apple', 'orange', 'banana'], 10),
                    'fruit2': np.random.choice(['apple', 'orange', 'banana'], 10)})
