<a href="https://www.inove.com.ar"><img src="https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/images/PA%20Banner.png" width="1000" align="center"></a>


# Visualización y limpieza con Pandas

Programa creado para mostrar ejemplos prácticos de los visto durante la clase\
v1.1

### Objetivos: 


*   Estudiar Pandas como una herramienta de manipulación y análisis de datos.
*   Crear DataFrame como un tipo de dato que destaca las relaciones entre las distintas variables de la serie de datos (Estructura, definición, creación e implementación).
*   Distinguir los accesos a los datos en un DataFrame (Mostrar contenido o por partes).
*   Obtener análisis descriptivos de un DataFrame.
*   Implementar métodos de análisis de datos de Pandas.
*   Comprender el procesamiento de datos (Limpieza de datos faltantes).
*   Comprender la implementación de funciones Lambda en Pandas.


### Primeros pasos en pandas
Pandas es una herramienta para trabajar con datos tabulares, como datos almacenados en hojas de cálculo o bases de datos. Ayudará a explorar, limpiar y procesar los datos. En pandas, una tabla de datos se llama DataFrame.

Fuente: https://pandas.pydata.org/docs/getting_started/index.html#getting-started


In [None]:
# Librerías a implementar
import numpy as np
import pandas as pd

## 1 - Crear un dataframe.

In [None]:
# Para crear un DataFrame, Pandas posee el método DataFrame(diccionario) que recibe como parámetro un diccionario({"key":"value"}) con la información.
# Donde las claves representan el nombre de las columnas.
# Los valores representan una lista con los registros de la columna.

df = pd.DataFrame({
      "Name": ["Inove", "Python", "Max", "Mirta", "Max", "SQL", "SQLite"],
      "Age": [12, 29, 35, 93, 40, 13, 20],
      "Nationality": ["Argentina", "Holanda", "Estados Unidos",
                      "Argentina", "Estados Unidos",
                      "Inglaterra", "Estados Unidos"]}
      )

# 2 -  Accesos a los datos en un DataFrame.
**Observar el contenido de todas las columnas del DataFrame** 

In [None]:
# df muestra toda la información del DataFrame, tanto filas como columnas.
df

Unnamed: 0,Name,Age,Nationality
0,Inove,12,Argentina
1,Python,29,Holanda
2,Max,35,Estados Unidos
3,Mirta,93,Argentina
4,Max,40,Estados Unidos
5,SQL,13,Inglaterra
6,SQLite,20,Estados Unidos


In [None]:
# Observar las primeras 5 filas del dataframe
df.head()

Unnamed: 0,Name,Age,Nationality
0,Inove,12,Argentina
1,Python,29,Holanda
2,Max,35,Estados Unidos
3,Mirta,93,Argentina
4,Max,40,Estados Unidos


In [None]:
# Observar las últimas filas del dataframe
df.tail()

Unnamed: 0,Name,Age,Nationality
2,Max,35,Estados Unidos
3,Mirta,93,Argentina
4,Max,40,Estados Unidos
5,SQL,13,Inglaterra
6,SQLite,20,Estados Unidos


**Observar el contenido de una fila específica** 

* Leer la primer fila completa

In [None]:
# Leer la primera fila, con el método head() muestra la primer fila en formato DataFrama
df.head(1)

# Para las siguiententes muestra las filas en formato tipo objeto.

# Forma Nº1
# df es la variable que almacena el DataFrame.
# A partir de df se utiliza el operador .loc[], que permite indicar el número de fila a mostrar.
#df.loc[0]

# Forma Nº2: Misma situación con el operador .iloc
#df.iloc[0]

Unnamed: 0,Name,Age,Nationality
0,Inove,12,Argentina


In [None]:
df.head(2)

# Leer varias filas.
# Forma Nº1: También con el operador .loc se puede establecer el rango de filas a observar.
# El siguiente código muestra las dos primeras filas: fila 0 y fila 1
#df.loc[0:1]

# Forma Nº2
# Leer las primeras dos filas con el operador .iloc se puede establecer el rango de filas a observar.
# El siguiente código muestra las dos primeras filas: fila 0 y fila 1, la fila 2 no está incluida.
#df.iloc[0:2]

Unnamed: 0,Name,Age,Nationality
0,Inove,12,Argentina
1,Python,29,Holanda


In [None]:
# Leer la primera fila y transformar a diccionario con el método to_dict()
df.loc[0].to_dict()

{'Name': 'Inove', 'Age': 12, 'Nationality': 'Argentina'}

## 3 - Observar el contenido por parte de un DataFrame. Se le conoce como Index & Slicing.



### **Slicing**: Utilizamos slicing con el operador corchetes [], para poder acceder a los datos, colocando el nombre de la columna (tal como en los diccionarios).

###  Utilizamos **indexing** para acceder a los datos, utilizando el número de fila y de columna.

**Observar el contenido de una columna** 

In [None]:
# Acceder a toda la columna "Age"
# Forma Nº1:
df['Age']

# OTRAS FORMAS DE OBTENER EL MISMO RESULTADO.
# Forma Nº2: Operador loc
# df es la variable que almacena el DataFrame.
# A partir de df se utiliza el operador .loc[], para acceder a los datos por nombre de columna.
# De esta manera el primer elemento ":" significa que mostrará todos los registros de la columna "Age" (La cual está indicada como segundo parámetro).
# df.loc[muestra todas las filas, nombre de la columna a observar]
# df.loc[:, 'Age']


# Forma Nº3: Operador iloc
# df es la variable que almacena el DataFrame. 
# A partir de df se utiliza el operador .iloc[], para acceder a los datos de la columna "Age".
# De esta manera el primer elemento ":" significa que mostrará todos los registros de la columna "Age",
# pero se especifica la ubicación (Nro 1), no el nombre de la columna.
#__________________________
#|  0  |  1  |   2        |
#|_____|_____|____________|
#| Name| Age | Nationality|
#|_____|_____|____________|
#df.iloc[:, 1]


# Forma Nº4: Notación del punto de los objetos.
# df es la variable que almacena el DataFrame.
# Y a través del punto se accede a los nombre de las columnas.
#df.Age

0    12
1    29
2    35
3    93
4    40
5    13
6    20
Name: Age, dtype: int64

In [None]:
# Acceder a las primeras 3 filas de la columna "Age"
# Forma Nº1:
df['Age'][0:3]

# OTRAS FORMAS DE OBTENER EL MISMO RESULTADO.
# Forma Nº2:
# De esta manera, el primer elemento "0:2" significa que mostrará las dos primeras filas (fila 0, fila 1 y fila 2) de la columna "Age" 
# El nombre de la columna se indica como segundo parámetro.
#df.loc[0:2, 'Age']

# Forma Nº3:
# df es la variable que almacena el DataFrame. 
# A partir de df se utiliza el operador .iloc[], para acceder a los datos de la columna "Age".
# De esta manera, el primer elemento "0:3" significa que mostrará las dos primeras filas (fila 0, fila 1, fila 2, el 3 no está incluido) de la columna "Age". 
# Importante, acá solo se especifica la ubicación (Nro 1), no el nombre de la columna.
#__________________________
#|  0  |  1  |   2        |
#|_____|_____|____________|
#| Name| Age | Nationality|
#|_____|_____|____________|
#df.iloc[0:3, 1]

# Forma Nº4: Notación del punto de los objetos.
# df es la variable que almacena el DataFrame.
# Y a través del punto se accede a los nombre de las columnas.
# Entre corchetes se indica la porción de filas a mostrar [0:3] --> fila 0, fila 1, fila 2 
# df.Age[0:3]

0    12
1    29
2    35
Name: Age, dtype: int64

#### **Acceder al contenido de mútiples columnas** 

In [None]:
# Acceder a toda la columna "Age" y "Name"
# A partir de df se accede a los datos de una columna usando los corchetes y el nombre de la columna, pero al querer ver más de una columna se debe indicar los nombres de las 
# columnas como una lista.
df[["Name", "Age"]]

Unnamed: 0,Name,Age
0,Inove,12
1,Python,29
2,Max,35
3,Mirta,93
4,Max,40
5,SQL,13
6,SQLite,20


#### **Acceder a filas específicas del contenido de mútiples columnas.** 

In [None]:
# Acceder a las primeras 3 filas
# de las columnas "Age" y "Name"
df[["Name", "Age"]][0:3]

# OTRAS FORMAS DE OBTENER EL MISMO RESULTADO.
# Forma Nº2:
# De esta manera, el primer elemento "0:2" significa que mostrará las dos primeras filas (fila 0, fila 1 y fila 2) de la columna "Age" 
# Los nombres de las columna se indican como segundo parámetro en una lista.
#df.loc[0:2, ["Name", "Age"]]

# Forma Nº3:
# df es la variable que almacena el DataFrame. 
# A partir de df se utiliza el operador .iloc[], para acceder a los datos de la columna "Age".
# De esta manera, el primer elemento "0:3" significa que mostrará las dos primeras filas (fila 0, fila 1, fila 2, el 3 no está incluido) de la columna "Age". 
# Importante, acá solo se especifica la ubicación de las columnas (Nro 0 y 1) en una lista, no el nombre.
#__________________________
#|  0  |  1  |   2        |
#|_____|_____|____________|
#| Name| Age | Nationality|
#|_____|_____|____________|
# df.iloc[0:3, [0, 1]]

Unnamed: 0,Name,Age
0,Inove,12
1,Python,29
2,Max,35


## 4 - Análisis descriptivo

In [None]:
# Información de las columnas con el método info(), devuelve información: Cantidad de columnas, tipo de dato que
# almacena y cantidad de datos por columnas.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Name         7 non-null      object
 1   Age          7 non-null      int64 
 2   Nationality  7 non-null      object
dtypes: int64(1), object(2)
memory usage: 296.0+ bytes


In [None]:
# Información estadística
df.describe()

Unnamed: 0,Age
count,7.0
mean,34.571429
std,27.873866
min,12.0
25%,16.5
50%,29.0
75%,37.5
max,93.0


In [None]:
# Cuantas filas y columnas posee el dataframe con el método shape()
df.shape

(7, 3)

### Funciones y métodos de análisis de datos de Pandas.

In [None]:
# Qué elementos únicos existen en una columna usando el método unique()
df['Nationality'].unique()

array(['Argentina', 'Holanda', 'Estados Unidos', 'Inglaterra'],
      dtype=object)

In [None]:
# Cuantos elementos únicos existen
df['Nationality'].nunique()

4

In [None]:
# Cuenta la cantidad de veces que se repite una categoría.
df['Nationality'].value_counts()

Estados Unidos    3
Argentina         2
Holanda           1
Inglaterra        1
Name: Nationality, dtype: int64

In [None]:
# Cuenta la cantidad de veces que se repite una categoría y muestra la información en un diccionario.
df['Nationality'].value_counts().to_dict()

{'Estados Unidos': 3, 'Argentina': 2, 'Holanda': 1, 'Inglaterra': 1}

## 5 - Procesar datos

In [None]:
# Generar una copia del dataset original para su edición.
df2 = df.copy()
df

Unnamed: 0,Name,Age,Nationality
0,Inove,12,Argentina
1,Python,29,Holanda
2,Max,35,Estados Unidos
3,Mirta,93,Argentina
4,Max,40,Estados Unidos
5,SQL,13,Inglaterra
6,SQLite,20,Estados Unidos


In [None]:
# Al df inicial, le agregaremos registro Nan (Estos son conocidos como faltantes)
# df2 es la copia de df  inicial
# El operador loc también permite editar el DataFrame.
# Para ello, se le indican el rango de filas a modificar.
# Y el nombre de la columna
# Se establece la igualdad donde esas celdas se editarán con valores de tipo Nan, haciendo de NumPy np.nan
df2.loc[[0, 2], 'Age'] = np.nan

In [None]:
# Observando el nuvo DataFrame
df2.head()

Unnamed: 0,Name,Age,Nationality
0,Inove,,Argentina
1,Python,29.0,Holanda
2,Max,,Estados Unidos
3,Mirta,93.0,Argentina
4,Max,40.0,Estados Unidos


#### ¿Cómo borrar los datos tipo NaN del DataFrame?

In [None]:
# Eliminar todas las filas de la columna "Age" (subset) que posean "NaN"
# Si no especificamos el "subset" se eliminarán todas las filas que tengan
# en al menos una columna un "NaN"
# df3 el nuevo DataFrame.
# El método para borrar datos tipo Nan es dropna()
# Con subset, se es más especifico, ya que se indica cual es la columna que posee los Nan.
df3 = df2.dropna(subset=['Age'])
df3

Unnamed: 0,Name,Age,Nationality
1,Python,29.0,Holanda
3,Mirta,93.0,Argentina
4,Max,40.0,Estados Unidos
5,SQL,13.0,Inglaterra
6,SQLite,20.0,Estados Unidos


In [None]:
# Reiniciar los indices del dataset, con el método reset_index().
# Con inplace = True, es un parámetro que permite resentar los índices desde cero en adelante
df3.reset_index(inplace = True)
df3

Unnamed: 0,level_0,index,Name,Age,Nationality
0,0,1,Python,29.0,Holanda
1,1,3,Mirta,93.0,Argentina
2,2,4,Max,40.0,Estados Unidos
3,3,5,SQL,13.0,Inglaterra
4,4,6,SQLite,20.0,Estados Unidos


#### Completar Los NaN (fill)

In [None]:
# Generar un nuevo dataset para trabajarlo en el ejemplo
df4 = df2.copy()
df5 = df2.copy()

In [None]:
# Completar los "NaN" con 0
# df4 la nueva copia del df2
# df4['Age'], acá accede a los valores de la columna Age
# El método fillna() se encarga de completar los datos tipo Nan. En este caso, por cero.
# El cero se especifica entre paréntesis, seguido de inplace=True para que ubique los Nan y 
# los sobreescriba por 0.
df4['Age'].fillna(0, inplace=True)
df4

Unnamed: 0,Name,Age,Nationality
0,Inove,0.0,Argentina
1,Python,29.0,Holanda
2,Max,0.0,Estados Unidos
3,Mirta,93.0,Argentina
4,Max,40.0,Estados Unidos
5,SQL,13.0,Inglaterra
6,SQLite,20.0,Estados Unidos


In [None]:
# Completar los "NaN" con el promedio
# df5['Age'], todos los valores Nan de la columna Age.
# Se completarán fillna()
# El promedio de edades df5['Age'].mean()
df5['Age'].fillna(df5['Age'].mean(), inplace=True)
df5

Unnamed: 0,Name,Age,Nationality
0,Inove,39.0,Argentina
1,Python,29.0,Holanda
2,Max,39.0,Estados Unidos
3,Mirta,93.0,Argentina
4,Max,40.0,Estados Unidos
5,SQL,13.0,Inglaterra
6,SQLite,20.0,Estados Unidos


# 6 - Conectarse a una base de datos con sqlite3 y extraer toda la información a un DataFrame.

Referencia:\
https://pandas.pydata.org/docs/getting_started/comparison/comparison_with_sql.html#compare-with-sql

In [None]:
import sqlite3

# Conexión a la base de datos.
conn = sqlite3.connect('personas.db')

In [None]:
# Completar la DB con los datos SQL
# La tabla de la base de datos se llama "tabla"
# conn, es la variable de conexión.
# if_exists='replace' -> si existia la DB la sobreescribe
df.to_sql('tabla', conn, if_exists='replace')

In [None]:
# Crear un dataframe desde la DB
# De Pandas con el método read_sql_query()
# Especificando como parámetros la cquery(consulta a la DB) y la variable de conexión
df_query = pd.read_sql_query("SELECT * from tabla", conn)
df_query

Unnamed: 0,index,Name,Age,Nationality
0,0,Inove,12,Argentina
1,1,Python,29,Holanda
2,2,Max,35,Estados Unidos
3,3,Mirta,93,Argentina
4,4,Max,40,Estados Unidos
5,5,SQL,13,Inglaterra
6,6,SQLite,20,Estados Unidos


# 7 - Implementar Apply & Funciones lambda

In [None]:
# Generamos copias solo para no alterar la información original
df6 = df.copy()
df7 = df.copy()
df8 = df.copy()

In [None]:
# Pasar a mayúsculas los nombres
# Accede a todos los valores de la columna Age --> df6['Name']
# Esos valores se reemplezaran = 
# Se accede a los valores df6['Name'] para aplicar apply() una función lambda
# Esta función se encarga se transformar todos los nombres a mayúsculas con el método upper()
df6['Name'] = df6['Name'].apply(lambda x: x.upper())
df6

Unnamed: 0,Name,Age,Nationality
0,INOVE,12,Argentina
1,PYTHON,29,Holanda
2,MAX,35,Estados Unidos
3,MIRTA,93,Argentina
4,MAX,40,Estados Unidos
5,SQL,13,Inglaterra
6,SQLITE,20,Estados Unidos


In [None]:
# Aplicar lambda en todas las columnas a la vez del dataframe
# df7['mayor_edad'], crea una nueva columna en el DataFrame.
# Se completarán con valores booleanos. 
# Para ello, se aplica una lambda que completará True si es mayor de 18, sino False
df7['mayor_edad'] = df7['Age'].apply(lambda x: True if x>= 18 else False)
df7

Unnamed: 0,Name,Age,Nationality,mayor_edad
0,Inove,12,Argentina,False
1,Python,29,Holanda,True
2,Max,35,Estados Unidos,True
3,Mirta,93,Argentina,True
4,Max,40,Estados Unidos,True
5,SQL,13,Inglaterra,False
6,SQLite,20,Estados Unidos,True


In [None]:
# Aplicar lambda en todas las columnas a la vez del dataframe
# df8['mayor_edad'], crea una nueva columna en el DataFrame.
# Se completarán con valores booleanos. 
# Para ello, se aplica una lambda con tres condiciones:
# True if x['Age'] >= 21
# True if (x['Age'] >= 18 and x['Nationality'] == 'Argentina') 
# else False
# Con axis=1, se especifica que aplicá la lambda para cada fila.

df8['mayor_edad'] = df8.apply(lambda x: True if x['Age'] >= 21 else True if (x['Age'] >= 18 and x['Nationality'] == 'Argentina') else False, axis=1)
df8

Unnamed: 0,Name,Age,Nationality,mayor_edad
0,Inove,12,Argentina,False
1,Python,29,Holanda,True
2,Max,35,Estados Unidos,True
3,Mirta,93,Argentina,True
4,Max,40,Estados Unidos,True
5,SQL,13,Inglaterra,False
6,SQLite,20,Estados Unidos,False
