<a href="https://www.inove.com.ar"><img src="https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/images/PA%20Banner.png" width="1000" align="center"></a>


# Visualización y limpieza con Pandas

Programa creado para mostrar ejemplos prácticos de los visto durante la clase\
v1.1

# Primeros pasos en pandas

## 1 - Crear un dataframe

In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame({
      "Name": ["Inove", "Python", "Max",
                "Mirta", "Max", "SQL", "SQLite"],
      "Age": [12, 29, 35, 93, 40, 13, 20],
      "Nationality": ["Argentina", "Holanda", "Estados Unidos",
                      "Argentina", "Estados Unidos",
                      "Inglaterra", "Estados Unidos"]}
      )
df

Unnamed: 0,Name,Age,Nationality
0,Inove,12,Argentina
1,Python,29,Holanda
2,Max,35,Estados Unidos
3,Mirta,93,Argentina
4,Max,40,Estados Unidos
5,SQL,13,Inglaterra
6,SQLite,20,Estados Unidos


## 2 - Observar el contenido

In [3]:
# Observar las primeras 5 filas del dataframe
df.head()

Unnamed: 0,Name,Age,Nationality
0,Inove,12,Argentina
1,Python,29,Holanda
2,Max,35,Estados Unidos
3,Mirta,93,Argentina
4,Max,40,Estados Unidos


In [4]:
# Observar las primeras 3 filas del dataframe
df.head(3)

Unnamed: 0,Name,Age,Nationality
0,Inove,12,Argentina
1,Python,29,Holanda
2,Max,35,Estados Unidos


In [5]:
# Observar las últimas filas del dataframe
df.tail()

Unnamed: 0,Name,Age,Nationality
2,Max,35,Estados Unidos
3,Mirta,93,Argentina
4,Max,40,Estados Unidos
5,SQL,13,Inglaterra
6,SQLite,20,Estados Unidos


## 3 - Index & Slicing
- Utilizamos slicing (el operador corchetes []) para poder acceder a los datos colocando el nombre de la columna (tal como en los diccionarios)
- Utilizamos indexing para acceder a los datos utilizando el número de fila y de columna

#### Slicing

In [6]:
# Acceder a toda la columna "Age"
df['Age']

0    12
1    29
2    35
3    93
4    40
5    13
6    20
Name: Age, dtype: int64

In [7]:
# Acceder a las primeras 3 filas
# de la columna "Age"
df['Age'][0:3]

0    12
1    29
2    35
Name: Age, dtype: int64

#### Operador loc

In [8]:
# Acceder a toda la columna "Age"
df.loc[:, 'Age']

0    12
1    29
2    35
3    93
4    40
5    13
6    20
Name: Age, dtype: int64

In [9]:
# Acceder a las primeras 3 filas
# de la columna "Age"
df.loc[0:2, 'Age']

0    12
1    29
2    35
Name: Age, dtype: int64

#### Operador iloc

In [10]:
# Acceder a toda la columna "Age" (col 1)
df.iloc[:, 1]

0    12
1    29
2    35
3    93
4    40
5    13
6    20
Name: Age, dtype: int64

In [11]:
# Acceder a las primeras 3 filas
# de la columna "Age" (col 1)
df.iloc[0:3, 1]

0    12
1    29
2    35
Name: Age, dtype: int64

#### Utilizando objetos

In [12]:
# Acceder a toda la columna "Age"
df.Age

0    12
1    29
2    35
3    93
4    40
5    13
6    20
Name: Age, dtype: int64

In [13]:
# Acceder a las primeras 3 filas
# de la columna "Age"
df.Age[0:3]

0    12
1    29
2    35
Name: Age, dtype: int64

#### Acceder a mútiples columnas

In [14]:
# Acceder a toda la columna "Age" y "Name"
df[["Name", "Age"]]

Unnamed: 0,Name,Age
0,Inove,12
1,Python,29
2,Max,35
3,Mirta,93
4,Max,40
5,SQL,13
6,SQLite,20


In [15]:
# Acceder a las primeras 3 filas
# de las columnas "Age" y "Name"
df[["Name", "Age"]][0:3]

Unnamed: 0,Name,Age
0,Inove,12
1,Python,29
2,Max,35


In [16]:
# Acceder a las primeras 3 filas
# de las columnas "Age" y "Name"
df.loc[0:2, ["Name", "Age"]]

Unnamed: 0,Name,Age
0,Inove,12
1,Python,29
2,Max,35


In [17]:
# Acceder a las primeras 3 filas
# de las columnas "Age" y "Name"
df.iloc[0:3, [0, 1]]

Unnamed: 0,Name,Age
0,Inove,12
1,Python,29
2,Max,35


#### Acceder a filas

In [18]:
# Leer la primera fila
df.loc[0]

Name               Inove
Age                   12
Nationality    Argentina
Name: 0, dtype: object

In [19]:
# Leer la primera fila
df.loc[0].to_dict()

{'Name': 'Inove', 'Age': 12, 'Nationality': 'Argentina'}

In [20]:
# Leer las primeras dos filas
df.loc[0:1]

Unnamed: 0,Name,Age,Nationality
0,Inove,12,Argentina
1,Python,29,Holanda


In [21]:
# Leer las primeras dos filas
df.iloc[0:2]

Unnamed: 0,Name,Age,Nationality
0,Inove,12,Argentina
1,Python,29,Holanda


## 4 - Análisis descriptivo

In [22]:
# Información de las columnas
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Name         7 non-null      object
 1   Age          7 non-null      int64 
 2   Nationality  7 non-null      object
dtypes: int64(1), object(2)
memory usage: 296.0+ bytes


In [23]:
# Información estadística
df.describe()

Unnamed: 0,Age
count,7.0
mean,34.571429
std,27.873866
min,12.0
25%,16.5
50%,29.0
75%,37.5
max,93.0


In [24]:
# Cuantas filas y columnas posee el dataframe
df.shape

(7, 3)

In [25]:
# Qué elementos únicos existen
df['Nationality'].unique()

array(['Argentina', 'Holanda', 'Estados Unidos', 'Inglaterra'],
      dtype=object)

In [26]:
# Cuantos elementos únicos existen
df['Nationality'].nunique()

4

In [27]:
# Contar cantidad de elementos
df['Nationality'].value_counts()

Estados Unidos    3
Argentina         2
Inglaterra        1
Holanda           1
Name: Nationality, dtype: int64

In [28]:
# Contar cantidad de elementos
df['Nationality'].value_counts().to_dict()

{'Estados Unidos': 3, 'Argentina': 2, 'Inglaterra': 1, 'Holanda': 1}

## 5 - Procesar dataos

In [29]:
# Generar una copia del dataset original para su edición
df2 = df.copy()

In [30]:
# Agregar elementos faltantes (nan)
df2.loc[[0, 2], 'Age'] = np.nan

In [31]:
df2.head()

Unnamed: 0,Name,Age,Nationality
0,Inove,,Argentina
1,Python,29.0,Holanda
2,Max,,Estados Unidos
3,Mirta,93.0,Argentina
4,Max,40.0,Estados Unidos


#### Borrar Los NaN (drop)

In [32]:
# Eliminar todas las filas de la columna "Age" (subset) que posean "NaN"
# Si no especificamos el "subset" se eliminarán todas las filas que tengan
# en al menos una columna un "NaN"
df3 = df2.dropna(subset=['Age'])
df3

Unnamed: 0,Name,Age,Nationality
1,Python,29.0,Holanda
3,Mirta,93.0,Argentina
4,Max,40.0,Estados Unidos
5,SQL,13.0,Inglaterra
6,SQLite,20.0,Estados Unidos


In [33]:
# Reiniciar los indices del dataset
df3.reset_index(inplace = True)
df3

Unnamed: 0,index,Name,Age,Nationality
0,1,Python,29.0,Holanda
1,3,Mirta,93.0,Argentina
2,4,Max,40.0,Estados Unidos
3,5,SQL,13.0,Inglaterra
4,6,SQLite,20.0,Estados Unidos


#### Completar Los NaN (fill)

In [34]:
# Generar un nuevo dataset para trabajarlo en el ejemplo
df4 = df2.copy()
df5 = df2.copy()

In [35]:
# Completar los "NaN" con 0
df4['Age'].fillna(0, inplace=True)
df4

Unnamed: 0,Name,Age,Nationality
0,Inove,0.0,Argentina
1,Python,29.0,Holanda
2,Max,0.0,Estados Unidos
3,Mirta,93.0,Argentina
4,Max,40.0,Estados Unidos
5,SQL,13.0,Inglaterra
6,SQLite,20.0,Estados Unidos


In [36]:
# Completar los "NaN" con el promedio
df5['Age'].fillna(df5['Age'].mean(), inplace=True)
df5

Unnamed: 0,Name,Age,Nationality
0,Inove,39.0,Argentina
1,Python,29.0,Holanda
2,Max,39.0,Estados Unidos
3,Mirta,93.0,Argentina
4,Max,40.0,Estados Unidos
5,SQL,13.0,Inglaterra
6,SQLite,20.0,Estados Unidos


# 6 - SQL

In [37]:
import sqlite3

conn = sqlite3.connect('personas.db')

In [38]:
# Completar la DB con los datos SQL
# if_exists='replace' -> si existia la DB la sobreescribe
df.to_sql('tabla', conn, if_exists='replace')

In [39]:
# Crear un dataframe desde la DB
df_query = pd.read_sql_query("SELECT * from tabla", conn)
df_query

Unnamed: 0,index,Name,Age,Nationality
0,0,Inove,12,Argentina
1,1,Python,29,Holanda
2,2,Max,35,Estados Unidos
3,3,Mirta,93,Argentina
4,4,Max,40,Estados Unidos
5,5,SQL,13,Inglaterra
6,6,SQLite,20,Estados Unidos


# 7 - Apply & lambda

In [40]:
# Generamos copias solo para no alterar la información original
df6 = df.copy()
df7 = df.copy()
df8 = df.copy()


In [41]:
# Pasar a mayúsculas los nombres
df6['Name'] = df6['Name'].apply(lambda x: x.upper())
df6

Unnamed: 0,Name,Age,Nationality
0,INOVE,12,Argentina
1,PYTHON,29,Holanda
2,MAX,35,Estados Unidos
3,MIRTA,93,Argentina
4,MAX,40,Estados Unidos
5,SQL,13,Inglaterra
6,SQLITE,20,Estados Unidos


In [42]:
# Aplicar lambda en todas las columnas a la vez del dataframe
df7['mayor_edad'] = df7['Age'].apply(lambda x: True if x>= 18 else False)
df7

Unnamed: 0,Name,Age,Nationality,mayor_edad
0,Inove,12,Argentina,False
1,Python,29,Holanda,True
2,Max,35,Estados Unidos,True
3,Mirta,93,Argentina,True
4,Max,40,Estados Unidos,True
5,SQL,13,Inglaterra,False
6,SQLite,20,Estados Unidos,True


In [43]:
# Aplicar lambda en todas las columnas a la vez del dataframe
df8['mayor_edad'] = df8.apply(lambda x: True if x['Age'] >= 21 else True if (x['Age'] >= 18 and x['Nationality'] == 'Argentina') else False, axis=1)
df8

Unnamed: 0,Name,Age,Nationality,mayor_edad
0,Inove,12,Argentina,False
1,Python,29,Holanda,True
2,Max,35,Estados Unidos,True
3,Mirta,93,Argentina,True
4,Max,40,Estados Unidos,True
5,SQL,13,Inglaterra,False
6,SQLite,20,Estados Unidos,False


# 8 - Plot con pandas
https://pandas.pydata.org/docs/getting_started/comparison/comparison_with_sql.html#compare-with-sql