# 🐼 Pandas
## La Libreria de Manejo de Datos

---
**Autores de la Notebook:** 


* [Matias Sanchez Gavier ](https://matias-online.netlify.app/)  🧛
*   [Matias Moris](https://www.linkedin.com/in/matias-moris-6041337b/) ⚽
* [Anotonio Marrazzo](https://www.linkedin.com/in/antonio-marrazzo-40b3491a2/) 🏆

---



<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1200px-Pandas_logo.svg.png" alt="Drawing" style="width: 350px;"/>




En esta clase vamos a aprender como usar la libreria de pandas para análisis de datos. Podes pensar a Pandas como una versión extremadamente poderosa de Excel, con un monton más de posibilidades. Los Temas que vamos a ver son los siguientes:

__Crognograma__

* Librerias
* Manejo de Directorio (OS)
* Análisis Introductorio
* Selección de Filas y Columnas
* Filtering, Selección Condicionada
* Reslover NaN Values
* Operaciones con DataFrames
* Concadenar
* Exportar Archivos 
* Gráficos con Pandas
***

Para más información acerca de pandas  te recomendamos que visites estas páginas: 
- [User Guide Pandas]( https://pandas.pydata.org/docs/user_guide/index.html)

- [Tutorial Pandas ](https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html)

## 📕 Introducción a las Librerias
---
Las librerias son básicamente código externo que podemos utilizar. Esto es clave y es una de la razones para usar python. Mientras más famoso un lenguaje mejores librerias uno dispone.  **Pandas es una libreria** que se centra en el manejo de datos, y es lo que vamos a explorar en este notebook . A continuación instalamos algunas librerias. 



In [None]:
#Instalar si es necesario 
# Formato: !pip install Nombre_de_libreria
!pip install numpy
!pip install pandas 

El símbolo **!**  permite ejecutar como si estubieras en la terminal. 

### ☎️ Importar librerias

---

Hay varias formas de importar, pero en general cada librería tiene una forma **tradicional o popular** de importarse, en el sentido de que la mayoría de la gente lo hace de la misma forma. 

In [None]:
# Importando pandas
import pandas as pd

## 📁  Lectura de Archivos
---

Vamos a utilizar el archivo pokemon.csv del github. Vamos a utilizar la función **read_csv()**, hay dos formas de indicarle que archivo leer:

*   Dar un link al archivo csv
*   Indicar el "path" al archivo en nuestra computadora

Si uno esta usando colab se esta manejando con la compu de google, la nuestra no la registra google.  



In [None]:
#Leer con URL 
url = "https://raw.githubusercontent.com/sanchezgaviermatias/Curso_Python-/master/2%20-%20Pandas/Pokemon.csv"
df = pd.read_csv(url)

CSV es un tipo especial de archivo. Otros tipos de archivos comunes son: 
- JSON Files
- HTML Files
- SQL Files

Puede probar **pd.read**  y apretar tab para ver otras opciones (en Colab solo tiene que esperar y le va a aparecer mas opciones).

In [None]:
# Ejemplos de funciones para leer datos:
#pd.read_csv()
#pd.read_excel()
#pd.read_html()
#pd.read_json()
#pd.read_sql()
#pd.read_sas()
#pd.read_pickle()

### 🗂️ Manejo de Archivos  (Solo usuarios en Colab)
---

In [None]:
#Inidica los archivos en el directorio actual
!ls 

In [None]:
# En google colab puede subir archivos con esta función
from google.colab import files
uploaded = files.upload()

### 📀  Libreria OS (Opcional)
---
Una libreria que le puede interesar para el manejo de Directorios y Paths (Carpetas) es la libreria OS, para mas  infor visite: 
- [Tutorial - OS](https://stackabuse.com/introduction-to-python-os-module/)
- [Youtube - OS ](https://www.youtube.com/watch?v=tJxcKyFMTGo)

Es como usar la **terminal de la computadora** texto en cursiva.
Se suele ver cuando se ve notebooks o proyectos de otras personas. 

In [None]:
#Principales Usos:
import os 

# Directorio Actual
print(os.getcwd()) 


# Mostrar Archivos en el directorio Actual
print(os.listdir())

#Cambiar Directorio 
os.chdir('carpeta')
print(os.listdir())

os.chdir("../")
print(os.listdir())


# Elimino la Carpeta 
os.rmdir('carpeta')

La función **walk()** de la libreria os realiza un "search" de arriba hacia abajo de todo el sistema de archivos, partiendo desde el path que le indicas. Devuelve un tuple de tamaño 3 indicando el path (dirección), directorios(Carpetas) en ese path, y archivos en ese path, sucesivamente hasta que llega a la útlima carpeta.


In [None]:
for dirpath, dirnames, filnames in os.walk(os.getcwd()):
  print(f"directorio: {dirpath}")
  print(f"Carpetas: {dirnames}")
  print(f"filnames:{filnames}")
  print()

## 📹 Análisis Introductorio
---

In [None]:
df.head()

In [None]:
# Devuelve (filas, columnas)
df.shape

In [None]:
#Lista de Columnas
df.columns

In [None]:
df.info()

In [None]:
#Estadísticas 
df.describe()

### 🍧 Selección de Filas y Columnas  
---

####  Selección de  Columnas
---

In [None]:
df["HP"]

In [None]:
df.HP

In [None]:
#seleccion de multiples columnas
df[["Attack","Defense"]].head()

#### Selección de  Filas
---

In [None]:
df.loc[0, :]

In [None]:
df.loc[[0,4], "Type 1"] 

In [None]:
# le indicamos una columna para que sea el índice
df.set_index("#").head( )

El cambio que hicimos **no se guardo!** Esto es muy común con pandas.

Cuando hacemos cambios que afectan el dataset los cambios no se suelen guardar. 

In [None]:
df.head()

Para que los cambios tengan efecto permanente usamos el parámetro **inplace=True**

In [None]:
df.set_index("Name", inplace=True)

In [None]:
df.head()

**loc** Busca en base al nombre del índice.

In [None]:
df.loc["Bulbasaur", : ]

In [None]:
df.loc[["Bulbasaur","Ivysaur"], :]

In [None]:
df.iloc[0:4, :]

**iloc** busca en términos de la posición , no le importa el nombre de los valores. 

#### 🍫  Selección Condicionada
---

Simbolos y su Sígnificado:
  
* No   **-**
* Y   **&**
* O   **|**
* son iguales?    **==**
* mayor, menor ... **>, <, >=, <=** 


In [None]:
df.loc[df["Type 1"] == "Grass",  : ].head()

In [None]:
df.loc[(df["Type 1"] == "Grass") & (df["HP"]>=80), : ]

In [None]:
mask = (df["Type 1"] == "Grass") & -(df["HP"]>=80)
df.loc[mask, :].head()

In [None]:
mask =  (df["Type 1"].isin(["Grass", "Fire"]))

df.loc[ mask, : ]

## 🐾 Resolver NaN 
---
Significa Not a Number y en general representa valores desconocidos. 

Es importante que no haya NaN, ya que estos causan problemas.

Hay 3 opciones:
 - Eliminar filas con NaN
 - Eliminar Calumna con NaN
 - Reemplzar NaN con Otros Valores

### 🔊 Detectar NaN values

In [None]:
# Primer Método
df.info()

In [None]:
#Segundo  Método, Recomendado
df.isnull().sum()

In [None]:
# Ordenamos de mayor a menor
df.isna().sum().sort_values(ascending=False)

### 📴 Eliminar NaN Values

In [None]:
#eliminar columna, no recomendado
df.drop("Type 2",axis=1).head()

In [None]:
#Eliminar Filas, mejor que lo anterior
y = df.dropna()
print(y.shape, df.shape)

In [None]:
# Reemplzar valores NAn, la posta baby
df.fillna(value=df["Type 2"].mode(), inplace=True)

In [None]:
# Ordenamos de mayor a menor
df.isna().sum().sort_values(ascending=False)

Los métodos más comunes para reemplzar NaN son :

- Variables **Continuas** --> Media, Mediana, Modo


- Variables **Categóricas** --> Modo, Su propia Categoría  NaN

Tambíen se pueden usar modelos estadísticos para intentar predecir los valores desconocidos. 

##  💮  Operaciones 
---
### Operaciones Básicas

In [None]:
df['Attack'].sum()

In [None]:
df.sort_values(by='Type 1').head( )

In [None]:
df.mean()

In [None]:
df.std()

###  🧱   Operaciones entre Columnas

In [None]:
df["Poder"] = df["HP"]*(1/3) + df["Attack"]*(2/3)
df["Poder"] = round(df["Poder"])
df.head()

In [None]:
# valor Z !
df["Z_HP"] =  (df["HP"] - df["HP"].mean()) / df["HP"].std()
df.head()

### 🔦 Info en valores únicos 

In [None]:
#Valores únicos
df["Type 1"].unique()

In [None]:
#Cantidad de Valores únicos
df['Type 1'].nunique()

In [None]:
#Frecuencia Absoluta 
df['Type 1'].value_counts()

###  🛠️  Funciones aplicadas a las columnas

Vamos a usar el método **apply()**, el cual toma como input una función. La idea es que se va a ejecutar a cada elemento. 

In [None]:
def times2(x):
    return x*2

In [None]:
df["Attack_x2"] = df['Attack'].apply(times2)
df.head()

In [None]:
df["Type 1"].apply(len)

## 🛡️  Group By
----
Agrupar para hacer operaciones o funciones sobre un conjunto de variables categóricas.

Group By **se aplica a variables categóricas** 

In [None]:
df["Type 1"].unique()

In [None]:
#Group By por si solo no hace nada
df_group = df.groupby("Type 1")
df_group

In [None]:
# Devuelve la media para cada variable 
df_group.mean()

In [None]:
df_group.mean()["Attack"].sort_values(ascending=False)

In [None]:
df_group.std()["Attack"]

In [None]:
df_group.describe()["HP"]

Otras operaciones summary son:
- .min()
- .max()
- .count()
- .idxmax()
- .idxmin()
- .quantile()

### Operaciones Summary
---
Estas son algunas de las funciones que se aplican cuando usamos la **función describe()**


In [None]:
print(df["Attack"].min()) # Minimo
print(df["Attack"].max()) # Maximo
print(df["Attack"].count()) # Cantidad
print(df["Attack"].idxmax()) # El índice del valor máximo
print(df["Attack"].idxmin()) # El índice del valor mínimo
print(df["Attack"].quantile([.25,.5,.75])) # Los quantiles

## 🧷 Concadenar Dataframes
---

Se puede Armar Dataframes a partir de Diccionarios 

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])

In [None]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         index=[4, 5, 6, 7]) 

In [None]:
pd.concat([df1,df2]) # stockean como blockes de lego

In [None]:
pd.concat([df1,df2], axis=1) #Por Default axis=0, se acumulan a la derecha

###  Funciones Con Pandas! WOW
---
Vamos a ver como crear funciones para automtizar nuestro laburo

In [None]:
def obtener_Z(df, columna):
    # valor Z !
    df2 = pd.DataFrame([])
    df2[f"Z_{columna}"] =  (df[columna] - df[columna].mean()) / df[columna].std()
    return df2

obtener_Z(df, "Attack")

In [None]:
# Sacamos los valores Z para Attack 

Z_attack = obtener_Z(df, "Attack")

pd.concat([df, Z_attack ], axis=1)

###  Intervalos de Clase
---

La idea es transformar las variables continuas en discretas, poniendolas en contenedores.

In [None]:
# Con Cut le indicamos cuanto contenedores queremos
pd.cut(df["Attack"], bins=13)

In [None]:
# qcut se Basa en quantiles 
df["Ataque_IC"] = pd.qcut(df["Attack"],[0,0.25,0.5,0.75,1])
df["Ataque_IC"]

###  Dummy Variables
---
Es la forma de Transformar variables en discretas en valores numéricos.


La variable toma 1 si se cumple la condición y 0 en caso que no.

In [None]:
pd.get_dummies(data = df, columns=["Legendary"], prefix="Leg_Dummy", drop_first=True )

In [None]:
pd.get_dummies(data = df, columns=["Ataque_IC"], drop_first=True )

In [None]:
pd.get_dummies(data = df, columns=["Type 1"], drop_first=True )

### Funciones relacionadas al Texto
---
En general vamos a usar **.str** para indicar que vamos a usar una función relacionada a las strings. 

In [None]:
df.reset_index() #Volver al índice Orinigal

In [None]:
df["Type 2"].str.lower()

In [None]:
mask = df["Type 2"].str.contains("Poison")

df.loc[mask,:].head()

### Cambiar los nombres de Columna 
---
Vamos a usar la función **rename()**.

In [None]:
df.rename(columns = {'Type 1':'Tipo 1', "Type 2": "Tipo 2"}, inplace=True)
df.head()

In [None]:
df.columns

In [None]:
df.columns = [x.lower() for x in df.columns]
df

### Exportando Archivos
---

In [None]:
#Exportando a CSV
df1.to_csv('Ejemplo.csv',index=False)
#Exportando a Excel
df1.to_excel("excel_df.xlsx", index=False)

In [None]:
pd.read_csv("Ejemplo.csv")

# Felicitaciones por completar esta parte!  