<a href="https://colab.research.google.com/github/Angepira/AngePira.github.io/blob/main/Clase_22_y_23.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Extracción y data wrangling


En este notebook aprenderás un poco de Data Wrangling, este proceso te ayudará a reunir datos de una variedad de fuentes de datos para limpiarlos, facilitando el acceso y el análisis.


## Indexación Jerárquica


Es una característica de Pandas que proporciona una manera de trabajar con datos de mayor dimensión en una forma de menor dimensión.

In [None]:
import pandas as pd

In [None]:
# Crear un diccionario
data = {'Venta': [100, 200, 150, 250, 180, 220],
        'Gastos': [50, 70, 60, 80, 55, 75]}

In [None]:
data

{'Venta': [100, 200, 150, 250, 180, 220], 'Gastos': [50, 70, 60, 80, 55, 75]}

In [None]:
#Si converitmos el diccionario en dataframe pandas le asigna el índice
df1 = pd.DataFrame(data)
df1

Unnamed: 0,Venta,Gastos
0,100,50
1,200,70
2,150,60
3,250,80
4,180,55
5,220,75


In [None]:
# Creamos el índice con tuplas
index = pd.MultiIndex.from_tuples([('A', '2020'), ('A', '2021'), ('B', '2020'), ('B', '2021'), ('C', '2020'), ('C', '2021')],
                                  names=['Grupo', 'Año'])

In [None]:
index

MultiIndex([('A', '2020'),
            ('A', '2021'),
            ('B', '2020'),
            ('B', '2021'),
            ('C', '2020'),
            ('C', '2021')],
           names=['Grupo', 'Año'])

In [None]:
# Crear un DataFrame con indexación jerárquica
df = pd.DataFrame(data, index=index)

# Mostrar el DataFrame con indexación jerárquica
print(df)

            Venta  Gastos
Grupo Año                
A     2020    100      50
      2021    200      70
B     2020    150      60
      2021    250      80
C     2020    180      55
      2021    220      75


In [None]:
#Observa que ya no están estos índices de 0 a 8, si no que ahora los índices
#son los que le asignamoos
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Venta,Gastos
Grupo,Año,Unnamed: 2_level_1,Unnamed: 3_level_1
A,2020,100,50
A,2021,200,70
B,2020,150,60
B,2021,250,80
C,2020,180,55
C,2021,220,75


Ahora tranbajemos con pandas series

In [None]:
#importamos las librerías
import random
import numpy as np

In [None]:
#Creamos un pandas series con 9 datos aleatorios 
data = pd.Series(np.random.rand(9))

In [None]:
#observa que pandas crea los índices como números consecutivos
data

0    0.961509
1    0.348698
2    0.374326
3    0.208644
4    0.840502
5    0.918479
6    0.220307
7    0.780638
8    0.488166
dtype: float64

In [None]:
#Creamos los índices, queremos que nuestro pandas series tenga 2 índices,
#Creamos una lista para cada índice
col_1 = ['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd']
col_2 = ['1', '2', '3', '1', '3', '1', '2', '2', '3']

In [None]:
#Creamos el pandas series agregando los indices que creamos
data = pd.Series(np.random.rand(9), index=[col_1,col_2])
data

#observa que ya no aparecen los números de 0 a 9, si no los que definimos en las listas

a  1    0.631113
   2    0.091622
   3    0.071823
b  1    0.113841
   3    0.545709
c  1    0.135594
   2    0.944573
d  2    0.746656
   3    0.643181
dtype: float64

In [None]:
#Aunque los definamos en listas, el objeto multindex tiene tuplas
data.index

MultiIndex([('a', '1'),
            ('a', '2'),
            ('a', '3'),
            ('b', '1'),
            ('b', '3'),
            ('c', '1'),
            ('c', '2'),
            ('d', '2'),
            ('d', '3')],
           )

###### **Cómo acceder a las filas con los índices**

**Para Pandas Series o columnas**

In [None]:
#Acceder al índice b
data['b']

1    0.873949
3    0.560901
dtype: float64

In [None]:
#Para acceder a más de un índice utilizamos una tupla
data[('b','1')]

0.873948897648242

In [None]:
#Podemos a acceder a varios índices consecutivos
data['b':'d']

b  1    0.873949
   3    0.560901
c  1    0.560781
   2    0.128003
d  2    0.181285
   3    0.343642
dtype: float64

In [None]:
#Podemos utilizar el método loc para acceder a indices consecutivos
data.loc['b':'d']

b  1    0.113841
   3    0.545709
c  1    0.135594
   2    0.944573
d  2    0.746656
   3    0.643181
dtype: float64

In [None]:
#Podemos utilizar una lista para acceder a índices no consecutivos
data[['b','d']]

b  1    0.113841
   3    0.545709
d  2    0.746656
   3    0.643181
dtype: float64

Para hacer esto mismo con un dataframe debemos filtrar la columna

In [None]:
#Indexar Pandas Series o una sola columna
df['Venta']['A']

Año
2020    100
2021    200
Name: Venta, dtype: int64

**Para Pandas DataFrame**

In [None]:
#En este caso debemos apoyarnos en el método loc para selecionar un sólo indice
df.loc['A']

Unnamed: 0_level_0,Venta,Gastos
Año,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,100,50
2021,200,70


In [None]:
#También lo podemos hacer para varios índices
df.loc[[('A','2020')]]

Unnamed: 0_level_0,Unnamed: 1_level_0,Venta,Gastos
Grupo,Año,Unnamed: 2_level_1,Unnamed: 3_level_1
A,2020,100,50


###### **Reorganizando los datos de un dataframe a través de la indexación jerárquica**


Es útil cuando deseas reorganizar los datos de un DataFrame con indexación jerárquica para tener una estructura más fácil de trabajar o cuando necesitas realizar cálculos o análisis en los datos desapilados.

In [None]:
#Para el caso del dataframe
df.unstack()

Unnamed: 0_level_0,Ventas,Ventas,Gastos,Gastos
Año,2020,2021,2020,2021
Grupo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,100,200,50,70
B,150,250,60,80


In [None]:
#También puedo reorganizar una sola columna
df['Ventas'].unstack()

Año,2020,2021
Grupo,Unnamed: 1_level_1,Unnamed: 2_level_1
A,100,200
B,150,250


In [None]:
#Para el caso del pandas series me lo convierte en un dataFrame
data.unstack()

Unnamed: 0,1,2,3
a,0.631113,0.091622,0.071823
b,0.113841,,0.545709
c,0.135594,0.944573,
d,,0.746656,0.643181


In [None]:
type(data.unstack())

pandas.core.frame.DataFrame

## Combinar y fusionar Datasets


#### concat
Pandas tiene una función, ``pd.concat()``, que tiene una sintaxis similar a ``np.concatenate`` pero contiene una diferentes argumentos.

``pd.concat()`` puede ser usado para una concatenacion simple de ``Series`` o ``DataFrames``:

In [None]:
#Creamos el dataframe df1 donde seleccionamos una parte del dataframe según unas condiciones

df1 = titanic[(titanic.Age > 18) & (titanic['Age'] < 50)][10:15][['PassengerId','Survived']]
df1

Unnamed: 0,PassengerId,Survived
21,22,1
23,24,1
25,26,1
27,28,0
30,31,0


In [None]:
df1.reset_index()

Unnamed: 0,index,PassengerId,Survived
0,21,22,1
1,23,24,1
2,25,26,1
3,27,28,0
4,30,31,0


In [None]:
df1

Unnamed: 0,index,PassengerId,Survived
0,21,22,1
1,23,24,1
2,25,26,1
3,27,28,0
4,30,31,0


In [None]:
#Creamos un segundo dataframe donde filtramos el titanic por la posición de los registros
df2 = titanic.iloc[10:15,2:5]
df2

Unnamed: 0,Pclass,Name,Sex
10,3,"Sandstrom, Miss. Marguerite Rut",female
11,1,"Bonnell, Miss. Elizabeth",female
12,3,"Saundercock, Mr. William Henry",male
13,3,"Andersson, Mr. Anders Johan",male
14,3,"Vestrom, Miss. Hulda Amanda Adolfina",female


In [None]:
#Hacemos reset index, para que los índices de cada registro inicien desde cero y así poder concatenar los dataframes
df1.reset_index(inplace = True)
df1

Unnamed: 0,index,PassengerId,Survived
0,21,22,1
1,23,24,1
2,25,26,1
3,27,28,0
4,30,31,0


In [None]:
#Hacemos reset index, para que los índices de cada registro inicien desde cero y así poder concatenar los dataframes
df2.reset_index(inplace = True)
df2

Unnamed: 0,index,Pclass,Name,Sex
0,10,3,"Sandstrom, Miss. Marguerite Rut",female
1,11,1,"Bonnell, Miss. Elizabeth",female
2,12,3,"Saundercock, Mr. William Henry",male
3,13,3,"Andersson, Mr. Anders Johan",male
4,14,3,"Vestrom, Miss. Hulda Amanda Adolfina",female


In [None]:
#Aquí concatenamos el df1 y el df2  por columnas considerando el índice
pd.concat([df1, df2],ignore_index=False,sort=True, axis=1)

Unnamed: 0,index,PassengerId,Survived,index.1,Pclass,Name,Sex
0,21,22,1,10,3,"Sandstrom, Miss. Marguerite Rut",female
1,23,24,1,11,1,"Bonnell, Miss. Elizabeth",female
2,25,26,1,12,3,"Saundercock, Mr. William Henry",male
3,27,28,0,13,3,"Andersson, Mr. Anders Johan",male
4,30,31,0,14,3,"Vestrom, Miss. Hulda Amanda Adolfina",female


In [None]:
#Aquí concatenamos el df1 y el df2  por columnas considerando el índice
pd.concat([df1, df2],ignore_index=False,sort=True, axis=0)

Unnamed: 0,Name,PassengerId,Pclass,Sex,Survived,index
0,,22.0,,,1.0,21
1,,24.0,,,1.0,23
2,,26.0,,,1.0,25
3,,28.0,,,0.0,27
4,,31.0,,,0.0,30
0,"Sandstrom, Miss. Marguerite Rut",,3.0,female,,10
1,"Bonnell, Miss. Elizabeth",,1.0,female,,11
2,"Saundercock, Mr. William Henry",,3.0,male,,12
3,"Andersson, Mr. Anders Johan",,3.0,male,,13
4,"Vestrom, Miss. Hulda Amanda Adolfina",,3.0,female,,14


- ¿Qué pasa si no hago reset_index a los dataframes?
- ¿Qué pasa si cambio los argumentos ignore_index, sort y axis?
- ¿Qué pasa si no utilizo los argumentos anteriores?

In [None]:
staff_df = pd.DataFrame([{'Name': 'Kelly', 'Role': 'Director of HR'},
                         {'Name': 'Sally', 'Role': 'Course liasion'},
                         {'Name': 'James', 'Role': 'Grader'}])
staff_df = staff_df.set_index('Name')
student_df = pd.DataFrame([{'Name': 'James', 'School': 'Business'},
                           {'Name': 'Mike', 'School': 'Law'},
                           {'Name': 'Sally', 'School': 'Engineering'}])
student_df = student_df.set_index('Name')

In [None]:
#Concatena los dataframes staff_df y student_df

Respuesta:

|       | Role           | Scool    |   |   |
|-------|----------------|----------|---|---|
| James | Grader         | Business |   |   |
| Kelly | Director of HR | NaN      |   |   |
| Mike  | NaN            | Law      |   |   |
| Sally | Course liasion | Engineering|   |   |

In [None]:
#Crea tus propios Dataframes y concatenalos

#### Merge and join



Ambas funciones permiten que los datos de diferentes dataframes se combinen en uno solo de acuerdo con una regla de "cruce" o "búsqueda".

Aunque tanto `merge` como` join` hacen cosas similares, la forma en que lo hacen es diferente.

La función `merge` es la función predeterminada de pandas para unir datos. Básicamente es contraparte de *pandas de la unión de SQL*, y requiere la especificación de qué columnas de ambos dataframes se compararán. A Merge no le importa en absoluto los índices definidos en ellos.

Por otro lado, la función `join` de Panda es más conveniente (incluso utiliza merge internamente), unir es básicamente hacer una fusión aprovechando los índices de ambos marcos de datos.

La siguiente figura resume los diferentes 4 tipos de combinaciones: _inner, outer, left and right_.

![MERGE](http://www.datasciencemadesimple.com/wp-content/uploads/2017/09/join-or-merge-in-python-pandas-1.png)

La función merge también está disponible como método en la clase `DataFrame`.
La sintaxis básica es:

```
new_joined_df = df.merge (another_df, left_on = "col_in_df", right_on = "col_in_another_df",
                          how="inner"|"left"|"right"|"outer")
```

El primer argumento (`another_df`), así como` left_on` y `right_on` son argumentos obligatorios.
`left_on` especifica un nombre de columna en el dataframe `df` cuyos valores deben coincidir con
los de la columna `another_df` 'especificados en `right_on`.

El argumento `how` es opcional y por defecto es `inner`.

In [None]:
staff_df = pd.DataFrame([{'Name': 'Kelly', 'Role': 'Director of HR'},
                         {'Name': 'Sally', 'Role': 'Course liasion'},
                         {'Name': 'James', 'Role': 'Grader'}])
staff_df = staff_df.set_index('Name')
student_df = pd.DataFrame([{'Name': 'James', 'School': 'Business'},
                           {'Name': 'Mike', 'School': 'Law'},
                           {'Name': 'Sally', 'School': 'Engineering'}])
student_df = student_df.set_index('Name')

In [None]:
#Mira el dataframe staff_df
staff_df.head()

Unnamed: 0_level_0,Role
Name,Unnamed: 1_level_1
Kelly,Director of HR
Sally,Course liasion
James,Grader


In [None]:
#Mira el dataframe student_df
student_df.head()

Unnamed: 0_level_0,School
Name,Unnamed: 1_level_1
James,Business
Mike,Law
Sally,Engineering


In [None]:
pd.merge(staff_df, student_df,left_index=True, right_index=True)

Unnamed: 0_level_0,Role,School
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Sally,Course liasion,Engineering
James,Grader,Business


¿Por qué trae solo dos registros?

In [None]:
pd.merge(staff_df, student_df, how='outer', left_index=True, right_index=True)

Unnamed: 0_level_0,Role,School
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
James,Grader,Business
Kelly,Director of HR,
Mike,,Law
Sally,Course liasion,Engineering


¿Por qué trae 4 registros?

In [None]:
pd.merge(staff_df, student_df, how='left', left_index=True, right_index=True)

Unnamed: 0_level_0,Role,School
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Kelly,Director of HR,
Sally,Course liasion,Engineering
James,Grader,Business


¿Por qué trae 3 registros?

In [None]:
pd.merge(staff_df, student_df, how='right', left_index=True, right_index=True)

Unnamed: 0_level_0,Role,School
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
James,Grader,Business
Mike,,Law
Sally,Course liasion,Engineering


¿Por qué trae 3 registros

In [None]:
staff_df = staff_df.reset_index()
student_df = student_df.reset_index()

¿Porqué hago reset_index? ¿qué pasa con los dataframes?

In [None]:
#Mira el dataframe staff_df y compararlo con el anterior

In [None]:
#Mira el dataframe student_df y compararlo con el anterior

In [None]:
pd.merge(staff_df, student_df, how="left", left_on="Name", right_on="Name")

Unnamed: 0,Name,Role,School
0,Kelly,Director of HR,
1,Sally,Course liasion,Engineering
2,James,Grader,Business


*¿Cuál es la diferencia entre left_on y left_index? ¿Cuándo debo usar uno o el otro?*

In [None]:
pd.merge(staff_df, student_df, how="left",on="Name")

Unnamed: 0,Name,Role,School
0,Kelly,Director of HR,
1,Sally,Course liasion,Engineering
2,James,Grader,Business


Ahora vamos a cruzar por más de una característica

In [None]:
staff_df = pd.DataFrame([{'First Name': 'Kelly', 'Last Name': 'Desjardins', 'Role': 'Director of HR'},
                         {'First Name': 'Sally', 'Last Name': 'Brooks', 'Role': 'Course liasion'},
                         {'First Name': 'James', 'Last Name': 'Wilde', 'Role': 'Grader'}])

In [None]:
student_df = pd.DataFrame([{'First Name': 'James', 'Last Name': 'Hammond', 'School': 'Business'},
                           {'First Name': 'Mike', 'Last Name': 'Smith', 'School': 'Law'},
                           {'First Name': 'Sally', 'Last Name': 'Brooks', 'School': 'Engineering'}])

In [None]:
staff_df

Unnamed: 0,First Name,Last Name,Role
0,Kelly,Desjardins,Director of HR
1,Sally,Brooks,Course liasion
2,James,Wilde,Grader


In [None]:
student_df

Unnamed: 0,First Name,Last Name,School
0,James,Hammond,Business
1,Mike,Smith,Law
2,Sally,Brooks,Engineering


In [None]:
pd.merge(staff_df, student_df, how='inner', left_on=['First Name','Last Name'], right_on=['First Name','Last Name'])

Unnamed: 0,First Name,Last Name,Role,School
0,Sally,Brooks,Course liasion,Engineering


Inténtalo tu:
Dados los siguientes dataframes has todos los joins: inner, outter, left y right, con índice y con reset index

Nota: Debes hacer todo lo que hiciste arriba

In [None]:
tiendas = pd.DataFrame([{'Tienda': 'Mi Tiendita', 'Ciudad': 'Buenos Aires', 'Productos': 'Zapatos'},
                         {'Tienda': 'Supertienda', 'Ciudad': 'Rosario', 'Productos': 'Comida'},
                         {'Tienda': 'Tienda Misteriosa', 'Ciudad': 'Rosario', 'Productos': 'Comida'},
                         {'Tienda': 'Tienda de la vida', 'Ciudad': 'Córdoba', 'Productos': 'Camisas'}])

In [None]:
ventas = pd.DataFrame([{'Nombre': 'La Tienda', 'Ganancias': '-3000', 'Ventas': '6000'},
                         {'Nombre': 'Supertienda', 'Ganancias': '200', 'Ventas': '8000'},
                         {'Nombre': 'Tienda', 'Ganancias': '1000', 'Ventas': '5000'}])

In [None]:
#Ponemos 'Tienda' como el índice del dataframe 'tiendas'
tiendas = tiendas.set_index('Tienda')

In [None]:
#Pon 'Nombre' como el índice del dataframe 'ventas'


Respuesta

|             | Ganancias | Ventas |
|-------------|-----------|--------|
| Nombre      |           |        |
| La Tienda   | -3000     | 6000   |
| Supertienda | 200       | 8000   |
| Tienda      | 1000      | 5000   |


In [None]:
#Inner join

In [None]:
#Outter join

In [None]:
#Left join

In [None]:
#Right join

In [None]:
#Reset index en ambos data frames

In [None]:
#Inner join

In [None]:
#Outter join

In [None]:
#Left join

In [None]:
#Right join

## Remodelar o Reshaping


In [None]:
import numpy as np
import pandas as pd

In [None]:
np.arange(6).reshape(2,3)

array([[0, 1, 2],
       [3, 4, 5]])

In [None]:
data = pd.DataFrame(np.arange(6).reshape(2,3), 
                    index=pd.Index(['Ohio', 'Colorado'], name='state'),
                    columns=pd.Index(['one','two','three'], name='number'))

In [None]:
data

number,one,two,three
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ohio,0,1,2
Colorado,3,4,5


In [None]:
result = data.stack()

In [None]:
result

state     number
Ohio      one       0
          two       1
          three     2
Colorado  one       3
          two       4
          three     5
dtype: int64

In [None]:
type(result)

pandas.core.series.Series

In [None]:
result.unstack()

number,one,two,three
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ohio,0,1,2
Colorado,3,4,5


## Reducción de dimensionalidad

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

In [None]:
plt.rcParams['figure.figsize'] = (16,9)
plt.style.use('ggplot')

In [None]:
dataframe = pd.read_csv()