<a href="https://colab.research.google.com/github/JhonnyLimachi/Python/blob/main/3_Creando_Dataframes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img alt="Colaboratory logo" width="15%" src="https://raw.githubusercontent.com/carlosfab/escola-data-science/master/img/novo_logo_bg_claro.png">

#### **Data Science en la Prática 4.0**
*by [Suma qamaña.ai](https://sigmoidal.ai)*

---

# Creando DataFrames

En el *notebook* anterior, importamos directamente un archivo `csv` de internet para una estructura *DataFrame*. Cuando usamos a función `pd.read('arquivo.csv')` el Pandas ya entendiendo como debe actuar en relación a la estructura de lineas y columnas.

<center><img src="https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/from_csv_to_df.png"></center>


Por lo tanto, existe la posibilidad de crearmos en la mano un *DataFrame* usando diversas técnicas.

## DataFrames a partir de Dicionários

Una de las estructuras básicas de Python es el Diccionário. Es muy conveniente informar nuestros datos en una variable de tipo `dict`, ya que su conversión en *DataFrame* es muy simple y directo.

In [None]:
# importar pandas
import pandas as pd

In [None]:
# crear diccionário
datos = {
    'nombre': ['Felix', 'Wendy', 'Lucy', 'Reynaldo'],
    'edad': [55, 28, 53, 23],
    'ciudad': ['Cochabamba', 'La Paz', 'Sucre', 'Santa Cruz'],
    'compro': [True, False, False, True]
}

In [None]:
# crear DataFrame
df = pd.DataFrame(datos)

In [None]:
# visualizar DataFrame
df

Unnamed: 0,nombre,edad,ciudad,compro
0,Felix,55,Cochabamba,True
1,Wendy,28,La Paz,False
2,Lucy,53,Sucre,False
3,Reynaldo,23,Santa Cruz,True


In [None]:
# crear id del usuário
id_usuario = [8713, 5814, 4404, 9805]

In [None]:
# asociar el id del usuário a la lista
df.index = id_usuario

In [None]:
# ver el dataframe
df

Unnamed: 0,nombre,edad,ciudad,compro
8713,Felix,55,Cochabamba,True
5814,Wendy,28,La Paz,False
4404,Lucy,53,Sucre,False
9805,Reynaldo,23,Santa Cruz,True


## DataFrames a partir de Listas

Listas também son estructuras muy usadas en Python, y no es incomun tendremos que crear *DataFrames*  a partir de estas.

Para organizar nuestras várias listas de un modo que sea fácil si la conversión en *DataFrame*, vamos usar la función *built-in* `zip()`.

In [None]:
# listas
datos = [['Felix', 55, 'Cochabamba', 'True'],
         ['Wendy', 30, 'La Paz', 'False'],
         ['Lucy', 53, 'Sucre', 'True'],
         ['Reynaldo', 23, 'Santa Cruz', 'True']]

# crear DataFrame
df = pd.DataFrame(datos, columns=['nombre', 'edad', 'ciudad', 'compras'],
                  index=[8713, 5814, 4403, 9805])

# visualizar DataFrame
df

Unnamed: 0,nombre,edad,ciudad,compras
8713,Felix,55,Cochabamba,True
5814,Wendy,30,La Paz,False
4403,Lucy,53,Sucre,True
9805,Reynaldo,23,Santa Cruz,True


In [None]:
# selecionar por el index
df.loc[4403]

nombre     Lucy
edad         53
ciudad    Sucre
compro     True
Name: 4403, dtype: object

## Crear nuevas columnas
Una forma extremadamente conveniente de crear nuevas columnas en un DataFrame es utilizando una característica de Pandas conocida como "broadcasting".

Al proporcionar el nombre de la nueva columna y declarar solo un valor, este valor se replica en todas las filas del DataFrame.

In [None]:
# crear columna "saldo"
df['saldo'] = 0.0

# visualizar DataFrame
df

Unnamed: 0,nombre,edad,ciudad,compras,saldo
8713,Felix,55,Cochabamba,True,0.0
5814,Wendy,30,La Paz,False,0.0
4403,Lucy,53,Sucre,True,0.0
9805,Reynaldo,23,Santa Cruz,True,0.0


## Modificar el índice y las columnas
A veces, es necesario cambiar el nombre de los índices o las etiquetas de las columnas. Si observas la celda anterior, verás que en el DataFrame, el índice de cada fila se representa mediante un número del 0 al 3.

Puedes cambiar este atributo de la variable accediendo directamente de la siguiente manera:

In [None]:
df.index

Int64Index([8713, 5814, 4403, 9805], dtype='int64')

In [None]:
# alterar el index del df
df.index = ['a', 'b', 'c', 'd']

# visualizar DataFrame
df

Unnamed: 0,nombre,edad,ciudad,compras,saldo
a,Felix,55,Cochabamba,True,0.0
b,Wendy,30,La Paz,False,0.0
c,Lucy,53,Sucre,True,0.0
d,Reynaldo,23,Santa Cruz,True,0.0


De la misma manera, si necesito cambiar el nombre de las columnas, puedo hacerlo directamente en el atributo de la variable:

In [None]:
# alterar los labels que es igual a decir las etiquetas de las columnas
df.columns = ['Nombre de Cliente', "Edad", "Naturalidad", "Compró?", "Saldo en la tienda"]

# visualizar DataFrame
df

Unnamed: 0,Nombre de Cliente,Edad,Naturalidad,Compró?,Saldo en la tienda
a,Felix,55,Cochabamba,True,0.0
b,Wendy,30,La Paz,False,0.0
c,Lucy,53,Sucre,True,0.0
d,Reynaldo,23,Santa Cruz,True,0.0
