# **DATAFRAME**

En esta sección analizaremos el **DataFrame**, una de las estructuras fundamentales de **Pandas**.  
El **DataFrame** puede definirse como un conjunto de **Series** organizadas en una estructura **tabular**.  

---

## **Componentes del DataFrame**

1. **Data**:  
   Puede ser de distintos tipos:  
   - Diccionario  
   - Lista  
   - Diccionario de listas  
   - Arreglo de Numpy  

2. **Index**:  
   Representa las **filas**.  
   - Si no se especifica, **Pandas** asigna un índice automáticamente.  

3. **Columnas**:  
   Son las **etiquetas de las columnas** (cabeceras).  
   - Si no se especifican, **Pandas** asigna nombres automáticos a las columnas.  

---

Un **DataFrame** permite almacenar, manipular y analizar datos de forma eficiente y flexible.


In [19]:
import pandas as pd

Partiremos creando un DataFrame desde un diccionario

In [20]:
mi_diccionario = {"Nombre": ["Joan", "Mariana", "Santos", "Peter"],
                  "Edad"  : [28, 26, 27, 28],
                  "Correo": ["jop@gmail.com", "mara@gmail.com", "sts@gmail.com", "pt@gmail.com"]
                  }

mi_frame = pd.DataFrame(data = mi_diccionario)
mi_frame

Unnamed: 0,Nombre,Edad,Correo
0,Joan,28,jop@gmail.com
1,Mariana,26,mara@gmail.com
2,Santos,27,sts@gmail.com
3,Peter,28,pt@gmail.com


Ahora podemos crear un DataFrame usando Lista

In [21]:
mi_lista = [["Sergio", 32],["Magdalena", 34],["Santiago", 30],["Luciana", 32],["Margarita", 33]]
columnas = ["Nombre", "Edad"]

mi_frame_personas = pd.DataFrame(data=mi_lista, columns=columnas)
mi_frame_personas


Unnamed: 0,Nombre,Edad
0,Sergio,32
1,Magdalena,34
2,Santiago,30
3,Luciana,32
4,Margarita,33


Podemos crear DataFrame y personalizando el index

In [22]:
data = {"Empresas": ["Google", "Microsoft", "Amazon", "Facebook"],
        "Trabajadores": [25000, 18000, 26000, 19000]
}

mi_frame_empresas = pd.DataFrame(data=data, index=["a", "b", "c", "d"])
mi_frame_empresas

Unnamed: 0,Empresas,Trabajadores
a,Google,25000
b,Microsoft,18000
c,Amazon,26000
d,Facebook,19000


Usando un arreglo de numpy

In [23]:
import numpy as np

#En este caso estamos creando 3 columnas y 4 filas usando la funcion random.rand()
data = np.random.rand(4, 3)
mi_frame_numpy = pd.DataFrame(data = data, columns=["A", "B", "C"])
mi_frame_numpy

Unnamed: 0,A,B,C
0,0.034773,0.90335,0.515143
1,0.347692,0.230688,0.719961
2,0.583837,0.667995,0.044454
3,0.285964,0.510711,0.972263


## ATRIBUTOS DE UN DATAFRAME

---

1. **`.dtypes`**     
   Nos permite ver el tipo de datos  
   ```python
   mi_dataframe.dbtypes

2. **`.size`**  
   Nos permite saber el tamaño.
   ```python
   mi_dataframe.size

3. **`.values`** :  
   Nos permite ver los valores  
   ```python
   mi_dataframe.values



In [25]:
mi_frame_empresas.dtypes

Empresas        object
Trabajadores     int64
dtype: object

In [26]:
mi_frame_empresas.size

8

In [27]:
mi_frame_empresas.values

array([['Google', 25000],
       ['Microsoft', 18000],
       ['Amazon', 26000],
       ['Facebook', 19000]], dtype=object)

In [47]:
print(mi_frame_empresas.sort_values(by="Trabajadores", inplace=True))

None


## FUNCIONES

---

1. **`info()`**     
   Muestra información del dataframe como las columnas cuantos registros tiene el tipo de datos y la cantidad de memoria usada.  
   ```python
   mi_dataframe.info()

2. **`head()`**  
   Esta función de cabecera nos permite ver los primeros 5 registros.  
   ```python
   mi_dataframe.head()

3. **`tail()`** :  
   Esta función  nos permite ver los últimos 5 registros.
   ```python
   mi_dataframe.tail()


1. **`info()`**     
   Muestra información del dataframe como las columnas cuantos registros tiene el tipo de datos y la cantidad de memoria usada.  
   ```python
   mi_dataframe.info()

2. **`head()`**  
   Esta función de cabecera nos permite ver los primeros 5 registros.  
   ```python
   mi_dataframe.head()

3. **`tail()`** :  
   Esta función  nos permite ver los últimos 5 registros.
   ```python
   mi_dataframe.tail()

In [48]:
mi_frame_empresas.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, b to c
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Empresas      4 non-null      object
 1   Trabajadores  4 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 96.0+ bytes


In [49]:
mi_frame_empresas.head()

Unnamed: 0,Empresas,Trabajadores
b,Microsoft,18000
d,Facebook,19000
a,Google,25000
c,Amazon,26000


In [50]:
mi_frame_empresas.tail()

Unnamed: 0,Empresas,Trabajadores
b,Microsoft,18000
d,Facebook,19000
a,Google,25000
c,Amazon,26000
