In [None]:
import pandas as pd
import numpy as np

# DataFrames en pandas

- Es una estructura de datos **bidimensional** (tipo tabla), similar a una hoja de cálculo o tabla SQL.
- Cada columna puede tener un tipo de dato diferente (números, texto, booleanos, etc.).
- Los DataFrames son la estructura **más usada en pandas** para análisis de datos.

# ¿Cómo se crea un DataFrame?

- A partir de un **diccionario de listas**
- Desde una **Serie de pandas**
- Desde un **archivo CSV, Excel, JSON**


In [None]:
# diccionario de lista
data = {
    'Nombre': ['Ana', 'Luis', 'Carlos', 'Marta'],
    'Edad': [20, 22, 21, 23],
    'Carrera': ['Ingeniería', 'Derecho', 'Arquitectura', 'Ingeniería']
}

df = pd.DataFrame(data)

print(df)

   Nombre  Edad       Carrera
0     Ana    20    Ingeniería
1    Luis    22       Derecho
2  Carlos    21  Arquitectura
3   Marta    23    Ingeniería


In [None]:
# desde listas
demo = pd.DataFrame(data=[ [1,'a'],[2,'b'],[3,'c'] ] , columns=['id', 'valor'] )
demo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   id      3 non-null      int64 
 1   valor   3 non-null      object
dtypes: int64(1), object(1)
memory usage: 180.0+ bytes


In [None]:
# desde dicts
ids = [1,2,3]
productos = ['papas', 'pepsi', 'oreo']
precios = [18.5, 19.0, 22.5]

# crear un DataFrame con un diccionario
items = {
    'ids' : [1,2,3],
    'productos' : ['papas', 'pepsi', 'oreo'],
    'precios' : [18.5, 19.0, 22.5]
}
datafram = pd.DataFrame(items)
print(datafram)

   ids productos  precios
0    1     papas     18.5
1    2     pepsi     19.0
2    3      oreo     22.5


# informacion básica del DF
df.info()

In [None]:
# info()
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Nombre   4 non-null      object
 1   Edad     4 non-null      int64 
 2   Carrera  4 non-null      object
dtypes: int64(1), object(2)
memory usage: 228.0+ bytes


In [None]:
# Filtrar
df[ df['Edad'] > 21]

Unnamed: 0,Nombre,Edad,Carrera
1,Luis,22,Derecho
3,Marta,23,Ingeniería


In [None]:
df

Unnamed: 0,Nombre,Edad,Carrera
0,Ana,20,Ingeniería
1,Luis,22,Derecho
2,Carlos,21,Arquitectura
3,Marta,23,Ingeniería


In [None]:
# describe()
df.describe()

Unnamed: 0,Edad
count,4.0
mean,21.5
std,1.290994
min,20.0
25%,20.75
50%,21.5
75%,22.25
max,23.0


In [None]:
# ver columnas
df.columns

Index(['Nombre', 'Edad', 'Carrera'], dtype='object')

In [None]:
df.index

RangeIndex(start=0, stop=4, step=1)

In [None]:
#selccionar columna
df['Carrera'].iloc[2]

'Arquitectura'

In [None]:
# fittrar por condicional


In [None]:
# Calcular si son mayores de edad
df['mayor_edad'] = df['Edad'] >= 18
df

Unnamed: 0,Nombre,Edad,Carrera,mayor_edad
0,Ana,20,Ingeniería,True
1,Luis,22,Derecho,True
2,Carlos,21,Arquitectura,True
3,Marta,23,Ingeniería,True


In [None]:
# Cambiar 'Derecho' por 'Leyes'
df['Carrera'].replace('Derecho', 'Leyes' , inplace=True)
# df['Carrera'] = df['Carrera'].replace('Derecho', 'Leyes')


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Carrera'].replace('Derecho', 'Leyes' ,inplace=True)


In [None]:
df

Unnamed: 0,Nombre,Edad,Carrera,mayor_edad
0,Ana,20,Ingeniería,True
1,Luis,22,Leyes,True
2,Carlos,21,Arquitectura,True
3,Marta,23,Ingeniería,True


In [None]:
# Agregamos un duplicado

# Eliminar duplicados



# Abrir archivos a DF


```python
f_csv = pd.read_csv('archivo.csv')
df_csv = pd.read_csv('archivo.csv', delimiter=';', encoding='utf-8')

df_excel = pd.read_excel('archivo.xlsx', sheet_name='Hoja1')
df_excel = pd.read_excel('archivo.xlsx', sheet_name='Hoja1', usecols=['Columna1', 'Columna2'])
#openpyxl.


df_json = pd.read_json('archivo.json')
df_json = pd.read_json('archivo.json', orient='records')

```

