# FORMATOS DE ARCHIVOS E IMPORTACIÓN DE DATOS

## Importar la librería

In [17]:
import pandas as pd

## Estructuras básicas

### Series

In [18]:
s = pd.Series([1, 3, 5, 7, 9])
s

0    1
1    3
2    5
3    7
4    9
dtype: int64

### DataFrame

In [19]:
data = {'Nombre': ['Ana', 'Luis', 'Carlos'],
        'Edad': [23, 30, 25],
        'Ciudad': ['CDMX', 'Monterrey', 'Guadalajara']}
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,23,CDMX
1,Luis,30,Monterrey
2,Carlos,25,Guadalajara


## Leer y escribir archivos

### Leer archivos

In [20]:
df = pd.read_csv("vgchartz-2024.csv")  # Leer un CSV
#df = pd.read_excel("archivo.xlsx")  # Leer un Excel
#df = pd.read_json("archivo.json")  # Leer un JSON

### Guardar archivos

In [21]:
df.to_csv("archivo_nuevo.csv", index=False)
#df.to_excel("archivo_nuevo.xlsx", index=False)

## Inspeccionar el DataFrame

In [22]:
df.head()  # Muestra las primeras 5 filas
df.tail()  # Muestra las últimas 5 filas
df.info()  # Información general del DataFrame
df.describe()  # Estadísticas descriptivas
df.shape  # Tamaño del DataFrame (filas, columnas)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 64016 entries, 0 to 64015
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   img           64016 non-null  object 
 1   title         64016 non-null  object 
 2   console       64016 non-null  object 
 3   genre         64016 non-null  object 
 4   publisher     64016 non-null  object 
 5   developer     63999 non-null  object 
 6   critic_score  6678 non-null   float64
 7   total_sales   18922 non-null  float64
 8   na_sales      12637 non-null  float64
 9   jp_sales      6726 non-null   float64
 10  pal_sales     12824 non-null  float64
 11  other_sales   15128 non-null  float64
 12  release_date  56965 non-null  object 
 13  last_update   17879 non-null  object 
dtypes: float64(6), object(8)
memory usage: 6.8+ MB


(64016, 14)

## Selección de datos

### Seleccionar columnas

In [23]:
df["title"]  # Selecciona una columna
df[["genre", "developer"]]  # Selecciona múltiples columnas

Unnamed: 0,genre,developer
0,Action,Rockstar North
1,Action,Rockstar North
2,Action,Rockstar North
3,Action,Rockstar North
4,Shooter,Treyarch
...,...,...
64011,Visual Novel,Arc System Works
64012,Visual Novel,Nippon Ichi Software
64013,Visual Novel,Nippon Ichi Software
64014,Visual Novel,Otomate


### Seleccionar filas

In [24]:
df.iloc[0]  # Primera fila (index basado en posición)
df.loc[0]   # Primera fila (index basado en etiquetas)

img             /games/boxart/full_6510540AmericaFrontccc.jpg
title                                      Grand Theft Auto V
console                                                   PS3
genre                                                  Action
publisher                                      Rockstar Games
developer                                      Rockstar North
critic_score                                              9.4
total_sales                                             20.32
na_sales                                                 6.37
jp_sales                                                 0.99
pal_sales                                                9.85
other_sales                                              3.12
release_date                                       2013-09-17
last_update                                               NaN
Name: 0, dtype: object

### Filtrado de datos

In [25]:
df[df["na_sales"] > 25]  # Filtrar personas con edad mayor a 25

Unnamed: 0,img,title,console,genre,publisher,developer,critic_score,total_sales,na_sales,jp_sales,pal_sales,other_sales,release_date,last_update


## Modificar datos

### Añadir una nueva columna

In [26]:
#df["Salario"] = [50000, 60000, 55000]

### Eliminar columnas o filas

In [27]:
#df.drop(columns=["Ciudad"], inplace=True)  # Eliminar columna
#df.drop(index=0, inplace=True)  # Eliminar primera fila

### Renombrar columnas

In [28]:
#df.rename(columns={"Nombre": "Nombre_Completo"}, inplace=True)

## Manejo de valores nulos

In [29]:
#df.isnull().sum()  # Contar valores nulos por columna
#df.dropna(inplace=True)  # Eliminar filas con valores nulos
#df.fillna("Desconocido", inplace=True)  # Rellenar valores nulos

## Operaciones estadísticas


In [30]:
#df["Edad"].mean()  # Promedio
#df["Edad"].sum()   # Suma total
#df["Edad"].min()   # Mínimo
#df["Edad"].max()   # Máximo
#df["Edad"].std()   # Desviación estándar

## Agrupación de datos

In [31]:
#df.groupby("Ciudad")["Edad"].mean()  # Promedio de edad por ciudad

## Ordenar valores

In [32]:
#df.sort_values(by="Edad", ascending=False, inplace=True)  # Ordenar por edad descendente