# FORMATOS DE ARCHIVOS E IMPORTACIÓN DE DATOS

## Importar la librería

In [63]:
import pandas as pd

## Estructuras básicas

### Series

In [64]:
s = pd.Series([1, 3, 5, 7, 9])
s

0    1
1    3
2    5
3    7
4    9
dtype: int64

### DataFrame

In [65]:
data = {'Nombre': ['Ana', 'Luis', 'Carlos'],
        'Edad': [23, 30, 25],
        'Ciudad': ['CDMX', 'Monterrey', 'Guadalajara']}
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,23,CDMX
1,Luis,30,Monterrey
2,Carlos,25,Guadalajara


## Leer y escribir archivos

### Leer archivos

In [66]:
df = pd.read_csv("vgchartz-2024.csv")  # Leer un CSV
# df = pd.read_excel("archivo.xlsx")  # Leer un Excel
# df = pd.read_json("archivo.json")  # Leer un JSON

### Guardar archivos

In [67]:
df.to_csv("archivo_nuevo.csv", index=False)
# df.to_excel("archivo_nuevo.xlsx", index=False)

## Inspeccionar el DataFrame

In [68]:
df.head()  # Muestra las primeras 5 filas
df.tail()  # Muestra las últimas 5 filas
df.info()  # Información general del DataFrame
df.describe()  # Estadísticas descriptivas
df.shape  # Tamaño del DataFrame (filas, columnas)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 64016 entries, 0 to 64015
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   img           64016 non-null  object 
 1   title         64016 non-null  object 
 2   console       64016 non-null  object 
 3   genre         64016 non-null  object 
 4   publisher     64016 non-null  object 
 5   developer     63999 non-null  object 
 6   critic_score  6678 non-null   float64
 7   total_sales   18922 non-null  float64
 8   na_sales      12637 non-null  float64
 9   jp_sales      6726 non-null   float64
 10  pal_sales     12824 non-null  float64
 11  other_sales   15128 non-null  float64
 12  release_date  56965 non-null  object 
 13  last_update   17879 non-null  object 
dtypes: float64(6), object(8)
memory usage: 6.8+ MB


(64016, 14)

## Selección de datos

### Seleccionar columnas

In [69]:
df["title"]  # Selecciona una columna
df[["title", "console"]]  # Selecciona múltiples columnas

Unnamed: 0,title,console
0,Grand Theft Auto V,PS3
1,Grand Theft Auto V,PS4
2,Grand Theft Auto: Vice City,PS2
3,Grand Theft Auto V,X360
4,Call of Duty: Black Ops 3,PS4
...,...,...
64011,XBlaze Lost: Memories,PC
64012,"Yoru, Tomosu",PS4
64013,"Yoru, Tomosu",NS
64014,Yunohana SpRING! ~Mellow Times~,NS


### Seleccionar filas

In [70]:
df.iloc[0]  # Primera fila (index basado en posición)
df.loc[0]   # Primera fila (index basado en etiquetas)

img             /games/boxart/full_6510540AmericaFrontccc.jpg
title                                      Grand Theft Auto V
console                                                   PS3
genre                                                  Action
publisher                                      Rockstar Games
developer                                      Rockstar North
critic_score                                              9.4
total_sales                                             20.32
na_sales                                                 6.37
jp_sales                                                 0.99
pal_sales                                                9.85
other_sales                                              3.12
release_date                                       2013-09-17
last_update                                               NaN
Name: 0, dtype: object

### Filtrado de datos

In [71]:
df[df["release_date"] > '2015-01-01']  # Filtrar personas con edad mayor a 25

Unnamed: 0,img,title,console,genre,publisher,developer,critic_score,total_sales,na_sales,jp_sales,pal_sales,other_sales,release_date,last_update
4,/games/boxart/full_4990510AmericaFrontccc.jpg,Call of Duty: Black Ops 3,PS4,Shooter,Activision,Treyarch,8.1,15.09,6.18,0.41,6.05,2.44,2015-11-06,2018-01-14
7,/games/boxart/full_4653215AmericaFrontccc.jpg,Red Dead Redemption 2,PS4,Action-Adventure,Rockstar Games,Rockstar Games,9.8,13.94,5.26,0.21,6.21,2.26,2018-10-26,2018-11-02
11,/games/boxart/full_4380292AmericaFrontccc.jpg,Call of Duty: WWII,PS4,Shooter,Activision,Sledgehammer Games,8.1,13.40,4.67,0.40,6.21,2.12,2017-11-03,2017-12-31
15,/games/boxart/full_5257064AmericaFrontccc.jpg,FIFA 18,PS4,Sports,EA Sports,EA Vancouver,8.3,11.80,1.27,0.15,8.64,1.73,2017-09-29,2018-04-02
17,/games/boxart/full_7661370AmericaFrontccc.jpg,FIFA 17,PS4,Sports,Electronic Arts,EA Canada,8.9,10.94,1.26,0.12,7.95,1.61,2016-09-27,2018-03-28
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
64010,/games/boxart/full_2294305JapanFrontccc.jpg,World End Syndrome,PS4,Visual Novel,Arc System Works,Arc System Works,,,,,,,2018-04-26,2019-04-03
64011,/games/boxart/full_2779838AmericaFrontccc.jpg,XBlaze Lost: Memories,PC,Visual Novel,Aksys Games,Arc System Works,,,,,,,2016-08-11,2019-01-28
64012,/games/boxart/full_8031506AmericaFrontccc.jpg,"Yoru, Tomosu",PS4,Visual Novel,Nippon Ichi Software,Nippon Ichi Software,,,,,,,2020-07-30,2020-05-09
64013,/games/boxart/full_6553045AmericaFrontccc.jpg,"Yoru, Tomosu",NS,Visual Novel,Nippon Ichi Software,Nippon Ichi Software,,,,,,,2020-07-30,2020-05-09


## Modificar datos

### Añadir una nueva columna

In [72]:
df["cost"] = 300  # Añadir un valor constante a todas las filas

### Eliminar columnas o filas

In [73]:
df.drop(columns=["cost"], inplace=True)  # Eliminar columna
df.drop(index=0, inplace=True)  # Eliminar primera fila

### Renombrar columnas

In [74]:
df.rename(columns={"title": "Nombre"}, inplace=True)
df["Nombre"]

1                      Grand Theft Auto V
2             Grand Theft Auto: Vice City
3                      Grand Theft Auto V
4               Call of Duty: Black Ops 3
5          Call of Duty: Modern Warfare 3
                       ...               
64011               XBlaze Lost: Memories
64012                        Yoru, Tomosu
64013                        Yoru, Tomosu
64014     Yunohana SpRING! ~Mellow Times~
64015    Yurukill: The Calumniation Games
Name: Nombre, Length: 64015, dtype: object

## Manejo de valores nulos

In [75]:
print(df.isnull().sum())  # Contar valores nulos por columna
print(df.dropna(inplace=True))  # Eliminar filas con valores nulos
print(df.fillna("Desconocido", inplace=True))  # Rellenar valores nulos

img                 0
Nombre              0
console             0
genre               0
publisher           0
developer          17
critic_score    57338
total_sales     45094
na_sales        51379
jp_sales        57290
pal_sales       51192
other_sales     48888
release_date     7051
last_update     46136
dtype: int64
None
None


## Operaciones estadísticas


In [76]:
df["critic_score"].mean()  # Promedio
df["other_sales"].sum()   # Suma total
df["release_date"].min()   # Mínimo
df["critic_score"].max()   # Máximo
df["pal_sales"].std()   # Desviación estándar

np.float64(1.3816339419367283)

## Agrupación de datos

In [77]:
df.groupby("genre")["total_sales"].mean()  # Promedio ventas por género

genre
Action              2.036061
Action-Adventure    1.889063
Adventure           0.940000
Board Game          0.300000
Fighting            0.465000
MMO                 0.320000
Misc                1.170000
Music               1.360000
Party               0.575000
Platform            0.716400
Puzzle              0.430000
Racing              0.957391
Role-Playing        1.400000
Sandbox             1.890000
Shooter             4.198696
Simulation          0.508571
Sports              2.864583
Strategy            0.336667
Name: total_sales, dtype: float64

## Ordenar valores

In [82]:
print(df.sort_values(by="critic_score", ascending=False, inplace=True))  # Ordenar por edad descendente

None
